2020.10.16

MS, '자동 이미지 캡션' 고도화··· "2배 더 정확"

김달훈 | CIO KR
사진 하단의 캡션(Caption)은 종종 필수요소다. 사진에 대한 설명을 첨부한 경우와 그렇지 않은 경우는, 의미를 전달하는 시간이나 정확성에서 많은 차이가 난다. 사진에 대한 설명이 없다면 내용을 파악하기 힘들거나 불가능한 경우도 종종 존재한다. 사진을 사용한 목적이 느낌이 아닌 정보의 전달이라면, 캡션의 역할과 중요성은 더욱 커진다.

마이크로소프트 연구팀이 "사람이 작성하는 설명보다 정확한 사진 캡션을 생성하는 인공지능" 시스템을 구축했다고 블로그를 통해 공개했다. 이번에 개발한 새로운 모델은 애저(Azure) 인공지능 서비스의 일부인 ‘애저 코그너티브 서비스 컴퓨터 비전(Azure Cognitive Services Computer Vision)’ 제품을 통해 고객들에게 제공될 예정이다.
 
마이크로소프트가 인공지능을 활용해 정확성을 높인 ‘자동 캡션 기능’을 공개했다. 이번에 개발한 자동 캡션 기능은 기존의 마이크로소프트의  이미지 캡션 모델보다 정확성이 2배 향상됐다. (화면 : Microsoft)

이번에 공개된 인공지능 자동 캡션 기능을 애저 환경에서 사용할 수 있게 되면, 개발자들은 이를 활용해 서비스 접근성을 향상할 수 있게 된다. 또한 '시잉 AI(Seeing AI)’에 이를 통합하고 있으며, 올해 말이 되면 윈도우와 맥 환경의 마이크로소프트 워드(Word)와 아웃룩(Outlook), 윈도우 및 맥과 웹(Web) 환경의 파워포인트(PowerPoint) 용으로 출시할 예정이다.

마이크로소프트는 "자동 이미지 캡션을 사용하면 검색 결과로 반환된 사진부터 프레젠테이션에 포함된 이미지에 이르기까지, 모든 이미지의 중요한 콘텐츠에 액세스할 수 있다. 이번에 공개한 연구를 통해 이러한 결과를 개선할 수 있지만, 시스템이 매번 완벽한 결과를 반환한다는 의미는 아니다”라고 밝혔다. 이전보다 자동 캡션 기능의 성능이 향상된 것은 맞지만 때로는 기대에 못 미치는 경우도 있다는 의미다.

이러한 인공지능 기반의 자동캡션 기능은 활용 분야가 다양하고 필요성도 계속해서 증가하고 있다. 예를 들어 웹이나 소셜 미디어, 전자 문서 등에 첨부된 이미지에는 대체 텍스트를 포함하는 것으로 접근성을 크게 높일 수 있다. 그래서 시각 장애인이 콘텐츠에 접근하고 이해하는 데 대체 텍스트는 필수적인 요소다. 사진이 제대로 표시되지 않는 상황에서 사진의 내용 짐작할 수 있도록 해주고, 정확한 검색 결과를 출력하기 위해서도 반드시 필요하다.

이러한 사진 설명을 사람이 일일이 작성해서 첨부해야 한다면, 많은 시간이 필요하고 효율도 떨어진다. 사진에 대한 캡션을 작성한다는 것은, 생각보다 복잡한 과정이 필요하다. 우선 사진 속의 장면과 상황을 분석해 어떤 일이 일어나고 있는지 이해해야 한다. 그리고 사물과 행동 사이의 관계를 알아야 하고, 이를 사람이 이해할 수 있는 문장으로 요약하고 설명을 작성해야 한다.

마이크로소프트는 인공지능의 정확성을 높이기 위해 사진과 태그를 하나로 결합한 ‘시각적 어휘 사전(visual vocabulary)’을 활용했다. 단어 태그와 쌍을 이루는 풍부한 이미지 데이터 세트를 사용해, 대규모 인공지능 모델을 훈련시키고 각각의 태그를 이미지의 특정 개체에 매핑했다. 그런 다음 캡션이 있는 이미지 데이터 세트와 결합하고 훈련 시켜 문장 작성하는 방법을 학습시킨다.

이렇게 학습된 시각적 어휘는 새로운 개체가 포함된 이미지를 분석하고 설명을 작성하는 데 활용한다. 이렇게 훈련시킨 인공지능은 노캡(nocaps)에서 평가했을 때 사람이 작성한 이미지 설명보다 더 정확했다는 것이 마이크로소프트의 설명이다. 아울러 새로운 자동 이미지 캡션 시스템은 2015년부터 마이크로소프트 제품 및 서비스에 사용된 이미지 캡션 모델보다 2배 더 우수하다고 밝혔다.

좀 더 자세한 정보는 마이크로소프트가 공개한 영상에서 확인할 수 있다. ciokr@idg.co.kr



2020.10.16

MS, '자동 이미지 캡션' 고도화··· "2배 더 정확"

김달훈 | CIO KR
사진 하단의 캡션(Caption)은 종종 필수요소다. 사진에 대한 설명을 첨부한 경우와 그렇지 않은 경우는, 의미를 전달하는 시간이나 정확성에서 많은 차이가 난다. 사진에 대한 설명이 없다면 내용을 파악하기 힘들거나 불가능한 경우도 종종 존재한다. 사진을 사용한 목적이 느낌이 아닌 정보의 전달이라면, 캡션의 역할과 중요성은 더욱 커진다.

마이크로소프트 연구팀이 "사람이 작성하는 설명보다 정확한 사진 캡션을 생성하는 인공지능" 시스템을 구축했다고 블로그를 통해 공개했다. 이번에 개발한 새로운 모델은 애저(Azure) 인공지능 서비스의 일부인 ‘애저 코그너티브 서비스 컴퓨터 비전(Azure Cognitive Services Computer Vision)’ 제품을 통해 고객들에게 제공될 예정이다.
 
마이크로소프트가 인공지능을 활용해 정확성을 높인 ‘자동 캡션 기능’을 공개했다. 이번에 개발한 자동 캡션 기능은 기존의 마이크로소프트의  이미지 캡션 모델보다 정확성이 2배 향상됐다. (화면 : Microsoft)

이번에 공개된 인공지능 자동 캡션 기능을 애저 환경에서 사용할 수 있게 되면, 개발자들은 이를 활용해 서비스 접근성을 향상할 수 있게 된다. 또한 '시잉 AI(Seeing AI)’에 이를 통합하고 있으며, 올해 말이 되면 윈도우와 맥 환경의 마이크로소프트 워드(Word)와 아웃룩(Outlook), 윈도우 및 맥과 웹(Web) 환경의 파워포인트(PowerPoint) 용으로 출시할 예정이다.

마이크로소프트는 "자동 이미지 캡션을 사용하면 검색 결과로 반환된 사진부터 프레젠테이션에 포함된 이미지에 이르기까지, 모든 이미지의 중요한 콘텐츠에 액세스할 수 있다. 이번에 공개한 연구를 통해 이러한 결과를 개선할 수 있지만, 시스템이 매번 완벽한 결과를 반환한다는 의미는 아니다”라고 밝혔다. 이전보다 자동 캡션 기능의 성능이 향상된 것은 맞지만 때로는 기대에 못 미치는 경우도 있다는 의미다.

이러한 인공지능 기반의 자동캡션 기능은 활용 분야가 다양하고 필요성도 계속해서 증가하고 있다. 예를 들어 웹이나 소셜 미디어, 전자 문서 등에 첨부된 이미지에는 대체 텍스트를 포함하는 것으로 접근성을 크게 높일 수 있다. 그래서 시각 장애인이 콘텐츠에 접근하고 이해하는 데 대체 텍스트는 필수적인 요소다. 사진이 제대로 표시되지 않는 상황에서 사진의 내용 짐작할 수 있도록 해주고, 정확한 검색 결과를 출력하기 위해서도 반드시 필요하다.

이러한 사진 설명을 사람이 일일이 작성해서 첨부해야 한다면, 많은 시간이 필요하고 효율도 떨어진다. 사진에 대한 캡션을 작성한다는 것은, 생각보다 복잡한 과정이 필요하다. 우선 사진 속의 장면과 상황을 분석해 어떤 일이 일어나고 있는지 이해해야 한다. 그리고 사물과 행동 사이의 관계를 알아야 하고, 이를 사람이 이해할 수 있는 문장으로 요약하고 설명을 작성해야 한다.

마이크로소프트는 인공지능의 정확성을 높이기 위해 사진과 태그를 하나로 결합한 ‘시각적 어휘 사전(visual vocabulary)’을 활용했다. 단어 태그와 쌍을 이루는 풍부한 이미지 데이터 세트를 사용해, 대규모 인공지능 모델을 훈련시키고 각각의 태그를 이미지의 특정 개체에 매핑했다. 그런 다음 캡션이 있는 이미지 데이터 세트와 결합하고 훈련 시켜 문장 작성하는 방법을 학습시킨다.

이렇게 학습된 시각적 어휘는 새로운 개체가 포함된 이미지를 분석하고 설명을 작성하는 데 활용한다. 이렇게 훈련시킨 인공지능은 노캡(nocaps)에서 평가했을 때 사람이 작성한 이미지 설명보다 더 정확했다는 것이 마이크로소프트의 설명이다. 아울러 새로운 자동 이미지 캡션 시스템은 2015년부터 마이크로소프트 제품 및 서비스에 사용된 이미지 캡션 모델보다 2배 더 우수하다고 밝혔다.

좀 더 자세한 정보는 마이크로소프트가 공개한 영상에서 확인할 수 있다. ciokr@idg.co.kr

X