2020.11.11

"실시간 3D 감지 모델 지원"··· 구글, '오브젝트론 데이터 세트' 출시

김달훈 | CIO KR
구글이 컴퓨터 비전 분야의 머신러닝 과정에서 활용할 수 있는, 3D 비디오 클립 모음인 '오브젝트론(Objectron) 데이터 세트'를 발표했다. 오브젝트론 데이터 세트는 다양한 각도에서 더 많은 공통 객체를 담고 있는 객체 중심의 비디오 클립 모음으로, 실시간으로 3D 객체를 감지하는 머신러닝과 벤치마킹 등에서 활용할 수 있다.

머신러닝 기반의 컴퓨터 비전 기술을 구현하려면, 효율적인 알고리즘과 방대하고 정확한 학습 데이터가 필요하다. 학습하는 방법과 과정이 우수해야 하고, 학습에 필요한 양질의 데이터는 많을수록 좋다. 이렇게 학습된 인공지능 기술을 3D 객체를 감지, 분석, 이해하는 데 적용하면, 증강 현실, 로봇 공학, 이미지 검색 등 광범위한 분야와 응용 프로그램에서 활용할 수 있는 잠재력을 가지고 있다.



구글이 발표한 오브젝트론 데이터 세트를 활용하면 3D 객체에 대한 기계 학습을 빠르고 효율적으로 수행할 수 있다(위). 최신 버전의 오브젝트론 모델에는 2단계로 구성된 3D 물체 감지 아키텍처를 사용한다(아래). (자료 : Google AI Blog)

구글은 모바일 장치에서 실시간으로 3D 객체를 감지할 수 있는 '미디어파이프 오브젝트론(MediaPipe Objectron)’ 모델 세트를 이미 2020년 초에 출시했다. 그리고 이번에 오브젝트론 데이터 세트를 공개하고, 3D 물체 감지 솔루션까지 공유하면서, 모바일 장치에서 실시간으로 손, 홍재, 신체 자세 추적 등의 머신러닝 솔루션을 지원하게 됐다.

“머신러닝을 활용해서 3D에서 개체를 이해하는 것은 여전히 어려운 작업이다. 2D 작업보다 활용할 수 있는 실제 3D 데이터 세트가 부족하기 때문이다. 머신러닝을 활용한 3D 개체 이해의 지속적인 발전과 연구 커뮤니티에 도움을 주기 위해서는, 컴퓨터 비전 작업에 사용되는 데이터 형식과 일치하면서 3D 구조를 더 많이 포함하는 객체 중심의 비디오 데이터 세트가 필요하다.  그 동안 객체 중심 비디오 데이터 세트 릴리즈에 대한 강력한 요구가 있었다”라고 구글은 설명했다.

이번에 출시한 오브젝트론 데이터 세트는 자전거, 책, 병, 카메라, 시리얼 상자, 의자, 컵, 노트북, 신발이 포함되어 있다. 데이터 세트는 비디오 시퀀스, 객체에 대한 3D 경계 상자 등이 포함된 주석 레이블, AR(Augmented Reality) 세션 메타 데이터, 주석이 추가된 프레임의 셔플 버전 형태의 데이터 세트, 평가를 실행하기 위한 스크립트 지원 등으로 구성되어 있다.

각각의 비디오 클립에 담긴 AR 세선 메타 데이터에는 카메라 포즈(camera poses), 스퍼스 포인트 클라우드(sparse point-clouds), 평면형 표면(planar surfaces)이 포함된다. 3D 경계 상자에는 객체의 위치, 방향, 치수를 설명하는 주석이 들어있다. 처리된 데이터 세트는 이미지는 ’tf.example’, 동영상의 경우는 ’SequenceExample’ 형식의 데이터로 되어 있다.

아울러 이번에 선보이는 오브젝트론 최신 모델은 1단계 아키텍처를 사용하던 기존 모델에서 발전해 2단계 아키텍처를 사용하도록 했다. 1단계에서 텐서플로 객체 감지(TensorFlow Object Detection) 모델을 사용해 2D 자르기 위치를 찾고, 2단계에서 이미지 자르기를 사용해 3D 경계 상자를 추정한다. 그와 동시에 다음 프레임에 대한 객체의 2D 자르기를 계산하기 때문에, 객체 감지기가 모든 프레임을 실행할 필요가 없다고 구글은 밝혔다. ciokr@idg.co.kr



2020.11.11

"실시간 3D 감지 모델 지원"··· 구글, '오브젝트론 데이터 세트' 출시

김달훈 | CIO KR
구글이 컴퓨터 비전 분야의 머신러닝 과정에서 활용할 수 있는, 3D 비디오 클립 모음인 '오브젝트론(Objectron) 데이터 세트'를 발표했다. 오브젝트론 데이터 세트는 다양한 각도에서 더 많은 공통 객체를 담고 있는 객체 중심의 비디오 클립 모음으로, 실시간으로 3D 객체를 감지하는 머신러닝과 벤치마킹 등에서 활용할 수 있다.

머신러닝 기반의 컴퓨터 비전 기술을 구현하려면, 효율적인 알고리즘과 방대하고 정확한 학습 데이터가 필요하다. 학습하는 방법과 과정이 우수해야 하고, 학습에 필요한 양질의 데이터는 많을수록 좋다. 이렇게 학습된 인공지능 기술을 3D 객체를 감지, 분석, 이해하는 데 적용하면, 증강 현실, 로봇 공학, 이미지 검색 등 광범위한 분야와 응용 프로그램에서 활용할 수 있는 잠재력을 가지고 있다.



구글이 발표한 오브젝트론 데이터 세트를 활용하면 3D 객체에 대한 기계 학습을 빠르고 효율적으로 수행할 수 있다(위). 최신 버전의 오브젝트론 모델에는 2단계로 구성된 3D 물체 감지 아키텍처를 사용한다(아래). (자료 : Google AI Blog)

구글은 모바일 장치에서 실시간으로 3D 객체를 감지할 수 있는 '미디어파이프 오브젝트론(MediaPipe Objectron)’ 모델 세트를 이미 2020년 초에 출시했다. 그리고 이번에 오브젝트론 데이터 세트를 공개하고, 3D 물체 감지 솔루션까지 공유하면서, 모바일 장치에서 실시간으로 손, 홍재, 신체 자세 추적 등의 머신러닝 솔루션을 지원하게 됐다.

“머신러닝을 활용해서 3D에서 개체를 이해하는 것은 여전히 어려운 작업이다. 2D 작업보다 활용할 수 있는 실제 3D 데이터 세트가 부족하기 때문이다. 머신러닝을 활용한 3D 개체 이해의 지속적인 발전과 연구 커뮤니티에 도움을 주기 위해서는, 컴퓨터 비전 작업에 사용되는 데이터 형식과 일치하면서 3D 구조를 더 많이 포함하는 객체 중심의 비디오 데이터 세트가 필요하다.  그 동안 객체 중심 비디오 데이터 세트 릴리즈에 대한 강력한 요구가 있었다”라고 구글은 설명했다.

이번에 출시한 오브젝트론 데이터 세트는 자전거, 책, 병, 카메라, 시리얼 상자, 의자, 컵, 노트북, 신발이 포함되어 있다. 데이터 세트는 비디오 시퀀스, 객체에 대한 3D 경계 상자 등이 포함된 주석 레이블, AR(Augmented Reality) 세션 메타 데이터, 주석이 추가된 프레임의 셔플 버전 형태의 데이터 세트, 평가를 실행하기 위한 스크립트 지원 등으로 구성되어 있다.

각각의 비디오 클립에 담긴 AR 세선 메타 데이터에는 카메라 포즈(camera poses), 스퍼스 포인트 클라우드(sparse point-clouds), 평면형 표면(planar surfaces)이 포함된다. 3D 경계 상자에는 객체의 위치, 방향, 치수를 설명하는 주석이 들어있다. 처리된 데이터 세트는 이미지는 ’tf.example’, 동영상의 경우는 ’SequenceExample’ 형식의 데이터로 되어 있다.

아울러 이번에 선보이는 오브젝트론 최신 모델은 1단계 아키텍처를 사용하던 기존 모델에서 발전해 2단계 아키텍처를 사용하도록 했다. 1단계에서 텐서플로 객체 감지(TensorFlow Object Detection) 모델을 사용해 2D 자르기 위치를 찾고, 2단계에서 이미지 자르기를 사용해 3D 경계 상자를 추정한다. 그와 동시에 다음 프레임에 대한 객체의 2D 자르기를 계산하기 때문에, 객체 감지기가 모든 프레임을 실행할 필요가 없다고 구글은 밝혔다. ciokr@idg.co.kr

X