2014.05.15

'영상 속 인간 움직임을 효율적으로 해석·예측'··· 미 연구진, 새 알고리즘 개발

Jon Gold | Network World
MIT와 캘리포니아 대학교 어바인 캠퍼스의 연구진이 동작 인식에 대한 새로운 알고리즘을 개발했다. 이를 이용하면 컴퓨터가 비디오 영상에서 사람의 움직임을 이전보다 더 정확하고 빠르게 인식할 수 있다고 연구진은 설명했다.

MIT에서 박사 후 과정(post-doc)을 밟고 있는 하메드 피르시아바시와 캘리포니아 대학교의 교수 데바 라마난은 다음 달 열릴 ‘컴퓨터 비전과 패턴 인식(Conference on Computer Vision and Pattern Recognition)’ 컨퍼런스에서 이번 알고리즘을 발표할 예정이다.



연구팀은 시스템이 각 행동을 인식하는 ‘문법’을 만들어내기 위해 IBM 슈퍼컴퓨터 왓슨 등의 다른 기계 학습 프로젝트들에서 사용하는 것과 비슷한 자연어 처리 기술을 사용했다.

설명에 따르면 이번 알고리즘의 동작 검색 시간은 선형적 메커니즘에 기반한다. 즉, 영상의 재생 시간과 검색 시간이 비례한다는 뜻이다. 예를 들어, 한 영상의 재생 시간이 다른 영상에 비해 10배 더 길다고 가정했을 때, 기존 알고리즘에서는 동작 검색 시 1,000배 혹은 그 이상의 시간이 소요됐지만 이제는 정확히 10배의 시간이 걸린다.

또, 새로운 알고리즘은 단편적인 동작을 분석해 그 이후의 동작을 상당히 정확히 예측하는 것이 가능하다. 이를 응용하면 비디오 스트리밍 성능 개선에도 활용될 수 있다고 연구진은 전해다.

피르시아바시는 알고리즘의 과정에 대해 왓슨이 문장을 도식화하는데 사용하는 시스템과 매우 유사하다고 설명했다. 문장을 문장 요소 단위로 분해하여 해석하는 것과 마찬가지로 복잡한 동작 또한 최소한의 구성 요소로 분해한 뒤 문법 체계에 맞는 패턴을 찾는 방식이다.

피르시아바시는 이를 차를 마시는 행위에 비유했다. 예를 들어, 차를 마실 때 티백을 컵에 넣는 것과 물을 끓이는 행동에는 상관 관계가 없다. 그러나 물을 끓이는 것과 그 물을 따르는 행동에는 논리적인 선후관계가 존재한다.

그는 “많은 업체들이 컴퓨터 영상 시스템을 상용화하는 작업을 진행 중이다. 자동 동작 인식 기술이 실제 제품에 쓰일 날이 반드시 올 것이다. 이 알고리즘이 실생활에서 적용될 정확한 시점은 단정할 수 없지만 시간문제일 뿐”이라고 전망했다. ciokr@idg.co.kr 



2014.05.15

'영상 속 인간 움직임을 효율적으로 해석·예측'··· 미 연구진, 새 알고리즘 개발

Jon Gold | Network World
MIT와 캘리포니아 대학교 어바인 캠퍼스의 연구진이 동작 인식에 대한 새로운 알고리즘을 개발했다. 이를 이용하면 컴퓨터가 비디오 영상에서 사람의 움직임을 이전보다 더 정확하고 빠르게 인식할 수 있다고 연구진은 설명했다.

MIT에서 박사 후 과정(post-doc)을 밟고 있는 하메드 피르시아바시와 캘리포니아 대학교의 교수 데바 라마난은 다음 달 열릴 ‘컴퓨터 비전과 패턴 인식(Conference on Computer Vision and Pattern Recognition)’ 컨퍼런스에서 이번 알고리즘을 발표할 예정이다.



연구팀은 시스템이 각 행동을 인식하는 ‘문법’을 만들어내기 위해 IBM 슈퍼컴퓨터 왓슨 등의 다른 기계 학습 프로젝트들에서 사용하는 것과 비슷한 자연어 처리 기술을 사용했다.

설명에 따르면 이번 알고리즘의 동작 검색 시간은 선형적 메커니즘에 기반한다. 즉, 영상의 재생 시간과 검색 시간이 비례한다는 뜻이다. 예를 들어, 한 영상의 재생 시간이 다른 영상에 비해 10배 더 길다고 가정했을 때, 기존 알고리즘에서는 동작 검색 시 1,000배 혹은 그 이상의 시간이 소요됐지만 이제는 정확히 10배의 시간이 걸린다.

또, 새로운 알고리즘은 단편적인 동작을 분석해 그 이후의 동작을 상당히 정확히 예측하는 것이 가능하다. 이를 응용하면 비디오 스트리밍 성능 개선에도 활용될 수 있다고 연구진은 전해다.

피르시아바시는 알고리즘의 과정에 대해 왓슨이 문장을 도식화하는데 사용하는 시스템과 매우 유사하다고 설명했다. 문장을 문장 요소 단위로 분해하여 해석하는 것과 마찬가지로 복잡한 동작 또한 최소한의 구성 요소로 분해한 뒤 문법 체계에 맞는 패턴을 찾는 방식이다.

피르시아바시는 이를 차를 마시는 행위에 비유했다. 예를 들어, 차를 마실 때 티백을 컵에 넣는 것과 물을 끓이는 행동에는 상관 관계가 없다. 그러나 물을 끓이는 것과 그 물을 따르는 행동에는 논리적인 선후관계가 존재한다.

그는 “많은 업체들이 컴퓨터 영상 시스템을 상용화하는 작업을 진행 중이다. 자동 동작 인식 기술이 실제 제품에 쓰일 날이 반드시 올 것이다. 이 알고리즘이 실생활에서 적용될 정확한 시점은 단정할 수 없지만 시간문제일 뿐”이라고 전망했다. ciokr@idg.co.kr 

X