2019.09.18

칼럼 | 애플의 머신러닝 시스템 '오버톤'의 경쟁력은?

Jonny Evans | Computerworld
iOS 13 출시를 앞두고 애플이 주요한 음성 AI 관련 전시회에 참가한다. iOS 13에서 애플의 음성 비서인 시리가 크게 개선될 것으로 알려졌다. 애플은 ‘오버톤(Overton)’으로 불리는 새로운 머신러닝(ML) 기술에 관해 설명한 연구 보고서도 발표했다. 
 
ⓒIDG

머신러닝의 영역 정의
애플은 이번주 세계 최대 음성 언어 처리 컨퍼런스인 인터스피치(Interspeech) 2019를 후원한다.

그러면서 여러 연구 논문과 보고서를 제출했다. 또한 계속 인원을 충원 중인 머신러닝팀 소속 팀원들이 행사에 참석해 청중들과 만날 예정이다.

애플은 여러 주제의 논문, 보고서를 제출했다(전체는 여기 링크 참조). 이 가운데 ‘음성을 통한 표현/의도 감지’, ‘음성 인식 수준 향상’, ‘음성 뉘앙스를 더 정확히 이해하는 도구 개발’, ‘미러링을 이용한 사용자와 음성 비서 간 관계 구축’, ‘SE(Speech Enhancement) 최적화 기술’에 관해 발표할 계획이다.

새로 만들어진 인터스피치 유튜브 포털에서 애플이 머신러닝과 관련해 추진하는 사항들에 대한 정보를 조금 더 많이 얻을 수 있을지 모른다. 그러나 애플의 동영상이 업로드될지 여부는 모른다.

애플 소속 과학자, 연구원이 광범위하게 과학계 인사와 접촉하는 것은 놀랍지 않다. 애플은 2017년부터 간헐적으로 애플 머신러닝 포털을 통해 머신러닝 논문과 연구 결과를 발표해왔다.

오버톤(Overton)
애플은 오버톤을 바탕으로 새로운 종류의 솔루션을 구현할 계획이라고 강조하고 있다. 오버톤은 사람이 아닌 머신이 관리할 수 있도록 머신러닝 모델을 훨씬 더 개인화할 수 있는 솔루션이다.

음성 상호작용은 사용자가 시리에게 질문을 했을 때 발생하는 일들의 ‘프론트엔드(Front-end)’에 불과하다. 이후 머신러닝 모델이 질문을 이해하고, 맥락화해서 가장 정확한 응답을 찾으려 시도한다. 품질 높은 응답을 찾아 전달하는 것은 보기보다 쉽지 않다.

물론 일부 상호작용의 경우, 시리가 위키페디아 페이지에서 찾은 데이터만 제공할 수 있다(이 경우에도 몇몇 페이지를 확인, 가장 관련성 높은 응답을 전달). 그러나 궁극적으로 시리가 복잡한 질문에 복잡한 대답을 제공하는 효과적인 기기가 되도록 만드는 것이 목표일 것이다. 여기에는 일정 수준의 ‘예측’도 포함된다.

이다음 단계의 목표를 달성하기가 매우 어렵다.

과학자들이 시리의 쓸만한 답변 중 어떤 것이 가장 정확하다고 확신하려면 어떻게 해야 할까?

애플은 모델 구축, 배포, 모니터링이라는 '라이프 사이클’을 자동화하는 오버톤을 활용, 이러한 도전과제를 극복하려 시도하고 있다.

사람의 입장에서 해석하면, 머신이 스스로 외부 ‘자극’에 대응해 머신러닝 모델을 고치고 조정한다는 의미다. 부정확한 결론을 초래할 수 있는 논리적 흐름을 고치고, 모델을 더 정확하게 만든다. 이렇게 하면 사람들이 머신러닝 모델에 대한 ‘고급’ 감독 역할에만 초점을 맞출 수 있다.

개인적으로 사람들이 필요하지만, 작은 조정을 위해 복잡한 코드를 상세히 검토할 필요 없이, 여러 변경사항을 요청해 오버톤이 적용하는 개념으로 이해한다.

그리고 사람들은 이런 오버톤을 완벽하게 통제한다.
 
애플의 활용 방법은?
애플은 시리를 어떻게 보면 큰 쓸모가 없는, 때론 유용한 대답을 얻지 못해도 그냥 질문하는 그런 디지털 비서 이상으로 확대할 야심이 있다고 판단한다.

시리는 음성 기반 ‘도우미’가 될 것이다. 고수준의 정보를 가져오고, 이를 맥락화해 분석하고, 사람들이 기존에 하던 작업을 강화하는 그런 ‘도우미’를 의미한다. ‘시리 제안’은 제한적으로 구현된 상태기는 하지만 이런 방향으로 나아가고 있다는 것을 알려준다.

애플은 “오버톤을 토대로 데이터 증강 및 관리, 프로그래밍적 감독, 협력에 도움을 주는 시스템을 개발하는 것을 추구하고 있다”라고 강조한다.

또 오버톤은 사용자 프라이버시에도 ‘함의’를 갖고 있다고 생각한다.

이 점을 생각해보자.

애플의 과학자들은 자신들이 생각하기에 아주 정확한 모델을 빌드한다. 이 모델은 iOS 장치에서 실행된다. 오버톤은 이런 모델들에 일정한 독립성을 제공한다. 그리고 머신러닝 시스템은 연구원들에게 개인 행동, 작업에 대한 상세한 통찰을 제공하지 않고도 정확도와 관련성 목적에서 모델을 조정한다.

이는 데이터 관리자(이 경우, 최초 모델을 만든 과학자)가 더 일반적인 전략적 역할을 수행한다는 의미이다. 다시 말해, 개인 사용자에 대한 정보가 이들에게 제공되지 않는다.

애플은 정의된 특정 작업을 처리할 수 있는 머신러닝 머신을 만들고 있다. 동시에 이 머신에 자신이 사용하는 모델을 개인화 할 수 있는 능력을 부여하고 있다. 이것이 오버톤의 목적이라고 판단한다. 그리고 애플이 실크 랩스(Silk Labs)를 인수하도록 만드는 데 일정 부분 기여했을 것이다.

애플은 오버톤은 애플리케이션 품질을 향상하고, 모니터링할 수 있는 첫 번째 머신러닝 관리 시스템이 될 것이라고 주장한다. 행간을 읽었을 때, 반려동물을 ‘포트레이트 모드’로 촬영하기 위해 아이폰 11 카메라를 돌렸을 때, 이를 인식하는 기술이 될 수도 있다고 생각한다.

미래 세상이 다가오고 있다. 

*Jonny Evans는 1999년부터 애플과 관련 기술에 대해 저술해온 프리랜서 기고가다. ciokr@idg.co.kr



2019.09.18

칼럼 | 애플의 머신러닝 시스템 '오버톤'의 경쟁력은?

Jonny Evans | Computerworld
iOS 13 출시를 앞두고 애플이 주요한 음성 AI 관련 전시회에 참가한다. iOS 13에서 애플의 음성 비서인 시리가 크게 개선될 것으로 알려졌다. 애플은 ‘오버톤(Overton)’으로 불리는 새로운 머신러닝(ML) 기술에 관해 설명한 연구 보고서도 발표했다. 
 
ⓒIDG

머신러닝의 영역 정의
애플은 이번주 세계 최대 음성 언어 처리 컨퍼런스인 인터스피치(Interspeech) 2019를 후원한다.

그러면서 여러 연구 논문과 보고서를 제출했다. 또한 계속 인원을 충원 중인 머신러닝팀 소속 팀원들이 행사에 참석해 청중들과 만날 예정이다.

애플은 여러 주제의 논문, 보고서를 제출했다(전체는 여기 링크 참조). 이 가운데 ‘음성을 통한 표현/의도 감지’, ‘음성 인식 수준 향상’, ‘음성 뉘앙스를 더 정확히 이해하는 도구 개발’, ‘미러링을 이용한 사용자와 음성 비서 간 관계 구축’, ‘SE(Speech Enhancement) 최적화 기술’에 관해 발표할 계획이다.

새로 만들어진 인터스피치 유튜브 포털에서 애플이 머신러닝과 관련해 추진하는 사항들에 대한 정보를 조금 더 많이 얻을 수 있을지 모른다. 그러나 애플의 동영상이 업로드될지 여부는 모른다.

애플 소속 과학자, 연구원이 광범위하게 과학계 인사와 접촉하는 것은 놀랍지 않다. 애플은 2017년부터 간헐적으로 애플 머신러닝 포털을 통해 머신러닝 논문과 연구 결과를 발표해왔다.

오버톤(Overton)
애플은 오버톤을 바탕으로 새로운 종류의 솔루션을 구현할 계획이라고 강조하고 있다. 오버톤은 사람이 아닌 머신이 관리할 수 있도록 머신러닝 모델을 훨씬 더 개인화할 수 있는 솔루션이다.

음성 상호작용은 사용자가 시리에게 질문을 했을 때 발생하는 일들의 ‘프론트엔드(Front-end)’에 불과하다. 이후 머신러닝 모델이 질문을 이해하고, 맥락화해서 가장 정확한 응답을 찾으려 시도한다. 품질 높은 응답을 찾아 전달하는 것은 보기보다 쉽지 않다.

물론 일부 상호작용의 경우, 시리가 위키페디아 페이지에서 찾은 데이터만 제공할 수 있다(이 경우에도 몇몇 페이지를 확인, 가장 관련성 높은 응답을 전달). 그러나 궁극적으로 시리가 복잡한 질문에 복잡한 대답을 제공하는 효과적인 기기가 되도록 만드는 것이 목표일 것이다. 여기에는 일정 수준의 ‘예측’도 포함된다.

이다음 단계의 목표를 달성하기가 매우 어렵다.

과학자들이 시리의 쓸만한 답변 중 어떤 것이 가장 정확하다고 확신하려면 어떻게 해야 할까?

애플은 모델 구축, 배포, 모니터링이라는 '라이프 사이클’을 자동화하는 오버톤을 활용, 이러한 도전과제를 극복하려 시도하고 있다.

사람의 입장에서 해석하면, 머신이 스스로 외부 ‘자극’에 대응해 머신러닝 모델을 고치고 조정한다는 의미다. 부정확한 결론을 초래할 수 있는 논리적 흐름을 고치고, 모델을 더 정확하게 만든다. 이렇게 하면 사람들이 머신러닝 모델에 대한 ‘고급’ 감독 역할에만 초점을 맞출 수 있다.

개인적으로 사람들이 필요하지만, 작은 조정을 위해 복잡한 코드를 상세히 검토할 필요 없이, 여러 변경사항을 요청해 오버톤이 적용하는 개념으로 이해한다.

그리고 사람들은 이런 오버톤을 완벽하게 통제한다.
 
애플의 활용 방법은?
애플은 시리를 어떻게 보면 큰 쓸모가 없는, 때론 유용한 대답을 얻지 못해도 그냥 질문하는 그런 디지털 비서 이상으로 확대할 야심이 있다고 판단한다.

시리는 음성 기반 ‘도우미’가 될 것이다. 고수준의 정보를 가져오고, 이를 맥락화해 분석하고, 사람들이 기존에 하던 작업을 강화하는 그런 ‘도우미’를 의미한다. ‘시리 제안’은 제한적으로 구현된 상태기는 하지만 이런 방향으로 나아가고 있다는 것을 알려준다.

애플은 “오버톤을 토대로 데이터 증강 및 관리, 프로그래밍적 감독, 협력에 도움을 주는 시스템을 개발하는 것을 추구하고 있다”라고 강조한다.

또 오버톤은 사용자 프라이버시에도 ‘함의’를 갖고 있다고 생각한다.

이 점을 생각해보자.

애플의 과학자들은 자신들이 생각하기에 아주 정확한 모델을 빌드한다. 이 모델은 iOS 장치에서 실행된다. 오버톤은 이런 모델들에 일정한 독립성을 제공한다. 그리고 머신러닝 시스템은 연구원들에게 개인 행동, 작업에 대한 상세한 통찰을 제공하지 않고도 정확도와 관련성 목적에서 모델을 조정한다.

이는 데이터 관리자(이 경우, 최초 모델을 만든 과학자)가 더 일반적인 전략적 역할을 수행한다는 의미이다. 다시 말해, 개인 사용자에 대한 정보가 이들에게 제공되지 않는다.

애플은 정의된 특정 작업을 처리할 수 있는 머신러닝 머신을 만들고 있다. 동시에 이 머신에 자신이 사용하는 모델을 개인화 할 수 있는 능력을 부여하고 있다. 이것이 오버톤의 목적이라고 판단한다. 그리고 애플이 실크 랩스(Silk Labs)를 인수하도록 만드는 데 일정 부분 기여했을 것이다.

애플은 오버톤은 애플리케이션 품질을 향상하고, 모니터링할 수 있는 첫 번째 머신러닝 관리 시스템이 될 것이라고 주장한다. 행간을 읽었을 때, 반려동물을 ‘포트레이트 모드’로 촬영하기 위해 아이폰 11 카메라를 돌렸을 때, 이를 인식하는 기술이 될 수도 있다고 생각한다.

미래 세상이 다가오고 있다. 

*Jonny Evans는 1999년부터 애플과 관련 기술에 대해 저술해온 프리랜서 기고가다. ciokr@idg.co.kr

X