2018.08.14

"더 정교하게 시장을 움직인다"··· 블룸버그의 데이터과학 활용법

Tom Macaulay | Computerworld UK
블룸버그(Bloomberg)의 기자들은 1990년대부터 뉴스를 제공해왔지만, 최근에는 점점 더 데이터 사이언스에 의존하고 있다.



이런 변화 때문에 데이터 사이언스를 책임진 기데온 맨이 편집실에서 중요한 역할을 맡고 있다. 컴퓨터 사이언스를 전공한 그는 구글에서 7년 간 연구원으로 일하다 2014년에 블룸버그에 합류했다. 금융 관련 경험이 거의 없었으며, 블룸버그에 온 이후 기자가 시장에 미치는 영향을 보고 크게 놀랐다.

맨은 블룸버그가 10억 파운드를 들여 마련한 영국 런던 소재 유럽 본사에서 컴퓨터월드와 가진 인터뷰에서 “블룸버그에서 일을 시작하기 전에는 뉴스가 어떻게 시장을 움직이는지 몰랐다. 그러나 실제 세상에서 일어나는 사건 주변에는 통상 기자가 있다. 이들은 이 사건에 대해 이야기하고 알리는 역할을 한다. 이런 방식으로 정보가 전파되는 것이다”란고 말했다.

맨의 팀은 블룸버그 소속 기자가 뉴스와 소셜 미디어, 금융 관련 자료 및 문서, 보도 자료를 과거 어느 때보다 빨리 분석해 뉴스의 기초가 되는 금융 인사이트를 발견할 수 있는 데이터 사이언스 도구와 기법을 개발하고 있다. 1990년 설립된 블룸버그 뉴스는 주가(자본 시장 가격)와 증권 거래소 데이터 등 기본적인 경제 정보를 중점적으로 다뤘었다. 그러나 최근 몇 년 들어 비구조화 데이터가 보도에 매우 중요한 요소가 됐다.

‘증강된(Augmented)’ 기자들
현재 블룸버그 뉴스는 사람과 소프트웨어의 노력을 결합해 활용하는 사례가 많다. 단, 개별 작업을 많이 자동화하고 있지만, 사람이 전혀 개입하지 않는 작업은 극소수다. 맨은 “자동화된 뉴스를 생산하고 있지만, 사람과 컴퓨터의 노력을 결합한 ‘하이브리드’ 뉴스가 훨씬 더 많다. 컴퓨터가 첫 번째 기사를 쓰고, 기자가 이를 다듬고, 맥락화하고, 전체 내러티브를 완성한다"라고 말했다.

이어 "컴퓨터가 하는 일은 '발견'에 초점이 맞춰져 있다. 중요한 변화나 편차(이탈)를 찾는다. 언론인과 컴퓨터 사이언티스트가 협력해 이런 프로그램을 만들고, 편집과 관련된 결정을 내린다. 관심을 둘 사건인지 결정한 후, 사람이 이를 기사로 보도하게 된다”라고 덧붙였다.

기자들은 처음에 자동화에 의구심을 가졌다. 맨은 "이런 의구심은 자신의 업무에 도움이 된다는 것을 깨달아야 사라진다. 실제로 기자가 보도하는 금융 관련 뉴스 중에는 정해진 형식의 기사가 많다. 매번 거의 똑같다. 숫자가 바뀌고 때때로 회사가 바뀌는 식이다. 자동화된 시스템을 구현하면, 이처럼 누구도 하고 싶지 않은 일을 없앨 수 있다”라고 말했다.

기자들은 데이터 사이언스 덕분에 더 빠른 속도로, 더 복잡하게 시장을 움직일 수 있게 됐다. 정보에 더 빨리 대응을 하면서, 더 깊은 인사이트를 제공할 수 있기 때문이다. 맨은 이런 변화가 가져오는 영향이 파괴적이기보다 유용하다고 믿는다. 그는 “뉴스의 영향이 아주 빨리 곳곳으로 파급된다. 이로 인해 시장에 혼란이 가중된다는 지적이 있지만 동의하지 않는다. 오히려 정보가 시장에 들어가고, 시장이 여기에 빨리 반응해 조정이 된다. 조정이 되는 기간이 아주 짧다”라고 말했다.


차트에 숨은 데이터
처리하기 힘든 비정형 정보 중 하나는 차트에 숨은 데이터이다. 기존 소프트웨어는 차트의 데이터를 식별하지 못했다. 이에 따라 맨의 팀은 산점도 차트에서 발견되는 데이터를 ‘백 포맷(Back format)’해서 각 점이 의미하는 바를 보여주는 스캐터액트(Scatteract)라는 시스템을 개발했다.

이 시스템은 OCR과 딥 러닝 기법을 사용해 차트 이미지에서 숫자 데이터 포인터를 가져와 테이블 내 정보로 변환한다. 블룸버그는 스캐터액트는 사상 처음 머신 학습을 사용해 차트에서 숫자 데이터를 추출하는 시스템이라고 주장한다. 웹에서 발견되는 산점도 차트 가운데 78%의 데이터를 분석하고, 그 결과를 2차 분석에 필요한 정보로 사용할 수 있다.

또 다른 변화는 ‘대안(Alternative)’ 데이터다. 과거 기자와 증권 거래자는 기존 정보 소스만 활용해 정보를 분석했다. 그러나 지금은 소셜 미디어 계정이 있는 사람은 누구나 뜻밖의 장소에서 발견한 영향력 있는 데이터를 활용할 수 있다. 예를 들어 2013년 인도 식료품 소비자의 행동 양태가 기자가 세계 시장의 변화를 포착하도록 도움이 되기도 했다. 인도의 양파 공급 부족 문제와 높은 인플레이션이 연관됐다는 점을 파악한 것이다.

당시 샌프란시스코이 있는 창업회사 프레미스 데이터 코퍼레이션(Premise Data Corporation)은 공급 부족이 미치는 영향을 이해하는 새로운 방법을 고안했다. 이 회사는 일반 소비자에게 돈을 주고 동네 상점에서 양파 가격표를 찍어오게 했다. 그리고 이 데이터를 통합해 인도의 양파 가격이 물가상승률과 관련됐다는 것을 확인했다. 물가 동향을 조기에 효과적으로 파악하는 방법을 찾은 것이다.

맨은 “1980년대에는 한 장소에 데이터를 모으는 것이 목표였다. 지금은 이런 데이터에 포함될 정보를 파악해야 한다. 맥락화가 더 중요해진 것이다. 수 많은 정보 중 고객을 위한 적절하고 옳은 정보를 밖으로 드러내야 한다"라고 말했다.

소셜 미디어
이처럼 새로운 데이터 형식 분석에 사용하는 툴이 뉴스 보도에도 변화를 가져오고 있다. 자연어 처리(NLP)는 특히 강력한 기법으로 자리를 잡았다. 기자가 트위터를 모니터링할 때 머신러닝 모델은 기자에게 가장 관련성 높은 트윗과 피드를 찾아 보여준다.

맨은 “트위터는 중요한 정보를 공개할 수 있는 전달 매체다. 보도 자료도 트위터로 공개된다. CEO와 기업이 트위터에서 직접 발표한다. 규제 요건 정보도 마찬가지다. 사람들은 트위터에서 다양한 정보를 공개하고 입수한다. 일론 머스크가 대표적이다. 그는 트위터를 자주 활용하기로 유명하다”라고 말했다. 실제로 머스크는 최근 트위터에 테슬라의 상장 폐지를 고려하고 있다는 트윗을 올렸으며, 기자들은 이를 중요하게 생각했다. 머스크의 트윗 때문에 테슬라 주가는 당일 11% 올랐고 규제 당국이 거래를 중단시키기도 했다.

이런 종류의 정보는 블룸버그 고객에게 매우 중요한 뉴스가 될 수 있다. 블룸버그는 고객이 보도된 기사에 효과적으로 대응할 수 있도록, 구글 얼럿과 비슷하게 고객 회사와 관련된 제목의 라이브 데이터 피드를 판매하고 있다. 위험 모델과 거래 알고리즘에 통합할 수 있는 데이터 피드다. ciokr@idg.co.kr 



2018.08.14

"더 정교하게 시장을 움직인다"··· 블룸버그의 데이터과학 활용법

Tom Macaulay | Computerworld UK
블룸버그(Bloomberg)의 기자들은 1990년대부터 뉴스를 제공해왔지만, 최근에는 점점 더 데이터 사이언스에 의존하고 있다.



이런 변화 때문에 데이터 사이언스를 책임진 기데온 맨이 편집실에서 중요한 역할을 맡고 있다. 컴퓨터 사이언스를 전공한 그는 구글에서 7년 간 연구원으로 일하다 2014년에 블룸버그에 합류했다. 금융 관련 경험이 거의 없었으며, 블룸버그에 온 이후 기자가 시장에 미치는 영향을 보고 크게 놀랐다.

맨은 블룸버그가 10억 파운드를 들여 마련한 영국 런던 소재 유럽 본사에서 컴퓨터월드와 가진 인터뷰에서 “블룸버그에서 일을 시작하기 전에는 뉴스가 어떻게 시장을 움직이는지 몰랐다. 그러나 실제 세상에서 일어나는 사건 주변에는 통상 기자가 있다. 이들은 이 사건에 대해 이야기하고 알리는 역할을 한다. 이런 방식으로 정보가 전파되는 것이다”란고 말했다.

맨의 팀은 블룸버그 소속 기자가 뉴스와 소셜 미디어, 금융 관련 자료 및 문서, 보도 자료를 과거 어느 때보다 빨리 분석해 뉴스의 기초가 되는 금융 인사이트를 발견할 수 있는 데이터 사이언스 도구와 기법을 개발하고 있다. 1990년 설립된 블룸버그 뉴스는 주가(자본 시장 가격)와 증권 거래소 데이터 등 기본적인 경제 정보를 중점적으로 다뤘었다. 그러나 최근 몇 년 들어 비구조화 데이터가 보도에 매우 중요한 요소가 됐다.

‘증강된(Augmented)’ 기자들
현재 블룸버그 뉴스는 사람과 소프트웨어의 노력을 결합해 활용하는 사례가 많다. 단, 개별 작업을 많이 자동화하고 있지만, 사람이 전혀 개입하지 않는 작업은 극소수다. 맨은 “자동화된 뉴스를 생산하고 있지만, 사람과 컴퓨터의 노력을 결합한 ‘하이브리드’ 뉴스가 훨씬 더 많다. 컴퓨터가 첫 번째 기사를 쓰고, 기자가 이를 다듬고, 맥락화하고, 전체 내러티브를 완성한다"라고 말했다.

이어 "컴퓨터가 하는 일은 '발견'에 초점이 맞춰져 있다. 중요한 변화나 편차(이탈)를 찾는다. 언론인과 컴퓨터 사이언티스트가 협력해 이런 프로그램을 만들고, 편집과 관련된 결정을 내린다. 관심을 둘 사건인지 결정한 후, 사람이 이를 기사로 보도하게 된다”라고 덧붙였다.

기자들은 처음에 자동화에 의구심을 가졌다. 맨은 "이런 의구심은 자신의 업무에 도움이 된다는 것을 깨달아야 사라진다. 실제로 기자가 보도하는 금융 관련 뉴스 중에는 정해진 형식의 기사가 많다. 매번 거의 똑같다. 숫자가 바뀌고 때때로 회사가 바뀌는 식이다. 자동화된 시스템을 구현하면, 이처럼 누구도 하고 싶지 않은 일을 없앨 수 있다”라고 말했다.

기자들은 데이터 사이언스 덕분에 더 빠른 속도로, 더 복잡하게 시장을 움직일 수 있게 됐다. 정보에 더 빨리 대응을 하면서, 더 깊은 인사이트를 제공할 수 있기 때문이다. 맨은 이런 변화가 가져오는 영향이 파괴적이기보다 유용하다고 믿는다. 그는 “뉴스의 영향이 아주 빨리 곳곳으로 파급된다. 이로 인해 시장에 혼란이 가중된다는 지적이 있지만 동의하지 않는다. 오히려 정보가 시장에 들어가고, 시장이 여기에 빨리 반응해 조정이 된다. 조정이 되는 기간이 아주 짧다”라고 말했다.


차트에 숨은 데이터
처리하기 힘든 비정형 정보 중 하나는 차트에 숨은 데이터이다. 기존 소프트웨어는 차트의 데이터를 식별하지 못했다. 이에 따라 맨의 팀은 산점도 차트에서 발견되는 데이터를 ‘백 포맷(Back format)’해서 각 점이 의미하는 바를 보여주는 스캐터액트(Scatteract)라는 시스템을 개발했다.

이 시스템은 OCR과 딥 러닝 기법을 사용해 차트 이미지에서 숫자 데이터 포인터를 가져와 테이블 내 정보로 변환한다. 블룸버그는 스캐터액트는 사상 처음 머신 학습을 사용해 차트에서 숫자 데이터를 추출하는 시스템이라고 주장한다. 웹에서 발견되는 산점도 차트 가운데 78%의 데이터를 분석하고, 그 결과를 2차 분석에 필요한 정보로 사용할 수 있다.

또 다른 변화는 ‘대안(Alternative)’ 데이터다. 과거 기자와 증권 거래자는 기존 정보 소스만 활용해 정보를 분석했다. 그러나 지금은 소셜 미디어 계정이 있는 사람은 누구나 뜻밖의 장소에서 발견한 영향력 있는 데이터를 활용할 수 있다. 예를 들어 2013년 인도 식료품 소비자의 행동 양태가 기자가 세계 시장의 변화를 포착하도록 도움이 되기도 했다. 인도의 양파 공급 부족 문제와 높은 인플레이션이 연관됐다는 점을 파악한 것이다.

당시 샌프란시스코이 있는 창업회사 프레미스 데이터 코퍼레이션(Premise Data Corporation)은 공급 부족이 미치는 영향을 이해하는 새로운 방법을 고안했다. 이 회사는 일반 소비자에게 돈을 주고 동네 상점에서 양파 가격표를 찍어오게 했다. 그리고 이 데이터를 통합해 인도의 양파 가격이 물가상승률과 관련됐다는 것을 확인했다. 물가 동향을 조기에 효과적으로 파악하는 방법을 찾은 것이다.

맨은 “1980년대에는 한 장소에 데이터를 모으는 것이 목표였다. 지금은 이런 데이터에 포함될 정보를 파악해야 한다. 맥락화가 더 중요해진 것이다. 수 많은 정보 중 고객을 위한 적절하고 옳은 정보를 밖으로 드러내야 한다"라고 말했다.

소셜 미디어
이처럼 새로운 데이터 형식 분석에 사용하는 툴이 뉴스 보도에도 변화를 가져오고 있다. 자연어 처리(NLP)는 특히 강력한 기법으로 자리를 잡았다. 기자가 트위터를 모니터링할 때 머신러닝 모델은 기자에게 가장 관련성 높은 트윗과 피드를 찾아 보여준다.

맨은 “트위터는 중요한 정보를 공개할 수 있는 전달 매체다. 보도 자료도 트위터로 공개된다. CEO와 기업이 트위터에서 직접 발표한다. 규제 요건 정보도 마찬가지다. 사람들은 트위터에서 다양한 정보를 공개하고 입수한다. 일론 머스크가 대표적이다. 그는 트위터를 자주 활용하기로 유명하다”라고 말했다. 실제로 머스크는 최근 트위터에 테슬라의 상장 폐지를 고려하고 있다는 트윗을 올렸으며, 기자들은 이를 중요하게 생각했다. 머스크의 트윗 때문에 테슬라 주가는 당일 11% 올랐고 규제 당국이 거래를 중단시키기도 했다.

이런 종류의 정보는 블룸버그 고객에게 매우 중요한 뉴스가 될 수 있다. 블룸버그는 고객이 보도된 기사에 효과적으로 대응할 수 있도록, 구글 얼럿과 비슷하게 고객 회사와 관련된 제목의 라이브 데이터 피드를 판매하고 있다. 위험 모델과 거래 알고리즘에 통합할 수 있는 데이터 피드다. ciokr@idg.co.kr 

X