Offcanvas
2017.10.26 George Nott  |  CIO Australia


사용할 수 있는 도구
블룸버그는 정석 분석의 선구자였다. 약 10년 전부터 개발을 시작했다. 머신러닝 기술을 활용해 특정 주식과 관련된 뉴스 기사나 트윗을 표시하고 정서 점수를 부여했다.

어떤 회사에 긍정적인 기사가 있으면 회사 주가가 오르고 반대로 부정적인 기사가 있으면 주가가 내려가기 마련이다.

블룸버그 시장 전문가 이안 맥팔레인에 따르면, 터미널 고객은 인간이 겨우 기사 하나를 읽을 시간에 수백 건의 기사를 읽어낼 수 있다는 점에서 분명히 유리하다.

맥팔레인은 “기사 하나를 읽는 시간에 본인의 포트폴리오에 속한 주식이나 채권이 SNS나 기사에서 수백 번 언급됐을 수도 있다. 실시간으로 쏟아지는 대량 데이터를 인간이 따라잡기란 불가능하다. 따라서 뉴스와 SNS에서 정서를 뽑아낸다는 점에서 유리하다”고 덧붙였다.

만은 트윗과 SNS 게시물의 신뢰성을 판단할 수 있도록 추가 개발도 진행 중이라고 설명했다.

이어서 만은 “뉴스 기사와 뉴스 기관을 판별하는 방법을 알고 있다. 트위터에 나온 내용이 정확한지는 어떻게 판별하나?”라고 반문했다.

지난 2년간 시행된 또 다른 프로젝트에서는 머신러닝을 활용해 PDF 금융 보고서 및 문서에서 데이터를 추출하고 있다.

만은 “XML이나 XPRL과 같이 정형화된 형식도 있지만 PDF 형식이 많고 데이터 분량이 엄청나다. 데이터를 추출하기 위해서 과거에는 수많은 데이터 분석가들을 동원해 금융 보고서의 내용을 직접 입력해야 했다. 비용이 많이 들고 속도가 느리며 원하는 것을 알아내지 못하는 경우가 많다”고 만은 지적했다. “따라서 우리는 그러한 금융 문서들로부터 데이터를 추출하기 위해 실제로 상당히 많은 연구를 해 왔다”고 이야기했다.

그다음 단계로 블룸버그는 이제 기계를 활용한 그래프 및 산점도 식별과 숫자 추출 방법을 연구하고 있다.

만은 다음과 같이 설명했다. “기계는 산점도를 보고 산점도의 축과 산점도의 틱(tick)을 파악한 후 각 데이터 점을 등록한다. 그러면 해당 산점도 구성에 사용된 데이터 전체를 복원할 수 있다. 이 모든 것은 정형화되지 않은 데이터 일체에 구조를 부여하기 위한 노력이다.”

오픈소스 적극 수용 
최근 블룸버그의 구축 내용 중 많은 부분의 배경에는 오픈소스의 가치관이 작용했다. 만에 따르면 오픈소스에 대해 사내에서 상전벽해와 같은 변화가 있었다.

“1981년 회사 창립 당시에는 오픈소스가 많이 없었다. 따라서 직접 만든 것이 아니면 관심이 없다는 사고방식이 있었다”고 만은 설명했다.


블룸버그의 데이터 과학 총괄인 기드온 만

아닌 게 아니라 블룸버그는 한때 고객을 위한 네트워킹 장비를 구축하기도 했고 자체 네트워킹 프로토콜도 보유했다. 자체 키보드까지 만들었고 이는 나중에 정형화됐다.

만은 다음과 같이 덧붙였다. “‘널리 사용되지 않고 있으면 직접 만들고 상품화되면 그때는 우리가 사용하면 되지’라는 생각은 항상 있다. 오픈소스도 마찬가지였다.”

회사 측의 설득이 좀 필요했지만 CTO가 나서서 오픈소스를 향한 ‘엄청난 문화 변화’를 이끌어냈다.

만은 “두 그룹을 설득해야 한다. 먼저 경영진을 대상으로 오픈소스 사용이 안전할 것이며 더 나은 소프트웨어로 이어진다고 설득해야 한다. 그다음에는 엔지니어들을 대상으로 오픈소스 사용이 그들의 보유 기술을 늘려줄 것이며 관리하기 더 쉽고 버그가 적은 소프트웨어로 이어질 것이고 더 아름다운 시스템이 되리라는 것을 설득해야 한다. 경영진과 엔지니어들을 어느 정도 설득시키고 나면 이제 준비는 끝난 것이다”고 말했다.

블룸버그는 솔라(Solr), 하둡(Hadoop), 아파치 스파크(Apache Spark), 오픈스택(Open Stack) 등의 프로젝트에 적극적으로 기여하고 있다.

만은 “요즘 오픈소스에 크게 투자하지 않고서는 최첨단 기술 회사가 될 수 없다고 생각한다. 특히 머신러닝 부분에서는 학계와 퍼블리싱 분야에 크게 투자해야 한다”고 강조했다.

과대광고 많은 머신러닝 
머신러닝을 둘러싼 소문은 분명히 무성하지만 충분한 근거가 있는 소문이라고 만은 보고 있다.

그는 “현재 머신러닝과 데이터 과학을 둘러싼 과장 광고가 많은 것이 사실이다”고 언급했다. 이어서 “신중한 사람으로서 나는 냉소적인 경향이 있지만 정확한 사실로 냉소주의를 완화시킬 수 있다. 학계에서 최첨단 기술로 무언가를 할 줄 아는 것과 실제 이뤄낸 것 사이에는 엄청난 격차가 있다”고 설명을 이었다.

만은 “만일 새로운 것을 배우지 않는다면 그 모든 학습을 통합시키는 데 5년, 10년이 걸릴 것이라는 느낌이 든다. 사실 그 때문에 나는 머신러닝이 매우 지대한 영향을 줄 것에 매우 낙관하고 있다”고 밝혔다. ciokr@idg.co.kr 

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.