2일 전

'32만 구독자 만족시켜라'··· 블룸버그의 머신러닝·데이터 과학 활용법

Scott Carey | Computerworld UK
금융 데이터 전문기업 블룸버그(Bloomberg)에서는 수백 명의 데이터 과학자가 색다른 업무를 담당하고 있다. 키보드와 모니터로 구성된 회사의 범용 터미널(Terminal)을 금융권 사용자들이 계속 사용하도록 유도하기 위해 폭넓고 깊이 있는 시장 정보를 제공하는 업무다.

블룸버그 터미널은 8,000개의 뉴스 서비스, 4,000개의 FX피드, 370개의 익스체인지를 통해 발생하는 하루 600억 개의 데이터 포인트를 취합해 터미널 사용자들에게 국제 금융시장에 대한 최신 정보를 제공한다. 블룸버그의 데이터 과학자들은 총 32만 5,000명의 모든 구독자들이 이 정보의 바다를 탐색하고 관련성을 찾을 수 있도록 하는 일을 하고 있다.

기드온 맨은 블룸버그의 데이터 과학 책임자다. 그의 역할은 이 방대하고 다양성이 높은 조직에서 모든 데이터 과학 업무를 관리하는 것이다.

맨은 블룸버그 터미널 서비스의 목표에 대해 “금융산업과 관련된 어떤 데이터든 평준화된 방식으로 제공하는 것”이라며, “데이터 과학 작업의 대부분은 제품을 구축하는 것이다. 그래서 나의 역할 대부분 또한 기본적으로 터미널에 서비스를 제공하는 제품에 내장된 자연어 처리, 검색, 기계 학습이라는3가지 영역에서 기술 전략 계획을 관리하는 것이다”라고 말했다.



블룸버그 터미널
오늘날 수 천 명의 은행 관계자, 트레이더, 금융 리포터들이 연간 약 2만 파운드 가격에 제공되는 블룸버그 터미널 및 관련 데이터 서비스 구독을 이용하고 있다.

블룸버그는 약 10년 전부터 감정 분석을 위해 머신러닝 실험을 시작하며 데이터 과학 업무 분야에 진입했다. 맨에 따르면 기계가 학습하도록 가르치고 대량의 데이터가 유입될 때 상황에 따라 적응하도록 하기까지 상당한 시간이 소요되었지만 이 프로젝트의 성공으로 인해 경영진의 지원을 받을 수 있었다.

그는 “회사에서 이런 특정 기능에는 상당한 시간이 소요된다는 사실을 깨닫기까지 수 년이 소요됐다. 회사는 결국 정략적 프로그래머들을 고용하고 투자하기 시작했다”라고 말했다. 현재 블룸버그는 조직 내에 100-200명의 데이터 과학 전문가를 보유하고 있다.

이 기술의 유용성이 입증되고 독자적인 기술이 개발되자, 블룸버그는 이 기법을 터미널에 대한 내부적인 검색에 적용시켜 더 우수한 데이터 탐색을 지원하는 알고리즘을 개발했다. 이를테면 최근의 프로젝트에서는 컴퓨터 비전을 이용해 금융 보고서 및 서류 깊은 곳에 숨어 있는 표에서 데이터를 추출했다. 과거에는 프로그래머들이 수동 방식으로 진행해야 했던 작업이었다.

맨은 “객체 인식 기술을 성공적으로 활용해 이런 표의 데이터를 이용할 수 있게 됐다 그래서 테이블의 경계를 인식하고 해당 표에서 우리의 데이터베이스로 열과 행을 이동한다. 이를 통해 정확도와 속도가 증가했다”라고 전했다.

다음으로 맨은 컴퓨터 비전과 자연어 처리 등의 기법을 이용해 터미널을 통해 제공되는 금융 정보의 폭을 개선하고자 한다. 이는 사용자들이 점차 특화된 명령 대신에 자연어를 이용해 터미널에서 쿼리(Query)를 작성할 수 있도록 하기 위함이다.

맨은 “많은 금융 데이터가 숫자로 되어 있지만 금융과 관련된 세계에서 일어나는 많은 일들이 우리가 생성 또는 취합하는 기사 또는 기업들이 스스로 발표하는 언론 보도 또는 문서 또는 관계자들의 성명 발표 등 언어로 표현되고 있다. 따라서 우리가 하는 데이터 과학과 머신러닝의 상당 부분은 언어를 처리하고 그 위에 구조를 적용하는 작업과 관련돼 있다”라고 말했다.

고용
한편 맨은 블룸버그가 조직에 필요한 사람이 데이터 과학자가 어떤 이들인지 이해하게 되면서 이들을 더욱 잘 고용하게 됐다고 전했다. 그는 “허풍을 떠는 것으로 보이고 싶지는 않지만 우리는 분명 (고용 측면에서) 나아졌다. 우리는 이 분야에 많은 에너지를 쏟아 붓는다”라고 말했다.

맨은 이어 “우리는 우리가 무엇을 원하고 찾는 것이 무엇인지 점점 더 알아가고 있다. 실제로 지난해의 지원자들 수준이 크게 향상되었다. 또 우리는 우리가 필요한 것에 가까운 기술을 가진 사람들을 고용할 수 있게 되면서 교육에 대한 비용을 절감할 수 있었다. 우리는 우리에게 필요한 사람과 우리가 가야할 곳, 그리고 그들이 졸업한 대학에 관해 더욱 잘 이해하고 있다”라고 말했다.

그에 따르면 기본적으로 블룸버그는 내부 데이터 과학을 위해 통계학자 대신에 정량적 프로그래머(quantitative programmer)의 비중을 지속적으로 높이고 있다.

이제 맨은 이 전략을 한 단계 더 발전시키고 있다. 그는 “과거 우리는 각각의 정량적 프로그래머들이 풀 스택(Full Stack)이어야 한다고 생각했었다. 데이터를 가져다가 정리하고 구조화하며 인프라를 지원하고 머신러닝 모델을 구축하며 배치하고 관리하며 수리하는 것 말이다”라고 설명했다.

그러나 이제 그는 더 작은 규모의 전문가팀이 프로젝트를 진행하기를 원한다고 전했다. 예를 들어, 데이터 엔지니어, 데이터 과학자, 생산 엔지니어가 터미널 내에서 특정 제품을 개발하는 것이다.

한편 그는 업계가 너무 빠르게 변화하고 있기 때문에 최신 기술 트렌드를 따라가기 위해서는 학계와 긴밀한 관계를 유지하는 것이 필수적이라고 말했다.

맨은 출판물을 통해 월별로 게스트 연사를 초청하거나 블룸버그의 자체 학부 보조금 프로그램을 활용하는 등 많은 시간을 들여 학계와 소통하고 있을 뿐 아니라 블룸버그 자체도 기술 직원들에게 컨퍼런스 참여를 독려하고 있다.

그는 “많은 사람들을 학회에 보내고 있으며 그 주된 목적은 그들이 학계에서 벌어지고 있는 일에 대한 경험을 얻고 도전을 받는 것”이라고 말했다. 예를 들어, 블룸버그는 이번 달 뉴욕(New York)에서 열리는 머신러닝 심포지엄(Machine Learning Symposium)에 44명의 직원들이 참석하도록 등록했다.

오픈소스(Open Source)
도구(Tooling)의 측면에서 블룸버그는 데이터 수집, 처리, 검색을 위한 독점 시스템과 벤더에서 벗어나 아파치 스파크(Apache Spark)와 솔러(Solr) 등의 더 많은 오픈소스 솔루션으로 이행하고 있다.

맨은 벤더와 독점 소프트웨어로부터의 전환은 문화적 변화와 같았다고 말했다.

그는 “이 과정에서 직원들은 무료 소프트웨어에 관해 이야기할 때면 ‘맥주 같은 무료가 아니라 강아지 같은 무료’라고 말하곤 했다. 왜냐하면 많은 관심과 관리가 필요하기 때문이다”고 말했다. 그러나 블룸버그의 직원들이 결국 오픈소스 기여와 이로 인한 통제감의 이점을 깨달았다고 그는 덧붙였다.

맨은 “오픈소스는 이미 우리의 사업 방식을 크게 바꿔놨다. 우리는 데이터베이스 기술을 세대를 거듭해가며 처음부터 개발하고 있다”라고 전했다.

그는 이어 “지난 5-10년 동안 하둡과 지금의 스파크 덕분에 완전히 새로운 툴이 생겨났으며 우리는 이들 두 기술에 대대적으로 투자하고 있다. 우리가 H베이스(HBase)에 적극적으로 참여하던 때도 있었지만 우리는 현재 스파크를 매우 공격적으로 활용하고 있다. 우리가 얼리 어답터인지는 모르겠다. 그러나 우리가 올인하고 있음은 분명하다”라고 말했다. ciokr@idg.co.kr 
2일 전

'32만 구독자 만족시켜라'··· 블룸버그의 머신러닝·데이터 과학 활용법

Scott Carey | Computerworld UK
금융 데이터 전문기업 블룸버그(Bloomberg)에서는 수백 명의 데이터 과학자가 색다른 업무를 담당하고 있다. 키보드와 모니터로 구성된 회사의 범용 터미널(Terminal)을 금융권 사용자들이 계속 사용하도록 유도하기 위해 폭넓고 깊이 있는 시장 정보를 제공하는 업무다.

블룸버그 터미널은 8,000개의 뉴스 서비스, 4,000개의 FX피드, 370개의 익스체인지를 통해 발생하는 하루 600억 개의 데이터 포인트를 취합해 터미널 사용자들에게 국제 금융시장에 대한 최신 정보를 제공한다. 블룸버그의 데이터 과학자들은 총 32만 5,000명의 모든 구독자들이 이 정보의 바다를 탐색하고 관련성을 찾을 수 있도록 하는 일을 하고 있다.

기드온 맨은 블룸버그의 데이터 과학 책임자다. 그의 역할은 이 방대하고 다양성이 높은 조직에서 모든 데이터 과학 업무를 관리하는 것이다.

맨은 블룸버그 터미널 서비스의 목표에 대해 “금융산업과 관련된 어떤 데이터든 평준화된 방식으로 제공하는 것”이라며, “데이터 과학 작업의 대부분은 제품을 구축하는 것이다. 그래서 나의 역할 대부분 또한 기본적으로 터미널에 서비스를 제공하는 제품에 내장된 자연어 처리, 검색, 기계 학습이라는3가지 영역에서 기술 전략 계획을 관리하는 것이다”라고 말했다.



블룸버그 터미널
오늘날 수 천 명의 은행 관계자, 트레이더, 금융 리포터들이 연간 약 2만 파운드 가격에 제공되는 블룸버그 터미널 및 관련 데이터 서비스 구독을 이용하고 있다.

블룸버그는 약 10년 전부터 감정 분석을 위해 머신러닝 실험을 시작하며 데이터 과학 업무 분야에 진입했다. 맨에 따르면 기계가 학습하도록 가르치고 대량의 데이터가 유입될 때 상황에 따라 적응하도록 하기까지 상당한 시간이 소요되었지만 이 프로젝트의 성공으로 인해 경영진의 지원을 받을 수 있었다.

그는 “회사에서 이런 특정 기능에는 상당한 시간이 소요된다는 사실을 깨닫기까지 수 년이 소요됐다. 회사는 결국 정략적 프로그래머들을 고용하고 투자하기 시작했다”라고 말했다. 현재 블룸버그는 조직 내에 100-200명의 데이터 과학 전문가를 보유하고 있다.

이 기술의 유용성이 입증되고 독자적인 기술이 개발되자, 블룸버그는 이 기법을 터미널에 대한 내부적인 검색에 적용시켜 더 우수한 데이터 탐색을 지원하는 알고리즘을 개발했다. 이를테면 최근의 프로젝트에서는 컴퓨터 비전을 이용해 금융 보고서 및 서류 깊은 곳에 숨어 있는 표에서 데이터를 추출했다. 과거에는 프로그래머들이 수동 방식으로 진행해야 했던 작업이었다.

맨은 “객체 인식 기술을 성공적으로 활용해 이런 표의 데이터를 이용할 수 있게 됐다 그래서 테이블의 경계를 인식하고 해당 표에서 우리의 데이터베이스로 열과 행을 이동한다. 이를 통해 정확도와 속도가 증가했다”라고 전했다.

다음으로 맨은 컴퓨터 비전과 자연어 처리 등의 기법을 이용해 터미널을 통해 제공되는 금융 정보의 폭을 개선하고자 한다. 이는 사용자들이 점차 특화된 명령 대신에 자연어를 이용해 터미널에서 쿼리(Query)를 작성할 수 있도록 하기 위함이다.

맨은 “많은 금융 데이터가 숫자로 되어 있지만 금융과 관련된 세계에서 일어나는 많은 일들이 우리가 생성 또는 취합하는 기사 또는 기업들이 스스로 발표하는 언론 보도 또는 문서 또는 관계자들의 성명 발표 등 언어로 표현되고 있다. 따라서 우리가 하는 데이터 과학과 머신러닝의 상당 부분은 언어를 처리하고 그 위에 구조를 적용하는 작업과 관련돼 있다”라고 말했다.

고용
한편 맨은 블룸버그가 조직에 필요한 사람이 데이터 과학자가 어떤 이들인지 이해하게 되면서 이들을 더욱 잘 고용하게 됐다고 전했다. 그는 “허풍을 떠는 것으로 보이고 싶지는 않지만 우리는 분명 (고용 측면에서) 나아졌다. 우리는 이 분야에 많은 에너지를 쏟아 붓는다”라고 말했다.

맨은 이어 “우리는 우리가 무엇을 원하고 찾는 것이 무엇인지 점점 더 알아가고 있다. 실제로 지난해의 지원자들 수준이 크게 향상되었다. 또 우리는 우리가 필요한 것에 가까운 기술을 가진 사람들을 고용할 수 있게 되면서 교육에 대한 비용을 절감할 수 있었다. 우리는 우리에게 필요한 사람과 우리가 가야할 곳, 그리고 그들이 졸업한 대학에 관해 더욱 잘 이해하고 있다”라고 말했다.

그에 따르면 기본적으로 블룸버그는 내부 데이터 과학을 위해 통계학자 대신에 정량적 프로그래머(quantitative programmer)의 비중을 지속적으로 높이고 있다.

이제 맨은 이 전략을 한 단계 더 발전시키고 있다. 그는 “과거 우리는 각각의 정량적 프로그래머들이 풀 스택(Full Stack)이어야 한다고 생각했었다. 데이터를 가져다가 정리하고 구조화하며 인프라를 지원하고 머신러닝 모델을 구축하며 배치하고 관리하며 수리하는 것 말이다”라고 설명했다.

그러나 이제 그는 더 작은 규모의 전문가팀이 프로젝트를 진행하기를 원한다고 전했다. 예를 들어, 데이터 엔지니어, 데이터 과학자, 생산 엔지니어가 터미널 내에서 특정 제품을 개발하는 것이다.

한편 그는 업계가 너무 빠르게 변화하고 있기 때문에 최신 기술 트렌드를 따라가기 위해서는 학계와 긴밀한 관계를 유지하는 것이 필수적이라고 말했다.

맨은 출판물을 통해 월별로 게스트 연사를 초청하거나 블룸버그의 자체 학부 보조금 프로그램을 활용하는 등 많은 시간을 들여 학계와 소통하고 있을 뿐 아니라 블룸버그 자체도 기술 직원들에게 컨퍼런스 참여를 독려하고 있다.

그는 “많은 사람들을 학회에 보내고 있으며 그 주된 목적은 그들이 학계에서 벌어지고 있는 일에 대한 경험을 얻고 도전을 받는 것”이라고 말했다. 예를 들어, 블룸버그는 이번 달 뉴욕(New York)에서 열리는 머신러닝 심포지엄(Machine Learning Symposium)에 44명의 직원들이 참석하도록 등록했다.

오픈소스(Open Source)
도구(Tooling)의 측면에서 블룸버그는 데이터 수집, 처리, 검색을 위한 독점 시스템과 벤더에서 벗어나 아파치 스파크(Apache Spark)와 솔러(Solr) 등의 더 많은 오픈소스 솔루션으로 이행하고 있다.

맨은 벤더와 독점 소프트웨어로부터의 전환은 문화적 변화와 같았다고 말했다.

그는 “이 과정에서 직원들은 무료 소프트웨어에 관해 이야기할 때면 ‘맥주 같은 무료가 아니라 강아지 같은 무료’라고 말하곤 했다. 왜냐하면 많은 관심과 관리가 필요하기 때문이다”고 말했다. 그러나 블룸버그의 직원들이 결국 오픈소스 기여와 이로 인한 통제감의 이점을 깨달았다고 그는 덧붙였다.

맨은 “오픈소스는 이미 우리의 사업 방식을 크게 바꿔놨다. 우리는 데이터베이스 기술을 세대를 거듭해가며 처음부터 개발하고 있다”라고 전했다.

그는 이어 “지난 5-10년 동안 하둡과 지금의 스파크 덕분에 완전히 새로운 툴이 생겨났으며 우리는 이들 두 기술에 대대적으로 투자하고 있다. 우리가 H베이스(HBase)에 적극적으로 참여하던 때도 있었지만 우리는 현재 스파크를 매우 공격적으로 활용하고 있다. 우리가 얼리 어답터인지는 모르겠다. 그러나 우리가 올인하고 있음은 분명하다”라고 말했다. ciokr@idg.co.kr 
X