Offcanvas

머신러닝|딥러닝 / 분쟁|갈등 / 비즈니스|경제 / 빅데이터 | 애널리틱스

알고리즘 없이 미래도 없지만… 무엇보다 중요한 건 ‘데이터 정리’

2020.11.16 Marc Ambasna-Jones  |  IDG Connect
알고리즘의 ‘비즈니스 가치’는 무엇인가?

틱톡(TikTok) 매각 협상이 교착 상태에 빠져 있다. 주요 걸림돌은 ‘알고리즘’ 이전 여부다. 지난 8월 중국 정부가 기술 수출 규제 조치를 내놓으면서 틱톡의 추천 알고리즘을 매입하려면 중국 정부의 승인을 받아야 하기 때문이다. 일각에서는 미국에서 사용될 새 알고리즘이 개발될 수도 있다는 전망을 내놓기도 했다. 

도널드 트럼프 美 대통령이 미국의 ‘전적인 틱톡 통제’를 고집한다면 매각 협상은 난항을 거듭할 게 불 보듯 뻔하지만 알고리즘이 없다면 가치가 있을까? 핵심 기술이 빠진 기술 비즈니스에 무슨 의미가 있을까? 
 
ⓒGetty Images

좋든 나쁘든 알고리즘은 일상, 특히 ‘온라인 생활’에서 매일 실행되고 있다. 한 보고서에 따르면 전 세계적으로 매일 2.5퀀틸리언(조의 1만 배, 100경) 바이트의 데이터가 생성되고 있으며, 2020년에는 모든 사람이 매초마다 1.7MB의 데이터를 생성하고 있다. 이렇게 만들어지는 방대한 데이터 그리고 품질 높은 서비스 및 소프트웨어를 바라는 니즈가 결합돼 알고리즘이 생활 속에 자리 잡은 것이다. 

헤드램프 소프트웨어(Headlamp Software)의 CEO 크리스 콜은 “알고리즘의 진정한 비즈니스 가치는 정량화하기 쉽지 않다”라면서, “모든 기업과 고객이 문제에 다르게 접근하기 때문이다. 알고리즘이 항상 정답은 아니다”라고 말했다.  

그는 “여기서 던져야 할 기본적인 질문은 ‘알고리즘이 언제 직접 결정을 내려야 하는가? 그리고 알고리즘이 언제 인간의 판단에 도움을 주는 조언만 줘야 하는가?’다. 인간의 개입을 피하려는 이유는 비용 때문이다. 비용도 더 많이 들고 더 느려진다. 의사결정 과정에서 이를 제거하는 게 효율적이다. 그렇다면 그게 언제 적절한가?”라고 밝혔다. 

콜은 ‘알려진 무지(known unknown)’를 다루기 위해 알고리즘을 고안할 수 있지만 최신 머신러닝 기술은 알고리즘의 매개변수를 최적화할 수 있을 뿐만 아니라 최적화할 매개변수도 결정할 수 있다고 언급했다. 이어서 그는 머신러닝으로 알고리즘을 개선해 까다로운 질문에 답할 수 있도록 하는 것이 자연스러운 발전처럼 보이지만 그렇지 않다며 다음과 같이 지적했다. 

“머신러닝은 가능한 모든 알고리즘을 검토할 수 없다. 알고리즘이 너무 많다. 따라서 머신러닝은 관련될 가능성이 높은 알고리즘으로 검색을 제한한다. 무슨 의미일까? 어림짐작이 있다는 말이고, 그런 이유로 위험하다. 탐색된 알고리즘이 당면한 문제에 관한 해결책을 포함하지 않을 수 있다. 모든 문제를 해결할 수 있는 알고리즘이 없다는 건 증명하기 쉽다. 유일한 해결책은 테스트다. 인간이 관련된 일이다. 즉 비싸다. 원칙적으로 대안은 없다.”

따라서 알고리즘의 비즈니스 가치는 복잡한 문제를 신속하게 해결하는 ‘인텔리전스’와 함께, ‘인적 비용을 절감하는 역량’에 의해 좌우될 수 있다. 이는 이미 데이터 애널리틱스 영역에서 확인되고 있다. 

신디사이즈드(Synthesized)의 창업주이자 CEO인 니콜라이 발딕 박사는 데이터를 수집하고 관리하는 데 비용이 많이 들지만 기업들은 이 프로세스를 처리하기 위해 매년 2백만 달러를 소모하는 것으로 추정된다고 전했다. 그리고 머신러닝 알고리즘은 이 문제를 해결하는 최선의 방법이다. 

발딘은 “단 10분 만에 수백만 개의 데이터 포인트를 고속처리해 특정 시나리오를 이해하고 예측하게끔 학습시켜 더 나은 의사결정을 자동으로 내릴 수 있도록 할 수 있다”라면서, “여기서 데이터는 알고리즘 구축의 기본 요소다. 그리고 데이터 품질은 성능을 결정하는 필수적인 요소다. 대부분의 기업이 데이터세트를 수집, 관리, 프로비저닝하는 효과적인 프로세스가 부족하다는 점을 감안한다면, 알고리즘은 품질이 낮은 데이터로 구축될 가능성이 크다”라고 말했다. 

평판 위험(Reputational risk)
이는 애널리틱스 기능에 관해서는 많이 들어봤지만, 데이터 품질 향상에 대해서는 많이 들어보지 않았다면 흥미로운 지점일 것이다. 데이터 품질 향상은 기본이다. 데이터 품질을 정리하고 데이터 편향을 해결하고자 노력하는 것은 알고리즘 및 머신러닝 애널리틱스를 개발하려는 기업의 주요 목표여야 한다. 

발딘은 “입력된 데이터에 결함이 있다면 알고리즘으로 생성된 결과는 편향될 것”이라면서, “알고리즘을 잘못 사용하면 기업에 심각한 평판 문제를 초래할 수 있다”라고 강조했다. 

올해 초 진행된 한 설문조사에 따르면 데이터 품질은 계속해서 문제가 되고 있으며, 여러 다양한 데이터 소스가 일관성 없는 품질을 제공하고 있다. 만약 데이터가 새로운 원유이자 필수 비즈니스 구성요소라고 한다면, 적어도 현재로서는 그 기초가 약간 불안정한 셈이다. 

따라서 기업이 데이터로 가치를 생성하는 것은 물론 애널리틱스와 역량을 끌어내고 차별화할 알고리즘을 개발하려면 무엇보다 가장 먼저 데이터를 정리한 다음, 그러고 나서 데이터를 관리할 자체 알고리즘을 구축할지 아니면 상용 알고리즘을 구매할지 결정해야 한다. 물론 말하긴 쉽지만 실천하긴 어렵다. 

발딘은 “기술이 빠르게 발전했지만 그래도 알고리즘을 개발하는 건 여전히 쉬운 일은 아니다. 기업이 깊이 있는 지식과 전문 인력을 확보해야 하는 시간 집약적인 과정”이라면서, “AI 프로젝트 비용의 최대 80%는 데이터 수집, 정리, 구성에 쓰일 것으로 추산된다. 서드파티 기술 업체는 필요한 전문 지식을 제공할 수 있으며, 이러한 파트너들은 데이터 과제의 모든 측면을 빠르게 진행할 수 있다”라고 설명했다. 

이를 염두에 두고 다시금 틱톡 매각을 둘러싼 상황을 보면 훨씬 더 흥미로울 것이다. 지적재산권(IP) 분쟁이 새삼스럽진 않지만 핵심 기술을 다시 개발해야 한다면 이 영상 공유 네트워크에 얼마나 미래가 있을지 궁금해진다. 

그렇지 않을 수도 있겠지만 이러한 거래에서 갈수록 분명해지는 사실은 알고리즘이 기본이라는 것이다. 물론 브랜드 명성과 사용자 기반에 액세스할 순 있겠다. 하지만 서비스 품질이 떨어지면 로열티는 무용지물이 된다. 오히려 이 시장에 진입하려는 새로운 플레이어에게는 절호의 기회일지도 모르겠지만 말이다. ciokr@idg.co.kr
 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.