Offcanvas
기업이 저품질 데이터를 사용해서 한해동안 입는 손실
1290만
달러
자료 제목 :
데이터 품질을 높이는 방법
How to Improve Your Data Quality
자료 출처 :
Gartner
원본자료 다운로드
발행 날짜 :
2021년 07월 14일

AI / 디지털 트랜스포메이션 / 머신러닝|딥러닝

칼럼 | AI 중심 데이터 전략에서 따져봐야 할 4가지

2024.01.23 Martin De Saulles  |  CIO
충분한 양의 신뢰성 높고 시기적절한 데이터를 확보하는 것이 기업의 주요 과제가 되고 있다. 그러한 데이터로 AI 기반 비즈니스 혁신을 성공적으로 구현할 수 있기 때문이다.
 
ⓒ Getty Images Bank

많은 기업이 데이터 중심 가치를 추구하면 컴퓨터과학 분야에서 유명한 ‘쓰레기를 넣으면 쓰레기가 나온다(Garbage in, garbage out, GIGO)’ 표현의 가치가 더 주목받고 있다. 많은 비즈니스 프로세스에 AI가 적용됨에 따라 내부 데이터 외부 데이터든 사용되는 데이터의 정확성과 적시성을 확보해야 할 필요성이 더욱 커지고 있는 셈이다.

잘못된 데이터로 인한 비용
가트너는 기업이 저품질 데이터를 사용함으로써 연평균 1,290만 달러의 손실을 입는다고 추정했다. IBM은 불량 데이터로 인해 미국 경제가 연간 3조 달러 이상의 손해를 입는다는 분석했다. 이러한 비용의 대부분은 기업 내에서 데이터가 부서 간 이동하면서 데이터를 확인하고 수정하는 작업과 관련되어 있다. IBM은 지식 근로자의 시간 중 절반이 이러한 활동에 낭비되고 있다고 설명했다.

내부 비용 외에도 잘못된 데이터나 오해의 소지가 있는 데이터를 사용하면 조직이 잘못된 결정을 내릴 수 있고, 이로 인해 고객, 규제 기관, 공급업체로부터 신뢰를 크게 읽을 수 있다. 미국 스포츠 전문 주간지 스포츠 일러스트레이티드는 잡지 콘텐츠로 AI가 생성한 이미지 및 기사를 게재한 사실이 드러난 적 있다. 이 사건으로 스포츠 일러스트레이티드 CEO는 직장을 잃었고, 모기업인 아레나 그룹의 시장 가치는 20% 하락했다. 또한 어느 한 로펌이 법적 분쟁에서 우위를 점하기 위해 AI가 생성한 가짜 판례를 증거로 제출해 구설수에 오른 적 있다.

AI 블랙박스
비용이 많이 들지만, 기업의 의사 결정과 비즈니스 운영에 사용되는 데이터를 확인하고 수정하는 것은 기업 상당수가 자주 시행하던 관행이었다. 그러나 대규모 언어 모델(LLM)이 어떻게 학습되었는지, 어떤 데이터를 기반으로 하며 그 결과물을 신뢰할 수 있는지를 이해하는 것은 쉽지 않은 문제다. 환각 현상 증가율을 고려하면 더더욱 그렇다. 예를 들어, 호주의 한 지역 시장은 환각 현상으로 오픈AI에 소송까지 불사하겠다고 밝힌 상태다. 오픈AI가 챗GPT가 해당 시장이 뇌물 수수 뇌물수수 혐의로 징역형을 선고받았다는 정보를 출력했다는 이유에서다. 실제로 해당 시장은 범죄자가 아닌 범죄와 관련된 내부 고발을 한 사람이었다.

신뢰할 수 있는 데이터로 머신러닝을 훈련하고 반복 질의, 검색 증강 생성, 추론과 같은 접근 방식을 채택하면 환각의 위험을 크게 줄일 수 있다. 다만 이런 방법도 환각 현상을 100% 막을 수 있다고 볼 수 없다.

합성 데이터에 대한 교육
기업은 AI 시스템 구축을 통해 경쟁 우위를 확보하고자 한다. 이때 충분한 성과를 얻으려면 모델 학습 과정에서 충분하고 관련성 있는 자체 데이터를 활용해야 한다. 하지만 많은 기업이 그런 데이터에 접근하지 못한다. MIT, 에버딘 대학 등이 참여해 발표한 연구 논문에 따르면, 현재 추세가 지속된다면 2026년 이전에 LLM 모델 학습에 사용되는 고품질 텍스트 데이터가 고갈될 것이라고 예측했다.

고품질 데이터가 없을 때 해결책은 합성 훈련 데이터의 사용을 늘리는 것이다. 가트너는 2030년까지 합성 데이터가 AI 모델에서 실제 데이터의 사용량을 추월할 것으로 추정했다. 그러나 GIGO 표현으로 돌아가서, 합성 데이터에 지나치게 의존하면 부정확한 결과와 잘못된 의사 결정을 이끌 수 있다. 일명 ‘데이터 근친 교배’로 장기적인 위험이 발생할 수도 있다. AI 모델이 표준 이하의 합성 데이터로 학습하여 결과를 생성한 다음 이를 다시 후속 모델에 피드백하기 때문이다.

신중한 접근
많은 것을 해결해 줄 것만 같은 ‘AI 지니’는 이미 등장했다. 지나치게 낙관적인 기술 공급업체와 컨설턴트들이 약속한 광범위한 디지털 혁명이 일어나려면 시간이 더 걸리겠지만, AI는 우리가 아직 상상할 수 없는 방식으로 비즈니스를 계속 혁신할 것이다. 그러나 기업이 필요로 하는 규모의 신뢰할 수 있고 신뢰할 수 있는 데이터에 대한 접근 과정에서 이미 병목 현상이 발생하고 있으며, CIO와 기타 비즈니스 리더는 너무 늦기 전에 해결 방법을 찾아야 한다.

*저자 마틴 드 사울 박사는 데이터 기반 혁신과 인공 지능에 대한 연구와 저술 활동을 하는 작가이자 학자다.
ciokr@idg.co.kr
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.