Offcanvas

AI / 데이터센터 / 머신러닝|딥러닝 / 신기술|미래

기고 | 증가하는 AI 데이터세트… 데이터 엔지니어링 및 관리에 미치는 영향

2024.01.16 Ashwin Rajeeva  |  InfoWorld
AI 학습을 위한 데이터세트가 점점 증가하면서 데이터 엔지니어에게 큰 도전이 되고 있다. 또한 모델 자체에도 위험이 되고 있다. 이제는 더 작은 데이터세트를 큐레이션하고 관리하는 데 초점을 맞춰야 할 때다.
 
ⓒ Getty Images Bank

2000년대 초반의 챗봇부터 최신 GPT-4 모델에 이르기까지 생성형 AI는 기술 업계 안팎의 삶에 스며들고 있다. 마이크로소프트, 구글, 아마존 등 거대 기업들은 AI 솔루션 R&D에 수백만 달러를 투자하고 있다. 2017년부터 2022년 사이 전 세계적으로 AI 기술 채택이 2배 이상 증가했다는 사실은 더 이상 놀랍지 않다.

그렇다면 지난 5년간 AI 개발 과정에서 정확히 어떤 변화가 있었을까? 엔지니어링 관점에서 볼 때 AI 발전은 일반적으로 3가지 범주에서 이뤄졌다.

1. 모델: 눈에 띄는 변화는 트랜스포머 모델의 개발과 그에 따른 GPT-3 및 GPT-4 등 대규모 모델의 발전이다. 자연어 처리(NLP) 모델 학습의 확장성 한계는 병렬화와 맥락을 고려하고 입력 시퀀스의 여러 부분에 우선순위를 부여하는 트랜스포머 모델의 어텐션 메커니즘(attention mechanism)으로 극복했다.

2. 관리 도구: 데이터 엔지니어링 분야는 빠르게 확장되는 데이터세트와 고급 강화 학습 알고리즘에 대응하기 위해 발전해 왔다. 즉, 데이터를 수집, 정리, 활용하기 위해 더 정교한 데이터 파이프라인이 활용되고 있다. 또한 기능 선택, 하이퍼파라미터 튜닝, 머신러닝 연산(ML옵스) 개념 등 모델 개발의 여러 측면을 자동화하는 자동화된 머신러닝(오토ML) 도구가 등장하고 있다. ML옵스는 배포된 모델을 지속적으로 개선할 수 있도록 모델 모니터링, 관리 및 버전을 개선하는 솔루션을 도입하고 있다.

3. 연산 및 저장: 예상할 수 있듯이 고급 모델과 툴링은 데이터 처리 속도를 높이기 위해 GPU와 TPU를 비롯한 고성능 하드웨어를 필요로 한다. 물론 데이터는 저장할 곳이 필요하기 때문에 방대한 양의 데이터를 처리하고 분석할 수 있는 고성능 데이터 스토리지 솔루션도 등장하고 있다.

AI와 머신러닝은 이제 더 많은 학습 데이터를 사용할 수 있게 되면서 그 어느 때보다 효과를 드러내고 있다. 그렇다면 데이터 엔지니어와 의사 결정권자가 여전히 데이터 품질과 모델 성능에 어려움을 겪는 이유는 무엇일까?

데이터 부족에서 풍요로
초기 AI 개발의 가장 큰 어려움은 데이터의 부족이었다. 적절하고 관련성이 높으며 다양한 데이터를 구하기 어려웠고, 이러한 한계로 인해 AI 개발은 종종 병목 현상을 겪었다.

지난 5년 동안 오픈 데이터 이니셔티브와 자동화된 데이터 수집이 급증했다. 이로 인해 AI에 사용할 수 있는 데이터의 양이 급증했고, 그 결과 이전의 한계가 ‘풍요의 역설’을 낳게 됐다. 데이터 격차를 해소하기 위해 활용되는 오픈소스 정보와 AI 증강 데이터세트가 엔지니어들에게 예상치 못한 새로운 과제를 남긴 것이다. 또한 생성형 AI를 발전시키는 데 매우 중요한 대규모 데이터의 가용성은, 동시에 예기치 못한 문제와 복잡성을 야기하고 있다.

데이터가 많을수록 문제도 많아지는가?
방대한 양의 데이터는 더 이상 순전히 유익하지 않다. 실제로 더는 AI를 개선하는 최선의 방법이 아닐 수도 있다. 대규모 데이터세트는 본질적으로 테라바이트에서 페타바이트 이상에 이르는 막대한 양의 데이터를 포함하고 있다. 이러한 데이터를 관리, 저장, 처리하려면 분산 컴퓨팅 시스템, 확장 가능한 스토리지 솔루션, 효율적인 데이터 처리 프레임워크 등 정교한 엔지니어링 솔루션이 필요하다.

엔지니어들은 데이터의 양 외에도 데이터세트가 생성, 처리, 분석되는 속도가 너무 빨라 어려움을 겪는다. 이러한 속도 증가와 대규모 데이터세트의 복잡성(중첩 구조, 고차원성, 난해한 관계 등)으로 인해 정교한 데이터 모델링, 변환, 분석 기술이 요구된다.

대규모 데이터세트의 과제
거의 불가능에 가까운 균형 잡기 작업은 당연히 엔지니어에게 수많은 문제를 남긴다. 기술 담당 임원은 데이터세트가 증가함에 따라 다음과 같은 문제가 발생한다고 보고했다.

1. 정보 과부하: 엄청난 양의 데이터를 감당하기 어려울 수 있다. 데이터세트가 방대해지면 관련성이 있거나 가치 있는 정보를 식별하기 어려워진다. 이 문제는 관련성이 없거나 모호한 데이터로 인해 의미 있는 인사이트를 추출하는 데 어려움을 겪는 파이프라인 전반에서 발생한다.

2. 복잡성 증가: 데이터가 많아진다는 것은 정교하고 계산 집약적인 개발과 최적화가 필요한 복잡하고 고차원적인 데이터 집합을 처리해야 한다는 의미다.

3. 품질 저하: 대규모 데이터세트에 모호성이나 복잡성이 발생하면 모델은 과적합(overfitting)을 통해 이를 보완하는 경향이 있다. 과적합은 모델이 노이즈와 이상값 등의 학습 데이터를 너무 잘 학습해 보이지 않는 데이터에 대해 더 이상 정확한 결과를 생성하지 못할 때 발생한다. 기본적으로 모델이 학습 대신 암기를 시작하기 때문에 데이터 품질과 정확성을 보장하기가 매우 어려워진다.

4. 새 리소스 한계: AI 분야의 연산 능력은 계속 발전하고 있지만, 기업들은 모델 학습 시 리소스의 한계에 직면하고 있다. 학습 시간이 길어질수록 적절한 처리 능력과 스토리지가 필요하기 때문에 개발자와 연구자들은 물류와 재무상의 어려움을 겪기 쉽다. 잘 알려지지 않았지만, AI 발전에는 빅데이터와 AI 시스템을 관리할 수 있는 전문가들의 기술 격차가 커지는 등 인간 중심 문제도 뒤따르고 있다.

대규모 데이터세트의 양, 속도, 다양성, 복잡성 때문에 고급 데이터 엔지니어링 솔루션이 필요하다. 리소스 제약에 맞서 품질을 유지하는 데는 데이터 관리만이 효과적이고 효율적이며 안전한 데이터 모델을 보장할 수 있는 유일한 방법이다. 

AI 학습을 위한 데이터세트 재고
이제 그 어느 때보다 대규모 학습 데이터세트에는 고급 데이터 엔지니어링 솔루션이 필요하다. 적절한 데이터 관리는 불일치부터 모델 성능에 이르기까지 다양한 데이터 품질 문제를 해결할 수 있다.

하지만 대규모 데이터세트를 관리하는 가장 좋은 방법이 이를 작게 만드는 것이라면 어떨까? 현재 대규모 언어 모델(LLM)을 개발할 때 작은 데이터세트를 활용해 더 나은 특징 표현력을 도모하고 모델 일반화를 향상시키려는 움직임이 활발하다. 선별된 소규모 데이터세트는 관련 특징을 더 뚜렷하게 표현하고 노이즈를 줄여 모델 정확도를 향상할 수 있다. 이러한 방식으로 대표 특징을 강조하면 모델도 더 잘 일반화되는 경향이 있다.

데이터세트가 작을수록 머신러닝 모델에서 과적합을 방지하는 데 사용되는 기술인 정규화(regularization)에서 중요한 역할을 하며, 이를 통해 모델이 보이지 않는 데이터를 더 잘 일반화할 수 있다. 다시 말해 데이터세트가 작을수록 더 복잡한 모델의 경우 과적합의 위험이 더 높은데, 모델이 학습 데이터에 너무 밀착되지 않고 새로운 데이터를 일반화할 수 있도록 하기 위해 정규화가 매우 중요하다. 

예상 가능하듯 데이터 정확도는 데이터세트가 작을수록 중요하다. 데이터를 정규화하고 균형을 맞추는 것 외에도 엔지니어는 적절한 모델 검증을 보장해야 하며 종종 모델 자체를 재검토해야 한다. 의사 결정 트리 정리, 신경망에서 드롭아웃 사용, 교차 검증과 같은 기술을 모두 사용해 데이터를 더 잘 일반화할 수 있다. 하지만 결국에는 학습 데이터의 품질이 결과의 성패를 좌우한다.

큐레이션 및 관리로 초점 전환
엔지니어링 관리자와 경영진은 이제 데이터의 다양성과 관련성을 극대화하고 노이즈를 최소화하기 위해 데이터세트를 큐레이팅하고 관리하는 데 집중해야 한다. 잘 관리된 데이터세트는 더 나은 모델 학습에 기여할 뿐만 아니라 연구자와 개발자가 새로운 모델과 기술을 탐색하도록 지원해 혁신을 촉진한다. 데이터를 효과적으로 관리하고 품질을 보장하는 기업은 우수한 AI 모델을 개발해 경쟁 우위를 확보할 수도 있다. 이러한 모델은 고객 만족도를 높이는 동시에 경영진의 더 나은 의사 결정 프로세스를 지원한다.

풍요의 역설은 너무 많은 정보로 인해 발생하는 내재적 위험과 과제를 의미한다. 생성형 AI는 관리와 처리에 초점을 맞추고 있으며, 이러한 이유로 포괄적인 통합 가시성 및 분석 솔루션에 주목하고 있다. 데이터 엔지니어와 의사 결정권자가 올바른 도구를 사용하면 작업하는 데이터 집합의 규모에 관계없이 보다 의미 있는 모델을 개발할 수 있다.

* Ashwin Rajeeva는 액셀데이터(Acceldata)의 공동 설립자이자 CTO다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.