Offcanvas

AI / 머신러닝|딥러닝

칼럼 | 자체 LLM 구축 시 따져봐야 할 질문 5가지

2024.02.29 Gokcen Tapkan  |  InfoWorld
비즈니스 리더는 기업과 주주를 위한 최상의 성과를 도출하기 위해 비즈니스 전략에 생성형 AI를 도입할 최선의 방법을 찾느라 분주하다. 가트너에 따르면, 비즈니스 리더 38%는 고객 경험과 유지가 생성형 AI에 투자하는 가장 큰 목적이라고 답했다. 생성형 AI를 비즈니스 미래를 위한 필수 요소로 인식하는 것이다. 그러나 생성형 AI가 아무리 매력적이라 해도 AI 전략을 수립하기 전에 LLM이 과연 비즈니스에 맞는 선택인지 여부를 고려하는 것이 중요하다. 
 
ⓒ Getty Images Bank

기성품 LLM의 경우 손쉽게 곧바로 접근할 수 있지만, 산업별 컨텍스트가 부족한 지나치게 일반화된 고객 경험, 모델 임베딩을 아웃소싱하는 데 따르는 비용 증가, 데이터를 외부에 공유하는 데서 비롯되는 개인정보 보호 우려 등 효과적으로 사용하기 어려운 측면이 있다. 

내부 AI 모델을 학습시키면 이런 우려를 해소하는 동시에 팀 내에 창의성과 혁신을 촉진해 다른 프로젝트에도 모델을 활용하도록 유도할 수 있다. 도메인별 AI가 필요하다고 결론을 내렸다면, 내부적으로 자체 모델을 만드는 여정에 착수하기 전에 다음과 같은 5가지 중요한 질문을 던져야 한다.
 

1. 비즈니스 문제가 무엇이고 AI가 그 문제를 어떻게 해결하는가? 

파운데이션 모델과 LLM의 세계로 깊이 들어가기 전에, 한 걸음 물러나서 해결하고자 하는 문제를 짚어본다. 문제를 파악한 다음에는 어떤 자연어 작업이 필요한지 판단하는 것이 중요하다. 예를 들어 요약, 명명된 개체 인식, 의미론적 텍스트 유사성, 질문 응답 등이 있다. 

다운스트림 작업과 도메인 인식은 사과와 배처럼 서로 다른 영역이므로 차이점을 아는 것이 중요하다. GPT, 라마(Llama), PaLM과 같은 LLM 모델은 널리 사용되지만 사실 퓨샷(few-shot) 프롬프트 또는 부가적인 미세 조정이 포함된 다운스트림 작업에만 적합하다(질문 응답, 요약 등). 파운데이션 모델은 더 넓은 범위의 컨텍스트에서도 작동할 수는 있지만, 대부분 애플리케이션에서 유용성을 갖추는 데 필요한 산업 또는 비즈니스별 도메인 전문 지식은 부족하다. 다운스트림 작업에서 좋은 결과를 달성한다고 해서 특정 산업에 대한 도메인 인식이 가능하다는 것을 의미하지는 않는다.
 

2. 사용 가능한 산업별 AI 툴이 이미 있는가? 

AI 전략의 연구 단계에서 기존 툴을 면밀히 평가하는 것이 중요하다. 이들 툴 중에는 산업용이라고 해도 여전히 특정 비즈니스에 관한 구체적인 데이터가 부족할 수 있기 때문이다. 사용 가능한 툴을 감사할 때는 AI 모델이 프롬프트의 의미를 잘 파악하고 사용자 관점에서 관련성 있는 응답을 생성할 수 있도록 컨텍스트, 그리고 원하는 언어로 된 단어를 잘 이해하는지 확인하는 데 초점을 둬야 한다. 

2년 전 필자가 소속된 서드파티 위험 관리 업체 블랙 카이트(Black Kite)는 연구 및 테스트를 거친 결과, 서드파티 위험에 특화된 강력한 사이버보안 LLM이 없다는 사실을 발견했고 사이버보안에 대한 미세 조정을 위해 BERT 파운데이션 모델을 선택했다. 

또한 AI 모델을 구축하는 과정에서 사이버보안 도메인 내의 다양한 텍스트를 분석하면서 결과가 일관적으로 특정 범위 안에 들어온다는 점을 확인했다. 블랙 카이트가 채택한 파운데이션 모델은 이런 텍스트를 동질적인 것으로 인식하고, 동일한 도메인 내의 기원에 기인하는 것으로 판단했기 때문이다. 블랙 카이트는 사이버보안 산업의 컨텍스트와 뉘앙스를 제공하는 데 많은 노력을 기울였고 결과적으로 이런 노력은 도메인 인식 부족 문제를 해결하는 데 도움이 됐다. 

컨텍스트 역시 필수적이다. 지금도 생성형 AI는 특정 사안에 대해 환각을 일으킬 수 있으므로 있는 그대로 100% 신뢰해서는 안 되기 때문이다. 이런 문제는 바이든-해리스 행정부가 안전하고 신뢰할 수 있는 AI에 대한 행정 명령을 내린 대표적인 이유다. 정부 기관은 서비스형 AI 툴을 사용하기 전에 그 서비스가 안전하고 신뢰할 수 있는지를 확인해야 하는데, 일련의 예시 출력을 살펴보는 것만으로는 일반적으로 명확하게 파악할 수 없다. 또한 바이든-해리스 행정부의 행정 명령은 민간 분야 기업에는 적용되지 않지만, 이와 비슷한 정책을 도입해야 하는 기업이라면 마찬가지로 고려해야 한다. 

내부 모델의 학습 및 미세 조정 프로세스에는 철저한 테스트, 약점 식별, 모델 분석이 포함된다. 상당히 오래 걸리는 작업이지만 장기적으로 보면 그만한 가치가 있다.
 

3. 데이터는 준비되었는가? 

자체 LLM 학습에 앞서 평가해야 할 가장 중요한 자산은 기업의 데이터다. 장기간 동안 고품질 데이터를 축적한 기업은 오늘날 LLM 시대에 가장 운이 좋은 기업이다. 학습, 테스트, 재학습, 베타 테스트를 포함한 거의 모든 단계에 데이터가 필요하기 때문이다. LLM 학습에서 고품질 데이터는 성공을 위한 핵심이므로 세 번째 질문의 실질적인 의미를 고려하는 것이 중요하다. 답은 물론 작업과 도메인에 따라 바뀌지만, 준비된 데이터에 대한 일반적인 규칙은 선별 작업이 최소화되고 재학습 필요성이 적은 데이터다.  

기업은 LLM 학습 여정을 시작하면 일반적으로 여러 면에서 데이터가 준비되지 않았음을 알게 된다. 데이터에 노이즈가 너무 많거나, 전문가의 역량 부족 또는 전문가에게 부여된 시간의 부족으로 인해 레이블이 제대로 지정되지 않았을 수도 있다. 또는 학습 프로세스에 거의 아무런 가치도 제공하지 않고 도메인이나 작업을 완전히 나타내지 않는 숨은 반복이 데이터에 포함될 수 있다. 결과적으로 AI 모델은 과적합 상태가 된다. 

데이터 정리에 가장 많은 시간이 걸리므로 자칫하면 데이터가 프로젝트의 병목 지점이 되기 쉽다는 점을 알아야 한다. 데이터가 진정한 의미에서 AI에 맞게 준비되기까지는 몇 년이 걸릴 수도 있다.
 

4. AI 모델을 학습시킬 전문가가 충분한가? 

전문가는 데이터 생성과 데이터 품질 판단에서 중요한 역할을 한다. 학습 프로세스에 사용될 신뢰할 수 있는 데이터를 생성하기 위해서는 여전히 인간이 필요하기 때문이다. 합성 생성된 데이터 집합도 존재하지만, 이런 데이터 집합은 인간 전문가의 평가와 심사를 거쳐야 유용성을 갖출 수 있다. 

내부 전문가든 아웃소싱 전문가든 전문가를 선택할 때는 모델을 미세 조정하기 위한 깊은 산업 지식을 갖췄는지 확인해야 한다. 더 구체적으로는 데이터에 레이블을 지정하고 데이터에 대한 피드백을 제공하고 데이터를 테스트하고 피드백을 기반으로 재학습을 실행할 전문가가 필요하다. 이는 학습된 AI 모델에서 정확하고 신뢰할 수 있는 결과를 얻기 위한 과정에서 중요한 부분이다.
 

5. 시간 제약이 있는가? 

내부 AI 모델 학습은 비용이 많이 들고 기간도 오래 걸린다. 비즈니스 문제, 즉시 가용한 데이터의 품질, 참여하는 전문가와 AI 엔지니어 인원 등이 모두 프로젝트 기간과 품질에 영향을 미친다. 이 프로세스는 시행착오에 의존하므로 솔루션을 사용할 수 있게 되기까지는 본질적으로 긴 시간이 걸릴 수밖에 없다. 

데이터에서 비롯되는 문제 외에, 학습 알고리즘의 초매개변수를 설정할 때 발생할 수 있는 다른 과제, 예를 들어 학습률, 에포크의 수, 레이어의 수 등도 있다. 테스트 단계에서 명확히 드러나는 과적합 및 심각한 망각 문제를 해결하기 위해 AI 전문가가 리엔지니어링을 해야 할 수도 있는데, 이런 경우 프로젝트 시간은 더욱 늘어난다. 

프로세스를 세심하게 계획하면 스트레스가 줄어들지만 새 LLM 솔루션이 등장하면서 내 솔루션이 구식이 될 위험은 상존한다. 결국 관건은 도메인의 특수함과 틈새에 있다. AI 기술의 빠른 발전 속도를 감안해 타이밍과 품질 사이에서 균형을 추구해야 한다. 

많은 혁신적인 솔루션이 그렇듯이 모든 경우에 맞는 한 가지 접근 방식은 없다. 회사의 AI 여정을 시작할 때 첫 번째 단계는 회사 비즈니스에 맞는 모델에 대한 여러 옵션을 저울질하는 것이다. 비즈니스 리더에게 LLM을 처음부터 새로 학습시키는 일은 어렵게 느껴질 수 있지만, 가용한 데이터가 있고 일반적인 LLM이 해결하지 못하는 도메인 특유의 "비즈니스 문제"가 있다면 장기적으로 투자할 가치가 있다. 

 *Gokcen Tapkan은 Black Kite의 데이터 리서치 디렉터다.
editor@itworld.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
LLM
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.