칼럼 | 자체 LLM 구축 시 따져봐야 할 질문 5가지

2024.02.29 Gokcen Tapkan | InfoWorld

비즈니스 리더는 기업과 주주를 위한 최상의 성과를 도출하기 위해 비즈니스 전략에 생성형 AI를 도입할 최선의 방법을 찾느라 분주하다. 가트너에 따르면, 비즈니스 리더 38%는 고객 경험과 유지가 생성형 AI에 투자하는 가장 큰 목적이라고 답했다. 생성형 AI를 비즈니스 미래를 위한 필수 요소로 인식하는 것이다. 그러나 생성형 AI가 아무리 매력적이라 해도 AI 전략을 수립하기 전에 LLM이 과연 비즈니스에 맞는 선택인지 여부를 고려하는 것이 중요하다.

기성품 LLM의 경우 손쉽게 곧바로 접근할 수 있지만, 산업별 컨텍스트가 부족한 지나치게 일반화된 고객 경험, 모델 임베딩을 아웃소싱하는 데 따르는 비용 증가, 데이터를 외부에 공유하는 데서 비롯되는 개인정보 보호 우려 등 효과적으로 사용하기 어려운 측면이 있다.

내부 AI 모델을 학습시키면 이런 우려를 해소하는 동시에 팀 내에 창의성과 혁신을 촉진해 다른 프로젝트에도 모델을 활용하도록 유도할 수 있다. 도메인별 AI가 필요하다고 결론을 내렸다면, 내부적으로 자체 모델을 만드는 여정에 착수하기 전에 다음과 같은 5가지 중요한 질문을 던져야 한다.

1. 비즈니스 문제가 무엇이고 AI가 그 문제를 어떻게 해결하는가?

파운데이션 모델과 LLM의 세계로 깊이 들어가기 전에, 한 걸음 물러나서 해결하고자 하는 문제를 짚어본다. 문제를 파악한 다음에는 어떤 자연어 작업이 필요한지 판단하는 것이 중요하다. 예를 들어 요약, 명명된 개체 인식, 의미론적 텍스트 유사성, 질문 응답 등이 있다.

다운스트림 작업과 도메인 인식은 사과와 배처럼 서로 다른 영역이므로 차이점을 아는 것이 중요하다. GPT, 라마(Llama), PaLM과 같은 LLM 모델은 널리 사용되지만 사실 퓨샷(few-shot) 프롬프트 또는 부가적인 미세 조정이 포함된 다운스트림 작업에만 적합하다(질문 응답, 요약 등). 파운데이션 모델은 더 넓은 범위의 컨텍스트에서도 작동할 수는 있지만, 대부분 애플리케이션에서 유용성을 갖추는 데 필요한 산업 또는 비즈니스별 도메인 전문 지식은 부족하다. 다운스트림 작업에서 좋은 결과를 달성한다고 해서 특정 산업에 대한 도메인 인식이 가능하다는 것을 의미하지는 않는다.

2. 사용 가능한 산업별 AI 툴이 이미 있는가?

AI 전략의 연구 단계에서 기존 툴을 면밀히 평가하는 것이 중요하다. 이들 툴 중에는 산업용이라고 해도 여전히 특정 비즈니스에 관한 구체적인 데이터가 부족할 수 있기 때문이다. 사용 가능한 툴을 감사할 때는 AI 모델이 프롬프트의 의미를 잘 파악하고 사용자 관점에서 관련성 있는 응답을 생성할 수 있도록 컨텍스트, 그리고 원하는 언어로 된 단어를 잘 이해하는지 확인하는 데 초점을 둬야 한다.

2년 전 필자가 소속된 서드파티 위험 관리 업체 블랙 카이트(Black Kite)는 연구 및 테스트를 거친 결과, 서드파티 위험에 특화된 강력한 사이버보안 LLM이 없다는 사실을 발견했고 사이버보안에 대한 미세 조정을 위해 BERT 파운데이션 모델을 선택했다.

또한 AI 모델을 구축하는 과정에서 사이버보안 도메인 내의 다양한 텍스트를 분석하면서 결과가 일관적으로 특정 범위 안에 들어온다는 점을 확인했다. 블랙 카이트가 채택한 파운데이션 모델은 이런 텍스트를 동질적인 것으로 인식하고, 동일한 도메인 내의 기원에 기인하는 것으로 판단했기 때문이다. 블랙 카이트는 사이버보안 산업의 컨텍스트와 뉘앙스를 제공하는 데 많은 노력을 기울였고 결과적으로 이런 노력은 도메인 인식 부족 문제를 해결하는 데 도움이 됐다.

컨텍스트 역시 필수적이다. 지금도 생성형 AI는 특정 사안에 대해 환각을 일으킬 수 있으므로 있는 그대로 100% 신뢰해서는 안 되기 때문이다. 이런 문제는 바이든-해리스 행정부가 안전하고 신뢰할 수 있는 AI에 대한 행정 명령을 내린 대표적인 이유다. 정부 기관은 서비스형 AI 툴을 사용하기 전에 그 서비스가 안전하고 신뢰할 수 있는지를 확인해야 하는데, 일련의 예시 출력을 살펴보는 것만으로는 일반적으로 명확하게 파악할 수 없다. 또한 바이든-해리스 행정부의 행정 명령은 민간 분야 기업에는 적용되지 않지만, 이와 비슷한 정책을 도입해야 하는 기업이라면 마찬가지로 고려해야 한다.

내부 모델의 학습 및 미세 조정 프로세스에는 철저한 테스트, 약점 식별, 모델 분석이 포함된다. 상당히 오래 걸리는 작업이지만 장기적으로 보면 그만한 가치가 있다.

3. 데이터는 준비되었는가?

자체 LLM 학습에 앞서 평가해야 할 가장 중요한 자산은 기업의 데이터다. 장기간 동안 고품질 데이터를 축적한 기업은 오늘날 LLM 시대에 가장 운이 좋은 기업이다. 학습, 테스트, 재학습, 베타 테스트를 포함한 거의 모든 단계에 데이터가 필요하기 때문이다. LLM 학습에서 고품질 데이터는 성공을 위한 핵심이므로 세 번째 질문의 실질적인 의미를 고려하는 것이 중요하다. 답은 물론 작업과 도메인에 따라 바뀌지만, 준비된 데이터에 대한 일반적인 규칙은 선별 작업이 최소화되고 재학습 필요성이 적은 데이터다.

기업은 LLM 학습 여정을 시작하면 일반적으로 여러 면에서 데이터가 준비되지 않았음을 알게 된다. 데이터에 노이즈가 너무 많거나, 전문가의 역량 부족 또는 전문가에게 부여된 시간의 부족으로 인해 레이블이 제대로 지정되지 않았을 수도 있다. 또는 학습 프로세스에 거의 아무런 가치도 제공하지 않고 도메인이나 작업을 완전히 나타내지 않는 숨은 반복이 데이터에 포함될 수 있다. 결과적으로 AI 모델은 과적합 상태가 된다.

데이터 정리에 가장 많은 시간이 걸리므로 자칫하면 데이터가 프로젝트의 병목 지점이 되기 쉽다는 점을 알아야 한다. 데이터가 진정한 의미에서 AI에 맞게 준비되기까지는 몇 년이 걸릴 수도 있다.

4. AI 모델을 학습시킬 전문가가 충분한가?

전문가는 데이터 생성과 데이터 품질 판단에서 중요한 역할을 한다. 학습 프로세스에 사용될 신뢰할 수 있는 데이터를 생성하기 위해서는 여전히 인간이 필요하기 때문이다. 합성 생성된 데이터 집합도 존재하지만, 이런 데이터 집합은 인간 전문가의 평가와 심사를 거쳐야 유용성을 갖출 수 있다.

내부 전문가든 아웃소싱 전문가든 전문가를 선택할 때는 모델을 미세 조정하기 위한 깊은 산업 지식을 갖췄는지 확인해야 한다. 더 구체적으로는 데이터에 레이블을 지정하고 데이터에 대한 피드백을 제공하고 데이터를 테스트하고 피드백을 기반으로 재학습을 실행할 전문가가 필요하다. 이는 학습된 AI 모델에서 정확하고 신뢰할 수 있는 결과를 얻기 위한 과정에서 중요한 부분이다.

5. 시간 제약이 있는가?

내부 AI 모델 학습은 비용이 많이 들고 기간도 오래 걸린다. 비즈니스 문제, 즉시 가용한 데이터의 품질, 참여하는 전문가와 AI 엔지니어 인원 등이 모두 프로젝트 기간과 품질에 영향을 미친다. 이 프로세스는 시행착오에 의존하므로 솔루션을 사용할 수 있게 되기까지는 본질적으로 긴 시간이 걸릴 수밖에 없다.

데이터에서 비롯되는 문제 외에, 학습 알고리즘의 초매개변수를 설정할 때 발생할 수 있는 다른 과제, 예를 들어 학습률, 에포크의 수, 레이어의 수 등도 있다. 테스트 단계에서 명확히 드러나는 과적합 및 심각한 망각 문제를 해결하기 위해 AI 전문가가 리엔지니어링을 해야 할 수도 있는데, 이런 경우 프로젝트 시간은 더욱 늘어난다.

프로세스를 세심하게 계획하면 스트레스가 줄어들지만 새 LLM 솔루션이 등장하면서 내 솔루션이 구식이 될 위험은 상존한다. 결국 관건은 도메인의 특수함과 틈새에 있다. AI 기술의 빠른 발전 속도를 감안해 타이밍과 품질 사이에서 균형을 추구해야 한다.

많은 혁신적인 솔루션이 그렇듯이 모든 경우에 맞는 한 가지 접근 방식은 없다. 회사의 AI 여정을 시작할 때 첫 번째 단계는 회사 비즈니스에 맞는 모델에 대한 여러 옵션을 저울질하는 것이다. 비즈니스 리더에게 LLM을 처음부터 새로 학습시키는 일은 어렵게 느껴질 수 있지만, 가용한 데이터가 있고 일반적인 LLM이 해결하지 못하는 도메인 특유의 "비즈니스 문제"가 있다면 장기적으로 투자할 가치가 있다.

*Gokcen Tapkan은 Black Kite의 데이터 리서치 디렉터다.
editor@itworld.co.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기

LLM

Surfshark

“유료 VPN, 분명한 가치 있다” VPN 선택 가이드

VPN (가상 사설 네트워크, Virtual Private Network)은 인터넷 사용자에게 개인 정보 보호와 보안을 제공하는 중요한 도구로 널리 인정받고 있다. VPN은 공공 와이파이 환경에서도 데이터를 안전하게 전송할 수 있고, 개인 정보를 보호하는 데 도움을 준다. VPN 서비스의 수요가 증가하는 것도 같은 이유에서다. 동시에 유료와 무료 중 어떤 VPN을 선택해야 할지 많은 관심을 가지고 살펴보는 사용자가 많다. 가장 먼저 사용자의 관심을 끄는 것은 별도의 예산 부담이 없는 무료 VPN이지만, 그만큼의 한계도 있다. 무료 VPN, 정말 괜찮을까? 무료 VPN 서비스는 편리하고 경제적 부담도 없지만 고려할 점이 아예 없는 것은 아니다. 보안 우려 대부분의 무료 VPN 서비스는 유료 서비스에 비해 보안 수준이 낮을 수 있다. 일부 무료 VPN은 사용자 데이터를 수집해 광고주나 서드파티 업체에 판매하는 경우도 있다. 이러한 상황에서 개인 정보가 유출될 우려가 있다. 속도와 대역폭 제한 무료 VPN 서비스는 종종 속도와 대역폭에 제한을 생긴다. 따라서 사용자는 느린 인터넷 속도를 경험할 수 있으며, 높은 대역폭이 필요한 작업을 수행하는 데 제약을 받을 수 있다. 서비스 제한 무료 VPN 서비스는 종종 서버 위치가 적거나 특정 서비스 또는 웹사이트에 액세스하지 못하는 경우가 생긴다. 또한 사용자 수가 늘어나 서버 부하가 증가하면 서비스의 안정성이 저하될 수 있다. 광고 및 추적 일부 무료 VPN은 광고를 삽입하거나 사용자의 온라인 활동을 추적하여 광고주에게 판매할 수 있다. 이 경우 사용자가 광고를 보아야 하거나 개인 정보를 노출해야 할 수도 있다. 제한된 기능 무료 VPN은 유료 버전에 비해 기능이 제한될 수 있다. 예를 들어, 특정 프로토콜이나 고급 보안 기능을 지원하지 않는 경우가 그렇다. 유료 VPN의 필요성 최근 유행하는 로맨스 스캠은 인터넷 사기의 일종으로, 온라인 데이트나 소셜 미디어를 통해 가짜 프로필을 만들어 상대를 속이는 행위다. 이러한 상황에서 VPN은 사용자가 안전한 연결을 유지하고 사기 행위를 방지하는 데 도움이 된다. VPN을 통해 사용자는 상대방의 신원을 확인하고 의심스러운 활동을 감지할 수 있다. 그 외에도 유료 VPN만의 강점을 적극 이용해야 하는 이유는 다음 3가지로 요약할 수 있다. 보안 강화 해외 여행객이 증가함에 따라 공공 와이파이를 사용하는 경우가 늘어나고 있다. 그러나 공공 와이파이는 보안이 취약해 개인 정보를 노출할 위험이 있다. 따라서 VPN을 사용하여 데이터를 암호화하고 개인 정보를 보호하는 것이 중요하다. 서프샤크 VPN은 사용자의 개인 정보를 안전하게 유지하고 해킹을 방지하는 데 유용하다. 개인 정보 보호 인터넷 사용자의 검색 기록과 콘텐츠 소비 패턴은 플랫폼에 의해 추적될 수 있다. VPN을 사용하면 사용자의 IP 주소와 로그를 숨길 수 있으며, 개인 정보를 보호할 수 있다. 또한 VPN은 사용자의 위치를 숨기고 인터넷 활동을 익명으로 유지하는 데 도움이 된다. 지역 제한 해제 해외 여행 중에도 한국에서 송금이 필요한 경우가 생길 수 있다. 그러나 IP가 해외 주소이므로 은행 앱에 접근하는 것이 제한될 수 있다. VPN을 사용하면 지역 제한을 해제해 해외에서도 한국 인터넷 서비스를 이용할 수 있다. 따라서 해외에서도 안전하고 편리하게 인터넷을 이용할 수 있다. 빠르고 안전한 유료 VPN, 서프샤크 VPN 뛰어난 보안 서프샤크 VPN은 강력한 암호화 기술을 사용하여 사용자의 인터넷 연결을 안전하게 보호한다. 이는 사용자의 개인 정보와 데이터를 보호하고 외부 공격으로부터 사용자를 보호하는 데 도움이 된다. 다양한 서버 위치 서프샤크 VPN은 전 세계 곳곳에 여러 서버가 위치하고 있어, 사용자가 지역 제한된 콘텐츠에 액세스할 수 있다. 해외에서도 로컬 콘텐츠에 손쉽게 접근할 수 있음은 물론이다. 속도와 대역폭 서프샤크 VPN은 빠른 속도와 무제한 대역폭을 제공하여 사용자가 원활한 인터넷 경험을 누릴 수 있도록 지원한다. 온라인 게임, 스트리밍, 다운로드 등 대역폭이 필요한 활동에 이상적이다. 다양한 플랫폼 지원 서프샤크 VPN은 다양한 플랫폼 및 디바이스에서 사용할 수 있다. 윈도우, 맥OS, iOS, 안드로이드 등 다양한 운영체제 및 디바이스에서 호환되어 사용자가 어디서나 안전한 인터넷을 즐길 수 있다. 디바이스 무제한 연결 서프샤크 VPN은 무제한 연결을 제공하여 사용자가 필요할 때 언제든지 디바이스의 갯수에 상관없이 VPN을 사용할 수 있다.

평점 - 댓글 -개

평점