Offcanvas

AI / 머신러닝|딥러닝 / 비즈니스|경제

AWS, 새로운 RAG 평가 접근법 담은 백서 출간··· 전문가 “기업 AI 지출 줄이는 데 유용”

2024.07.04 Anirban Ghoshal   |  Computerworld
AWS가 자동화된 RAG 평가 메커니즘을 설계하는 새로운 방법을 개발해 백서로 출간했다. 전문가에 따르면 이는 기업에서 앱을 더 빠르게 구축하고 비용을 절감하는 데 도움이 될 수 있다.
 
ⓒ Getty Images Bank

자동화된 검색 증강 생성(RAG) 평가 메커니즘을 설계하는 방법에 대한 AWS의 새로운 이론은 생성형 AI 기반 애플리케이션의 개발을 지원할 뿐만 아니라 기업이 컴퓨팅 인프라에 대한 지출을 줄이는 데 유용할 수 있다. 

RAG는 대규모 언어 모델(LLM)이 복잡해질 때 생성되는 임의적이거나 무의미한 응답인 환각(hallucination)을 처리하는 데 사용되는 기술 중 하나다. 특정 쿼리에 대한 응답을 개선하기 위해 외부 지식 소스 또는 리포지토리에서 정보를 공급해 LLM의 근거를 만든다.

포레스터 수석 애널리스트 찰리 다이는 미세 조정이나 프롬프트 엔지니어링 같은 방법도 있지만, RAG가 특히 기업에서 LLM의 환각을 줄이고 생성형 AI를 통해 비즈니스 성과를 창출하는 데 중요한 접근 방식이 됐다고 언급했다.

그러나 다이는 RAG 파이프라인에 다양한 빌딩 블록과 실질적인 엔지니어링 관행이 필요하며, 기업이 RAG 이니셔티브를 가속화하기 위해 점점 더 강력하고 자동화된 평가 접근법을 찾고 있다고 말했다. 그는 AWS의 새로운 백서 내용이 기업의 관심을 끌 만하다고 덧붙였다. 

한편 옴디아(Omdia)의 수석 애널리스트 브래들리 시민은 백서에서 제시된 접근법이 고비용의 미세 조정 작업, 비효율적인 RAG 워크플로우, 컨텍스트 내 학습 과잉(컨텍스트 창을 최대로 사용하는 것)에 의존하지 않고 기업이 RAG를 중심으로 보다 성능과 비용 효율적인 솔루션을 구축하는 데 유용하다고 설명했다.

AWS의 자동화된 RAG 평가 메커니즘이란?
7월 개최 예정인 ICML 컨퍼런스에서 발표될 AWS의 백서 ‘작업별 시험 생성을 통한 검색 증강 언어 모델의 자동화된 평가’는 특정 작업에 대한 RAG 모델의 사실 정확도를 평가하기 위해 문항 반응 이론(IRT)으로 향상된 시험 생성 프로세스를 제안했다.

잠재 반응 이론이라고도 하는 IRT는 일반적으로 심리 측정에서 일련의 수학적 모델을 사용해 관찰할 수 없는 특성과 산출물 또는 반응처럼 관찰 가능한 특성 간의 관계를 파악하는 데 사용된다.

AWS 연구진에 따르면 RAG의 평가는 특정 작업 관련 문서 코퍼스에 기반해 객관식 문제로 구성되고 자동 생성된 종합 시험에서 점수를 매기는 방식이다.

연구원들은 “IRT를 활용해 시험 품질과 과제별 정확도에 대한 정보성을 평가한다. 또한 IRT는 모델의 능력에 대한 정보가 충분하지 않은 시험 문제를 제거해 시험을 반복적으로 개선하는 자연스러운 방법을 제공한다”라고 설명했다.

연구진은 RAG를 평가하는 새로운 프로세스를 아카이브(arXiv) 요약, 스택익스체인지(StackExchange) 질문, AWS 데브옵스 문제 해결 가이드, SEC 제출 자료에 기반한 4개의 새로운 개방형 질의응답 작업에 시도했다고 밝히며, 실험을 통해 크기, 검색 메커니즘, 프롬프트 및 미세 조정과 같은 RAG 성능에 영향을 미치는 요인에 대한 보다 일반적인 인사이트를 발견했다고 설명했다.

유망한 접근 방식
데이터 보안 기업 이뮤타(Immuta)의 AI 전문가인 조 레겐스버그는 AWS 백서에서 논의된 접근 방식 중 특수 테스트가 필요한 특수 파이프라인 문제를 해결하는 것을 포함해 몇 가지 유망한 점이 있다고 밝혔다.

그는 “대부분의 파이프라인이 상용 또는 오픈소스 기성 LLM에 의존하기 때문에 이 점이 중요하다. 모델이 도메인별 지식에 대해 학습되지 않았을 것이므로 기존의 테스트 세트는 유용하지 않을 수 있다”라고 말했다.

다만 그는 AWS의 접근 방식이 유망하긴 하더라도 일반적인 질문이나 적절한 답을 생성하는 것이 아니라 충분히 ‘도전적이고 산만한’ 질문을 생성하는 것이 주요 과제이기 때문에 시험 생성 부분에서는 여전히 발전이 필요하다고 지적했다.

레겐스버그는 자동 생성 질문과 사람이 만든 AP(대학수학능력 시험) 문제를 비교하며 “일반적으로 자동화된 프로세스는 특히 주의를 돌리는 질문의 경우 사람이 생성한 수준을 따라잡기 어렵다. 따라서 더 깊은 논의가 필요한 영역이 주의를 돌리는 생성 프로세스다”라고 말했다. 그에 따르면 AP 시험 문제는 해당 분야의 전문가들이 시험을 준비하는 동안 계속해서 설정하고 검토하며 반복한 뒤 출제한다. 

그는 또 중요한 것이 LLM에 대한 시험 기반 테스트가 이미 존재한다는 점이라고 지적하며 “챗GPT는 표준화된 여러 테스트에 대해 모델의 성능을 측정하고 있다”라고 언급했다. 그는 AWS 논문이 전문적이고 종종 비공개 지식 기반에 대해 시험을 생성할 수 있다고 제안하기 때문에 오픈AI의 전제를 확장한다면서, “이론적으로는 RAG 파이프라인이 어떻게 새롭고 전문적인 지식으로 일반화될 수 있는지 평가하게 될 것”이라고 말했다.

한편 옴디아의 시민은 AWS, 마이크로소프트, IBM, 세일즈포스를 비롯한 여러 공급업체가 이미 라마인덱스(LlamaIndex) 같은 기본 자동화 도구부터 마이크로소프트가 새로 출시한 그래프RAG(GraphRAG)와 같은 도급 도구에 이르기까지 RAG 구현을 최적화하고 개선하는 데 초점을 맞춘 도구 또는 프레임워크를 제공하고 있다고 지적했다.

최적화된 RAG 대 초대규모 언어 모델 
AWS 연구진은 백서에서 올바른 검색 알고리즘의 선택이 단순히 더 큰 LLM의 사용보다 성능을 더 향상시키는 경우가 많다면서, 후자의 경우 비용도 많이 들 수 있다고 언급했다.

시민은 구글 제미나이 플래시(Gemini Flash)의 ‘컨텍스트 캐싱’ 같은 기술이 최근 발전하면서 기업이 RAG 파이프라인의 일부로 까다로운 토큰화, 청킹 및 검색 프로세스를 구축할 필요성을 쉽게 피할 수 있지만, 이런 접근 방식으로 지연 시간을 피하려다 컴퓨팅 리소스를 추론하는 데 더 많은 비용을 지출하게 할 수 있다고 말했다.

그는 “AWS의 IRT와 같은 기술은 RAG의 까다로운 측면 중 하나인, 검색된 정보를 모델에 보내기 전에 효과를 측정하는 데 유용할 수 있다”라면서, 이런 최적화가 준비되면 기업이 모델에 모든 정보를 한 번에 보내지 않고 최상의 정보를 전송함으로써 추론 오버헤드를 더 잘 최적화할 수 있다고 설명했다.

한편 포레스터의 다이는 모델 규모가 기반 모델의 성능에 영향을 미치는 한 가지 요소일 뿐이라고 말했다. 그는 “기업은 기술 역량(모델 양식, 모델 성능, 모델 조정, 모델 적응), 비즈니스 역량(오픈소스 지원, 비용 효율성, 로컬 가용성), 에코시스템 역량(프롬프트 엔지니어링, RAG 지원, 에이전트 지원, 플러그인 및 API, 모델옵스)을 아우르는 체계적인 접근 방식을 취해 파운데이션 모델을 평가해야 한다”라고 말했다. ciokr@idg.co.kr
 
 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.