Offcanvas

3D 프린팅 / AI / 개발자 / 오픈소스

어떤 LLM이 더 낫지?··· 아서, AI 모델 비교·분석 도구 ‘아서 벤치’ 오픈소스로 출시

2023.08.18 이지현  |  CIO KR
머신러닝 모니터링 스타트업 아서(Arthur)가 생성형 AI 모델을 비교해주는 ‘아서 벤치(Arthur Bench)’를 오픈소스 형태로 17일 공개했다. 

아서 벤치는 아서 벤치는 오픈AI, 엔트로픽, 메타 등이 공개한 AI 모델의 수준 및 장단점을 분석해주는 도구다. 아서에 따르면 기업은 모든 애플리케이션에 최고급 또는 고가의 LLM이 필요한 것은 아니며, 일부는 더 저렴한 AI 모델로도 동등하게 작업을 수행할 수 있다. 아서는 기업이 보다 간편한 방식으로 작업에 따라 적절한 모델을 선택할 때 아서 벤치를 사용할 수 있게 지원할 예정이다. 
 
아서 벤치 예시 ⓒ 아서

예를 들어 아서는 자체적으로 모델을 비교 분석하는 ‘GAP(The Generative Assessment Project)’라는 연구 프로젝트를 운영한 결과, '신뢰성'을 중요한 영역에서는 앤트로픽이 오픈AI의 비해 약간의 우위를 점하고 있다는 사실을 발견했다. 수학 문제 답을 구할 때는 오픈AI의 GPT-4가 우수하지만, 역사 문제 답을 찾을 때는 앤트로픽의 클로드-2(Claude-2) 모델이 이 더 낫다는 것이다. 클로드-2가 환각 현상을 피하고 답하기 어려운 문제는 적절하게 ‘모르겠다’라고 출력하기 때문이다.

아서 공동 설립자 겸 CEO 아담 웬첼(Adam Wenchel)은 공식 보도자료를 통해 “GAP 연구에서 명확히 알 수 있듯이, LLM 간의 성능 차이를 이해하면 엄청난 차이를 가져올 수 있다. LLM 제공업체 간의 차이점, 다양한 프롬프트 사용 및 확대 전략, 맞춤형 학습 구조를 깊이 이해할 수 있도록 아서 벤치를 오픈 소스 형태로 만들었다”라고 설명했다. 

아서 벤치 사용자는 아서가 제시한 기본 기준을 가지고 모델을 평가할 수 있으며, 필요한 경우 기업이 직접 특정 조건을 추가해 비교 분석할 수도 있다. 웬첼은 테크크런치와의 인터뷰에서 “고객은 특정 애플리케이션에 가장 적합한 모델이 무엇인지 고민된다고 자주 말했으며, 아서 벤치가 이에 대한 해결책이 될 것이라고 생각한다”라며 “100개의 질문을 여러 AI 챗봇에 입력하고 결과가 어떻게 다른지 직접 볼 수 있다”라고 설명했다
jihyun_lee@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.