Offcanvas

AI / 머신러닝|딥러닝

“LLM 수준 비교·분석하세요”··· S&P, LLM 벤치마크 도구 및 순위 공개

2024.04.05 이지현  |  CIO KR
S&P 글로벌이 대규모 언어 모델(LLM)의 수준을 평가할 때 쓰는 ‘S&P AI 벤치마크 바이 켄쇼 프로젝트(이하 S&P AI 벤치 마크)’를 베타버전으로 4월 3일 출시했다. 동시에 주류 LLM의 수준을 분석하고 관련 순위를 공개했다.
 
ⓒ S&P 글로벌

S&P AI 벤치 마크는 ▲추론 능력 ▲문제 해결 능력 ▲비즈니스 이해 수준 ▲재무 정보 추출 역량 등을 기준으로 LLM을 평가 및 분석하는 도구다. S&P에 따르면, 해당 AI 벤치마크는 학계, 연구원, 산업별 전문가, S&P 글로벌 내 금융 전문가의 의견을 반영해 자체적인 검증 과정을 거쳐 개발됐다. 또한 기존 벤치마크 도구에 비해 ‘금융 및 비즈니스’ 조직에서 유용하게 활용할 수 있는지를 중점적으로 분석해 점수를 매겨준다.

S&P AI 벤치마크는 사용자가 입력한 내부 데이터는 공개하지 않고, 분석 결과만 내놓는다. 평가 결과는 일종의 순위표인 ‘리더보드’에 추가된다. 단, 사용자가 분석 결과를 외부에 공개하고 싶지 않을 때는 리더보드에서 정보를 삭제할 수 있다. 현재 공개된 리더보드에서는 오픈AI, 앤트로픽, 미스트랄AI의 LLM의 모델이 상위에 올라와 있다. S&P 글로벌은 이러한 리더보드로 많은 기업이 LLM 이해도를 높이고 혁신을 도모할 수 있을 것으로 기대했다.

S&P 글로벌의 최고 AI 책임자이자 켄쇼의 CEO인 바베시 다얄지는 “사내 도구로 개발한 S&P AI 벤치 마크를 고객에게 제공하고자 한다”라며 “생성형 AI와 LLM이 상품과 서비스 전반에 걸쳐 널리 보급됨에 따라 정확성과 신뢰성을 최우선으로 유지하는 것이 매우 중요한 상황이다. S&P AI 벤치마크로 고객이 보다 신뢰할 수 있는 솔루션을 구축할 수 있을 것”이라고 밝혔다.

S&P AI 벤치마크를 개발한 켄쇼는 S&P 글로벌이 2018년 인수한 기업이다. S&P 글로벌은 켄쇼의 기술력을 바탕으로 머신러닝, 자연어 처리, 데이터 검색 기술을 기반으로 한 솔루션을 개발하고 있다.

S&P 글로벌은 “리더보드 순위 및 결과는 관련 LLM의 정확성, 성능 또는 신뢰성을 보장하지 않는다”라며 “벤치마크 결과는 정보 제공만을 목적으로 하며 조언이나 권장 사항이 아니다”라고 강조했다.
jihyun_lee@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.