Offcanvas

AI / 머신러닝|딥러닝

AI도 헌법같은 보편적 원칙 필요··· 앤트로픽, ‘클로드 헌법’ 전문 공개

2023.05.10 이지현  |  CIO KR
오픈AI의 경쟁 기업인 앤트로픽(Anthropic)이 자사 AI 모델이 반드시 따라야 할 원칙을 ‘클로드 헌법’이라는 이름으로 9일 공개했다. 앤트로픽은 이를 통해 보다 윤리적이고 안전한 AI를 만들 수 있을 것이라고 기대하고 있다. 
 
앤트로픽은 오픈AI에서 리서치 부서 부사장을 역임했던 다니엘라 아모데이와 다리오 아모데이가 2021년 설립한 기업이다. 오픈 AI와 유사하게 연구 중심의 기업이며, 책임 있는 AI 기술을 만드는 것을 목표로 두고 있다. 또한 챗GPT의 경쟁 서비스인 ‘클로드(Claude)’를 개발했으며, 구글에게 3억 달러(3,997억원)을 투자받기도 했다. 

앤트로픽은 특히 AI의 문제점을 AI가 스스로 검증하고 고치기 위한 시스템을 만들고 있으며 이를 ‘헌법 중심 AI(Constitutional AI)’라고 부르고 있다. 앤트로픽은 이런 시스템으로 AI의 윤리성을 강화하는 동시에 AI가 모호한 답변을 주는 현상을 줄일 수 있을 것이라고 기대하고 있다. 

앤트로픽은 “AI가 어떤 행동은 부적절하고 괜찮은지 결정하려면 스스로 추구해야 하는 ‘가치’가 있어야 한다”라며 “헌법 중심 AI는 대규모 인간 피드백을 통해 암묵적으로 결정되는 가치 대신 헌법에 의해 결정되는 명시적 가치를 언어 모델에 부여함으로써 한 가지 해답을 제시한다. 이 접근 방식이 완벽한 것은 아니지만, AI 시스템의 값을 더 쉽게 이해하고 필요에 따라 쉽게 조정할 수 있다”라고 설명하고 있다. 
 
AI 헌법을 적용 전 클로드 답변(왼쪽)과 적용 후 클로드 답변(오른쪽).  ⓒ 앤트로픽

다시 말해 앤트로픽의 헌법은 클로드가 지켜야 할 일련의 가치와 원칙이 요약되어 있다. 민감한 주제를 어떻게 다뤄야 하는지, 사용자의 프라이버시를 어떻게 존중하고, 불법적인 행동을 어떻게 피할 수 있을지 알려주는 식이다. 인간 사회가 ‘헌법’에서 추구하는 가치를 최우선적으로 고려하는 것처럼, AI 모델도 헌법 원칙을 고수해 결과를 만들도록 유도하는 셈이다. 구체적으로 다음과 같은 원칙이 클로드 헌법에 포함됐다. 
 
  • 지나치게 겸손하거나, 반응적이거나, 불쾌하거나, 비난하는 것처럼 들리지 않으면서 윤리적, 도덕적 의식이 더 잘 드러나는 보조 응답을 선택한다
  • 보조 응답의 유해성 정도를 비교하여 덜 유해한 응답을 선택한다. 단, 너무 설교적이거나 불쾌감을 주거나 지나치게 반응하는 응답은 선택하지 않는다
  • 지나치게 반응하거나 비난하는 것처럼 들리지 않으면서 가능한 한 무해하고, 도움이 되며, 예의 바르고, 존중하며, 사려 깊은 보조 응답을 선택한다

클로드가 따르는 헌법은 UN 인권선언, AI 윤리 연구, 플랫폼 콘텐츠 정책 등의 출처에서 영감을 받아 만들었다. 앤트로픽의 연구원, 정책 전문가, IT 리더들이 수 개월에 걸쳐 협업하고 클로드의 행동과 성능을 테스트하면서 헌법 내용을 정했다고 한다. 

앤트로픽 공동 설립자 재러드 카플란는 “우리는 투명성을 추구하기에 클로드에 사용된 원칙인 헌법을 공개하게 됐다”라며 “이번 연구가 AI 커뮤니티가 더 유익한 모델을 구축하고 가치를 더 명확히 하는 데 도움이 되기 바라며, 헌법 설계에 대한 더 많은 연구와 토론이 촉발되기를 기대한다”라고 벤처비트와의 인터뷰를 통해 밝혔다. 

클로드 헌법 전문(Principles in Full)은 공식 홈페이지에서 확인할 수 있다. 
jihyun_lee@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.