Offcanvas

AI / 머신러닝|딥러닝 / 분쟁|갈등 / 애플리케이션

‘MIT, 코히어 外’… 생성형 AI 데이터 출처 찾는 탐색기, 11개 기관 공동 제작

2023.10.27 Jon Gold  |  Computerworld
‘데이터 출처 탐색기’는 AI 학습에 사용되는 대규모 데이터 세트의 출처가 의심될 경우 이를 선별할 수 있도록 지원한다.
 
ⓒ Getty Images Bank

생성형 AI 학습 데이터 세트의 법적 상태를 식별, 추적 및 학습할 수 있는 새로운 온라인 도구가 출시됐다. 데이터 세트에 라이선스 문제가 있을 경우 한눈에 확인할 수 있다.

이 플랫폼은 데이터 출처 탐색기(Data Provenance Explorer)로 불린다. MIT의 머신러닝 및 법률 전문가, 생성형 AI API 제공업체 코히어(Cohere), 하버드 로스쿨, 카네기멜론 대학, 애플(Apple) 등 11개 기관이 협업해 제작했다. 이를 사용하면 연구자나 언론인뿐만 아니라, 접근하는 모든 사람이 수천 개의 AI 학습 데이터베이스를 검색하고 널리 사용되는 데이터 세트의 ‘계보’를 추적할 수 있다.

이 도구는 생성형 AI 개발에 사용되는 학습 데이터의 가려진 이면을 탐색할 수 있는 방법을 제공하고자 제작됐다. 데이터 출처 탐색기를 발표하는 공식 성명에서 개발팀은 생성형 AI 시스템의 개발과 상업적 사용을 방해할 수 있는 데이터 투명성 위기에 대해 설명했다.

라이선스가 부족한 크라우드소싱 데이터 세트
개발팀은 “깃허브(GitHub), 페이퍼위드코드(Papers with Code)와 같은 크라우드소싱 애그리게이터와, 이를 바탕으로 학습된 오픈소스 LLM의 72%에서 83%에 이르는 수준이 데이터 라이선스를 누락하고 있다”라고 지적했다. 또 “크라우드소싱 애그리게이터에 의해 할당된 라이선스는 데이터 세트 작성자의 의도보다 더 광범위하게 사용되는 경우가 많다”라고 언급했다.

IDC 리서치 디렉터 캐시 랭은 책임감 있는 AI 개발의 필요성을 업계가 실감하고 있다면서, 생성형 AI 배포가 급속도로 진전되면서 안전하고 합법적인 사용에 대한 대중의 관심도 높아졌다고 말했다.

랭은 “데이터의 출처, 즉 데이터가 어떻게 수집, 처리, 변환됐는지 이해하는 것은 AI 모델 결과의 신뢰도에 영향을 미칠 수 있다. 데이터 출처를 우선시하는 AI 공급업체는 투명성, 책임감, 규정 준수 이니셔티브를 필요로 하는 고객을 대상으로 시장 우위를 점할 가능성이 높다”라고 설명했다.

AI 데이터의 저작권을 두고 업계의 갈등은 날로 심화되고 있다. 최근 저작권이 있는 저작물을 학습 데이터로 사용하려는 AI 크리에이터에게 혼란을 주도록 디지털 아트를 미묘하게 변경하는 ‘나이트쉐이드(Nightshade)' 도구가 주목받기도 했다. 또한 작가와 기타 저작권 소유자는 저작물이 생성형 AI 학습에 사용되는 것에 법적 조치를 취하기 시작했다. 미국 코미디언이자 작가인 사라 실버맨도 이러한 이유로 오픈AI를 고소했다. 하지만 이러한 주장에 대한 법적 근거는 여러 측면에서 여전히 불투명하다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.