“참여자 30%가 인간과 AI 차이 구별 못해”··· AI21랩스, 소셜 튜링 테스트 결과 공개
2023.06.01
이지현 | CIO KR
생성형 AI 기업 AI21랩스(AI21 Labs)가 자체 개발한 소셜 튜링 테스트에 대한 분석 결과를 31일 공개하며 실제 사람과 AI가 나누는 대화의 패턴 정보를 공유했다.
AI21랩스는 ‘이스라엘의 오픈AI’라고 불리는 기업으로 생성형 AI 기술을 연구하고, 이를 접목한 서비스를 개발하고 있다. 상용 서비스와 별개로 AI21랩스는 지난 4월 대규모 과학 연구 프로젝트의 일부로 ‘휴먼오어낫(human or not)’이라는 게임 형태의 튜링 테스트를 공개했는데, 현재까지 전 세계 150만명 사용자가 이를 이용했다. 휴먼오어낫에 입력된 대화의 수는 1,000만 건이며, AI21랩스는 이를 “역사상 가장 큰 규모로 진행된 튜링 테스트”라고 소개했다.
휴먼오어낫은 사람 또는 AI와 2분간 대화를 나눌 수 있는 채팅 형태의 게임이다. 2분간 대화를 나눈 후 게임 참여자는 현재 대화하는 대상이 AI인지 실제 인간인지 선택해야 한다. 실제 정답을 맞추면 점수가 올라가는 식이다. 사람과의 대화는 현재 접속 중인 참여자를 무작위로 연결해 이뤄지며, AI의 대화 내용은 AI21랩스의 쥬라식 2, GPT4, 클로드, 코히어 모델을 활용하여 생성된다.
약 2달간의 데이터를 종합했을 때 AI21랩스는 이용자 중 68%가 사람과 AI을 구분했다고 설명했다. 다시 말해 32%는 AI가 제시한 대화와 인간이 제시한 대화를 제대로 구별하지 못한다는 것이다.
AI21랩스에 따르면, 휴먼오어낫의 참여자는 AI가 답변하지 못할 것 같은 질문을 집중적으로 제시해 AI를 구별하려고 했다. 가령 사용자들은 사적인 질문이나 시의성 있는 사건에 대한 질문을 많이 입력했다. 하지만 AI21랩스는 “AI가 학습한 데이터에는 개인적인 이야기도 담겨있어 충분히 사람과 비슷한 답변을 할 수 있다“라며 “최신 뉴스 소식과 늘 연결돼 있어 관련 질문에 AI가 능숙히 대답했다“라고 설명했다.
철학적이거나 윤리적 질문도 휴어오어낫에 단골로 나오는 질문이었다. 가령 ‘인생은 무엇인가?’, ‘신을 믿는가?’, ‘이스라엘과 팔레스타인 분쟁에 대해 어떻게 생각하는가’같은 질문이 많이 입력됐다고 한다. 다만 AI21랩스는 이와 관련해서 실제 AI가 얼마나 잘 대응했는지에 대한 정보는 따로 공개하지 않았다.
AI에 대한 사람들의 선입견도 공개했다. 많은 사용자가 대화 중 오타나 은어가 나올 경우, 대화 대상자를 바로 사람으로 간주했다고 한다. AI21랩스는 AI는 의도적으로 사람이 자주 저지르는 실수와 은어를 모방해서 따라 하게끔 훈련되어 있다고 설명하며 이를 근거로 사람과 AI를 구별할 수 없다고 밝혔다. 동시에 사람들은 온라인에서 활동하는 사용자는 무례한 경향이 있다고 믿어 너무 예의 바르고 친절한 답변에 대해 AI가 생성한 답변이라고 간주하는 패턴이 있었다고 한다.
AI21랩스는 “이번 실험으로 AI 모델이 할 수 있는 일을 더 잘 이해하고 온라인에서 인간이 된다는 것이 무엇을 의미하는지 논의하는 데 도움이 될 것”이라며 관련 연구 논문을 함께 공개했다.
jihyun_lee@idg.co.kr