2019.02.18

'가짜 뉴스 제작에 악용될까봐···' AI 자동 저작툴 성능 낮춰 공개

George Nott | Computerworld
비영리 AI 연구 업체인 오픈AI(OpenAI)가 새로 개발한 AI 기반 텍스트 생성기의 성능을 낮춰 일반에 공개했다. 이 기술을 악용할 것에 대한 우려 때문이다. 오픈AI는 태슬라 창업자 일론 머스크와 페이팔 창업자 피터 틸의 지원을 받고 있다. 



지난 14일 이 업체는, 논리적인 텍스트 문단을 만들어내는 대규모 비지도 언어 모델을 학습시켰다고 밝혔다. GPT-2라는 이름의 이 모델은 15억 개 파라미터를 가진 대규모 번역 기반 언어 모델이다. 800만개 웹 페이지로 구성된 데이터셋으로 학습시켰다. 오픈AI 측은 "GPT-2는 임의의 입력에 대해 맥락을 고려한 종합적인 텍스트 예제를 생성한다"라고 설명했다.

업체는 이 모델의 성능을 알 수 있는 몇 가지 사례를 공개했다. 예를 들어 "오늘 마일리 사이러스가 헐리우드 대로에 있는 아베크롬비에서 물건을 훔치다 잡혔다"라는 문장을 입력하면 GPT-2는 마치 기자가 쓰는 것만큼 읽기 편한 내용으로 다음 이야기를 풀어낸다. "레골라스와 김리는 함성을 지르며 무기를 들고 오크를 향해 진격했다"라는 문장에 대해서는, 인물 묘사와 대화가 포함된 짧은 판타지 이야기를 완성한다. 

오픈AI 측은 "이 모델은 마치 카멜레온처럼 다양하게 주어진 텍스트의 내용과 스타일을 각색한다. 이를 통해 사용자는 선택한 주제에 대해 생생하고 논리적인 후속 이야기를 만들 수 있다"라고 설명했다. GPT-2에는 몇 가지 한계도 있다. 텍스트를 반복하거나 '물 속에서 불이 났다'는 식의 문장을 만들기도 한다. 연구팀은 이를 '세계 모델링 실패(world modelling failures)'라고 부른다. 그러나 이런 단점에도, 사람이 쓴 글과 비슷한 느낌을 주고 한 페이지 이상 텍스트의 논리적인 흐름을 보여준다.

오픈AI는 GPT-2의 일부 기능을 축소하고 제약을 둔 버전만 공개하기로 했다. 특정 영역 언어 모델에서 특히 높은 성능을 보였는데, 그 성능이 너무 뛰어났기 때문이다. 업체 측은 "이번 결정은 정책적인 의미가 크다. 최근 들어 대규모 언어 모델은 규모를 조정하고 맞춤화하고 논리적인 텍스트를 만드는 것이 점점 더 쉬워지고 있다. 이는 상당한 장점이 있지만 동시에 악의적인 방법으로 악용될 가능성도 있다"라고 설명했다.

예를 들어 논리적으로 생각하면, GPT-2를 이용해 오해를 불러일으킬 뉴스 기사를 만들 수 있다. 온라인 공간에서 다른 사람을 흉내내거나, SNS에 올릴 악의적인 가짜 콘텐츠 생산을 자동화하는 것도 가능하다. 스팸이나 피싱 콘텐츠를 자동으로 만들 수도 있다.

연구팀은 "가짜 이미지와 오디오, 비디오에 대한 초기 연구 결과를 보면, 결국 기술을 이용해 가짜 콘텐츠를 만드는 비용을 낮추고 허위 정보 확산 비용을 줄일 수 있다. 따라서 모두가 온라인에서 찾은 정보에 대해 더 비판적일 필요가 있다. 딥 페이크(deep fakes) 현상 같은 것을 보면 이미지에 대한 더 회의적인 태도가 요구된다는 것을 알 수 있다"라고 밝혔다.

물론, 모든 활용 사례가 다 악의적인 것은 아니다. 오픈AI는 머지 않아 이 기술이 AI 저작 어시시턴트 앱이나 대화 에이전트 개선, 비지도 번역, 음성 인식 시스템 개선 등에 활용될 것으로 기대하고 있다. ciokr@idg.co.kr



2019.02.18

'가짜 뉴스 제작에 악용될까봐···' AI 자동 저작툴 성능 낮춰 공개

George Nott | Computerworld
비영리 AI 연구 업체인 오픈AI(OpenAI)가 새로 개발한 AI 기반 텍스트 생성기의 성능을 낮춰 일반에 공개했다. 이 기술을 악용할 것에 대한 우려 때문이다. 오픈AI는 태슬라 창업자 일론 머스크와 페이팔 창업자 피터 틸의 지원을 받고 있다. 



지난 14일 이 업체는, 논리적인 텍스트 문단을 만들어내는 대규모 비지도 언어 모델을 학습시켰다고 밝혔다. GPT-2라는 이름의 이 모델은 15억 개 파라미터를 가진 대규모 번역 기반 언어 모델이다. 800만개 웹 페이지로 구성된 데이터셋으로 학습시켰다. 오픈AI 측은 "GPT-2는 임의의 입력에 대해 맥락을 고려한 종합적인 텍스트 예제를 생성한다"라고 설명했다.

업체는 이 모델의 성능을 알 수 있는 몇 가지 사례를 공개했다. 예를 들어 "오늘 마일리 사이러스가 헐리우드 대로에 있는 아베크롬비에서 물건을 훔치다 잡혔다"라는 문장을 입력하면 GPT-2는 마치 기자가 쓰는 것만큼 읽기 편한 내용으로 다음 이야기를 풀어낸다. "레골라스와 김리는 함성을 지르며 무기를 들고 오크를 향해 진격했다"라는 문장에 대해서는, 인물 묘사와 대화가 포함된 짧은 판타지 이야기를 완성한다. 

오픈AI 측은 "이 모델은 마치 카멜레온처럼 다양하게 주어진 텍스트의 내용과 스타일을 각색한다. 이를 통해 사용자는 선택한 주제에 대해 생생하고 논리적인 후속 이야기를 만들 수 있다"라고 설명했다. GPT-2에는 몇 가지 한계도 있다. 텍스트를 반복하거나 '물 속에서 불이 났다'는 식의 문장을 만들기도 한다. 연구팀은 이를 '세계 모델링 실패(world modelling failures)'라고 부른다. 그러나 이런 단점에도, 사람이 쓴 글과 비슷한 느낌을 주고 한 페이지 이상 텍스트의 논리적인 흐름을 보여준다.

오픈AI는 GPT-2의 일부 기능을 축소하고 제약을 둔 버전만 공개하기로 했다. 특정 영역 언어 모델에서 특히 높은 성능을 보였는데, 그 성능이 너무 뛰어났기 때문이다. 업체 측은 "이번 결정은 정책적인 의미가 크다. 최근 들어 대규모 언어 모델은 규모를 조정하고 맞춤화하고 논리적인 텍스트를 만드는 것이 점점 더 쉬워지고 있다. 이는 상당한 장점이 있지만 동시에 악의적인 방법으로 악용될 가능성도 있다"라고 설명했다.

예를 들어 논리적으로 생각하면, GPT-2를 이용해 오해를 불러일으킬 뉴스 기사를 만들 수 있다. 온라인 공간에서 다른 사람을 흉내내거나, SNS에 올릴 악의적인 가짜 콘텐츠 생산을 자동화하는 것도 가능하다. 스팸이나 피싱 콘텐츠를 자동으로 만들 수도 있다.

연구팀은 "가짜 이미지와 오디오, 비디오에 대한 초기 연구 결과를 보면, 결국 기술을 이용해 가짜 콘텐츠를 만드는 비용을 낮추고 허위 정보 확산 비용을 줄일 수 있다. 따라서 모두가 온라인에서 찾은 정보에 대해 더 비판적일 필요가 있다. 딥 페이크(deep fakes) 현상 같은 것을 보면 이미지에 대한 더 회의적인 태도가 요구된다는 것을 알 수 있다"라고 밝혔다.

물론, 모든 활용 사례가 다 악의적인 것은 아니다. 오픈AI는 머지 않아 이 기술이 AI 저작 어시시턴트 앱이나 대화 에이전트 개선, 비지도 번역, 음성 인식 시스템 개선 등에 활용될 것으로 기대하고 있다. ciokr@idg.co.kr

X