Offcanvas

AI / 로봇|자동화 / 머신러닝|딥러닝 / 신기술|미래 / 인문학|교양

최형광 칼럼 | 인공지능과 전람회의 그림(feat 스테이블 디퓨전)

2023.02.21 최형광  |  CIO KR
‘전람회의 그림’(Pictures at an Exhibition)은 10개의 피아노곡이다. 무소르그스키(Mussorgsky)는 1874년 화가이자 친구인 빅토르 하우트만(Viktor Hartmann)의 유작 전시회에서 영감을 받아 곡을 만든다. 하우트만의 시각적 이미지와 느낌을 소리로 구현한 것이 ‘전람회의 그림’이다. 소리로 표현된 10개의 그림과 스케치는 창조적이며 생동적인 상상력을 전달한다.

인간의 원시적인 의사전달은 비언어적 소리와 행동이었을 것이다. 또 다른 의사전달은 동굴의 벽화와 같은 그림, 이미지의 표현을 사용했을 것으로 추정한다. 인간은 오감인 시각 청각 후각 촉각 미각 등으로 소통하며 외부 자극을 감지한다. 오감 중에서 시각적인 면은 정보 수용의 83%를 차지한다. 소리의 영역인 청각은 11%를 차지하며 후각은 3.5%를 담당한다. 나머지는 촉각과 미각이다.

언어가 발달하면서 의사전달은 체계적인 문자와 대화로 이루어진다. 미디어가 발전하면서 문자의 영역은 비구조적인 이미지 기반의 시각으로 다시 확장된다. 소통의 기본은 텍스트(카톡)와 이미지(이모티콘)로 발전한다.

새로운 대화 방식
정보기술과 미디어의 발달은 소통의 채널 또는 방식을 바꾸며 확장한다. 1878년에 전화가 출시되어 원거리 의사소통을 지원하게 된다. 전화는 1억 사용자에 도달하는 데 75년이 걸렸다. 팀 버너스리는 1989년 www internet을 만들었고 1억 사용자에 도달하는 시간은 7년이 소요되었으며 비로소 우리 사회는 지구촌이 되었다. 페이스북은 4년 만에 그리고 인스타그램은 2년 만에 1억 사용자에 도달하며 새로운 대화와 소통의 방법을 열었으며 챗GPT는 60일 걸렸다..


[그림1] 1억 사용자에 도달하는 시간. 1억 사용자에 도달하는 시간은 전화가 75년, 모바일 폰은 15년을 소요했다. 넷플릭스는 10년이 걸렸고, 인터넷은 7년을 소요했다. 트위터는 5년 그리고 틱톡은 9개월이 걸렸으며 챗GPT는 2달 만에 사용자 1억 명을 달성했다.

[그림1]은 정보기술을 기반으로 1억사용자에 도달하는 시간을 보여주고 있다. 우리는 의사소통을 위해 문자(카톡)와 이미지(페이스북, 인스타그램, 틱톡과 유튜브)를 사용한다. 표현하고자 하는 것을 체계화하는 것, 상징적으로 보여주는 것은 의사소통에서 중요한 방법이며 역할이다.

자연어 처리와 챗 GPT
인공지능을 이용하여 언어를 이용하는 대표적 방법이 NLP(Natural Language Processing), 자연어처리다. NLP는 자연어 이해((NLU, Natural Language Understanding)와 자연어 생성((NLG, Natural Language Generation)으로 나눌 수 있다. NLU 자연어 이해는 기계가 컴퓨터 언어 없이 명령을 이해하는 방식이다. 즉 컴퓨터가 바로 인간과 통신하는 방식이며, NLG 자연어 생성은 자연어 문장을 생성하는 기술이다. 따라서 챗GPT는 NLG 계열이다.

인간의 소통이 일상적인 대화(소리)와 텍스트(채팅)에서 이루어지고 있다. 챗GPT는 인간의 언어를 탐색하여 새롭게 재정리하여 만들어 준다. 앞서 언급된 전람회의 그림은 무소르그스키가 자신의 상상력과 음악적 표현으로 하우트만이 그린 이미지를 소리로 번역하여 생성한 것이다.


[그림2] 자연어처리와 자연어 이해, 자연어 생성 그리고 “Text to image for Seoul Sunset”. 자연어 처리( NLP )는 컴퓨터와 인간(자연) 언어 간의 상호 작용, 특히 대량의 자연어 데이터를 처리하고 분석하는 방법이다. 오른쪽의 그림은 서울의 노을을 텍스트로 이미지를 AI로 만들었다.
   
문자를 소리로 변환하는 TTS (Text To Speech)에는 규칙 기반 시스템 및 통계적 기법이 활용된다. TTS는 사전 녹음된 파일을 사용하여 음성과 텍스트의 관계를 모델링하여 시각장애 또는 난독증의 경우를 포함하여 언어학습 및 음성을 통한 지원에서 응용되고 있다.

인공지능은 텍스트를 재구성하여 생성하거나, 텍스트를 이미지로 만들어 낸다. 마치 인간의 상상력을 이미지로 표현하거나 대화의 의도를 그림으로 표현하는 것처럼. 따라서 챗GPT는 텍스트를 텍스트로 구성한다. 그리고 스테이블 디퓨전은 텍스트에서 이미지를 만든다. 

자연어, 스테이블 디퓨전과 DALL-E
스테이블 디퓨전(Stable Diffusion)은 텍스트를 기반으로 이미지를 생성하는 (text to image) AI 기법이다. 오픈 AI의 DALL-E 또한 GAN(Generative Adversarial Networks), Transformers 등 다양한 신경망 아키텍처를 활용하며 텍스트 기반으로 이미지를 만드는 생성모델을 구현 중이다.

오픈 AI에서 자연어 생성(NLG)의 GPT로 시장을 주도하고 있으며, 구글에서는 자연어 이해(LNU)구현을 위한 BERT를 리딩하고 있다. 자연어 생성과 자연어 이해를 함께 구현하는 방법으로 T5, BART가 있다. 자연어 생성 연구가 급가속하는 중이다. 현재의 시장은 GPT가 압도한다.

챗GPT로 보고서, 내용 정리와 요약, 논문, 프로그래밍을 생성할 수 있다면 스테이블 디퓨전은 예술적 표현, 상업적 디자인, 광고와 인테리어, 제품 디자인과 설계에서 활용할 수 있어 다양한 잠재력을 지닌다. 보고서의 요약을 셰익스피어나 하루키 문체로 할 수 있듯이 디자인을 피카소, 샤갈 또는 앤디워홀 스타일로 구현할 수 있다. 

스테이블 디퓨전은 챗GPT로 융합하며 발전하고 있다. 인공지능 DALL-E가 만든 작품 전시회가 두 달전에 열린 바 있다. 전시회 주제는 ‘인공 상상(Artificial Imagination)’ 이었다. NLP의 목적은 컴퓨터가 인간의 언어를 읽고 해독하고 이해하여 인간의 업무 등을 기계가 돕도록 하는 것이다. 이미지가 음악으로 표현되는 ‘전람회의 그림’도 인공지능으로 구현될 수 있다. “언어의 한계는 세계의 한계다”라고 비트겐쉬타인은 말한다. 인공지능과 정보기술은 새로운 언어다. 언어의 한계는 상상력의 한계다. 

* 최형광 교수(hk.choi@ssu.ac.kr)는 숭실대학교 일반대학원 AI·SW융합학과에서 학생들을 지도하고 있다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.