2020.09.28

김진철의 How-to-Big Data | 빅데이터의 미래 (11)

김진철 | CIO KR

지난 글에서는 정부가 1조 94억 원의 대규모 예산을 투입해서 앞으로 10년간 개발한다고 하는 PIM 방식의 인공지능 반도체 기술이 어떤 것인지, 왜 이 인공지능 반도체 기술이 중요한지 기술적인 측면에서 같이 살펴보았다. 지난 글에서도 언급했듯이, PIM 방식의 인공지능 반도체 기술은 그 자체로는 인공지능 기술이 아니며, 현재 인공지능 모델에서 가장 많이 사용되는 연산인 그래프 연산과 텐서 연산의 성능 향상과 가속에 효과적인 프로세서라고 소개했다.

대규모 그래프 연산과 텐서 연산에 효과적인 아키텍처로서 채택된 “프로세서-인-메모리(Processor-In-Memory)” 아키텍처는 실제 연산을 수행하는 프로세서 코어들을 하나의 프로세서에 가능한 한 많이 집적하면서도, 딥러닝 같은 기계 학습 알고리즘의 학습(training)과 추론(inference)을 수행할 때 대용량 데이터들이 프로세서 코어 사이에서 원활하게 교환될 수 있도록 메모리 타일 위에 프로세서 코어를 배치한다. 이렇게 배치된 이 프로세서-메모리 타일 간에 격자 형태로 고대역폭 데이터 교환 패브릭을 배치하여 어떤 프로세서 코어 사이에도 프로세서 코어 간 대칭적으로 데이터 교환이 가능하게끔 만든 아키텍처이다.
 

ⓒGetty Images


이 PIM 방식의 인공지능 프로세서로 최근 가장 유망하게 떠오르고 있는 두 가지의 인공지능 프로세서 제품을 살펴보았다. 그래프코어(Graphcore)사의 IPU(Intelligence Processing Unit; IPU)는 그래프 형태로 기술된 연산을 병렬로 처리하기에 최적화된 아키텍처를 가지고 있으며, 인공지능뿐만 아닌 그래프 빅데이터의 처리에도 적합한 아키텍처를 가지고 있다. 그래프코어사의 IPU와 이를 탑재하는 서버인 델(Dell)의 DSS8440 서버, 포플라(Poplar) 그래프 컴퓨팅 소프트웨어 스택이 한데 어우러져 인공지능과 빅데이터 연산에 최적화된 솔루션을 제공할 수 있도록 기술이 구성되어 있다고 소개했다.

그래프코어(Graphcore)사의 IPU와 함께 세리브라 시스템즈(Cerebra Systems)사의 “웨이퍼 스케일 엔진(Wafer-Scale Engine)”에 대해서도 살펴보았다. 이 “웨이퍼 스케일 엔진(Wafer-Scale Engine)”은 극단적으로 소형화되어가는 최근 반도체 프로세서 개발의 경향과는 정반대로, 하나의 프로세서의 크기를 극단적으로 키워, 반도체 공정의 기반이 되는 실리콘 웨이퍼 하나를 통째로 활용해서 가능하면 하나의 프로세서에 많은 프로세서 코어를 집적하려고 시도한 독특한 제품이다.

세리브라 시스템즈(Cerebra Systems)사의 “웨이퍼 스케일 엔진(Wafer-Scale Engine)”은 하나의 프로세서에 40만 개의 프로세서 코어를 집적하여 한 프로세서가 처리할 수 있는 연산의 크기를 극단적으로 키워 인공지능에 필요한 연산 성능을 확보하려 하였다.

현재 반도체 기술의 수준을 고려했을 때, 이렇게 웨이퍼 하나를 통째로 활용해서 프로세서 코어 집적도가 높은 초병렬(hyper-parallel) 프로세서를 만드는 것은, 반도체 회로의 높은 복잡도와 계산의 안정성을 확보하기 위한 신뢰성 확보가 복잡도에 비례해서 지수적으로 증가하기 때문에 기술적으로 매우 어렵다. 이런 기술적인 어려움이 세리브라 시스템즈(Cerebra Systems)사의 “웨이퍼 스케일 엔진(Wafer-Scale Engine)”이 시장에서 독보적인 위치를 차지할 수 있게끔 하는 기술 장벽으로서 역할을 한다고 소개한 바 있다.

인공지능 기술이 예전보다 산업계에 더 많이 확산됐고, 텐서플로우(TensorFlow)와 파이토치(PyTorch)와 같은 딥러닝 소프트웨어 기술들 때문에 딥러닝 기반 인공지능 기술을 활용하는 것이 예전보다 많이 민주화가 되어 쉬워졌다고는 하지만, 아직까지는 인공지능 기술을 제대로 활용해서 실제 비즈니스 현장에서 쓸모 있는 상품과 서비스로 연결시키기 위해서는 여전히 높은 수준의 전문 지식과 경험이 필요하다.

인공지능 분야의 주요 학회로 꼽히는 ACL, CVPR, KDD, AAAI, IJCAI, ICLR, ICML, NeuRIPS(구 NIPS)와 같은 학술회의에 참석하여 최근 학계의 인공지능 연구 동향을 열심히 배우려는 일반 소프트웨어 엔지니어들과 회사들이 크게 늘어난 것은 구글과 페이스북과 같은 인터넷 서비스 회사들이 인공지능 관련 상품을 내어놓으면서 이들 학회에 연구 결과를 적극적으로 공유하고 후원하게 된 것이 큰 계기가 되었다. 이렇게 학계와 산업계가 학술회의와 같은 장소에서 서로 만나 적극적으로 아이디어를 교환하고 협력하는 것은 바람직한 일이지만, 반대로 인공지능 기술의 현재 위치를 보여주는 것이라고 할 수 있다.

정보기술 산업계에서 학술회의 참가와 논문 기여 붐이 인 것은 필자 경험으로는 이번 인공지능 붐이 처음이 아닐까 싶다. 물론, 앞으로 시장을 선도할 정보 기술들은 먼저 학계에서 선행 연구되고, 이 선행 연구된 것들이 실제 선행 연구를 한 연구팀 멤버들이나 대학, 연구소 연구팀들로부터 기술 이전을 받은 회사가 상용화를 하면서 산업계에 들어오게 되기 때문에, 학술회의에서 논의되고 있는 내용이 정보기술 산업과 전혀 동떨어져 있지는 않다. 그래도 학술회의 내용이 산업계에서 주목을 받으면서 동시에 논의되는 경우는 흔한 경우는 아니다.

이런 측면에서 요즘 인공지능 기술에 대한 관심의 상당 부분이 주요 인공지능 학술회의에 연구 결과를 공유하고 논문 기여를 하는 것으로 나타나는 것은 필자에게는 좀 이례적인 것으로 보인다. 구글, 페이스북과 같이 인공지능 기술을 실제로 사업화하여 활용하고 있는 주요 회사들이 인공지능 기술에 대한 돌파구와 새로운 정보를 이런 학술회의에서 찾는다는 것은 시사하는 바가 크다. 그중에서 필자가 독자분들에게 좀 더 강조하고자 하는 점은, 바로 인공지능 기술이 상용화가 될 만큼 충분히 무르익지 않았기 때문에 이런 현상이 나타난다는 점이다.

또 하나 더 염두에 두어야 할 것은, 구글과 페이스북과 같은 기업들이 인공지능 학술회의를 후원하고 이를 통해 연구 결과를 공유하는 것은 이런 학술회의들을 열린 기술혁신의 플랫폼(open innovation platform)으로 활용하기 때문이다. 필자의 개인적인 견해로는, 구글과 페이스북 같은 기업들이 인공지능 학술회의에 많은 논문을 기여하고 연구 내용을 공유하는 것은, 우선 자신들의 인공지능 기술력을 홍보하고 과시하는 측면도 있고, 가뜩이나 시장에 부족한 인공지능 인재들을 찾아내고 영입하기 위한 도구로서 이런 학술회의를 활용하기 때문이다.

이런 다소 실질적이고 진부한 이유와 함께 구글과 페이스북 같은 회사들이 인공지능 학술회의에 적극적으로 참여하는 중요한 이유는, 근본적으로 인공지능 기술이 시장에서 의미 있는 상품으로 바로 연결될 만큼 성숙되지 않았고, 인공지능 기술의 상용화를 위해 우리가 아직 더 알아야 할 것들이 많기 때문이기도 하다.

전 세계의 재능 있는 인공지능 연구자들을 쓸어 담다시피 영입하는 이들 회사가 이미 영입한 인공지능 연구자들의 수를 생각해보면 지금까지 그 어떤 회사나 연구 조직보다도 많을 것으로 추정된다. 이렇게 많은 수의 인공지능 연구자와 전문가들을 모았음에도 이들 기업이 여전히 인공지능 전문 인력이 모자란다라고 생각하는 것은, 기업이 빠른 시장의 변화에서 살아남을 만큼 신속하게 상품으로서 의미 있는 기술을 만들기 위해 겪어야 할 시행착오와 기술적인 난관이 아직도 많기 때문에, 이런 장애물을 뚫기 위해 필요한 시간을 최대한 줄이려는 시도로도 해석할 수 있다.

이런 이유와 함께, 이미 자신들이 영입한 인공지능 전문가들로도 인공지능 기술의 상용화에 필요한 모든 문제를 해결할 수 없기 때문에, 이런 학술 커뮤니티에서 활동하는 연구자들을 통해 자신들이 해결하지 못하는 문제들을 해결할 수 있는 플랫폼으로 이런 학술회의들을 활용하고 있는 것으로 해석할 수 있다. 

이런 관점에서 다른 분야와는 다르게 인공지능 기술의 미성숙성 때문에 아직까지 인공지능 및 뇌과학, 인지 과학 분야의 학술적인 결과물들이 앞으로 나타날 인공지능 기술의 미래에 많은 영향을 미치고 있다는 사실 또한 독자 여러분들이 염두에 두고 인공지능 기술의 사업화 및 활용을 고민했으면 한다.

최근 딥러닝 기술의 미래에 대해서, 딥러닝의 세계적인 전문가이자 기계 학습 분야의 석학인 요슈아 벤지오(Joshua Bengio) 몬트리얼 대학 교수가 지난 2019년 12월 NeurIPS에서 강연한 기조연설 내용을 바탕으로 인공지능 기술이 어떤 모습으로 변화해갈지 같이 생각해보자.

지난 2019년 12월 8일부터 14일까지 캐나다 밴쿠버에서 열린 NeurIPS(Neural Information Processing Systems(신경 정보 처리 시스템 학술회의); 구 NIPS)는 인공지능 학술회의 중에서도 이론적인 연구와 실용적인 연구 발표가 균형을 이룬 수준 높은 학회로 정평이 나 있다. 학술회의 이름에서 알 수 있듯이, 원래 NeuRIPS는 신경망 및 이론 신경 과학, 인지과학 분야의 전문적인 이론과 연구 결과를 공유하고 논의하던 자리로 시작했던 학술회의이다. 현재 딥러닝으로 알려진 신경망 알고리즘의 중요한 이론적인 배경과 아이디어들이 모두 이 NeurIPS를 통해서 발표되고 알려졌다.

CVPR은 아이디어가 분명하고 실제 응용에 초점을 맞춘 연구 성과를 높게 평가하기 때문에 산업계에서도 논문을 많이 투고해 왔지만, NeurIPS와 ICML, ICLR과 같은 학술회의는 인공지능 관련 학술회의 중에서도 원래 매우 전문적이고 이론적인 면을 다루는 학술회의였다. 최근 구글, 페이스북과 같이 인공지능 기술을 주도하는 회사들의 후원과 영향력 때문에 NeurIPS와 ICML과 같은 학술회의도 CVPR와 유사한 트렌드의 논문이 많아지기는 했지만, 원래 학술회의의 색깔은 크게 달라지지 않았다.

NeurIPS의 이런 배경 때문에, 인공지능 분야 중에서 딥러닝과 신경망 관련 분야의 연구 성과에 대해서는 NeurIPS가 독보적인 권위를 자랑하고 있다. 이런 이유로, 딥러닝 분야의 권위자인 요슈아 벤지오 교수 같은 석학이 NeurIPS 학술회의의 기조연설에서 얘기한 내용은 앞으로의 딥러닝 기술 발전에 대한 중요한 통찰과 트렌드를 담고 있어 우리가 꼭 참고해야 할 필요가 있다.

2019년 12월 11일 수요일 오후에 포즈너 강연(Posner Lecture)으로 발표된 요슈아 벤지오 교수의 기조 강연은 우리 인간의 인지 과정에 대한 간단한 소개로부터 시작한다. 행동경제학 분야의 석학으로 사람들의 판단과 의사 결정이 경제에 미치는 영향을 연구하여 2002년 노벨 경제학상을 수상한 심리학자인 대니얼 카네만 교수는, 행동경제학에 관한 대중 서적으로 유명해진 책 “생각에 관한 생각”에서 사람의 인지 과정을 두 가지로 나누어 설명한다. 
 

그림 1. 시스템 1 인지과정과 시스템 2 인지과정의 차이점. (그림 출처: [2])


소위 “시스템 1” 인지 과정은 무의식적이고(unconscious) 직관적으로(intuitive) 일어난다. 즉, 의식적인 생각이 없이 일어나는 과정이다. 예를 들면 무언가를 보고 사물을 인지하거나, 길을 걷다가 자동차나 사람을 보고 피하거나 하는 것같이 본능적으로 일어나는 인지 과정이다. 이런 인지 과정의 특징은 우리가 의식할 틈도 없이 빠르게 일어나며, 언어를 사용하거나 언어로 표현되지 않고 습관적이고 자동적으로 이루어진다는 것이다. 현재 딥러닝이 많이 응용되고 있는 인지 과정은 바로 이 시스템 1 인지 과정에 해당하는 것들이다.

이와는 반대로, 우리가 인간만이 가진 고급 인지 기능이라고 불리는 것들을 “시스템 2” 인지 과정이라고 분류하였다. 예를 들면 지도에서 여행할 목적지를 보고 목적지들을 어떻게 방문하여 여행할지 계획을 세우거나, 앞에 앉아 있는 사람과 하나의 주제에 대해서 깊이 있는 대화를 나누거나, 여러 편의 보고서를 읽고 특정한 결론을 추론해내거나 하는 등의 인지 과정이다. 

이런 인지 과정들의 특징은 앞의 “시스템 1” 인지 과정에 비해서 느리게 일어나며, 논리적이고, 순차적으로 일어나는 과정이라는 것이다. 이에 더해서 “시스템 2” 인지 과정은 우리가 의식적으로 노력을 기울여야 할 수 있는 인지 작용이다. 습관적이고 자동적으로 이루어지는 “시스템 1 인지 과정”과 가장 큰 차이점이 바로 이 의식적인 노력을 기울이느냐 아니냐의 차이이다.

“시스템 2” 인지 과정은 아직 딥러닝이 잘하지 못하는 일이고, 사실 지난 신경망 연구에서 꽤 많은 사람이 “시스템 2” 인지 과정에 해당하는 일들을 신경망에 어떻게 학습시킬 수 있을지 알아내기 위해 시도를 했지만 눈에 띌 만한 성과는 없었다는 점을 생각할 필요가 있다. 

여기서 우리가 주목해야 할 점은, 우리가 IT 전문 미디어가 아닌 일반 언론에서 일반 대중들이 “인공지능”이라는 말을 접했을 때 “인공지능”이 하리라고 떠올리는 일들이 바로 “시스템 2” 인지 과정에 해당하는 것들이라는 것이다. 여기에는 여러 가지 이유가 있을 텐데, “시스템 2” 인지 과정에 해당하는 것들이 인간이 다른 동물들과 다른 고등한 정신 과정을 가진 것을 보여주는 특성이라고 생각하기 때문일 것이다.

이런 이유로 심리학과 컴퓨터 과학, 인공지능 분야에서 가장 먼저 연구가 시작된 분야도 요즘 우리가 딥러닝을 통해 많이 활용하는 “시스템 1” 형태의 인지 프로세스가 아니라, 자연어 이해와 관련된 심볼 처리와 계산 언어학과 관련된 내용이었다. 우리가 언어를 어떻게 다루는지, 그리고 언어를 다룰 때 사용하는 심볼을 다루고 조작하는 방법을 알면 우리의 사고 과정과 지능을 이해할 수 있으리라는 가정에 많은 인공지능 연구자들과 인지 과학자들이 언어 기능에 대한 연구에 매달렸다.

이런 이유로 언어에 대한 이해가 많이 높아지기는 했지만, 오히려 우리 인간의 지능에서 단순한 언어 심볼 처리 이상의 복잡한 기제가 작동하고 있고, 더 조사하고 알아내어야 할 것이 많다는 점만 부각되었다.

사람들이 딥러닝에 열광하는 이유는 바로 초기 인공지능 연구 과정에서 많이 연구되었던 인간의 자연어 심볼 처리와 조작 과정의 상당히 많은 부분이 딥러닝으로 구현 가능하며, 예전의 휴리스틱한 알고리즘 방식으로 풀었던 자연어 심볼 처리와 조작과정에서 미처 완전하게 해결되지 못했던 문제들이 오히려 딥러닝 기반의 알고리즘을 통해서 더 사람에 가깝게 컴퓨터가 처리할 수 있게 되었다는 것이다.

이런 자연어 심볼 처리와 조작과정에 관한 기술중의 대표적인 것이 기계 번역(Machine Translation)이다. 기계 번역 기술은 최근 딥러닝 기술, 특히 재귀 신경망(Recurrent Neural Network; RNN)과 Word2Vec과 같은 단어와 자연어 말뭉치(corpus)의 심볼들을 추상화된 벡터 표현으로 바꾸어 주는 “상태 공간 내재(embedding)” 딥러닝 모델을 사용하면서 그 성능이나 정확도에서 크게 발전을 이루게 되었다. 이런 이유 때문에 많은 사람이 과거 인공지능 기술들이 해결하지 못했던 것들을 딥러닝이 해결해줄 것이라는 희망을 품게 되어 자연어 처리 분야에서 특히 관심을 많이 가지게 된 것이다.

딥러닝 모델이 과거 자연어 처리 모델과 이론이 해결하지 못했던 것들을 최근 많이 해결하는 것처럼 보이기는 하나, 소위 인간의 고등 정신 과정, 즉 “시스템 2” 인지 과정들을 아직 구현하지 못하고 있기 때문에 사실은 완전히 해결된 것은 아니다. 이 점에 대해서는 요슈아 벤지오 교수의 강연 내용을 더 소개하면서 나중에 더 자세히 언급하기로 한다.
 

그림 2. 시스템 2 딥러닝의 요건인 복합성(compositionality)과 분포 없는(out-of-distribution) 일반화. (그림 출처: [2], 관련 문헌: (위) [5-7] (아래) [8-12])


요슈아 벤지오 교수의 강연은 “시스템 1” 인지 과정을 주로 모델링해온 딥러닝 모델이 최근 “시스템 2” 인지 과정을 모델링하는 방향으로 조금씩 변화하는 경향을 보여주며, 이와 관련된 요슈아 벤지오 교수 연구팀의 최근 연구성과와 요슈아 벤지오 교수 본인의 견해를 소개한다.

요슈아 벤지오 교수의 견해와 연구 성과가 정답은 아닐 수 있다. 그렇지만, 나중에 필자가 언급하듯이 요슈아 벤지오 교수의 발표가 인공지능 기술의 미래에 대한 중요한 시사점을 담고 있고, 요슈아 벤지오 교수 본인이 딥러닝 기반 인공지능 분야의 트렌드를 이끄는 선도적인 연구자이기 때문에 인공지능 기술의 미래에 관해 그의 의견을 들어보는 것은 충분히 의미 있는 일이다.

요슈아 벤지오 교수는 앞으로 딥러닝 기반 인공지능 기술 연구는 세 가지 문제를 중요하게 다루는 연구가 될 것이라 설명하면서, 자신의 연구팀이 이런 문제에 관해 최근에 수행한 결과를 소개한다. 

첫 번째로, 통계적 기계 학습의 이론 체계에 의존해서 체계화된 현재의 확률 분포 안에서의 일반화와 지식 전파(transfer)가 “확률 분포 없는 일반화(out-of-distribution generalization)와 지식 전파(knowledge transfer)”로 확장될 수 있도록 딥러닝 모델을 개선하는 것이다.

두 번째로, 앞서 자세하게 소개한 저수준(low level)의 “시스템 1” 인지 과정을 모델링하고 구현하는 과거 딥러닝 모델을 고수준의 추상적인 표상(representation)을 담고, 인지회로의 합성성(compositionality)를 반영하며, 인과성(causality)를 학습할 수 있는 딥러닝 모델로 개선하는 것이다. 

세 번째로, “행위자 관점(agent perspective)”에서의 학습 전략과 지능을 구현하여 실제 사람이 주변 상황에 대한 정보를 어떻게 받아들이고 활용하는지를 딥러닝 모델의 신경회로 수준에서 구현해서, 사람과 같은 수준의 인공지능을 구현하는데 유용한 중요한 통찰을 얻는 것이다.

위 세 가지 측면은 서로 다른 것처럼 보이지만, 사실은 서로 긴밀하게 연결되어 있다. 먼저, “확률 분포 없는 일반화(out-of-distribution generalization)”는 기계 학습 분야, 특히 통계적 기계 학습 분야의 오래된 가정을 넘어서려는 시도이다. 이 가정은 바로 기계 학습에 쓰이는 학습 및 테스트 데이터 각 샘플이, “시간에 따라 변하지 않는 같은 확률 분포에서 나온 데이터이며, 각 데이터는 확률적으로 서로 독립되어 있다는 가정(Independent and identically distribution data; 이하 IID)”이다.

이런 가정은 현재까지 기계 학습 문제를 다소 단순화하면서, 지금까지의 컴퓨터 기술을 이용해 기계 학습 기술을 발전시킬 수 있도록 하는데 크게 기여한 중요한 가정이지만, 실제 인간과 같은 자율 행위자(agent)가 실세계 속에서 다양한 환경을 움직이면서 세상에 대한 정보와 전략을 학습할 때에는 주변 환경이 시시각각 변하기 때문에 사실은 맞지 않는 가정이다[4].

우리가 현재 사용하는 딥러닝 모델의 학습 과정에는, 학습된 딥러닝 모델이 실제 추론을 하면서 문제를 해결하는 상황이 딥러닝 모델이 학습한 분포를 따른다는 가정과 학습 및 테스트 데이터를 생성한 실제 세상에 대한 확률 분포가 시간에 따라 변하지 않는다는, 소위 IID 가정이 내재되어 있다. 이 IID 가정이 없었더라면 딥러닝을 비롯한 통계적 기계 학습 모델과 기술을 현재와 같이 발전시키기가 쉽지 않았을 것이다. IID 가정 때문에 기계 학습 문제가 단순화될 수 있었고, 기계 학습의 원리가 실세계에 대한 확률 분포를 추정하는 과정이라는 중요한 통찰을 밝혀낼 수 있었다.

문제는, 이렇게 인간의 학습 문제를 단순화해서 학습 과정에 대한 많은 중요한 통찰을 얻었지만, 이런 기계 학습 문제를 기술로 반영한 기계가 여전히 사람의 지능을 따라잡고 있지 못하고 있다는 것이다. 이것이 바로, IID라는 가정이 가지는 근본적인 한계와 오류 때문에 현재 딥러닝을 비롯한 기계 학습 기술이 가지게 된 가장 근본적인 한계이다. 보통 딥러닝 기술을 사용하는 사람들은 이 근본적인 가정 때문에 생기는 기술의 한계에 대해서 잘 생각하지 않는다.

요슈아 벤지오 교수는, 기계 학습 분야의 석학답게, 기계 학습 이론 발전의 중요한 초석이 되었던 이 IID 가정을 근본적으로 개선하고, 이를 통해서 딥러닝 모델이 인간의 인지 과정을 보다 더 잘 반영할 수 있도록 개선될 수 있는 방법을 연구하고 있다.

IID 가정은 “시스템 1” 수준의 인지 과정과 같은 저수준의, 특정한 작업(task)에 전문적으로 특화된 딥러닝 모델을 만드는 데에는 잘 맞는 경우가 많다. “시스템 2” 수준의 고수준 인지 과정은, “시스템 1” 수준의 저수준 인지 과정에서 온 다양한 정보가 통합되어 “시스템 1” 인지 과정보다 상위 수준에서 일어나기 때문에, “시스템 2” 수준의 고수준 인지 과정을 구현하는 딥러닝 모델에는 맞지 않을 것으로 예상된다.

이 IID 가정을 극복하려는 것이 “확률 분포 바깥(out-of-distribution; 이하 OOD)의 일반화”이며, 이 OOD 일반화는 시간에 따라 변하는 확률 분포에서 오는 데이터를 이용한 기계 학습 모델의 학습도 포함한다. 이런 OOD 일반화가 일어나는 것은 우리 두뇌의 정보처리 용량이 이 세상의 모든 정보를 담을 수 없을 정도로 제한되어 있기 때문이다. 또한, 우리 육체와 두뇌가 유한하고 공간적으로 한정된(localized) 객체이기 때문에 생겨나는 문제이기도 하다.

이처럼 OOD 일반화를 위해서는 우리 육체와 두뇌의 한계 때문에 우리 두뇌가 채용하고 있는 학습 전략과 방법에 대한 연구가 필요할 수밖에 없는데, 바로 이 때문에 “행위자 관점(agent perspective)”에서의 학습 전략에 대한 연구가 필요한 것이다.

“행위자 관점(agent perspective)”에서 보았을 때, 학습 및 지식 전파, 탐색 전략이 필요한 이유는 일종의 정보 압축과 선택의 관점에서 이해할 수 있다. 앞서 언급했듯이, 우리 인간의 두뇌가 가진 정보처리 용량은 이 세상의 모든 정보를 인지하고 담아두기에는 크게 제한되어 있기 때문에, 인간의 생존에 꼭 필요하고 중요한 사건과 정보만을 빠르게 인지하고 기억, 처리할 수 있도록 우리의 두뇌가 발전해왔을 것으로 인지과학자들은 보고 있다. 

이를 위해서, 저수준의 “시스템 1” 인지 과정에서는 생존에 필요한 사건과 정보를 빠르게 걸러내는 필터링과 관련된 기능들이 발달했을 것이고, 이렇게 필터링된 정보들을 종합하고 맥락을 이해하며, 기억하기 좋게 심볼화, 압축, 조직화하는 과정에서 “시스템 2” 인지 과정을 위한 신경회로들이 발달하게 됐을 것이다.

인간이 감각기관과 “시스템 1” 인지 과정에서 인지된 사건들 사이의 “인과관계(causal relationship)”를 인지하는 것도 이런 맥락에서 이해가 된다. 사건과 정보의 “인과관계(causal relationship)”를 인지하는 것은 우리 두뇌가 가진 신경망이 가장 잘하는 연산 중의 하나인 “연상기억(association memory)” 회로를 이용해서 신경망을 효과적으로 이용해 정보를 저장하는 방법의 하나일 수 있다. 그뿐만 아니라, “인과관계(causal relationship)” 인지는 많은 고등 인지, 사고 과정의 기본으로, “인과관계(causal relationship)” 인지, 추론을 통해서 추상적인 사고와 고급 인지 과정을 위한 신경회로들이 발달하게 되었을 것으로 보고 있다.

“인과관계(causal relationship)” 인지는 우리 두뇌 신경회로와 인지 과정의 “합성성(compositionality)”과도 크게 연관이 있다. 인과관계를 인지하는 과정은, 서로 다른 자극이나 정보가 서로 관련이 있거나 맥락을 가진 전후 관계가 있다는 것을 감지하여 서로 연관을 짓는 과정인데, 이 과정에서 다양한 인지 과정과 인지, 추론 전략들이 복합적으로 작용하게 되기 때문이다. 

또한 이렇게 인지 과정의 “합성성(compositionality)”이 가능하도록 우리의 신경회로가 발달했다는 사실에서 우리 두뇌 신경 회로에서 “상위 수준의 의미론적 표상(high-level semantic representation)”이 어떤 목적을 위해 어떤 방식으로 만들어지는지에 대한 정보와 단서를 얻을 수 있다. 

이렇게 우리 인간이 가진 신경 회로에서 “합성성(compositionality)”을 가지는 “상위 수준의 의미론적 표상(high-level semantic representation)”이 어떤 식으로 조직되고 만들어지는지 우리의 이해가 더 깊어진다면, 우리가 딥러닝 모델을 이용해 “시스템 2” 인지 과정을 어떻게 디자인하고 구현할 수 있을지에 대해서도 좀 더 구체적인 생각을 할 수 있게 된다. 

앞서 다소 길게 설명했듯이, 요슈아 벤지오 교수가 언급한 문제들인 “확률 분포 바깥(out-of-distribution; 이하 OOD) 일반화”, “행위자 관점(agent perspective)”에서의 학습, 인지 과정, “인지 과정의 합성성(compositionality)” 문제들은 이렇게 서로 연관되어 있다. 이들 문제를 딥러닝 관점에서 좀 더 구체적으로 이해하고, 이를 딥러닝 모델로 어떻게 만들 수 있는지 이해하는 것은 현재 딥러닝 기술의 한계를 극복하는 데 꼭 필요하다. 

이렇게 “시스템 2” 인지 과정을 구현할 수 있는 딥러닝 모델을 만들기 위해 우리가 꼭 이해해야 하는 주제가 있는데, 바로 “의식(consciousness)”이다. 요슈아 벤지오 교수가 강연에서 언급했듯이, 이 “의식(consciousness)”은 심리학, 신경과학, 인지과학의 역사를 통해서 다양한 가설들과 이론들이 제시되었지만 과학적으로 구체적인 해답은 얻지 못한 주제여서, 많은 과학자들, 특히, 물리학이나 컴퓨터 과학과 같은 엄밀과학, 수리과학 관점에서 인공지능과 인지과학을 연구하는 과학자들에게는 미신과 같이 치부되는 “금기어(taboo)”였다. 우리가 “의식(consciousness)”라는 말을 인지과학과 심리학, 의학, 신경과학 분야에서 많이 사용하기는 하지만, 정말 “의식(consciousness)”이 뭔지, 왜 필요한지, 어떻게 작동하는지에 대한 정보는 거의 가진 것이 없었다.

최근 딥러닝을 비롯한 수학적 모델을 통해 인지 과정을 모델링하려고 시도하는 물리학자, 컴퓨터과학자, 계산 신경과학자(computational neuroscientist), 수리 심리학자(mathematical psychologist), 수학자, 인지과학자(cognitive scientist)들과 함께, “커넥토믹스 (Connectomics)”와 뇌영상(brain imaging) 과학자들, 실험신경과학자들과 생물심리학자들의 실험을 바탕으로 해서 “의식(consciousness)”에 관한 계산학적 작동 방식에 대한 이해가 조금씩 넓어지고 있는 상황이다.

이 “의식(consciousness)”은, 앞서 설명했던 “행위자 관점(agent perspective)”에서 제한된 계산 용량을 가진 우리 두뇌의 하드웨어를 이용해 우리 주변의 세상을 이해하고 학습하는 과정에서, 우리 두뇌가 제한된 하드웨어의 자원을 신속한 인지와 반응이 필요한 자극과 반응에 집중하고 조직시켜, 방대한 주변 환경에 대한 정보를 선별적으로 신속하게 처리하여 생존에 유리하도록 하기 위해 발달한 회로의 하나일 것으로 생각되고 있다.

이 “의식(consciousness)”의 작동 과정에서 중요한 요소 중의 하나가 바로 “주의(attention)”이다. “주의(attention)”란 다름이 아니라, 감각기관에서 입력되는 자극 중에서 “행위자(agent)”가 현재 목적으로 삼고 있는 행동이나 반응과 관련이 많은 특정한 자극이나 정보에 두뇌의 자원을 집중 시켜 선별적으로 수용해서 사용하는 것이다.

딥러닝에서도 “주의(attention)” 메커니즘을 사용해서 딥러닝 모델의 인식률이나 학습 성능을 더 높이는데, 심리학에서 말하는 “주의(attention)”와 비슷한 의미와 용도로 사용되고 있다. 사실은 심리학에서의 “수용장(receptive field)”과 “주의(attention)” 개념을 딥러닝에서 빌려와서 이를 신경망 연산으로 구현해서 활용하고 있다.

딥러닝에서 “주의(attention)”는 신경망의 출력층(output layer)과 이에 가까운 상위층(layer) 노드(node)의 값을 계산할 때, 입력층(input layer)에 들어온 입력 벡터값 전부를 사용해서 계산하는 것이 아니라, 신경망이 추론하여 출력하려고 하는 값과 관련이 높다고 생각되는 입력 벡터값에 대한 가중치를 높여 출력값 연산에 더 많이 활용하는 방식으로 구현된다. 

원래 딥러닝에서의 “주의(attention)” 모델은 기계 번역 연구자들이 기계 번역의 정확도를 높이는 보정 방법으로 개발한 것이지만, 최근에는 영상 인지 및 컴퓨터 비전을 위한 신경망 모델에서도 개념을 차용해서 쓰고 있다. 신경망이 추론, 예측하여 출력하려는 값과 관련이 높다고 생각되는 입력값을 좀 더 주의해서(attentively) 출력값 계산에 활용하기 때문에 신경망 인지 결과의 정확도를 높이는 데 효과적이라는 기술적인 이유로 많이 쓰고 있다.

그림 3. 딥러닝에서 많이 쓰이는 "전역 주의 모델(Global Attention Model)"과 "국소 주의 모델(Local Attention Model)"의 신경망 모델. (그림 출처: Fig 2 & 3 in Minh-Thang Luong, Hieu Pham, Christopher D. Manning, “Effective Approaches to Attention-based Neural Machine Translation”, Proceedings of the EMNLP 2015 (arXiv:1508.04025), 2015.)


딥러닝의 심층신경망 모델에서도 “주의(attention)”를 이용하게 되면 같은 작업에 대해 심층신경망의 동일하게 제한된 계산 자원을 활용해서 기계 번역이나 영상 주석(captioning) 작업의 정확도를 더 높일 수 있다. 딥러닝의 예를 통해 생각해볼 수 있는 것과 같이, 이는 제한된 자원을 더 효과적으로 사용해서 “행위자(agent)”의 목적을 달성할 수 있게끔 하는 우리 두뇌의 자원 활용 전략이라고 생각할 수 있다.
 




2020.09.28

김진철의 How-to-Big Data | 빅데이터의 미래 (11)

김진철 | CIO KR

지난 글에서는 정부가 1조 94억 원의 대규모 예산을 투입해서 앞으로 10년간 개발한다고 하는 PIM 방식의 인공지능 반도체 기술이 어떤 것인지, 왜 이 인공지능 반도체 기술이 중요한지 기술적인 측면에서 같이 살펴보았다. 지난 글에서도 언급했듯이, PIM 방식의 인공지능 반도체 기술은 그 자체로는 인공지능 기술이 아니며, 현재 인공지능 모델에서 가장 많이 사용되는 연산인 그래프 연산과 텐서 연산의 성능 향상과 가속에 효과적인 프로세서라고 소개했다.

대규모 그래프 연산과 텐서 연산에 효과적인 아키텍처로서 채택된 “프로세서-인-메모리(Processor-In-Memory)” 아키텍처는 실제 연산을 수행하는 프로세서 코어들을 하나의 프로세서에 가능한 한 많이 집적하면서도, 딥러닝 같은 기계 학습 알고리즘의 학습(training)과 추론(inference)을 수행할 때 대용량 데이터들이 프로세서 코어 사이에서 원활하게 교환될 수 있도록 메모리 타일 위에 프로세서 코어를 배치한다. 이렇게 배치된 이 프로세서-메모리 타일 간에 격자 형태로 고대역폭 데이터 교환 패브릭을 배치하여 어떤 프로세서 코어 사이에도 프로세서 코어 간 대칭적으로 데이터 교환이 가능하게끔 만든 아키텍처이다.
 

ⓒGetty Images


이 PIM 방식의 인공지능 프로세서로 최근 가장 유망하게 떠오르고 있는 두 가지의 인공지능 프로세서 제품을 살펴보았다. 그래프코어(Graphcore)사의 IPU(Intelligence Processing Unit; IPU)는 그래프 형태로 기술된 연산을 병렬로 처리하기에 최적화된 아키텍처를 가지고 있으며, 인공지능뿐만 아닌 그래프 빅데이터의 처리에도 적합한 아키텍처를 가지고 있다. 그래프코어사의 IPU와 이를 탑재하는 서버인 델(Dell)의 DSS8440 서버, 포플라(Poplar) 그래프 컴퓨팅 소프트웨어 스택이 한데 어우러져 인공지능과 빅데이터 연산에 최적화된 솔루션을 제공할 수 있도록 기술이 구성되어 있다고 소개했다.

그래프코어(Graphcore)사의 IPU와 함께 세리브라 시스템즈(Cerebra Systems)사의 “웨이퍼 스케일 엔진(Wafer-Scale Engine)”에 대해서도 살펴보았다. 이 “웨이퍼 스케일 엔진(Wafer-Scale Engine)”은 극단적으로 소형화되어가는 최근 반도체 프로세서 개발의 경향과는 정반대로, 하나의 프로세서의 크기를 극단적으로 키워, 반도체 공정의 기반이 되는 실리콘 웨이퍼 하나를 통째로 활용해서 가능하면 하나의 프로세서에 많은 프로세서 코어를 집적하려고 시도한 독특한 제품이다.

세리브라 시스템즈(Cerebra Systems)사의 “웨이퍼 스케일 엔진(Wafer-Scale Engine)”은 하나의 프로세서에 40만 개의 프로세서 코어를 집적하여 한 프로세서가 처리할 수 있는 연산의 크기를 극단적으로 키워 인공지능에 필요한 연산 성능을 확보하려 하였다.

현재 반도체 기술의 수준을 고려했을 때, 이렇게 웨이퍼 하나를 통째로 활용해서 프로세서 코어 집적도가 높은 초병렬(hyper-parallel) 프로세서를 만드는 것은, 반도체 회로의 높은 복잡도와 계산의 안정성을 확보하기 위한 신뢰성 확보가 복잡도에 비례해서 지수적으로 증가하기 때문에 기술적으로 매우 어렵다. 이런 기술적인 어려움이 세리브라 시스템즈(Cerebra Systems)사의 “웨이퍼 스케일 엔진(Wafer-Scale Engine)”이 시장에서 독보적인 위치를 차지할 수 있게끔 하는 기술 장벽으로서 역할을 한다고 소개한 바 있다.

인공지능 기술이 예전보다 산업계에 더 많이 확산됐고, 텐서플로우(TensorFlow)와 파이토치(PyTorch)와 같은 딥러닝 소프트웨어 기술들 때문에 딥러닝 기반 인공지능 기술을 활용하는 것이 예전보다 많이 민주화가 되어 쉬워졌다고는 하지만, 아직까지는 인공지능 기술을 제대로 활용해서 실제 비즈니스 현장에서 쓸모 있는 상품과 서비스로 연결시키기 위해서는 여전히 높은 수준의 전문 지식과 경험이 필요하다.

인공지능 분야의 주요 학회로 꼽히는 ACL, CVPR, KDD, AAAI, IJCAI, ICLR, ICML, NeuRIPS(구 NIPS)와 같은 학술회의에 참석하여 최근 학계의 인공지능 연구 동향을 열심히 배우려는 일반 소프트웨어 엔지니어들과 회사들이 크게 늘어난 것은 구글과 페이스북과 같은 인터넷 서비스 회사들이 인공지능 관련 상품을 내어놓으면서 이들 학회에 연구 결과를 적극적으로 공유하고 후원하게 된 것이 큰 계기가 되었다. 이렇게 학계와 산업계가 학술회의와 같은 장소에서 서로 만나 적극적으로 아이디어를 교환하고 협력하는 것은 바람직한 일이지만, 반대로 인공지능 기술의 현재 위치를 보여주는 것이라고 할 수 있다.

정보기술 산업계에서 학술회의 참가와 논문 기여 붐이 인 것은 필자 경험으로는 이번 인공지능 붐이 처음이 아닐까 싶다. 물론, 앞으로 시장을 선도할 정보 기술들은 먼저 학계에서 선행 연구되고, 이 선행 연구된 것들이 실제 선행 연구를 한 연구팀 멤버들이나 대학, 연구소 연구팀들로부터 기술 이전을 받은 회사가 상용화를 하면서 산업계에 들어오게 되기 때문에, 학술회의에서 논의되고 있는 내용이 정보기술 산업과 전혀 동떨어져 있지는 않다. 그래도 학술회의 내용이 산업계에서 주목을 받으면서 동시에 논의되는 경우는 흔한 경우는 아니다.

이런 측면에서 요즘 인공지능 기술에 대한 관심의 상당 부분이 주요 인공지능 학술회의에 연구 결과를 공유하고 논문 기여를 하는 것으로 나타나는 것은 필자에게는 좀 이례적인 것으로 보인다. 구글, 페이스북과 같이 인공지능 기술을 실제로 사업화하여 활용하고 있는 주요 회사들이 인공지능 기술에 대한 돌파구와 새로운 정보를 이런 학술회의에서 찾는다는 것은 시사하는 바가 크다. 그중에서 필자가 독자분들에게 좀 더 강조하고자 하는 점은, 바로 인공지능 기술이 상용화가 될 만큼 충분히 무르익지 않았기 때문에 이런 현상이 나타난다는 점이다.

또 하나 더 염두에 두어야 할 것은, 구글과 페이스북과 같은 기업들이 인공지능 학술회의를 후원하고 이를 통해 연구 결과를 공유하는 것은 이런 학술회의들을 열린 기술혁신의 플랫폼(open innovation platform)으로 활용하기 때문이다. 필자의 개인적인 견해로는, 구글과 페이스북 같은 기업들이 인공지능 학술회의에 많은 논문을 기여하고 연구 내용을 공유하는 것은, 우선 자신들의 인공지능 기술력을 홍보하고 과시하는 측면도 있고, 가뜩이나 시장에 부족한 인공지능 인재들을 찾아내고 영입하기 위한 도구로서 이런 학술회의를 활용하기 때문이다.

이런 다소 실질적이고 진부한 이유와 함께 구글과 페이스북 같은 회사들이 인공지능 학술회의에 적극적으로 참여하는 중요한 이유는, 근본적으로 인공지능 기술이 시장에서 의미 있는 상품으로 바로 연결될 만큼 성숙되지 않았고, 인공지능 기술의 상용화를 위해 우리가 아직 더 알아야 할 것들이 많기 때문이기도 하다.

전 세계의 재능 있는 인공지능 연구자들을 쓸어 담다시피 영입하는 이들 회사가 이미 영입한 인공지능 연구자들의 수를 생각해보면 지금까지 그 어떤 회사나 연구 조직보다도 많을 것으로 추정된다. 이렇게 많은 수의 인공지능 연구자와 전문가들을 모았음에도 이들 기업이 여전히 인공지능 전문 인력이 모자란다라고 생각하는 것은, 기업이 빠른 시장의 변화에서 살아남을 만큼 신속하게 상품으로서 의미 있는 기술을 만들기 위해 겪어야 할 시행착오와 기술적인 난관이 아직도 많기 때문에, 이런 장애물을 뚫기 위해 필요한 시간을 최대한 줄이려는 시도로도 해석할 수 있다.

이런 이유와 함께, 이미 자신들이 영입한 인공지능 전문가들로도 인공지능 기술의 상용화에 필요한 모든 문제를 해결할 수 없기 때문에, 이런 학술 커뮤니티에서 활동하는 연구자들을 통해 자신들이 해결하지 못하는 문제들을 해결할 수 있는 플랫폼으로 이런 학술회의들을 활용하고 있는 것으로 해석할 수 있다. 

이런 관점에서 다른 분야와는 다르게 인공지능 기술의 미성숙성 때문에 아직까지 인공지능 및 뇌과학, 인지 과학 분야의 학술적인 결과물들이 앞으로 나타날 인공지능 기술의 미래에 많은 영향을 미치고 있다는 사실 또한 독자 여러분들이 염두에 두고 인공지능 기술의 사업화 및 활용을 고민했으면 한다.

최근 딥러닝 기술의 미래에 대해서, 딥러닝의 세계적인 전문가이자 기계 학습 분야의 석학인 요슈아 벤지오(Joshua Bengio) 몬트리얼 대학 교수가 지난 2019년 12월 NeurIPS에서 강연한 기조연설 내용을 바탕으로 인공지능 기술이 어떤 모습으로 변화해갈지 같이 생각해보자.

지난 2019년 12월 8일부터 14일까지 캐나다 밴쿠버에서 열린 NeurIPS(Neural Information Processing Systems(신경 정보 처리 시스템 학술회의); 구 NIPS)는 인공지능 학술회의 중에서도 이론적인 연구와 실용적인 연구 발표가 균형을 이룬 수준 높은 학회로 정평이 나 있다. 학술회의 이름에서 알 수 있듯이, 원래 NeuRIPS는 신경망 및 이론 신경 과학, 인지과학 분야의 전문적인 이론과 연구 결과를 공유하고 논의하던 자리로 시작했던 학술회의이다. 현재 딥러닝으로 알려진 신경망 알고리즘의 중요한 이론적인 배경과 아이디어들이 모두 이 NeurIPS를 통해서 발표되고 알려졌다.

CVPR은 아이디어가 분명하고 실제 응용에 초점을 맞춘 연구 성과를 높게 평가하기 때문에 산업계에서도 논문을 많이 투고해 왔지만, NeurIPS와 ICML, ICLR과 같은 학술회의는 인공지능 관련 학술회의 중에서도 원래 매우 전문적이고 이론적인 면을 다루는 학술회의였다. 최근 구글, 페이스북과 같이 인공지능 기술을 주도하는 회사들의 후원과 영향력 때문에 NeurIPS와 ICML과 같은 학술회의도 CVPR와 유사한 트렌드의 논문이 많아지기는 했지만, 원래 학술회의의 색깔은 크게 달라지지 않았다.

NeurIPS의 이런 배경 때문에, 인공지능 분야 중에서 딥러닝과 신경망 관련 분야의 연구 성과에 대해서는 NeurIPS가 독보적인 권위를 자랑하고 있다. 이런 이유로, 딥러닝 분야의 권위자인 요슈아 벤지오 교수 같은 석학이 NeurIPS 학술회의의 기조연설에서 얘기한 내용은 앞으로의 딥러닝 기술 발전에 대한 중요한 통찰과 트렌드를 담고 있어 우리가 꼭 참고해야 할 필요가 있다.

2019년 12월 11일 수요일 오후에 포즈너 강연(Posner Lecture)으로 발표된 요슈아 벤지오 교수의 기조 강연은 우리 인간의 인지 과정에 대한 간단한 소개로부터 시작한다. 행동경제학 분야의 석학으로 사람들의 판단과 의사 결정이 경제에 미치는 영향을 연구하여 2002년 노벨 경제학상을 수상한 심리학자인 대니얼 카네만 교수는, 행동경제학에 관한 대중 서적으로 유명해진 책 “생각에 관한 생각”에서 사람의 인지 과정을 두 가지로 나누어 설명한다. 
 

그림 1. 시스템 1 인지과정과 시스템 2 인지과정의 차이점. (그림 출처: [2])


소위 “시스템 1” 인지 과정은 무의식적이고(unconscious) 직관적으로(intuitive) 일어난다. 즉, 의식적인 생각이 없이 일어나는 과정이다. 예를 들면 무언가를 보고 사물을 인지하거나, 길을 걷다가 자동차나 사람을 보고 피하거나 하는 것같이 본능적으로 일어나는 인지 과정이다. 이런 인지 과정의 특징은 우리가 의식할 틈도 없이 빠르게 일어나며, 언어를 사용하거나 언어로 표현되지 않고 습관적이고 자동적으로 이루어진다는 것이다. 현재 딥러닝이 많이 응용되고 있는 인지 과정은 바로 이 시스템 1 인지 과정에 해당하는 것들이다.

이와는 반대로, 우리가 인간만이 가진 고급 인지 기능이라고 불리는 것들을 “시스템 2” 인지 과정이라고 분류하였다. 예를 들면 지도에서 여행할 목적지를 보고 목적지들을 어떻게 방문하여 여행할지 계획을 세우거나, 앞에 앉아 있는 사람과 하나의 주제에 대해서 깊이 있는 대화를 나누거나, 여러 편의 보고서를 읽고 특정한 결론을 추론해내거나 하는 등의 인지 과정이다. 

이런 인지 과정들의 특징은 앞의 “시스템 1” 인지 과정에 비해서 느리게 일어나며, 논리적이고, 순차적으로 일어나는 과정이라는 것이다. 이에 더해서 “시스템 2” 인지 과정은 우리가 의식적으로 노력을 기울여야 할 수 있는 인지 작용이다. 습관적이고 자동적으로 이루어지는 “시스템 1 인지 과정”과 가장 큰 차이점이 바로 이 의식적인 노력을 기울이느냐 아니냐의 차이이다.

“시스템 2” 인지 과정은 아직 딥러닝이 잘하지 못하는 일이고, 사실 지난 신경망 연구에서 꽤 많은 사람이 “시스템 2” 인지 과정에 해당하는 일들을 신경망에 어떻게 학습시킬 수 있을지 알아내기 위해 시도를 했지만 눈에 띌 만한 성과는 없었다는 점을 생각할 필요가 있다. 

여기서 우리가 주목해야 할 점은, 우리가 IT 전문 미디어가 아닌 일반 언론에서 일반 대중들이 “인공지능”이라는 말을 접했을 때 “인공지능”이 하리라고 떠올리는 일들이 바로 “시스템 2” 인지 과정에 해당하는 것들이라는 것이다. 여기에는 여러 가지 이유가 있을 텐데, “시스템 2” 인지 과정에 해당하는 것들이 인간이 다른 동물들과 다른 고등한 정신 과정을 가진 것을 보여주는 특성이라고 생각하기 때문일 것이다.

이런 이유로 심리학과 컴퓨터 과학, 인공지능 분야에서 가장 먼저 연구가 시작된 분야도 요즘 우리가 딥러닝을 통해 많이 활용하는 “시스템 1” 형태의 인지 프로세스가 아니라, 자연어 이해와 관련된 심볼 처리와 계산 언어학과 관련된 내용이었다. 우리가 언어를 어떻게 다루는지, 그리고 언어를 다룰 때 사용하는 심볼을 다루고 조작하는 방법을 알면 우리의 사고 과정과 지능을 이해할 수 있으리라는 가정에 많은 인공지능 연구자들과 인지 과학자들이 언어 기능에 대한 연구에 매달렸다.

이런 이유로 언어에 대한 이해가 많이 높아지기는 했지만, 오히려 우리 인간의 지능에서 단순한 언어 심볼 처리 이상의 복잡한 기제가 작동하고 있고, 더 조사하고 알아내어야 할 것이 많다는 점만 부각되었다.

사람들이 딥러닝에 열광하는 이유는 바로 초기 인공지능 연구 과정에서 많이 연구되었던 인간의 자연어 심볼 처리와 조작 과정의 상당히 많은 부분이 딥러닝으로 구현 가능하며, 예전의 휴리스틱한 알고리즘 방식으로 풀었던 자연어 심볼 처리와 조작과정에서 미처 완전하게 해결되지 못했던 문제들이 오히려 딥러닝 기반의 알고리즘을 통해서 더 사람에 가깝게 컴퓨터가 처리할 수 있게 되었다는 것이다.

이런 자연어 심볼 처리와 조작과정에 관한 기술중의 대표적인 것이 기계 번역(Machine Translation)이다. 기계 번역 기술은 최근 딥러닝 기술, 특히 재귀 신경망(Recurrent Neural Network; RNN)과 Word2Vec과 같은 단어와 자연어 말뭉치(corpus)의 심볼들을 추상화된 벡터 표현으로 바꾸어 주는 “상태 공간 내재(embedding)” 딥러닝 모델을 사용하면서 그 성능이나 정확도에서 크게 발전을 이루게 되었다. 이런 이유 때문에 많은 사람이 과거 인공지능 기술들이 해결하지 못했던 것들을 딥러닝이 해결해줄 것이라는 희망을 품게 되어 자연어 처리 분야에서 특히 관심을 많이 가지게 된 것이다.

딥러닝 모델이 과거 자연어 처리 모델과 이론이 해결하지 못했던 것들을 최근 많이 해결하는 것처럼 보이기는 하나, 소위 인간의 고등 정신 과정, 즉 “시스템 2” 인지 과정들을 아직 구현하지 못하고 있기 때문에 사실은 완전히 해결된 것은 아니다. 이 점에 대해서는 요슈아 벤지오 교수의 강연 내용을 더 소개하면서 나중에 더 자세히 언급하기로 한다.
 

그림 2. 시스템 2 딥러닝의 요건인 복합성(compositionality)과 분포 없는(out-of-distribution) 일반화. (그림 출처: [2], 관련 문헌: (위) [5-7] (아래) [8-12])


요슈아 벤지오 교수의 강연은 “시스템 1” 인지 과정을 주로 모델링해온 딥러닝 모델이 최근 “시스템 2” 인지 과정을 모델링하는 방향으로 조금씩 변화하는 경향을 보여주며, 이와 관련된 요슈아 벤지오 교수 연구팀의 최근 연구성과와 요슈아 벤지오 교수 본인의 견해를 소개한다.

요슈아 벤지오 교수의 견해와 연구 성과가 정답은 아닐 수 있다. 그렇지만, 나중에 필자가 언급하듯이 요슈아 벤지오 교수의 발표가 인공지능 기술의 미래에 대한 중요한 시사점을 담고 있고, 요슈아 벤지오 교수 본인이 딥러닝 기반 인공지능 분야의 트렌드를 이끄는 선도적인 연구자이기 때문에 인공지능 기술의 미래에 관해 그의 의견을 들어보는 것은 충분히 의미 있는 일이다.

요슈아 벤지오 교수는 앞으로 딥러닝 기반 인공지능 기술 연구는 세 가지 문제를 중요하게 다루는 연구가 될 것이라 설명하면서, 자신의 연구팀이 이런 문제에 관해 최근에 수행한 결과를 소개한다. 

첫 번째로, 통계적 기계 학습의 이론 체계에 의존해서 체계화된 현재의 확률 분포 안에서의 일반화와 지식 전파(transfer)가 “확률 분포 없는 일반화(out-of-distribution generalization)와 지식 전파(knowledge transfer)”로 확장될 수 있도록 딥러닝 모델을 개선하는 것이다.

두 번째로, 앞서 자세하게 소개한 저수준(low level)의 “시스템 1” 인지 과정을 모델링하고 구현하는 과거 딥러닝 모델을 고수준의 추상적인 표상(representation)을 담고, 인지회로의 합성성(compositionality)를 반영하며, 인과성(causality)를 학습할 수 있는 딥러닝 모델로 개선하는 것이다. 

세 번째로, “행위자 관점(agent perspective)”에서의 학습 전략과 지능을 구현하여 실제 사람이 주변 상황에 대한 정보를 어떻게 받아들이고 활용하는지를 딥러닝 모델의 신경회로 수준에서 구현해서, 사람과 같은 수준의 인공지능을 구현하는데 유용한 중요한 통찰을 얻는 것이다.

위 세 가지 측면은 서로 다른 것처럼 보이지만, 사실은 서로 긴밀하게 연결되어 있다. 먼저, “확률 분포 없는 일반화(out-of-distribution generalization)”는 기계 학습 분야, 특히 통계적 기계 학습 분야의 오래된 가정을 넘어서려는 시도이다. 이 가정은 바로 기계 학습에 쓰이는 학습 및 테스트 데이터 각 샘플이, “시간에 따라 변하지 않는 같은 확률 분포에서 나온 데이터이며, 각 데이터는 확률적으로 서로 독립되어 있다는 가정(Independent and identically distribution data; 이하 IID)”이다.

이런 가정은 현재까지 기계 학습 문제를 다소 단순화하면서, 지금까지의 컴퓨터 기술을 이용해 기계 학습 기술을 발전시킬 수 있도록 하는데 크게 기여한 중요한 가정이지만, 실제 인간과 같은 자율 행위자(agent)가 실세계 속에서 다양한 환경을 움직이면서 세상에 대한 정보와 전략을 학습할 때에는 주변 환경이 시시각각 변하기 때문에 사실은 맞지 않는 가정이다[4].

우리가 현재 사용하는 딥러닝 모델의 학습 과정에는, 학습된 딥러닝 모델이 실제 추론을 하면서 문제를 해결하는 상황이 딥러닝 모델이 학습한 분포를 따른다는 가정과 학습 및 테스트 데이터를 생성한 실제 세상에 대한 확률 분포가 시간에 따라 변하지 않는다는, 소위 IID 가정이 내재되어 있다. 이 IID 가정이 없었더라면 딥러닝을 비롯한 통계적 기계 학습 모델과 기술을 현재와 같이 발전시키기가 쉽지 않았을 것이다. IID 가정 때문에 기계 학습 문제가 단순화될 수 있었고, 기계 학습의 원리가 실세계에 대한 확률 분포를 추정하는 과정이라는 중요한 통찰을 밝혀낼 수 있었다.

문제는, 이렇게 인간의 학습 문제를 단순화해서 학습 과정에 대한 많은 중요한 통찰을 얻었지만, 이런 기계 학습 문제를 기술로 반영한 기계가 여전히 사람의 지능을 따라잡고 있지 못하고 있다는 것이다. 이것이 바로, IID라는 가정이 가지는 근본적인 한계와 오류 때문에 현재 딥러닝을 비롯한 기계 학습 기술이 가지게 된 가장 근본적인 한계이다. 보통 딥러닝 기술을 사용하는 사람들은 이 근본적인 가정 때문에 생기는 기술의 한계에 대해서 잘 생각하지 않는다.

요슈아 벤지오 교수는, 기계 학습 분야의 석학답게, 기계 학습 이론 발전의 중요한 초석이 되었던 이 IID 가정을 근본적으로 개선하고, 이를 통해서 딥러닝 모델이 인간의 인지 과정을 보다 더 잘 반영할 수 있도록 개선될 수 있는 방법을 연구하고 있다.

IID 가정은 “시스템 1” 수준의 인지 과정과 같은 저수준의, 특정한 작업(task)에 전문적으로 특화된 딥러닝 모델을 만드는 데에는 잘 맞는 경우가 많다. “시스템 2” 수준의 고수준 인지 과정은, “시스템 1” 수준의 저수준 인지 과정에서 온 다양한 정보가 통합되어 “시스템 1” 인지 과정보다 상위 수준에서 일어나기 때문에, “시스템 2” 수준의 고수준 인지 과정을 구현하는 딥러닝 모델에는 맞지 않을 것으로 예상된다.

이 IID 가정을 극복하려는 것이 “확률 분포 바깥(out-of-distribution; 이하 OOD)의 일반화”이며, 이 OOD 일반화는 시간에 따라 변하는 확률 분포에서 오는 데이터를 이용한 기계 학습 모델의 학습도 포함한다. 이런 OOD 일반화가 일어나는 것은 우리 두뇌의 정보처리 용량이 이 세상의 모든 정보를 담을 수 없을 정도로 제한되어 있기 때문이다. 또한, 우리 육체와 두뇌가 유한하고 공간적으로 한정된(localized) 객체이기 때문에 생겨나는 문제이기도 하다.

이처럼 OOD 일반화를 위해서는 우리 육체와 두뇌의 한계 때문에 우리 두뇌가 채용하고 있는 학습 전략과 방법에 대한 연구가 필요할 수밖에 없는데, 바로 이 때문에 “행위자 관점(agent perspective)”에서의 학습 전략에 대한 연구가 필요한 것이다.

“행위자 관점(agent perspective)”에서 보았을 때, 학습 및 지식 전파, 탐색 전략이 필요한 이유는 일종의 정보 압축과 선택의 관점에서 이해할 수 있다. 앞서 언급했듯이, 우리 인간의 두뇌가 가진 정보처리 용량은 이 세상의 모든 정보를 인지하고 담아두기에는 크게 제한되어 있기 때문에, 인간의 생존에 꼭 필요하고 중요한 사건과 정보만을 빠르게 인지하고 기억, 처리할 수 있도록 우리의 두뇌가 발전해왔을 것으로 인지과학자들은 보고 있다. 

이를 위해서, 저수준의 “시스템 1” 인지 과정에서는 생존에 필요한 사건과 정보를 빠르게 걸러내는 필터링과 관련된 기능들이 발달했을 것이고, 이렇게 필터링된 정보들을 종합하고 맥락을 이해하며, 기억하기 좋게 심볼화, 압축, 조직화하는 과정에서 “시스템 2” 인지 과정을 위한 신경회로들이 발달하게 됐을 것이다.

인간이 감각기관과 “시스템 1” 인지 과정에서 인지된 사건들 사이의 “인과관계(causal relationship)”를 인지하는 것도 이런 맥락에서 이해가 된다. 사건과 정보의 “인과관계(causal relationship)”를 인지하는 것은 우리 두뇌가 가진 신경망이 가장 잘하는 연산 중의 하나인 “연상기억(association memory)” 회로를 이용해서 신경망을 효과적으로 이용해 정보를 저장하는 방법의 하나일 수 있다. 그뿐만 아니라, “인과관계(causal relationship)” 인지는 많은 고등 인지, 사고 과정의 기본으로, “인과관계(causal relationship)” 인지, 추론을 통해서 추상적인 사고와 고급 인지 과정을 위한 신경회로들이 발달하게 되었을 것으로 보고 있다.

“인과관계(causal relationship)” 인지는 우리 두뇌 신경회로와 인지 과정의 “합성성(compositionality)”과도 크게 연관이 있다. 인과관계를 인지하는 과정은, 서로 다른 자극이나 정보가 서로 관련이 있거나 맥락을 가진 전후 관계가 있다는 것을 감지하여 서로 연관을 짓는 과정인데, 이 과정에서 다양한 인지 과정과 인지, 추론 전략들이 복합적으로 작용하게 되기 때문이다. 

또한 이렇게 인지 과정의 “합성성(compositionality)”이 가능하도록 우리의 신경회로가 발달했다는 사실에서 우리 두뇌 신경 회로에서 “상위 수준의 의미론적 표상(high-level semantic representation)”이 어떤 목적을 위해 어떤 방식으로 만들어지는지에 대한 정보와 단서를 얻을 수 있다. 

이렇게 우리 인간이 가진 신경 회로에서 “합성성(compositionality)”을 가지는 “상위 수준의 의미론적 표상(high-level semantic representation)”이 어떤 식으로 조직되고 만들어지는지 우리의 이해가 더 깊어진다면, 우리가 딥러닝 모델을 이용해 “시스템 2” 인지 과정을 어떻게 디자인하고 구현할 수 있을지에 대해서도 좀 더 구체적인 생각을 할 수 있게 된다. 

앞서 다소 길게 설명했듯이, 요슈아 벤지오 교수가 언급한 문제들인 “확률 분포 바깥(out-of-distribution; 이하 OOD) 일반화”, “행위자 관점(agent perspective)”에서의 학습, 인지 과정, “인지 과정의 합성성(compositionality)” 문제들은 이렇게 서로 연관되어 있다. 이들 문제를 딥러닝 관점에서 좀 더 구체적으로 이해하고, 이를 딥러닝 모델로 어떻게 만들 수 있는지 이해하는 것은 현재 딥러닝 기술의 한계를 극복하는 데 꼭 필요하다. 

이렇게 “시스템 2” 인지 과정을 구현할 수 있는 딥러닝 모델을 만들기 위해 우리가 꼭 이해해야 하는 주제가 있는데, 바로 “의식(consciousness)”이다. 요슈아 벤지오 교수가 강연에서 언급했듯이, 이 “의식(consciousness)”은 심리학, 신경과학, 인지과학의 역사를 통해서 다양한 가설들과 이론들이 제시되었지만 과학적으로 구체적인 해답은 얻지 못한 주제여서, 많은 과학자들, 특히, 물리학이나 컴퓨터 과학과 같은 엄밀과학, 수리과학 관점에서 인공지능과 인지과학을 연구하는 과학자들에게는 미신과 같이 치부되는 “금기어(taboo)”였다. 우리가 “의식(consciousness)”라는 말을 인지과학과 심리학, 의학, 신경과학 분야에서 많이 사용하기는 하지만, 정말 “의식(consciousness)”이 뭔지, 왜 필요한지, 어떻게 작동하는지에 대한 정보는 거의 가진 것이 없었다.

최근 딥러닝을 비롯한 수학적 모델을 통해 인지 과정을 모델링하려고 시도하는 물리학자, 컴퓨터과학자, 계산 신경과학자(computational neuroscientist), 수리 심리학자(mathematical psychologist), 수학자, 인지과학자(cognitive scientist)들과 함께, “커넥토믹스 (Connectomics)”와 뇌영상(brain imaging) 과학자들, 실험신경과학자들과 생물심리학자들의 실험을 바탕으로 해서 “의식(consciousness)”에 관한 계산학적 작동 방식에 대한 이해가 조금씩 넓어지고 있는 상황이다.

이 “의식(consciousness)”은, 앞서 설명했던 “행위자 관점(agent perspective)”에서 제한된 계산 용량을 가진 우리 두뇌의 하드웨어를 이용해 우리 주변의 세상을 이해하고 학습하는 과정에서, 우리 두뇌가 제한된 하드웨어의 자원을 신속한 인지와 반응이 필요한 자극과 반응에 집중하고 조직시켜, 방대한 주변 환경에 대한 정보를 선별적으로 신속하게 처리하여 생존에 유리하도록 하기 위해 발달한 회로의 하나일 것으로 생각되고 있다.

이 “의식(consciousness)”의 작동 과정에서 중요한 요소 중의 하나가 바로 “주의(attention)”이다. “주의(attention)”란 다름이 아니라, 감각기관에서 입력되는 자극 중에서 “행위자(agent)”가 현재 목적으로 삼고 있는 행동이나 반응과 관련이 많은 특정한 자극이나 정보에 두뇌의 자원을 집중 시켜 선별적으로 수용해서 사용하는 것이다.

딥러닝에서도 “주의(attention)” 메커니즘을 사용해서 딥러닝 모델의 인식률이나 학습 성능을 더 높이는데, 심리학에서 말하는 “주의(attention)”와 비슷한 의미와 용도로 사용되고 있다. 사실은 심리학에서의 “수용장(receptive field)”과 “주의(attention)” 개념을 딥러닝에서 빌려와서 이를 신경망 연산으로 구현해서 활용하고 있다.

딥러닝에서 “주의(attention)”는 신경망의 출력층(output layer)과 이에 가까운 상위층(layer) 노드(node)의 값을 계산할 때, 입력층(input layer)에 들어온 입력 벡터값 전부를 사용해서 계산하는 것이 아니라, 신경망이 추론하여 출력하려고 하는 값과 관련이 높다고 생각되는 입력 벡터값에 대한 가중치를 높여 출력값 연산에 더 많이 활용하는 방식으로 구현된다. 

원래 딥러닝에서의 “주의(attention)” 모델은 기계 번역 연구자들이 기계 번역의 정확도를 높이는 보정 방법으로 개발한 것이지만, 최근에는 영상 인지 및 컴퓨터 비전을 위한 신경망 모델에서도 개념을 차용해서 쓰고 있다. 신경망이 추론, 예측하여 출력하려는 값과 관련이 높다고 생각되는 입력값을 좀 더 주의해서(attentively) 출력값 계산에 활용하기 때문에 신경망 인지 결과의 정확도를 높이는 데 효과적이라는 기술적인 이유로 많이 쓰고 있다.

그림 3. 딥러닝에서 많이 쓰이는 "전역 주의 모델(Global Attention Model)"과 "국소 주의 모델(Local Attention Model)"의 신경망 모델. (그림 출처: Fig 2 & 3 in Minh-Thang Luong, Hieu Pham, Christopher D. Manning, “Effective Approaches to Attention-based Neural Machine Translation”, Proceedings of the EMNLP 2015 (arXiv:1508.04025), 2015.)


딥러닝의 심층신경망 모델에서도 “주의(attention)”를 이용하게 되면 같은 작업에 대해 심층신경망의 동일하게 제한된 계산 자원을 활용해서 기계 번역이나 영상 주석(captioning) 작업의 정확도를 더 높일 수 있다. 딥러닝의 예를 통해 생각해볼 수 있는 것과 같이, 이는 제한된 자원을 더 효과적으로 사용해서 “행위자(agent)”의 목적을 달성할 수 있게끔 하는 우리 두뇌의 자원 활용 전략이라고 생각할 수 있다.
 


X