Offcanvas

AI / 머신러닝|딥러닝 / 비즈니스|경제 / 빅데이터 | 애널리틱스

김진철의 How-to-Big Data | 빅데이터의 미래 (11)

2020.09.28 김진철  |  CIO KR
 


다시 원래 “의식(consciousness)”에 관한 얘기로 돌아가면, 요슈아 벤지오 교수의 설명은 이 “의식(consciousness)”의 작동 과정에서 “주의(attention)”가 중요한 역할을 하고, “주의(attention)”가 “의식(consciousness)”을 소프트웨어로 구현하는데 필요한 중요한 출발점이 될 수 있다는 것이다. “주의(attention)”에 대한 연구와 딥러닝에서의 적용 과정에서 얻은 통찰을 바탕으로, 지금까지 다소 모호하고 미신과 같이 막연하게 그 존재를 믿었던 “의식(consciousness)”을 좀 더 구체적으로 컴퓨터에 구현할 수 있게 되었다는 것이다.

현재까지 축적된 실험 결과를 통해 많은 지지를 받고 있는 우리 두뇌에서의 “의식(consciousness)”에 대한 이론인 “전역 작업공간 이론(Global Workspace Theory)”은 계산 모델로도 구현해서 실험할 수 있을 정도의 “의식(consciousness)”에 관한 다소 구체적인 계산학적 모델과 설명을 제공한다.

최근 인지 신경과학(cognitive neuroscience) 분야의 “의식(consciousness)”에 관한 연구는 이 “전역 작업공간 이론(Global Workspace Theory)”이 어느 정도로 타당하고 한계가 있는지 검증하는 실험과 연구가 많이 이루어지고 있다고 한다[28-46]. 
 

그림 4. 주의(attention)와 의식(consciousness)의 시스템 2 딥러닝에서 계산학적 역할 (그림 출처: [2])


그렇다면, 딥러닝이 “시스템 2” 인지 과정을 모델링하고 소프트웨어로 구현할 수 있도록 하기 위해서는, “시스템 2” 인지 과정에 중요한 “의식(consciousness)”의 작용을 계산학적인 방법으로 모방하는 방법이 현재의 기계 학습 이론 체계에서 수용가능한 방법으로 제안되어야 한다. 이렇게 “시스템 2” 인지 과정을 딥러닝 모델에 반영하여 넣기 위한 방법으로 요슈아 벤지오 교수는 “의식 선험 상태(consciousness prior)”라는 개념을 도입했다.

이 “의식 선험 상태(consciousness prior)”는 앞서 설명한 “의식(consciousness)” 작용을 딥러닝 모델에 넣기 위해 도입한 확률 분포로, 벤지오 교수는 이 “의식 선험 상태(consciousness prior)”가 “희박한 인자 그래프(sparse factor graph)” 형태의 확률 분포가 될 것이라고 가정하였다(그림 5, [26]).

“전역 작업공간 이론(Global Workspace Theory; GWT)”에서 설명하는 것과 같이, 많은 두뇌의 신경 회로 중에서 “의식(consciousness)”의 “주의(attention)”를 받는 신경회로는 극히 소수일 것이고, 다른 신경회로들은 이 “주의(attention)”를 받는 신경회로가 적절하게 기능을 수행할 수 있도록 돕거나 필요한 정보를 제공하도록 하기 위해 “의식(consciousness)” 아래에 묻혀 있게 될 것이다[28-38]. “전역 작업공간 이론(Global Workspace Theory; GWT)”에서 가설로서 내세우는 이런 계산학적인 작동 방식을 실제 딥러닝 모델로 구현하는 방법으로서 “희박한 인자 그래프(sparse factor graph)”와 같은 확률 모델을 도입하는 것이다.
 

그림 5. 시스템 2 딥러닝에서 의식 상태를 구현하기 위한 이론적인 가정인 “희박한 인자 그래프(sparse factor graph)” 상태에 대한 설명 (그림 출처: [2], 관련 문헌: [16, 26])


“전역 작업공간 이론(Global Workspace Theory; GWT)”에서 가정하는 “의식(Consciousness)” 모델을 딥러닝 방식으로 모델링한 위 “희박한 인자 그래프(sparse factor graph)” 형태의 “의식 선험 상태(consciousness prior)”를 한 딥러닝 모델의 신경회로 모듈 중 하나라고 생각하면, 이를 이용해서 “메타 학습(meta-learning)”과 같은 “시스템 2” 수준의 인지 기능을 딥러닝으로 모델링하는 것도 가능해진다. 

“메타-학습(meta-learning)”은 쉽게 얘기하자면 “학습하는 방법을 배우는 학습(learning to learn)”이라고 생각할 수 있다. 다시 얘기하자면, 우리 인간이 진화하는 과정에서 변화하는 환경과 상황에서 생존확률이 더 높아지게끔 진화하면서, 좀 더 효과적으로 주위 환경에 대해 배우고 생존 방식을 습득하는 다양한 전략을 평가하고 선택하여 더 빠르고 쉽게 학습할 수 있게 하는 신경회로를 발달시키는 과정을 “메타 학습(meta-learning)”이라고 볼 수 있다. 
 

그림 6. 메타 학습(meta-learning)과 시스템 2 딥러닝의 확률 분포를 사용하지 않는(OOD) 일반화와의 관계 (그림 출처: [2], 관련 문헌: [17-26])


딥러닝에서 “메타 학습(meta-learning)”은 서로 다른 스케일의 연산 시간을 통해 연산을 수행하는 두 시간층의 딥러닝 모델로 구현될 수 있다. 구체적으로 얘기하자면, 특정한 작업을 잘 수행하는 가중치 매트릭스와 바이어스와 같은 학습 파라미터를 추정하는 현재 우리가 사용하고 있는 딥러닝 모델과, 여러 가지의 학습 파라미터와 모델 중에서 시간이 흐르면서 그 당시 상황에 더 잘 맞거나 효과적인 모델과 학습 파라미터 세트를 선택하게 하는, 앞서 말한 딥러닝 모델보다 좀 더 긴 시간 스케일에서 동작하는 딥러닝 모델을 같이 써서 딥러닝 모델을 만들게 되면, 입력값을 통해 인지된 주변 상황에 더 잘 맞는 모델이나 학습 파라미터 세트를 선택해서 다른 환경, 상황에서 다른 모델과 학습 파라미터 세트를 적용할 수 있는 딥러닝 모델을 만들 수 있는 것이다[2, 17-19].

이렇게 딥러닝 모델로 구현된 “의식 선험 상태(consciousness prior)” 모델과 “메타 학습(meta-learning)” 모델을 이용하게 되면, OOD 일반화와 빠른 지식 전파와 같은 고급 인지 과정을 딥러닝에 모델링하는 것도 가능해진다는 것이다(그림 6, [16-26]).

이렇게 “의식 선험 상태(consciousness prior)” 모델과 “메타 학습(meta-learning)” 모델을 통해서 딥러닝 모델이 학습한 여러 인지 과정과 회로들이 서로 합성되어 새로운 인지 과정을 만들어낼 수 있는 인지회로의 “합성성(compositionality)”을 구현할 수 있는 딥러닝 모델로서 요슈아 벤지오 교수는 “재귀 독립 메커니즘(Recurrent Independent Mechanisms; RIM)”을 제안했다[16, 26]. 

요슈아 벤지오 교수가 딥러닝 모델의 인지회로 “합성성(compositionality)”을 구현하기 위한 방법으로 제안한 “재귀 독립 메커니즘(Recurrent Independent Mechanism)”은, 앞서 설명한 “희박 인자 그래프(sparse factor graph)” 모델을 이용해 정보를 표현하고, 이렇게 “희박 인자 그래프(sparse factor graph)”로 표현되어 “의식(consciousness)” 모델이 반영된 신경망 모델에 다시 재귀 신경망 모델을 넣어 순차적으로 입력되는 입력 벡터들로 표현되는 데이터에 대한 동력학적인 특징을 RIM 신경망 모델이 배울 수 있도록 하였다.
 

그림 7. “동적으로 재조합된 (인지) 모듈(dynamically recombined modules; DRM)”을 구현하는 방법의 하나로서 “재귀적이고 독립적인 메커니즘(Recurrent Independent Mechanisms)” (그림 출처: [2], 관련 문헌: [26])


이렇게 RIM 모듈 여러 개를 이용하여, RIM 모듈이 담당하는 각 계층별로 신경망이 모델링하는 인지회로를 선택, 또는 합성할 수 있도록 심층신경망 모델을 합성하게 되면, 우리가 원하는 인지회로의 “합성성(compositionality)”을 가지는 딥러닝 모델을 만들 수 있다는 것이다. 이렇게 RIM 모듈을 이용해 만든 딥러닝 모델을 이용해, 순차적 MNIST 숫자 인식 문제에서 다른 모델에 비해 인식 정확도가 크게 향상되는 것을 확인할 수 있었다[26].

필자의 글이 일반 매체에 기고되는 이유로 기고 내용의 정확성을 기하기 위해, 되도록 가감 없이 요슈아 벤지오 교수 강연 내용의 핵심을 최대한 쉽게 전달하려고 노력했다. 하지만, 일반 독자분들이 읽고 이해하기에는 다소 어려운 용어와 개념, 딥러닝에 전문적인 내용이 나와 이해하기 어려우실 것 같아, 필자가 요슈아 벤지오 교수 강연 내용을 이렇게 자세히 소개한 이유와 독자분들이 이번 글을 읽고 꼭 기억해 두어야 할 사항을 중심으로 정리하면서 이번 글을 마무리하고자 한다.

첫 번째로, 지금 우리가 알고 다루는 딥러닝 기술만으로는 인공지능을 완성할 수 없다. 현재 딥러닝을 포함한 인공지능 기술은 지극히 세부적이고 아주 전문화된 특정한 작업만을 인지하고 자동화할 수 있을 뿐이다.

딥러닝이 과거 딥러닝 기술이 아닌 심볼 조작(manipulation) 패러다임 기반의 인공지능 기술과 고전적인 알고리즘으로 해결하지 못하던 “시스템 1” 인지 과정 일부를 성공적으로 모델링하는 데 성공했고, 이런 “시스템 1” 인지 과정을 딥러닝을 통해 자동화하는 기술로 새로운 상품과 서비스의 돌파구가 열린 것은 사실이다.

그렇지만, 현재 딥러닝 기술은 “시스템 1” 인지 과정을 특정한 태스크에 전문적으로 수행하는 수준의 기술이지, 결코 인간과 같은 “자율성(autonomy)”과 “전인성(Integrity)”을 갖춘 기술로 나아갈 수 있는 수준이 아니다.

물론 이 “시스템 1” 딥러닝 기술로 해결할 수 있는 문제들을 꾸준히 찾아내고, 이를 이용한 새로운 상품이나 서비스의 혁신을 이루어 내는 것도 중요한 일이다. 이를 위해서도 아직 연구해야 할 것이 많으며, 현재 가장 최신의 딥러닝 모델들도 지속적으로 성능과 정확도가 향상되어 가는 중이다.

다만, 이런 딥러닝 기술들의 효과와 유용성을 지나치게 과장하여 인간과 같은 자율성과 전인성을 갖춘 인공지능을 금방이라도 만들 수 있는 것처럼 홍보하고 생각하는 것은 지양되어야 할 필요가 있다.

딥러닝을 비롯한 기계 학습 기술의 유용성이 새로이 발견되고 있고, 산업적인 기반과 응용도 활발해지고 있는 추세이기 때문에 예전과 같은 “인공지능의 겨울”은 심각하게 오지 않을 것으로 생각된다. 그렇지만, 딥러닝을 비롯한 기계 학습, 인공지능 기술의 효용에 대한 지나친 과장과 몰이해에 따른 기대는 진지하게 인공지능 기술 연구와 상업화에 임하는 연구자들과 회사들을 어렵게 할 수 있으니 자제되어야 한다.

두 번째로, 딥러닝 기술 연구의 방향도, 현재 일반 기술 매체에서 많이 다루는 객체 인식과 같은 하위 수준의 “시스템 1” 인지 과정의 정확도와 성능을 높이는 것보다는, 최신 뇌과학과 인지과학의 성과를 반영해서 인간의 고등 정신 과정을 모델링할 수 있는 딥러닝 모델을 탐색하고 찾아가는 방향으로 서서히 선회하고 있다.

인공지능 분야의 전문가들이 종종 딥러닝 거품에 대해 토로하듯이, 필자도 언론과 미디어에서 딥러닝 기반 인공지능 기술에 대해 지나친 장밋빛 기대를 과장되게 얘기하는 것에 대해 많이 불편하다. 다행히도 최근 알파고로 시작된 딥러닝 붐은 조금씩 차분하게 정리되어 가면서 실질적인 기술 발전이 이루어지는 방향으로 발전되는 것 같아 안심되지만, 여전히 인공지능 기술에 대한 과장된 기대와 홍보는 남아 있는 것 같다.

딥러닝 기술로 할 수 있는 것이 많은 것은 사실이지만, 아직 딥러닝 기술과 딥러닝의 뿌리가 된 뇌과학, 심리학적 가설과 실험 결과들의 연구조사를 통해서 우리 두뇌의 작동 방식에 대한 이해를 더 깊게 할 필요가 있다. 앞으로 딥러닝 분야의 새로운 혁신과 돌파구는 바로 이런 뇌과학, 심리학, 인지과학의 새로운 연구성과를 기반으로 해서 나타날 가능성이 높다.

이번 요슈아 벤지오 교수의 기조 강연 내용이 이런 가능성을 명료하게 보여준다. 이번 기조 강연에서 보여준 요슈아 벤지오 교수의 연구 내용은, 물론 본인의 전문 분야인 딥러닝 모델의 새로운 연구 방향을 창출하고 확장하는 측면에서 이루어진 측면도 있지만, 기본적으로 우리 두뇌의 정보 처리 방식에 대한 깊은 호기심과 지식에 대한 열망에서 시작된 연구라고 볼 수 있다.

필자가 왜 이런 얘기를 하는가 하면, 요슈아 벤지오 교수도 강연에서 언급했듯이 강연의 주된 내용으로 다루어진 “의식(consciousness)”에 관한 내용은 한동안 과학자들 사이에서 미신이나 허상과 같은 존재로 터부시되어 연구를 하는 것 자체를 부정적으로 생각했던 주제였다.

그렇지만 요슈아 벤지오 교수는 이 주제를 정면으로 다루어서 딥러닝 모델에서 “의식(consciousness)”에 관한 심리학, 인지과학 모델인 “전역 작업공간 이론(Global Workspace Theory)”을 계산학적으로 구현할 방법을 고민하고 이를 통해서 새로운 딥러닝 아키텍처를 제안하였다는 점을 주의 깊게 볼 필요가 있다.

요즘 필자를 불편하게 하는 것 중의 하나는, 텐서플로우나 파이토치등의 딥러닝 소프트웨어 프레임워크를 인공지능 기술로 내세워서 이런 소프트웨어 프레임워크만 잘 다루면 인공지능 기술을 만들 수 있다고 홍보하는 것이다. 또한, 이런 경향에 맞추어 정부에서 인공지능 엔지니어들을 대량으로 양성하겠다고 계획을 발표하는 것이다.

이전 글에서도 언급했지만, 텐서플로우와 파이토치와 같은 딥러닝 소프트웨어 프레임워크는 딥러닝 모델을 쉽게 만들고 테스트, 배포할 수 있도록 돕는 도구 기술이다. 이들 기술을 능숙하게 다룰 수 있다면 딥러닝을 이용한 인공지능 기술을 만들고 활용하는 데 많은 도움이 되겠지만, 그 자체로 인공지능 전문가가 되는 것은 아니다. 구글과 페이스북에서 텐서플로우와 파이토치를 만들어 배포하는 것은 딥러닝 기술 개발을 쉽게 하여 자사의 클라우드 서비스와 SNS 서비스의 활용을 높이려는 전략적인 측면도 있다.

인공지능 기술의 대중화와 인력 양성은 필자도 절실하게 바라는 바다. 하지만 인공지능 기술 발전을 저해하고, 정작 길러진 인력들이 시장에 적응하는데 혼란을 줄 수 있는 방식이 아닐지 신중하게 숙고하여 접근했으면 한다.

인공지능 기술이 성숙하기 위해서 아직 우리가 알아야 할 것들이 많기 때문에, 반드시 물리학, 수학, 컴퓨터 과학, 뇌과학, 심리학, 인지과학과 같은 기초 학문의 발전이 같이 수반되어야 한다. 엔지니어들의 대량 양성과 함께, 이에 맞게 인공지능 기술의 기초를 닦을 수 있는 전문 인력을 어떻게 양성할 것인지도 진지하게 고민이 되었으면 한다.

이번 요슈아 벤지오 교수의 강연에서 본 것과 같이 딥러닝 기술도 앞으로 인지과학, 뇌과학, 심리학의 연구 성과에서 새로운 돌파구와 혁신의 아이디어를 얻게 될 것이다. 딥러닝 분야의 대가가 천명한 것과 같이, 최근 딥러닝 연구의 방향이 “시스템 1” 인지 과정을 모델링, 응용하는 것에서 “시스템 2” 인지 과정을 모델링, 응용하는 것으로 서서히 전환되고 있으니, 딥러닝 기술을 응용한 상품과 서비스를 만드는 소프트웨어 엔지니어나 회사들도 이런 경향을 참고하는 것이 좋을 것 같다. 

세 번째로, BERT 및 GPT-3와 같은 언어 모델이 본격적으로 상용화되기 시작하면서, 현재 딥러닝 모델과 학습에 사용하는 데이터의 크기만 무조건 키우면 인공지능을 만들 수 있을 거라고 생각하는 경향이 심해졌는데, 결코 그렇지 않다. “자율성(autonomy)”을 기초로 진정한 비즈니스 모델 혁신을 만들 수 있는 인간 수준의 인공지능을 만들기 위해서는 아직도 연구하고 찾아내야 할 것들이 많다.

딥러닝 모델도 “시스템 2” 인지 과정을 모델링하고 소프트웨어로 구현할 수 있게 하는 수학적 모델과 방법이 더 많이 연구되어야 한다. “시스템 2” 인지 과정을 모델링할 수 있는 새로운 딥러닝 모델과, 기존의 딥러닝 모델을 문제에 맞게 적절하게 사용하여 사이버 물리 시스템 인공지능의 아키텍처를 설계하고, 이에 맞는 학습 전략과 알고리즘을 만들어 내는 일이 앞으로의 인공지능 연구의 큰 흐름이 될 것이다.

이번에 필자가 소개한 요슈아 벤지오 교수 강연 초반에, 요슈아 벤지오 교수는 최근 BERT 및 GPT-3와 같은 언어 모델 딥러닝 기술 동향으로 대표되는 최근 인공지능 기술 트렌드에 대해서, 마치 우리 두뇌 내부가 여물고 적절하게 성장하기도 전에 크기만 키우고 데이터만 부어 넣으면 인공지능이 만들어 질거라고 생각하는 것 같다고 비판하는 말을 가볍게 한 적이 있다.

최근 일부 언론에서 GPT-3가 사람과 비슷하게 대답하고 성능이 좋아진 것을 두고 사람과 같은 인공지능이 곧 출현하는 것이 아니냐는 식의 보도를 한 적이 있는데[48, 50-52], 이는 정말 대중을 잘못 이해시킬 수 있는 말이다. 현재 GPT-3 모델에는 앞서 언급한 것과 같은 “시스템 2” 인지 과정을 모델링하거나 구현하는 부분이 없다. 

현재 GPT-3 모델은 GPT-3 모델이 학습한 데이터상에서, 현재 주어진 입력에 대해서 다음에 나타날 확률이 가장 높은 대답을 계산하여 내놓는 것에 불과하고, 이 과정을 많은 데이터와 딥러닝 특유의 많은 수의 학습 파라미터를 통해서 보다 정밀하게 다듬었을 분이다.

어떻게 만들었건 사람과 유사한 대답을 하면 인공지능으로 볼 수 있는 것 아니냐고 반문하실 분들도 있을 것이다. 이 질문에 대답하기 위해서는 튜링 테스트와 인지과학, 현상학과 같이 다양한 분야에 대한 얘기를 같이해야 해서 이 글에서 자세히 언급하지는 않겠다. 어찌 되었건, GPT-3와 같은 거대 언어 모델이 내어놓는 답은 인간과 같은 대화와 소통을 하는 것이 아니라, 주어진 입력에 대해 과거 학습한 대화 언어 데이터에서 답변으로 나올 확률이 가능 높은 답변을 조작(manipulate)해서 만든다고 보는 것이 정확하다[49].

BERT, GPT-3와 같은 언어 모델의 등장이 시사하는 바는 앞으로 발전하는 컴퓨팅 기술과 인공지능 소프트웨어 기술의 발전으로, 인공지능이 점점 더 복잡한 작업을 처리하면서 인간의 작업과 일을 좀 더 지능적으로 돕게 될 거라는 전망이다. 인간의 일자리를 단시간 내에 대체한다는 식의 극단적인 관점으로 인공지능 기술을 바라본다면 인공지능 기술이 줄 수 있는 큰 기회를 놓치게 되고 말 것이다.

텐서플로우, 파이토치 경쟁으로 시작된 딥러닝 및 기계 학습 소프트웨어 기술의 발전은 인공지능 소프트웨어 엔지니어링 기술과 체계의 발전으로 이어져 점점 더 복잡한 아키텍처를 가지는 인공지능 모델의 출현과 활용을 가능하게 할 것이다.

이런 경향이 서비스와 상품, 인프라의 지능화 수준을 높이면서, 첨단 기계 지능의 향상과, 이런 기계 지능 향상에 쓰이는 인공지능 및 관련 기술의 실제 산업 현장의 배치 및 활용 사이에 생기는 시간차 때문에 나타나는 비즈니스 기회로 인공지능 및 지능형 서비스, 인프라와 관련된 많은 일자리와 산업 발전의 기회가 생길 수 있는 것에 우리 모두의 관심을 더 집중했으면 한다.

인공지능 소프트웨어가 복잡해지면서, 인공지능 기술의 경쟁은 앞으로 단순한 알고리즘의 경쟁이 아니라, 비즈니스에 사용할 인공지능 모델 디자인과 엔지니어링이 주요 경쟁력이 되는 시대가 다가오고 있다. 현재의 BERT와 GPT-3 모델은 벌써 이런 경향이 나타나고 있음을 강하게 뒷받침하고 있다.

이로 인해서 사이버 물리 시스템을 이용한 상품과 서비스 디자인에 필요한 인공지능 시스템을 적절한 시간내에 높은 품질로 만들어낼 수 있는 인공지능 디자인과 엔지니어링 역량이 앞으로 주요 기업의 중요한 역량의 하나로 자리 잡을 것이다. 이런 경향 때문에, 인공지능 시스템을 요구사항에 맞춰 신속하고 높은 품질로 설계, 구축할 수 있는 인공지능 시스템 아키텍트의 필요성도 점점 더 높아지게 될 것이다.

이렇게 인공지능 기술의 발전과, 이로 인해 사이버 물리 시스템으로 통칭되는 지능형 시스템의 발전이 주는 비즈니스 기회에 주목하고 대비하자. 하지만, 지나친 장및빛 전망과 인공지능 기술의 성숙도를 고려하지 않은 낙관론은 경계하자. 

필자가 이번 글에서 요슈아 벤지오 교수의 기조 강연 내용을 소개하면서 언급했듯이, 아직 기계가 사람과 같은 자율성과 전인성을 갖추기에는 우리가 우리의 두뇌에 대해 모르는 것이 너무 많다. 현재 우리가 가진 인공지능 기술이라는 도구의 한계를 명확하게 알고 사용한다면 인공지능 기술은 우리의 비즈니스에 많은 기회를 안겨줄 것이다. 

[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료
[2] Yoshua Bengio, “From System 1 Deep Learning to System 2 Deep Learning”, NeurIPS 2019, Posner Lecture, Wednesday, December 11, 2019. (https://slideslive.com/38922304/from-system-1-deep-learning-to-system-2-deep-learning)
[3] Martin Arjovsky, Léon Bottou, Ishaan Gulrajani, David Lopez-Paz, Invariant Risk Minimization, arXiv:1907.02893, 2019. (https://arxiv.org/abs/1907.02893)
[4] Leon Bottou, “Learning Representations Using Causal Invariance”, International Conference on Learning Representations (ICLR) 2019, Invited Talk, 2019.
[5] Razvan Pascanu, Caglar Gulcehre, Kyunghyun Cho, Yoshua Bengio, “How to Construct Deep Recurrent Neural Networks”, Proceedings of the International Conference on Learning Representations (ICLR) 2014, arXiv:1312.6026, 2014. (https://arxiv.org/abs/1312.6026)
[6] Guido F. Montufar, Razvan Pascanu, Kyunghyun Cho, Yoshua Bengio, “On the Number of Linear Regions of Deep Neural Networks”, Proceedings of the Neural Information Processing Systems (NeurIPS) 2014, 2014. (https://papers.nips.cc/paper/5422-on-the-number-of-linear-regions-of-deep-neural-networks)
[7] Honglak Lee, Roger B Grosse, Rajesh  Ranganath, Andrew Y. Ng, “Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations”, Proceedings of the 26th Annual International Conference on Machine Learning (ICML 2009), p. 609–616, 2009. (https://doi.org/10.1145/1553374.1553453)
[8] Brenden M. Lake, Ruslan Salakhutdinov, Joshua B. Tenenbaum, “Human-level concept learning through probabilistic program induction”, Science, V. 350 Iss. 6266, p. 1332 – 1338, 11 DECEMBER 2015. (DOI: 10.1126/science.aab3050, https://web.mit.edu/cocosci/Papers/Science-2015-Lake-1332-8.pdf)
[9] Brenden M. Lake, Marco Baroni, “Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks”, Proceedings of the 35th International Conference on Machine Learning (ICML 2018), PMLR 80:2873-2882, 2018. (http://proceedings.mlr.press/v80/lake18a.html)
[10] Dzmitry Bahdanau, Shikhar Murty, Michael Noukhovitch, Thien Huu Nguyen, Harm de Vries, Aaron Courville, “Systematic Generalization: What Is Required and Can It Be Learned?”, The 7th International Conference on Learning Representations 2019, arXiv:1811.12889, 2019. (https://arxiv.org/abs/1811.12889)
[11] Dzmitry Bahdanau, Harm de Vries, Timothy J. O'Donnell, Shikhar Murty, Philippe Beaudoin, Yoshua Bengio, Aaron Courville, “CLOSURE: Assessing Systematic Generalization of CLEVR Models”, arXiv:1912.05783, 2019. (https://arxiv.org/abs/1912.05783)
[12] Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio, “Neural Machine Translation by Jointly Learning to Align and Translate”, Proceedings of the 4th International Conference on Learning Representations 2015, arXiv:1409.0473, 2014. (https://arxiv.org/abs/1409.0473)
[13] Egger, S.W., Remington, E.D., Chang, C. et al., “Internal models of sensorimotor integration regulate cortical dynamics,” Nature Neuroscience 22, 1871–1882 (2019). (https://doi.org/10.1038/s41593-019-0500-6)
[14] Nan Rosemary Ke, Anirudh Goyal ALIAS PARTH GOYAL, Olexa Bilaniuk, Jonathan Binas, Michael C. Mozer, Chris Pal, Yoshua Bengio, “Sparse Attentive Backtracking: Temporal Credit Assignment Through Reminding”, Proceedings of the Neural Information Processing Systems 31 (NeurIPS 2018), 2018. (https://papers.nips.cc/paper/7991-sparse-attentive-backtracking-temporal-credit-assignment-through-reminding)
[15] Maxime Chevalier-Boisvert, Dzmitry Bahdanau, Salem Lahlou, Lucas Willems, Chitwan Saharia, Thien Huu Nguyen, Yoshua Bengio “BabyAI: A Platform to Study the Sample Efficiency of Grounded Language Learning”, Proceedings of the International Conference on Learning Representations (ICLR) 2019, 2019. (arXiv:1810.08272, https://arxiv.org/abs/1810.08272)
[16] Yoshua Bengio, “The Consciousness Prior”, arXiv:1709.08568, 2017. (https://arxiv.org/abs/1709.08568)
[17] Yoshua Bengio, S. Bengio, J. Cloutier, “Learning a synaptic learning rule”, Proceedings of the International Joint Conference on Neural Networks 1991 (IJCNN-91-Seattle), 1991. (DOI: 10.1109/IJCNN.1991.155621, https://ieeexplore.ieee.org/document/155621)
[18] Jürgen Schmidhuber, “Evolutionary principles in self-referential learning, or on learning how to learn: the meta-meta-... hook”, Institut für Informatik, Technische Universität München, 1987.
[19] Jürgen Schmidhuber, “Steps towards `self-referential' learning”, Technical Report CU-CS-627-92, Department of Computer Science, University of Colorado at Boulder, November 1992.
[20] Jürgen Schmidhuber, “Learning Factorial Codes by Predictability Minimization”, Neural Computation Vol. 4 Iss. 6, p. 863 – 879, 1992.
[21] Jürgen Schmidhuber, “A self-referential weight matrix”, Proceedings of the International Conference on Artificial Neural Networks, Amsterdam. pp. 446-451, 1993.
[22] Jürgen Schmidhuber, “On decreasing the ratio between learning complexity and number of time-varying variables in fully recurrent nets”, Proceedings of the International Conference on Artificial Neural Networks, Amsterdam. pp. 460-463, 1993.
[23] Bernhard Scholkopf, Dominik Janzing, Jonas Peters, Eleni Sgouritsa, Kun Zhang, Joris Mooij, “On Causal and Anticausal Learning”, Proceedings of the 29th International Conference on Machine Learning (ICML-12), p. 1255—1262, 2012.
[24] Yoshua Bengio, Tristan Deleu, Nasim Rahaman, Rosemary Ke, Sébastien Lachapelle, Olexa Bilaniuk, Anirudh Goyal, Christopher Pal, “A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms”, arXiv:1901.10912, 2019. (https://arxiv.org/abs/1901.10912)
[25] Nan Rosemary Ke, Olexa Bilaniuk, Anirudh Goyal, Stefan Bauer, Hugo Larochelle, Bernhard Schölkopf, Michael C. Mozer, Chris Pal, Yoshua Bengio, “Learning Neural Causal Models from Unknown Interventions”, arXiv:1910.01075, 2019. (https://arxiv.org/abs/1910.01075)
[26] Anirudh Goyal, Alex Lamb, Jordan Hoffmann, Shagun Sodhani, Sergey Levine, Yoshua Bengio, Bernhard Schölkopf, “Recurrent Independent Mechanisms”, arXiv:1909.10893, 2019. (https://arxiv.org/abs/1909.10893)
[27] Anirudh Goyal, Alex Lamb, Jordan Hoffmann, Shagun Sodhani, Sergey Levine, Yoshua Bengio, Bernhard Schölkopf, “Recurrent Independent Mechanisms”, arXiv:1909.10893, 2019. (https://arxiv.org/abs/1909.10893)
[28] Global workspace theory – Wikipedia, (https://en.wikipedia.org/wiki/Global_workspace_theory)
[29] R. Robinson, “Exploring the ‘Global Workspace’ of Consciousness,” PLoS Biol 7(3): e1000066. doi:10.1371/journal.pbio.1000066, 2009.
[30] Stanislas Dehaene, Consciousness and the Brain. Viking. pp. 161 - 177, 2015. (ISBN 978-0670025435)
[31] Danko Nikolić, "Practopoiesis: Or how life fosters a mind". Journal of Theoretical Biology 373: 40–61. arXiv:1402.5332, 2015. (doi:10.1016/j.jtbi.2015.03.003. PMID 25791287.)
[32] Susan Blackmore, "There Is No Stream of Consciousness". Journal of Consciousness Studies 9 (5–6): p.17-28, 2002.
[33] James, William, The Principles of Psychology: Volume 1, Cosimo Classics. p. 244. ISBN 978-1602062832, 2013.
[34] J. W. Dalton, The unfinished theatre, Journal of Consciousness Studies, 4 (4), p. 316-18, 1997.
[35] A. C. Elitzur, “Why don't we know what Mary knows? Baars' reversing the problem of qualia”, Journal of Consciousness Studies, 4 (4), p.319-24, 1997.
[36] Bernard J. Baars, A Cognitive Theory of Consciousness, Cambridge, MA: Cambridge University Press, 1988.
[37] Bernard J. Baars, In the Theater of Consciousness (New York, NY: Oxford University Press), 1997.
[38] Bernard J. Baars, “The conscious access hypothesis: Origins and recent evidence”, Trends in Cognitive Sciences, 6 (1), 47-52, 2002.
[39] Susan Blackmore, There is no stream of consciousness. Journal of Consciousness Studies 9. 5-6, 2002.
[40] Susan Blackmore, “Why Global Workspace Theory cannot explain consciousness (2004)” Presentation, 2004.
[41] Susan Blackmore, Conversations on consciousness, Oxford: Oxford University Press, 2005.
[42] A.R. Damasio, “Time-locked multiregional retroactivation: A systems-level proposal for the neural substrates of recall and recognition”, Cognition 33. 1-2:25-62, 1989.
[43] S. Dehaene, C. Sergent, and J.-P. Changeux, “A neuronal network model linking subjective reports and objective physiological data during conscious perception,” Proc. National Academy of Science (USA) 100. 14: 8520-8525, 2003.
[44] T. Metzinger, (ed), Neural Correlates of Consciousness: Empirical and Conceptual Questions, MIT Press, 2000.
[45] M.P. Shanahan, “A cognitive architecture that combines internal simulation with a global workspace”, Consciousness and Cognition 15: 433-449, 2006.
[46] C. Bao, Z. Fountas, T. Olugbade, and N. Bianchi-Berthouze, “Multimodal Data Fusion based on the Global Workspace Theory”, arXiv:2001.09485, 2020.
[47] 김종윤, “GPT-3, 인류 역사상 가장 뛰어난 '언어 인공지능'이다”, AI타임즈(www.aitimes.co.kr), 2020년8월 14일. (https://www.aitimes.kr/news/articleView.html?idxno=17370)
[48] 윤형준, 고태원, “[Mint] 지구 최강 인공지능 인터뷰...거짓말도 지어냈다, 섬뜩했다 - [Cover Story] 사람처럼 말하고 생각하는, 현존 최강 인공지능 ‘GPT-3′ 인터뷰”, 조선일보 – 경제, 2020년 9월 6일. (https://www.chosun.com/economy/2020/09/06/GXZASOYOYZGH5HRBNWXEG3QPG4/)
[49] 이경전, “[이경전의 경영과 과학] AI의 가능성·한계 보여준 GPT-3”, 한국경제, 2020년 9월 2일. (https://www.hankyung.com/opinion/article/2020090265561)
[50] 이재구, “GPT-3보다 더 똑똑한 AI가 온다”, AI타임즈(www.aitimes.co.kr), 2020년 8월 12일. (http://www.aitimes.com/news/articleView.html?idxno=131490)
[51] 이재구, "GPT-3는 희망인가, 위협인가"...논란 '팽팽'”, AI타임즈(www.aitimes.co.kr), 2020년 7월 27일. (http://www.aitimes.com/news/articleView.html?idxno=131045)
[52] 이재구, "GPT3 너는 대체?" 전문가도 놀라는 AI능력”, AI타임즈(www.aitimes.co.kr), 2020년 7월 20일,. (http://www.aitimes.com/news/articleView.html?idxno=130789)



* 김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구했다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행했다. ciokr@idg.co.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.