2012.02.01

“데이터 과학자 부족, 새로운 폰 노이만 병목 현상”

Brian Proffitt | ITWorld
스트레타 컨퍼런스의 창립자인 에드 덤빌이 데이터와 정보 사이의 간극에 대해 이야기했다.

비즈니스와 테크놀로지의 영역에서 데이터는 중요한 위상을 지닌다. 다가올 오렐리 스트레타 컨퍼런스(O'Reilly Strata Conference) 역시 참석자들에게는 데이터 주도의 혁신적인 방법론에 관하여 살펴볼 수 있는 좋은 기회가 될 것이다.

오렐리 스트레타 컨퍼런스 2012년 윈터 에디션은 빅 데이터에 관한 이해를 원하는 비즈니스맨 및 새로운 미래 테크놀로지를 만들어내고 있는 급진적 데이터 과학자를 위한 세션을 제공할 예정이다.

지난 몇 년간 하둡(Hadoop)과 카산드라(Cassandra), 그리고 맵리듀스(MapReduce)로 대표되는 오픈 소스 테크놀로지들은 지금까지 관계형 데이터베이스 테크놀로지에서는 경험해보지 못했던 방식으로 데이터를 활용할 수 있도록 지원하면서 빅 데이터라는 이름을 세상에 알렸다. 스트레타 컨퍼런스는 빅 데이터 작용의 근간을 이해하고자 하는 이들을 위한 최초이자 최대 규모의 모임이다.

창립자인 에드 덤빌은 이것(사용자들과 데이터 과학자들에게 빅 데이터의 효용과 적용 방안에 관하여 교육하는 것)이 스트레타의 핵심 중 하나라고 소개했다.

덤빌은 최근의 한 인터뷰에서 “스트레타가 다루는 핵심 주제는 세 가지다. 우선의 두 주제는 데이터의 증가와 유비쿼터스 컴퓨팅의 성장이다. 그리고 이 둘은 마지막 주제를 형성하는 근간이 된다”라고 말했다.

덤빌이 설명하는 마지막 주제란 ‘사물 인터넷(Internet of Things)’이라는 이름으로 설명되곤 하는, 보다 높은 수준의 상호 연결성과 관련한 문제다. 이는 수 억의 사물들이 태그(tag)되거나 인터넷에 연결되는 형태를 설명하는 개념이다. 여기에서 각각의 사물들은 막대한 정보를 공급하는 주역이 된다.

그렇다면 이러한 데이터는 누구에 의해 처리되고, 어떻게 저장되며, 어떠한 방식으로 활용되는 것인가? 이는 이번 모임의 핵심적인 물음이었고, 동시에 스트레타가 소개하고자 한 핵심이었다(그들은 특히 세 번째 질문인 데이터의 활용 방식에 무게를 두었다). 덤빌은 이를 다소 완곡한 방식으로 ‘데이터와 파이널 마일(final mile)’이라 표현했다.

네트워크 엔지니어들에겐 이 ‘파이널 마일’이란 표현이 친숙하게 들릴 수 있겠다. 이는 최종 사용자와 나머지 인터넷 간의 모든 중요한 연결성을 의미하곤 하기 때문이다.

덤빌은 “즉, 이는 비즈니스 내부의 데이터 과학과 애널리틱스(analytics)에 관련된 것”이라 설명했다. 데이터 측면에서 ‘파이널 마일’이란 데이터를 적절히 처리하고 진정으로 중요한 정보를 전달하는 능력을 의미한다.

데이터를 정보로 바꾸는 (그리고 이를 또 다시 지식 습득에 활용하는) 교각의 역할을 하는 것이 바로 데이터 과학자다. 그러나 그들의 수는 시장 성장에 비해 여전히 부족한 양상을 보여주고 있다.

스트레타의 주최자들은 데이터 과학자에 대해 엔지니어링과 데이터 관리, 수학과 글쓰기의 전문가라 표현한다. 덤빌은 “스토리텔링과 시각화 기술 역시 중요하다”라고 덧붙였다.

기자는 덤빌에게 (풍부한 정보 전달을 위해 그래픽을 효과적으로 사용한) 한스 로즈링의 작업을 소개해 준 적이 있다. 이를 접한 덤빌은 로즈링이 대량 데이터 세트를 활용해 작업하는 것은 아니지만, 그의 작업과 데이터 과학자의 그것 사이에 많은 공통점이 있다는데 동의했다. 빅 데이터를 다루는 데이터 과학자는 로즈링의 작업을 뛰어넘는 모델을 창출할 수 있어야 하는 것이다.

덤빌은 “핵심은 여전히 매우 적은 수의 데이터 과학자만이 활동하고 있다는 사실이다. 데이터 과학자의 부족은 새로운 폰 노이만 병목현상(Von Neumann bottleneck)”이라고 말했다. 폰 노이만 병목 현상이란 CPU와 기억장치 간의 통로에 정보가 집중됨으로써 작업이 지연되는 현상을 말한다.

뒤이어 덤빌은 데이터 과학자가 모든 작업을 한번에 처리하는 천재일 필요는 없다고 강조했다. 대신 그는 데이터 과학과 관련한 여러 능력을 갖춘 멤버들과 팀을 꾸려 효율성을 증대시킬 수 있을 것이라고 말했다.

올 해 첫 번째 스트레타 컨퍼런스는 2월 28일에서 3월 1일까지 캘리포니아 산타 클라라에서 개최될 예정이고, 2회 컨퍼런스는 올해 말 뉴욕에서 개최될 예정이다. 이 컨퍼런스는 ‘빅 데이터 전문가를 찾아 헤매는’ 비즈니스들에게는 인재 모집의 공간으로, 데이터 과학자들에게는 보다 깊은 데이터 관련 논의를 다루는 협력의 공간으로 작동할 전망이다.

덤빌은 “스트레타는 데이터 과학자 커뮤니티(community)를 위한 집이다. 우리는 이 열성적인 천재들에게 오아시스가 되어주는 것에 큰 기쁨을 느낀다”라고 말했다.

현재 빅 데이터 시장의 리눅스(Linux)라 불리우고 있는 하둡에게는, 이번 3일 간의 컨퍼런스가 하나의 쇼케이스 무대가 될 것으로 기대된다. ciokr@idg.co.kr



2012.02.01

“데이터 과학자 부족, 새로운 폰 노이만 병목 현상”

Brian Proffitt | ITWorld
스트레타 컨퍼런스의 창립자인 에드 덤빌이 데이터와 정보 사이의 간극에 대해 이야기했다.

비즈니스와 테크놀로지의 영역에서 데이터는 중요한 위상을 지닌다. 다가올 오렐리 스트레타 컨퍼런스(O'Reilly Strata Conference) 역시 참석자들에게는 데이터 주도의 혁신적인 방법론에 관하여 살펴볼 수 있는 좋은 기회가 될 것이다.

오렐리 스트레타 컨퍼런스 2012년 윈터 에디션은 빅 데이터에 관한 이해를 원하는 비즈니스맨 및 새로운 미래 테크놀로지를 만들어내고 있는 급진적 데이터 과학자를 위한 세션을 제공할 예정이다.

지난 몇 년간 하둡(Hadoop)과 카산드라(Cassandra), 그리고 맵리듀스(MapReduce)로 대표되는 오픈 소스 테크놀로지들은 지금까지 관계형 데이터베이스 테크놀로지에서는 경험해보지 못했던 방식으로 데이터를 활용할 수 있도록 지원하면서 빅 데이터라는 이름을 세상에 알렸다. 스트레타 컨퍼런스는 빅 데이터 작용의 근간을 이해하고자 하는 이들을 위한 최초이자 최대 규모의 모임이다.

창립자인 에드 덤빌은 이것(사용자들과 데이터 과학자들에게 빅 데이터의 효용과 적용 방안에 관하여 교육하는 것)이 스트레타의 핵심 중 하나라고 소개했다.

덤빌은 최근의 한 인터뷰에서 “스트레타가 다루는 핵심 주제는 세 가지다. 우선의 두 주제는 데이터의 증가와 유비쿼터스 컴퓨팅의 성장이다. 그리고 이 둘은 마지막 주제를 형성하는 근간이 된다”라고 말했다.

덤빌이 설명하는 마지막 주제란 ‘사물 인터넷(Internet of Things)’이라는 이름으로 설명되곤 하는, 보다 높은 수준의 상호 연결성과 관련한 문제다. 이는 수 억의 사물들이 태그(tag)되거나 인터넷에 연결되는 형태를 설명하는 개념이다. 여기에서 각각의 사물들은 막대한 정보를 공급하는 주역이 된다.

그렇다면 이러한 데이터는 누구에 의해 처리되고, 어떻게 저장되며, 어떠한 방식으로 활용되는 것인가? 이는 이번 모임의 핵심적인 물음이었고, 동시에 스트레타가 소개하고자 한 핵심이었다(그들은 특히 세 번째 질문인 데이터의 활용 방식에 무게를 두었다). 덤빌은 이를 다소 완곡한 방식으로 ‘데이터와 파이널 마일(final mile)’이라 표현했다.

네트워크 엔지니어들에겐 이 ‘파이널 마일’이란 표현이 친숙하게 들릴 수 있겠다. 이는 최종 사용자와 나머지 인터넷 간의 모든 중요한 연결성을 의미하곤 하기 때문이다.

덤빌은 “즉, 이는 비즈니스 내부의 데이터 과학과 애널리틱스(analytics)에 관련된 것”이라 설명했다. 데이터 측면에서 ‘파이널 마일’이란 데이터를 적절히 처리하고 진정으로 중요한 정보를 전달하는 능력을 의미한다.

데이터를 정보로 바꾸는 (그리고 이를 또 다시 지식 습득에 활용하는) 교각의 역할을 하는 것이 바로 데이터 과학자다. 그러나 그들의 수는 시장 성장에 비해 여전히 부족한 양상을 보여주고 있다.

스트레타의 주최자들은 데이터 과학자에 대해 엔지니어링과 데이터 관리, 수학과 글쓰기의 전문가라 표현한다. 덤빌은 “스토리텔링과 시각화 기술 역시 중요하다”라고 덧붙였다.

기자는 덤빌에게 (풍부한 정보 전달을 위해 그래픽을 효과적으로 사용한) 한스 로즈링의 작업을 소개해 준 적이 있다. 이를 접한 덤빌은 로즈링이 대량 데이터 세트를 활용해 작업하는 것은 아니지만, 그의 작업과 데이터 과학자의 그것 사이에 많은 공통점이 있다는데 동의했다. 빅 데이터를 다루는 데이터 과학자는 로즈링의 작업을 뛰어넘는 모델을 창출할 수 있어야 하는 것이다.

덤빌은 “핵심은 여전히 매우 적은 수의 데이터 과학자만이 활동하고 있다는 사실이다. 데이터 과학자의 부족은 새로운 폰 노이만 병목현상(Von Neumann bottleneck)”이라고 말했다. 폰 노이만 병목 현상이란 CPU와 기억장치 간의 통로에 정보가 집중됨으로써 작업이 지연되는 현상을 말한다.

뒤이어 덤빌은 데이터 과학자가 모든 작업을 한번에 처리하는 천재일 필요는 없다고 강조했다. 대신 그는 데이터 과학과 관련한 여러 능력을 갖춘 멤버들과 팀을 꾸려 효율성을 증대시킬 수 있을 것이라고 말했다.

올 해 첫 번째 스트레타 컨퍼런스는 2월 28일에서 3월 1일까지 캘리포니아 산타 클라라에서 개최될 예정이고, 2회 컨퍼런스는 올해 말 뉴욕에서 개최될 예정이다. 이 컨퍼런스는 ‘빅 데이터 전문가를 찾아 헤매는’ 비즈니스들에게는 인재 모집의 공간으로, 데이터 과학자들에게는 보다 깊은 데이터 관련 논의를 다루는 협력의 공간으로 작동할 전망이다.

덤빌은 “스트레타는 데이터 과학자 커뮤니티(community)를 위한 집이다. 우리는 이 열성적인 천재들에게 오아시스가 되어주는 것에 큰 기쁨을 느낀다”라고 말했다.

현재 빅 데이터 시장의 리눅스(Linux)라 불리우고 있는 하둡에게는, 이번 3일 간의 컨퍼런스가 하나의 쇼케이스 무대가 될 것으로 기대된다. ciokr@idg.co.kr

X