Offcanvas

BI / CIO / How To / 마케팅 / 비즈니스|경제 / 빅데이터 | 애널리틱스 / 소매|유통

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (3)

2017.05.26 김진철  |  CIO KR

LHC 검출기 및 가속기 데이터의 수집과 측정
지난번 연재(How-to-Big Data 4 – 빅데이터 수집에 관한 생각 (2))에서 데이터 수집의 중요성에 대해서 강조했다. 빅데이터 가공 과정에서 첨단 기술이 가장 많이 필요한 부분은 측정과 수집 부분이다. LHC 검출기와 가속기의 데이터 수집 및 측정 과정을 살펴보면서 빅데이터 수집에서 측정 과정의 중요성에 대해 같이 생각해보자.

LHC의 입자 검출기들은 소립자 세계를 들여다보는 일종의 현미경, 사진기와 같다고 지난 첫 번째 연재(How-to-Big Data 1 – 빅데이터 비즈니스의 근본적인 질문)에서 잠깐 언급했었다. 사실 눈에 보이지도 않는 나노(10^-9m), 펨토(10^-12m), 아토(10^-15m) 스케일, 심지어 관찰 가능한 물리 현상이 일어날 수 있는 공간적인 한계로 받아들여지고 있는 플랑크 스케일(1.61622938×10^−35m) 수준에서 일어나는 현상들은 눈으로 직접 관찰할 수 없기 때문에 이런 현상을 관찰하기 위한 방법을 고안하는 것 자체가 기술적인 난제다.

원자, 분자, 소립자들과 같이 눈에 보이지 않는 영역을 관찰하는 것 자체가 근본적인 철학적인 문제를 제기한다. 이 때문에 20세기 초반 물리학자들은 양자역학을 개발하는 초기 과정에서 불확정성 원리로 대표되는 자연 현상 인식의 한계와 양자역학의 물리학적 해석 문제에 대해 많은 논란을 벌이기도 했다. (신기하게도 양자역학을 고안하면서 알게 된 측정 과정의 철학적인 문제들은 소셜 빅데이터 수집에서도 비슷하게 나타난다. 자세한 내용은 이후에 다시 언급하기로 한다.)

LHC에서 입자들의 정보를 얻기 위해 측정하는 물리량은 여러 종류가 있는데, 이중에서 독자분들이 상대적으로 이해하기 쉬운 입자들의 궤적 측정 방법에 대해 살펴보기로 하자. 입자들의 궤적(trajectory)이란 입자가 이동하는 경로를 물리학 전문용어로 말한 것이다. 소립자들이 빛의 속도에 가까운 아주 빠른 속도로 움직일 뿐 아니라, 입자들의 크기도 나노, 펨토미터 수준으로 아주 작기 때문에 눈으로 직접 관찰할 수 없다. 입자들이 고유하게 가진 질량, 전하, 자기 모멘트(magnetic moment; 또는 자기 스핀(magnetic spin)이라고도 함) 등의 물리적인 성질 때문에 주변 물질과 상호작용하면서 남기는 흔적을 추적해서 입자들의 운동 경로를 기록하게 된다.

20세기 초 중반에는 입자들의 궤적을 기록하기 위해 안개상자(cloud chamber; Wilson chamber)라는 장치를 사용했다. 안개상자는 수증기나 메탄올 가스를 넣은 용기의 압력을 낮추어 용기를 과포화(supersaturation) 상태로 만들고, 이 용기 안에서 고에너지 입자를 생성, 상호작용 시키고 운동하도록 한다. 이렇게 과포화된 수증기나 메탄올 가스를 고에너지 입자가 통과하게 되면 고에너지 입자가 가스 입자를 이온화시키면서 생긴 전하 때문에 입자가 움직이는 경로를 따라 수증기, 또는 메탄올 가스 입자가 응집되어 흔적을 남기게 된다. 이렇게 입자가 안개상자에 남긴 흔적을 사진으로 촬영, 분석하면 어떤 입자가 생성되어 어떤 상호작용을 했는지 판독할 수 있게 된다. 아래의 그림 1의 왼편에 있는 것이 CERN 설립 초반에 사용했던 대형 안개상자고, 오른편이 안개상자에 기록된 입자들의 궤적이 사진으로 기록된 모습이다.

그림 1. CERN에서 사용한 대형 안개상자(cloud chamber)와 안개상자를 이용해 촬영한 입자들의 궤적


위의 안개상자는 궤적을 관찰하려는 입자의 에너지가 높을수록 더 큰 크기의 용기(chamber)가 필요하다. 현대 입자 물리학에서 관심을 가지고 연구하는 쿼크 등의 소립자들이 만드는 현상을 기록하기에는 시간, 공간 정밀도가 낮아 사용하기 어렵다. 이런 이유로 현대 입자 물리학에서는 소립자들의 궤적을 기록하기 위해 실리콘과 같은 반도체 물질을 이용한 센서와 정밀 전자 회로를 이용해 정밀한 궤적 기록을 한다.

아래의 그림 2는 실리콘 센서 패널을 이용한 궤적 검출기(tracker)이다. 실리콘 센서에 전하를 가진 입자가 지나가면 입자가 실리콘 센서 내 실리콘 원자를 이온화시키면서 실리콘의 전도 밴드(conduction band)에 전류로 흐를 수 있는 전자를 발생시킨다. 이렇게 생긴 전자는 실리콘 결정 내에 전류를 발생시키게 된다. 이런 단위 실리콘 센서(픽셀)를 아래 그림 3과 같이 일정한 크기로 반복적으로 붙여 센서 기판으로 제조하게 된다. 단위 실리콘 센서의 아래층에는 실리콘 센서에서 발생한 전류를 읽어 신호로 변환해주는 신호 수신 칩(readout chip)이 센서와 혹같이 생긴 회로를 통해 연결되어 있다. 이렇게 신호 수신 칩에서 검출된 전류 신호를 통해 실리콘 센서 패널의 어느 픽셀에서 입자가 지나갔는지를 판독하여 데이터 수집 회로를 통해 외부 컴퓨팅 시스템으로 전송하게 된다[2-7].

위의 실리콘 센서 패널을 이용한 궤적 검출기는 궤적의 공간 해상도가 실리콘 센서의 크기에 의해 결정된다. CMS 검출기에 쓰인 실리콘 하이브리드 픽셀 검출기의 경우는 하나의 실리콘 센서 픽셀이 길이 150µm, 폭 100µm, 깊이 270µm의 크기로, CMS 검출기 내 원통형 모양의 공간을 약 4,800만 개의 픽셀로 분해하여 궤적을 추적할 수 있는 정밀도를 가지고 있다. 이 픽셀들로 재구성할 수 있는 공간 해상도보다 더 작은 스케일로 일어난 입자의 이동 경로는 이 실리콘 센서 픽셀 검출기로는 검출과 재구성이 되지 않는다[2-7].

그림 2. CMS 검출기의 하이브리드 실리콘 픽셀 궤적 검출기(tracker)와 실리콘 센서 전자 회로 모듈

그림 출처: (왼편) HEPHY Homepage - Der CMS Tracker, http://www.hephy.at/de/cmstracker/ (오른편) DESY CMS Group - CMS Tracker Design for HL-LHC, http://cms.desy.de/e53612/e155175/e155179/

위와 같이 소립자들을 관찰하기 위해서는 소립자들이 주변과 어떤 상호작용을 하는지 이해하고 있어야 한다. 우리가 흔히 관찰한다고 하면 사람의 오감을 이용해서 관찰하는 것을 생각하기 때문에 관찰 과정에 대해 특별히 깊은 생각을 하지 않는다. 하지만, 눈에 보이지 않고, 인간의 오감을 넘어서는 대상을 관찰할 경우에는 우리가 관찰하는 대상이 환경과 관찰자와 어떻게 상호작용하게 될지 이해해야만 무엇을 관찰하고 관찰 과정을 어떻게 설계할지 알게 된다.

그림 3. CMS 검출기에서 쓰이는 하이브리드 실리콘 픽셀 궤적 검출기의 실리콘 픽셀 센서 유닛의 구조


우리가 관찰하고 측정하는 대상에 대해 잘 알고 있다면 관찰, 측정을 위한 데이터 수집 과정을 이해하고 데이터 분석을 보다 정확하게 할 수 있다. 만약 관찰하고 측정하는 대상이 미지의 것이고 모르는 것이라면, 우리가 가진 지식을 이용해서 가설을 세우고 지식의 지평선을 넓혀가는 과학적 탐구의 과정을 거쳐야 한다. 데이터가 어떻게 수집되었고, 데이터가 뭘 말하고 데이터가 보여주는 대상의 한계가 어디까지인지 이해하지 못한 상태에서 수행하는 데이터 분석은 아무 의미도 없다.

빅데이터 비즈니스의 데이터 수집과 측정 – 수집 과정과 비즈니스 모델과의 관계
위에서 CMS 검출기 중 입자의 이동 경로를 기록하는 안개상자와 하이브리드 실리콘 픽셀 궤적 검출기에 대해 간단하게 살펴보면서 데이터가 만들어지는 과정과 데이터의 한계를 이해하지 못한다면 데이터 분석이 의미 없다는 얘기를 했다. 사실 관찰과 측정에 관해서만도 아직도 깊게 논의해야 할 것이 많지만 여기서는 생략하고, 빅데이터 비즈니스가 과연 이런 과학 실험에서의 측정과 데이터 수집과 어떻게 관련 있는지 생각해 보자.

먼저 빅데이터 비즈니스에서 보통 많이 다루는 데이터의 수집 과정을 살펴보자. 요즘 미디어에서 제일 많이 언급되는 빅데이터는 역시 검색엔진을 통해 볼 수 있는 웹 빅데이터와 소셜 네트워크 서비스를 통해 수집되는 소셜 네트워크 데이터들이다. 웹 데이터는 꼭 사람들에 대한 데이터만을 수집하는 것은 아니지만, 웹 빅데이터와 소셜 네트워크 빅데이터 모두 비즈니스와 연관해서는 사람들에 대한 데이터를 수집하는 관점에서 많이 다뤄진다.

그림 4. 데이터 수집 대상이 사람인 경우의 다자 플랫폼 비즈니스 모델의 예


사람들에게 자신에 대한 개인 정보를 내놓도록 하려면 그런 정보를 주어야만 받을 수 있는 제품이나 서비스를 제공하고, 그 대가로 개인 정보를 수집해야 한다. 제일 대표적인 것이 소셜 네트워크 서비스다. 소셜 네트워크 서비스는 사람들이 개인 정보를 올리고 이를 이용해 다른 사람들과 온라인으로 쉽게 관계를 맺으며 즐겁게 할 수 있는 서비스를 제공함으로써 사람들의 신상 정보와 취향과 같은 다양한 개인 정보를 수집한다. 이런 개인 정보는 적절하게 가공되어 사람들의 개인 정보를 필요로 하는 광고회사나 온라인 마케팅 회사들에 제공되고, 이들 광고회사나 온라인 마케팅 회사들이 개인화된 상품 추천이나 마케팅 등에 개인 정보를 활용하게 된다. 결국은 데이터 흐름으로 중심으로 그려지는 플랫폼 비즈니스 모델을 통해 데이터가 수집되고 또 다른 비즈니스로 연결된다. 이런 비즈니스 모델은 요즘은 너무 흔해져서 누구나 잘 알고 있다. 이렇게 플랫폼을 통해서 서비스를 제공하고 개개인에 대한 정보를 수집하는 과정이 바로 일종의 측정 과정이 된다.

여기서, 수집된 개인정보가 대상이 되는 각 사람에 대해 얼마나 정확한 정보를 주는지는 보통 잘 고려하지 않는다. 만약 이런 비즈니스 모델이나 플랫폼을 통해서 아무리 많은 개인 정보를 모았다고 한들, 사람들이 제공한 정보가 정확하지 않다면 이런 데이터를 이용한 비즈니스는 크게 효과도 없을 것이고 성공하지도 못할 것이다. 사용자들이 자신들의 정확한 개인 정보를 기꺼이 내놓을 만큼 가치 있다고 믿는 서비스를 제공하지 않는다면 양질의 개인 정보 데이터를 얻는 것은 매우 어렵다.

위와 같은 개인 정보 수집 시에, 사람들이 만약 서비스를 받는 과정에서 자신의 정보 수집이나 측정 과정에 대한 내용을 알고 있을 때는 사람들이 주는 정보가 달라질 수 있음을 고려해야 한다. 사람들은 기계와는 달리 자신이 하는 행동에 대해 생각하고 성찰할 수 있는 능력이 있고, 이러한 자신의 행동에 대한 생각과 성찰은 일종의 재귀적인(recursive) 피드백으로 작용하여 서비스의 대가로 제공하는 사람들이 보이는 반응과 정보에 영향을 줄 수 있다.

이러한 효과의 대표적인 예가 페이스북의 데이터과학자인 아담 크레이머와 코넬대의 제이미 길로이, 제프리 핸콕이 미국의 저명 학술지인 미국 국립과학원보(PNAS)에 2014년에 공동 발표한 논문을 통해 논란이 되었던 페이스북의 감정 조작 실험 논란이다. 2012년 68만 9,003명의 뉴스피드에서 긍정적 또는 부정적 단어가 들어간 콘텐츠를 사용자 몰래 삭제하여 긍정적인, 또는 부정적인 감정을 사용자에게 유발하고, 그에 따라 사용자가 긍정적이거나 부정적인 콘텐츠를 작성하게 되는지 확인한 실험에서 사용자는 뉴스피드의 조작에 따라 긍정적인, 또는 부정적인 감정을 사용자가 겪게끔 영향을 줄 수 있다는 것을 확인하였다[8-9].

이 실험은 그 실험 결과 자체도 많은 논란을 불러일으켰지만, 이렇게 소셜 네트워크를 통해 사람들의 감정이 조작되고 전파될 수 있다는 사실이 사람들을 통해 알려지면서 사람들이 소셜 네트워크 서비스를 이용하면서 제공하는 개인 정보에 대한 불안감이 확산되었다는 것이 더 큰 문제였다. 이런 경우라면 페이스북을 통해 보다 정확한 사용자들의 정보와 데이터를 수집하기가 더 어려워질 수 있다.

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.