BI / CIO / How To / 마케팅 / 비즈니스|경제 / 빅데이터 | 애널리틱스 / 소매|유통

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (3)

2017.05.26 김진철 | CIO KR

LHC 검출기 및 가속기 데이터의 수집과 측정
지난번 연재(How-to-Big Data 4 – 빅데이터 수집에 관한 생각 (2))에서 데이터 수집의 중요성에 대해서 강조했다. 빅데이터 가공 과정에서 첨단 기술이 가장 많이 필요한 부분은 측정과 수집 부분이다. LHC 검출기와 가속기의 데이터 수집 및 측정 과정을 살펴보면서 빅데이터 수집에서 측정 과정의 중요성에 대해 같이 생각해보자.

LHC의 입자 검출기들은 소립자 세계를 들여다보는 일종의 현미경, 사진기와 같다고 지난 첫 번째 연재(How-to-Big Data 1 – 빅데이터 비즈니스의 근본적인 질문)에서 잠깐 언급했었다. 사실 눈에 보이지도 않는 나노(10^-9m), 펨토(10^-12m), 아토(10^-15m) 스케일, 심지어 관찰 가능한 물리 현상이 일어날 수 있는 공간적인 한계로 받아들여지고 있는 플랑크 스케일(1.61622938×10^−35m) 수준에서 일어나는 현상들은 눈으로 직접 관찰할 수 없기 때문에 이런 현상을 관찰하기 위한 방법을 고안하는 것 자체가 기술적인 난제다.

원자, 분자, 소립자들과 같이 눈에 보이지 않는 영역을 관찰하는 것 자체가 근본적인 철학적인 문제를 제기한다. 이 때문에 20세기 초반 물리학자들은 양자역학을 개발하는 초기 과정에서 불확정성 원리로 대표되는 자연 현상 인식의 한계와 양자역학의 물리학적 해석 문제에 대해 많은 논란을 벌이기도 했다. (신기하게도 양자역학을 고안하면서 알게 된 측정 과정의 철학적인 문제들은 소셜 빅데이터 수집에서도 비슷하게 나타난다. 자세한 내용은 이후에 다시 언급하기로 한다.)

LHC에서 입자들의 정보를 얻기 위해 측정하는 물리량은 여러 종류가 있는데, 이중에서 독자분들이 상대적으로 이해하기 쉬운 입자들의 궤적 측정 방법에 대해 살펴보기로 하자. 입자들의 궤적(trajectory)이란 입자가 이동하는 경로를 물리학 전문용어로 말한 것이다. 소립자들이 빛의 속도에 가까운 아주 빠른 속도로 움직일 뿐 아니라, 입자들의 크기도 나노, 펨토미터 수준으로 아주 작기 때문에 눈으로 직접 관찰할 수 없다. 입자들이 고유하게 가진 질량, 전하, 자기 모멘트(magnetic moment; 또는 자기 스핀(magnetic spin)이라고도 함) 등의 물리적인 성질 때문에 주변 물질과 상호작용하면서 남기는 흔적을 추적해서 입자들의 운동 경로를 기록하게 된다.

20세기 초 중반에는 입자들의 궤적을 기록하기 위해 안개상자(cloud chamber; Wilson chamber)라는 장치를 사용했다. 안개상자는 수증기나 메탄올 가스를 넣은 용기의 압력을 낮추어 용기를 과포화(supersaturation) 상태로 만들고, 이 용기 안에서 고에너지 입자를 생성, 상호작용 시키고 운동하도록 한다. 이렇게 과포화된 수증기나 메탄올 가스를 고에너지 입자가 통과하게 되면 고에너지 입자가 가스 입자를 이온화시키면서 생긴 전하 때문에 입자가 움직이는 경로를 따라 수증기, 또는 메탄올 가스 입자가 응집되어 흔적을 남기게 된다. 이렇게 입자가 안개상자에 남긴 흔적을 사진으로 촬영, 분석하면 어떤 입자가 생성되어 어떤 상호작용을 했는지 판독할 수 있게 된다. 아래의 그림 1의 왼편에 있는 것이 CERN 설립 초반에 사용했던 대형 안개상자고, 오른편이 안개상자에 기록된 입자들의 궤적이 사진으로 기록된 모습이다.

그림 1. CERN에서 사용한 대형 안개상자(cloud chamber)와 안개상자를 이용해 촬영한 입자들의 궤적

위의 안개상자는 궤적을 관찰하려는 입자의 에너지가 높을수록 더 큰 크기의 용기(chamber)가 필요하다. 현대 입자 물리학에서 관심을 가지고 연구하는 쿼크 등의 소립자들이 만드는 현상을 기록하기에는 시간, 공간 정밀도가 낮아 사용하기 어렵다. 이런 이유로 현대 입자 물리학에서는 소립자들의 궤적을 기록하기 위해 실리콘과 같은 반도체 물질을 이용한 센서와 정밀 전자 회로를 이용해 정밀한 궤적 기록을 한다.

아래의 그림 2는 실리콘 센서 패널을 이용한 궤적 검출기(tracker)이다. 실리콘 센서에 전하를 가진 입자가 지나가면 입자가 실리콘 센서 내 실리콘 원자를 이온화시키면서 실리콘의 전도 밴드(conduction band)에 전류로 흐를 수 있는 전자를 발생시킨다. 이렇게 생긴 전자는 실리콘 결정 내에 전류를 발생시키게 된다. 이런 단위 실리콘 센서(픽셀)를 아래 그림 3과 같이 일정한 크기로 반복적으로 붙여 센서 기판으로 제조하게 된다. 단위 실리콘 센서의 아래층에는 실리콘 센서에서 발생한 전류를 읽어 신호로 변환해주는 신호 수신 칩(readout chip)이 센서와 혹같이 생긴 회로를 통해 연결되어 있다. 이렇게 신호 수신 칩에서 검출된 전류 신호를 통해 실리콘 센서 패널의 어느 픽셀에서 입자가 지나갔는지를 판독하여 데이터 수집 회로를 통해 외부 컴퓨팅 시스템으로 전송하게 된다[2-7].

위의 실리콘 센서 패널을 이용한 궤적 검출기는 궤적의 공간 해상도가 실리콘 센서의 크기에 의해 결정된다. CMS 검출기에 쓰인 실리콘 하이브리드 픽셀 검출기의 경우는 하나의 실리콘 센서 픽셀이 길이 150µm, 폭 100µm, 깊이 270µm의 크기로, CMS 검출기 내 원통형 모양의 공간을 약 4,800만 개의 픽셀로 분해하여 궤적을 추적할 수 있는 정밀도를 가지고 있다. 이 픽셀들로 재구성할 수 있는 공간 해상도보다 더 작은 스케일로 일어난 입자의 이동 경로는 이 실리콘 센서 픽셀 검출기로는 검출과 재구성이 되지 않는다[2-7].

그림 2. CMS 검출기의 하이브리드 실리콘 픽셀 궤적 검출기(tracker)와 실리콘 센서 전자 회로 모듈

그림 출처: (왼편) HEPHY Homepage - Der CMS Tracker, http://www.hephy.at/de/cmstracker/ (오른편) DESY CMS Group - CMS Tracker Design for HL-LHC, http://cms.desy.de/e53612/e155175/e155179/

위와 같이 소립자들을 관찰하기 위해서는 소립자들이 주변과 어떤 상호작용을 하는지 이해하고 있어야 한다. 우리가 흔히 관찰한다고 하면 사람의 오감을 이용해서 관찰하는 것을 생각하기 때문에 관찰 과정에 대해 특별히 깊은 생각을 하지 않는다. 하지만, 눈에 보이지 않고, 인간의 오감을 넘어서는 대상을 관찰할 경우에는 우리가 관찰하는 대상이 환경과 관찰자와 어떻게 상호작용하게 될지 이해해야만 무엇을 관찰하고 관찰 과정을 어떻게 설계할지 알게 된다.

그림 3. CMS 검출기에서 쓰이는 하이브리드 실리콘 픽셀 궤적 검출기의 실리콘 픽셀 센서 유닛의 구조

우리가 관찰하고 측정하는 대상에 대해 잘 알고 있다면 관찰, 측정을 위한 데이터 수집 과정을 이해하고 데이터 분석을 보다 정확하게 할 수 있다. 만약 관찰하고 측정하는 대상이 미지의 것이고 모르는 것이라면, 우리가 가진 지식을 이용해서 가설을 세우고 지식의 지평선을 넓혀가는 과학적 탐구의 과정을 거쳐야 한다. 데이터가 어떻게 수집되었고, 데이터가 뭘 말하고 데이터가 보여주는 대상의 한계가 어디까지인지 이해하지 못한 상태에서 수행하는 데이터 분석은 아무 의미도 없다.

빅데이터 비즈니스의 데이터 수집과 측정 – 수집 과정과 비즈니스 모델과의 관계
위에서 CMS 검출기 중 입자의 이동 경로를 기록하는 안개상자와 하이브리드 실리콘 픽셀 궤적 검출기에 대해 간단하게 살펴보면서 데이터가 만들어지는 과정과 데이터의 한계를 이해하지 못한다면 데이터 분석이 의미 없다는 얘기를 했다. 사실 관찰과 측정에 관해서만도 아직도 깊게 논의해야 할 것이 많지만 여기서는 생략하고, 빅데이터 비즈니스가 과연 이런 과학 실험에서의 측정과 데이터 수집과 어떻게 관련 있는지 생각해 보자.

먼저 빅데이터 비즈니스에서 보통 많이 다루는 데이터의 수집 과정을 살펴보자. 요즘 미디어에서 제일 많이 언급되는 빅데이터는 역시 검색엔진을 통해 볼 수 있는 웹 빅데이터와 소셜 네트워크 서비스를 통해 수집되는 소셜 네트워크 데이터들이다. 웹 데이터는 꼭 사람들에 대한 데이터만을 수집하는 것은 아니지만, 웹 빅데이터와 소셜 네트워크 빅데이터 모두 비즈니스와 연관해서는 사람들에 대한 데이터를 수집하는 관점에서 많이 다뤄진다.

그림 4. 데이터 수집 대상이 사람인 경우의 다자 플랫폼 비즈니스 모델의 예

사람들에게 자신에 대한 개인 정보를 내놓도록 하려면 그런 정보를 주어야만 받을 수 있는 제품이나 서비스를 제공하고, 그 대가로 개인 정보를 수집해야 한다. 제일 대표적인 것이 소셜 네트워크 서비스다. 소셜 네트워크 서비스는 사람들이 개인 정보를 올리고 이를 이용해 다른 사람들과 온라인으로 쉽게 관계를 맺으며 즐겁게 할 수 있는 서비스를 제공함으로써 사람들의 신상 정보와 취향과 같은 다양한 개인 정보를 수집한다. 이런 개인 정보는 적절하게 가공되어 사람들의 개인 정보를 필요로 하는 광고회사나 온라인 마케팅 회사들에 제공되고, 이들 광고회사나 온라인 마케팅 회사들이 개인화된 상품 추천이나 마케팅 등에 개인 정보를 활용하게 된다. 결국은 데이터 흐름으로 중심으로 그려지는 플랫폼 비즈니스 모델을 통해 데이터가 수집되고 또 다른 비즈니스로 연결된다. 이런 비즈니스 모델은 요즘은 너무 흔해져서 누구나 잘 알고 있다. 이렇게 플랫폼을 통해서 서비스를 제공하고 개개인에 대한 정보를 수집하는 과정이 바로 일종의 측정 과정이 된다.

여기서, 수집된 개인정보가 대상이 되는 각 사람에 대해 얼마나 정확한 정보를 주는지는 보통 잘 고려하지 않는다. 만약 이런 비즈니스 모델이나 플랫폼을 통해서 아무리 많은 개인 정보를 모았다고 한들, 사람들이 제공한 정보가 정확하지 않다면 이런 데이터를 이용한 비즈니스는 크게 효과도 없을 것이고 성공하지도 못할 것이다. 사용자들이 자신들의 정확한 개인 정보를 기꺼이 내놓을 만큼 가치 있다고 믿는 서비스를 제공하지 않는다면 양질의 개인 정보 데이터를 얻는 것은 매우 어렵다.

위와 같은 개인 정보 수집 시에, 사람들이 만약 서비스를 받는 과정에서 자신의 정보 수집이나 측정 과정에 대한 내용을 알고 있을 때는 사람들이 주는 정보가 달라질 수 있음을 고려해야 한다. 사람들은 기계와는 달리 자신이 하는 행동에 대해 생각하고 성찰할 수 있는 능력이 있고, 이러한 자신의 행동에 대한 생각과 성찰은 일종의 재귀적인(recursive) 피드백으로 작용하여 서비스의 대가로 제공하는 사람들이 보이는 반응과 정보에 영향을 줄 수 있다.

이러한 효과의 대표적인 예가 페이스북의 데이터과학자인 아담 크레이머와 코넬대의 제이미 길로이, 제프리 핸콕이 미국의 저명 학술지인 미국 국립과학원보(PNAS)에 2014년에 공동 발표한 논문을 통해 논란이 되었던 페이스북의 감정 조작 실험 논란이다. 2012년 68만 9,003명의 뉴스피드에서 긍정적 또는 부정적 단어가 들어간 콘텐츠를 사용자 몰래 삭제하여 긍정적인, 또는 부정적인 감정을 사용자에게 유발하고, 그에 따라 사용자가 긍정적이거나 부정적인 콘텐츠를 작성하게 되는지 확인한 실험에서 사용자는 뉴스피드의 조작에 따라 긍정적인, 또는 부정적인 감정을 사용자가 겪게끔 영향을 줄 수 있다는 것을 확인하였다[8-9].

이 실험은 그 실험 결과 자체도 많은 논란을 불러일으켰지만, 이렇게 소셜 네트워크를 통해 사람들의 감정이 조작되고 전파될 수 있다는 사실이 사람들을 통해 알려지면서 사람들이 소셜 네트워크 서비스를 이용하면서 제공하는 개인 정보에 대한 불안감이 확산되었다는 것이 더 큰 문제였다. 이런 경우라면 페이스북을 통해 보다 정확한 사용자들의 정보와 데이터를 수집하기가 더 어려워질 수 있다.

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기

CIO 입자검출기 LHC CERN 유럽입자물리학연구소 김진철 양자역학 빅데이터 소셜네트워크 아마존고

Surfshark

“유료 VPN, 분명한 가치 있다” VPN 선택 가이드

VPN (가상 사설 네트워크, Virtual Private Network)은 인터넷 사용자에게 개인 정보 보호와 보안을 제공하는 중요한 도구로 널리 인정받고 있다. VPN은 공공 와이파이 환경에서도 데이터를 안전하게 전송할 수 있고, 개인 정보를 보호하는 데 도움을 준다. VPN 서비스의 수요가 증가하는 것도 같은 이유에서다. 동시에 유료와 무료 중 어떤 VPN을 선택해야 할지 많은 관심을 가지고 살펴보는 사용자가 많다. 가장 먼저 사용자의 관심을 끄는 것은 별도의 예산 부담이 없는 무료 VPN이지만, 그만큼의 한계도 있다. 무료 VPN, 정말 괜찮을까? 무료 VPN 서비스는 편리하고 경제적 부담도 없지만 고려할 점이 아예 없는 것은 아니다. 보안 우려 대부분의 무료 VPN 서비스는 유료 서비스에 비해 보안 수준이 낮을 수 있다. 일부 무료 VPN은 사용자 데이터를 수집해 광고주나 서드파티 업체에 판매하는 경우도 있다. 이러한 상황에서 개인 정보가 유출될 우려가 있다. 속도와 대역폭 제한 무료 VPN 서비스는 종종 속도와 대역폭에 제한을 생긴다. 따라서 사용자는 느린 인터넷 속도를 경험할 수 있으며, 높은 대역폭이 필요한 작업을 수행하는 데 제약을 받을 수 있다. 서비스 제한 무료 VPN 서비스는 종종 서버 위치가 적거나 특정 서비스 또는 웹사이트에 액세스하지 못하는 경우가 생긴다. 또한 사용자 수가 늘어나 서버 부하가 증가하면 서비스의 안정성이 저하될 수 있다. 광고 및 추적 일부 무료 VPN은 광고를 삽입하거나 사용자의 온라인 활동을 추적하여 광고주에게 판매할 수 있다. 이 경우 사용자가 광고를 보아야 하거나 개인 정보를 노출해야 할 수도 있다. 제한된 기능 무료 VPN은 유료 버전에 비해 기능이 제한될 수 있다. 예를 들어, 특정 프로토콜이나 고급 보안 기능을 지원하지 않는 경우가 그렇다. 유료 VPN의 필요성 최근 유행하는 로맨스 스캠은 인터넷 사기의 일종으로, 온라인 데이트나 소셜 미디어를 통해 가짜 프로필을 만들어 상대를 속이는 행위다. 이러한 상황에서 VPN은 사용자가 안전한 연결을 유지하고 사기 행위를 방지하는 데 도움이 된다. VPN을 통해 사용자는 상대방의 신원을 확인하고 의심스러운 활동을 감지할 수 있다. 그 외에도 유료 VPN만의 강점을 적극 이용해야 하는 이유는 다음 3가지로 요약할 수 있다. 보안 강화 해외 여행객이 증가함에 따라 공공 와이파이를 사용하는 경우가 늘어나고 있다. 그러나 공공 와이파이는 보안이 취약해 개인 정보를 노출할 위험이 있다. 따라서 VPN을 사용하여 데이터를 암호화하고 개인 정보를 보호하는 것이 중요하다. 서프샤크 VPN은 사용자의 개인 정보를 안전하게 유지하고 해킹을 방지하는 데 유용하다. 개인 정보 보호 인터넷 사용자의 검색 기록과 콘텐츠 소비 패턴은 플랫폼에 의해 추적될 수 있다. VPN을 사용하면 사용자의 IP 주소와 로그를 숨길 수 있으며, 개인 정보를 보호할 수 있다. 또한 VPN은 사용자의 위치를 숨기고 인터넷 활동을 익명으로 유지하는 데 도움이 된다. 지역 제한 해제 해외 여행 중에도 한국에서 송금이 필요한 경우가 생길 수 있다. 그러나 IP가 해외 주소이므로 은행 앱에 접근하는 것이 제한될 수 있다. VPN을 사용하면 지역 제한을 해제해 해외에서도 한국 인터넷 서비스를 이용할 수 있다. 따라서 해외에서도 안전하고 편리하게 인터넷을 이용할 수 있다. 빠르고 안전한 유료 VPN, 서프샤크 VPN 뛰어난 보안 서프샤크 VPN은 강력한 암호화 기술을 사용하여 사용자의 인터넷 연결을 안전하게 보호한다. 이는 사용자의 개인 정보와 데이터를 보호하고 외부 공격으로부터 사용자를 보호하는 데 도움이 된다. 다양한 서버 위치 서프샤크 VPN은 전 세계 곳곳에 여러 서버가 위치하고 있어, 사용자가 지역 제한된 콘텐츠에 액세스할 수 있다. 해외에서도 로컬 콘텐츠에 손쉽게 접근할 수 있음은 물론이다. 속도와 대역폭 서프샤크 VPN은 빠른 속도와 무제한 대역폭을 제공하여 사용자가 원활한 인터넷 경험을 누릴 수 있도록 지원한다. 온라인 게임, 스트리밍, 다운로드 등 대역폭이 필요한 활동에 이상적이다. 다양한 플랫폼 지원 서프샤크 VPN은 다양한 플랫폼 및 디바이스에서 사용할 수 있다. 윈도우, 맥OS, iOS, 안드로이드 등 다양한 운영체제 및 디바이스에서 호환되어 사용자가 어디서나 안전한 인터넷을 즐길 수 있다. 디바이스 무제한 연결 서프샤크 VPN은 무제한 연결을 제공하여 사용자가 필요할 때 언제든지 디바이스의 갯수에 상관없이 VPN을 사용할 수 있다.

평점 - 댓글 -개

평점

Offcanvas

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (3)

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기

Sponsored

댓글

추천 테크라이브러리

인터뷰 | “‘친환경+AI’ 앞세워 데이터센터 새바람 이끌 것”··· 엠피리온 디지털 최고전략책임자 최용석

일문일답 | “AI 기반 옵저버빌리티, IT 넘어 기업 전반에서 중요해질 것” 다이나트레이스 이효은 지사장

인터뷰 | “위기에서 기회를 보다’ 아이브릭스 채종현 대표가 전하는 ‘비즈니스 AI’ 이야기

인터뷰 | 빠른 대용량 편집기 ‘엠에디터’를 아시나요? ··· 40년 경력의 개발자 에무라 유타카 대표

일문일답 | 브로드컴 앤디 날라판 CIO·CTO·CSO가 말하는 클라우드 성공 노하우