Offcanvas

BI / How To / 개발자 / 데이터센터 / 비즈니스|경제 / 빅데이터 | 애널리틱스 / 애플리케이션 / 오픈소스 / 운영체제 / 클라우드

김진철의 How-to-Big Data | 빅데이터와 클라우드 기술 (1)

2017.09.25 김진철  |  CIO KR


Globus 미들웨어를 기반으로 개발되고 있던 LCG 미들웨어 기술로 전 세계 고에너지 물리학 연구소의 컴퓨팅 센터와 데이터센터에 있던 자원을 통합하고 있던 LHC 연구원들은 LHC 실험의 시운전이 임박한 2004년에도 이런 이종성 문제가 해결되지 않고 여전히 원격 그리드 컴퓨팅 자원에서의 작업 성공률이 60% 정도밖에 되지 않는다는 사실 때문에 많은 걱정을 하고 있었다. 이런 낮은 작업 성공률의 원인은 여러 가지가 있었는데, 가장 많은 영향을 미치는 것이 작업 실행 환경과 노드별 방화벽 정책을 포함한 보안 정책이 데이터센터별로 너무 다르다는 것이었다. 이런 작업 실행 및 보안 환경을 각 데이터센터의 독특한 상황을 고려하면서도 일관성 있게 유지, 관리할 수 있을지가 문제였다.

이 문제의 해결책은 의외의 영역에서 등장하는데, 바로 가상 머신을 활용하는 것이었다. 당시 LCG 자원 통합 및 운영을 위해 정기적으로 열리고 있던 LCG 운영 및 통합 회의(LCG Operation and Integration Meeting)에서 분석 작업을 실행하기 전에 분석 작업에 필요한 의존성 소프트웨어와 환경이 동일하게 맞추어진 가상 머신 이미지를 해당 노드에 먼저 전송하여 실행시킨 다음, 이 가상 머신에서 분석 작업을 실행하는 아이디어가 제안되었다. LCG 자원에서의 이종성 문제는 가상 머신을 활용하는 방법을 채택하면서부터 작업 성공률이 크게 개선되기 시작하였다.

이렇게 LCG 그리드 인프라에서 가상 머신을 이용해 작업 실행 환경의 이종성을 극복하기 위한 기술을 체계적으로 개발하기 시작한 것이 바로 오늘날 우리가 보고 있는 클라우드 컴퓨팅 기술의 시작이었다. 이러한 LCG 그리드 기술에서 가상 머신 기술을 클라우드 컴퓨팅 기술로서 체계화, 산업화하기 시작한 것이 당시 스페인 마드리드 대학의 고성능 컴퓨팅 기술 연구실에서 개발하였던 최초의 클라우드 컴퓨팅 미들웨어인 OpenNebula와 이스라엘 하이파(Haifa) 소재 IBM 연구소에서 유럽의 여러 분산컴퓨팅 연구팀과 유럽연합의 FP7 프로그램의 지원을 받아 개발하기 시작한 Reservoir 프로젝트이다[9-11].
 
그림 3. 전 세계에서 운영되고 있는 그리드 사이트의 위치 및 규모. 2016년 기준 자료이며, 전세계 컴퓨팅 센터에 걸쳐 약 65만 CPU 코어와 500PB의 저장 장치를 약 4만 6천명의 사용자들이 사용하고 있다. 한국의 KISTI에서 운영하고 있는 ALICE Tier-1 데이터센터도 같이 보인다[8].

빅데이터 기술에서 가장 중요한 것 – 자원 이종성 극복과 확장성
이 연재를 시작하면서 필자는 빅데이터 비즈니스를 기술에 초점을 맞추지 말고 조직 고유의 요구사항과 비즈니스, 또는 문제 해결의 목적에 초점을 맞추어서 빅데이터 비즈니스 모델과 시스템을 디자인하라고 계속해서 조언해 왔다. 클라우드 컴퓨팅이 시작된 배경을 살펴보면서도 우리는 조직 및 비즈니스에서 당면한 문제를 해결하기 위해 기술을 도입하는 것이지, 결코 기술만을 앞세워서는 성공할 수 없다는 사실을 다시 교훈으로 얻게 된다.

CERN에서 현재 클라우드 컴퓨팅의 핵심 기술의 하나인 가상화 기술이 필요하게 된 배경에는, LHC의 막대한 빅데이터를 분석하기 위한, 당시 기술로서는 도달하기 어려운 극단적인 수준의 확장성을 구현할 수 있는 컴퓨팅 인프라를 구축하기 위해 자원 이종성(resource heterogeneity) 문제 해결의 방책으로서 가상화 기술을 도입했다는 것을 앞에서 살펴보았다. CERN은 LHC 실험을 위해 필요한 기술적인 난제를 푸는 과정에서 클라우드 컴퓨팅 기술을 생각하게 된 것이지, 결코 클라우드 컴퓨팅 기술을 가지고 어떤 비즈니스를 할 것인지 생각한 것이 아니다.

CERN이 이렇게 가상화 기술을 그리드 컴퓨팅에 도입하고 개발했지만, 정작 LCG 미들웨어를 개발한 연구원들은 이 기술이 후에 클라우드 컴퓨팅이라 불리게 될 것을 생각하지 못했다. IBM이 유럽연합 FP7 프로그램의 지원을 받아 Reservoir 프로젝트를 시작하고 나서야 비로소 LCG 및 EGEE 미들웨어 기술 개발에서 클라우드 컴퓨팅이라는 말이 쓰이기 시작한 것을 보면 클라우드 컴퓨팅을 도입하는 것이 CERN과 LHC의 근본적인 임무와 비즈니스 모델에 영향을 주지는 않았다.

그래서 빅데이터를 하둡과 스파크로 대표되는 소프트웨어 기술로서만 보는 관점이 충분하지 않은 것이다. 빅데이터 비즈니스의 핵심은 결국 플랫폼 비즈니스 모델을 통해 비즈니스 대상에서 데이터를 수집하고, 이 수집된 데이터를 다르게 가공하거나 변형해서 또 다른 대상이나 데이터를 제공한 대상에게 새로운 서비스를 제공해서 이익을 얻는 것이다. 데이터를 수집하고 다루는 과정에서의 경쟁력과 차별성이 바로 빅데이터 비즈니스의 중요한 경쟁력중의 하나가 될 것이다. 기술적인 측면의 경쟁력, 차별화 요소중 하나가 빅데이터 인프라 시스템에 요구되는 자원 이종성(resource heterogeneity)과 확장성(scalability)을 어떻게 극복하느냐 하는 것이다.

빅데이터 인프라의 자원 이종성 문제와 확장성 문제를 각 조직과 기업마다 어떻게 극복하느냐 하는 것이 중요한 경쟁력이 되는가 하는 것은, 현재 성공적인 빅데이터 비즈니스를 꾸려가는 주요 기업들이 이런 기술들을 차별화된 기술로써 선보이는 것으로 살펴 볼 수 있다. 구글의 맵리듀스(MapReduce)나 빅테이블(BigTable)같은 분산컴퓨팅 기술들은 결국 빅데이터 처리를 위한 자원 확장성 문제를 해결하기 위한 구글만의 해결책이었다. 빅데이터 솔루션이 오늘날처럼 풍성하지 않았던 시기에 빅데이터 비즈니스를 일궈낸 선구자들은 빅데이터를 다루기 위해 IT 인프라에 필요했던 확장성을 극복하는 과정에서 기술적인 경쟁력과 차별화를 만들어 냈고, 이런 확장성을 극복하려는 방법으로 자원 이종성 문제를 해결해야 했다.

이제 클라우드 컴퓨팅은 가상화 기술을 핵심 기술로 하여 자원 이종성을 극복하고, IaaS 기술을 발전시키면서 OpenStack이 구현하는 것과 같이 메시지 큐(message queue) 미들웨어를 이용한 서비스 지향 아키텍처에 기초하여 클라우드 컴퓨팅 기술을 발전시키면서 확장성 문제를 해결해 나가고 있다. 이러한 클라우드 컴퓨팅 기술의 특성은 빅데이터 IT 시스템의 요구사항을 충족하는 데에도 적합하며, 앞으로 빅데이터 인프라에서는 클라우드 컴퓨팅 기술이 필수적인 시스템 소프트웨어 기술로써 활용될 수 밖에 없을 것이다.

필자가 빅데이터 문제를 해결하기 위한 클라우드 컴퓨팅을 얘기할 때에는 아마존 웹 서비스(Amazon Web Service)와 같은 퍼블릭 클라우드 서비스를 사용하는 관점에서 클라우드 컴퓨팅을 얘기하는 것은 아니다. 그리드 컴퓨팅이 가졌던 비전이었던 IT 자원을 원하는 만큼, 필요할 때, 요청만 해서 언제든지 사용한다는 개념은 현대 클라우드 컴퓨팅이 계승하여 서비스 형태(as-a-Service)의 주문형 자원 사용(on-demand resource utilization) 및 지불의 개념으로 훌륭하게 실현되었다. 필자는 클라우드 컴퓨팅을, 데이터센터 스케일의 자원 확장성을 제공하면서, 이런 거대한 스케일의 자원에서 나타나는 자원 이종성과 자원 계층을 극복하기 위한 시스템 소프트웨어 기술로서 말하고 있다.

요즘 리눅스만큼이나 중요한 위치를 차지하고 있는 오픈소스 클라우드 컴퓨팅 기술인 오픈스택은 점차 리눅스 커널(Kernel)과 같은, 데이터센터 스케일 컴퓨팅을 위한 클라우드 운영체제의 커널과 같은 위치로 발전해가고 있다. 빅데이터 저장, 처리, 가공 및 분석을 위해 필요한 컴퓨팅 자원, 저장 장치 자원, 네트워크 자원을 필요한 만큼 확장성 있게 제공하는 시스템 소프트웨어 스택으로서 클라우드 컴퓨팅 기술은 점차 빅데이터 인프라의 핵심 요소로 자리 잡아 가고 있다. 빅데이터를 활용하는 기업은 빅데이터가 요구하는 자원 확장성 문제를 근본적으로 해결하기 위한 IT 인프라 아키텍처로서 앞으로는 클라우드 컴퓨팅을 필수적으로 써야 할 것이다.

그렇다면 아마존 웹 서비스와 같은 퍼블릭 클라우드 서비스는 빅데이터 비즈니스 조직에서 어떻게 활용해야 할까? 이미 글이 길어져서 다음 연재에 좀더 자세히 소개하겠지만, 일단 간단하게 얘기하자면 빅데이터 비즈니스 초기에 빅데이터 인프라에 들어가는 투자 위험을 줄이고 시장 상황에 따라 변하는 빅데이터 자원 수요에 탄력적으로 대응하여 비즈니스 운영상의 위험 요소를 줄이는 용도로 퍼블릭 클라우드 서비스를 적극적으로 활용할 수 있다. 이에 대해서는 앞으로 빅데이터 비즈니스와 클라우드 컴퓨팅 기술과의 관계를 살펴보면서 좀더 자세히 다루기로 한다.

[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료
[2] Oracle CEO Larry Ellison – What the hell is Cloud Computing?, https://www.youtube.com/watch?v=0FacYAI6DY0.
[3] "What the Hell is Cloud Computing?" (Larry Ellison, CEO of Oracle), http://www.utm.edu/staff/lholder/infs410/whatthehelliscloudcomputing.pdf .
[4] Bob Evans, “Cloud Computing: Larry Ellison's Top 10 Reasons Why You'll Want It,” June 6, 2012. (https://goo.gl/cfZMm)
[5] JAMES NUNNS, “He said what? 5 things Larry Ellison actually said about cloud,” Computer Business Review, 27TH APRIL 2015. (https://goo.gl/ijWaM1 )
[6] DAN FARBER, “Oracle's Ellison nails cloud computing, “ C-Net, SEPTEMBER 26, 2008. (https://goo.gl/TFfqLt )
[7] Jonathan Vanian, “Oracle’s Larry Ellison Belittles Amazon and Microsoft,” Fortune, Mar 16, 2017. (https://goo.gl/M8Lo7u )
[8] European Grid Initiative, “Introduction to EGI - Vision and mission Solutions Governance International collaborations.”
[9] http://cordis.europa.eu/project/rcn/85304_en.html
[10] Benny Rochwerger, “REsources and SERvices VirtualizatiOn wIthout boundaries’,” IBM Haifa Research Lab, 2008. (contributed to NESSI, https://goo.gl/pHR6nT )
[11] The RESERVOIR Seed Team, “RESERVOIR, An ICT Infrastructure for Reliable and Effective Delivery of Services as Utilities,” IBM Technical Paper, 2008. (https://goo.gl/vHiCsV)
 

*김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다. ciokr@idg.co.kr
 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.