Offcanvas

머신러닝|딥러닝 / 빅데이터 | 애널리틱스 / 클라우드

칼럼ㅣ2023년 관건은 애널리틱스다

2023.01.10 Matt Asay  |  InfoWorld
모르는 것을 알려줄 ‘데이터’를 얻으려면 ‘애널리틱스’가 필요하다. 그리고 애널리틱스에는 ‘클라우드’가 필요하다. 

데이터는 그 자체로만 보면 그다지 유용하지 않다. 데이터는 분석되고, 애플리케이션 경험에 영향을 미칠 때 비로소 유용하다. 이렇게 데이터를 활용하려는 니즈는 클라우드 기반 애널리틱스 붐을 일으켰다. 클라우드에 투입되는 IT 지출이 비교적 적긴 하지만(2020년 IDC에 따르면 약 6%) 기업들은 온프레미스 레거시 비즈니스 인텔리전스 도구에서 벗어나 최신 클라우드 네이티브 옵션(예: 구글 빅쿼리, 아마존 레드시프트, 데이터브릭스, 스노우플레이크 등)으로 전환하고 있는 추세다. 
 
ⓒGetty Images Bank

DB-엔진(DB-Engines) 데이터베이스 인기 순위에서 지난 2016년 11월 170위였던 스노우플레이크가 2023년 1월 무려 11위로 급상승했다는 점에서도 데이터와 클라우드의 결합이 얼마나 관심을 받고 있는지 알 수 있다. 물론 스노우플레이크의 성공에는 성능, 확장성, 스토리지와 컴퓨팅 분리 등의 다양한 이유가 있다. 

하지만 거의 틀림없이 가장 확실한 이유는 클라우드다. 스노우플레이크는 클라우드에서 탄생했으며, 클라우드로 이동하려는 기업에게 자연스러운 경로를 제공한다. 그렇다. 클라우드가 새 데이터베이스를 촉진하고 있다. 클라우드는 2023년에도 계속해서 데이터 세계를 뒤집어 놓으리라 전망된다. 

<인포월드(InfoWorld)>의 동료 기자 데이비드 린티컴이 “2023년은 퍼블릭 클라우드 송환의 해가 될 수 있다(2023 could be the year of public cloud repatriation)”라고 말한 것에 전적으로 동의하진 않지만 기술을 맹목적으로 지지하거나 기술을 망치로 보고 모든 비즈니스 문제를 못으로 여기면 안 된다는 점에는 동의한다.

→ 칼럼 | 2023년, '퍼블릭 클라우드 송환'을 부끄러워 말자

클라우드를 쓰면 많은 문제를 해결할 수 있지만 모든 문제를 해결할 수 있는 건 아니다. 하지만 고급 데이터 기반 애플리케이션 영역에서는 린티컴이 다음과 같이 언급한 것처럼 클라우드가 필수 불가결하다. “고급 IT 서비스(예: AI, 심층 애널리틱스, 대규모 확장, 양자 컴퓨팅 등)가 관련돼 있다면 일반적으로 퍼블릭 클라우드가 더 경제적이다.”

경제적일 뿐만 아니라 실용적이기도 하다. 지난 2015년 AWS 경영진 맷 우드는 필자에게 다음과 같이 말한 적이 있는데, 이는 당시에도 그리고 오늘날에도 설득력이 있다.

그는 “값비싼 인프라를 구매하는 고객은 머지않아 문제의 범위와 영역이 매우 빠르게 변화한다는 사실을 알게 된다. 고객이 원래 질문에 답할 때쯤이면 해당 비즈니스는 변해있다”라면서, “시간이 지나도 그대로인 데이터센터에 엄청난 양의 변경 사항을 던지면 데이터에게 물어볼 수 있는 질문은 시간 왜곡(time warp)에 갇히게 된다”라고 설명했다. 어려운 경제 상황에서 클라우드를 고려하는 정확하게 ‘잘못된’ 방법은 좁은 비용의 렌즈로 [이를] 바라보는 것이다. 탄력적인 인프라는 데이터를 유연하게 이해할 수 있도록 지원한다. 

기업들은 이를 이해하고 있는 것 같다. 최근 열린 한 컨퍼런스에서 스노우플레이크 CFO 마이크 스카펠리는 데이터 웨어하우징 시장의 경쟁 역학을 이야기했다. 그는 “[스노우플레이크는] 테라데이타(Teradata; 온프레미스 소프트웨어 시대에 설립된 데이터 애널리틱스 기업)와 경쟁하지 않는다. 고객이 온프레미스에서 전환하기로 결정했다면 이는 테라데이타에 반하는 게 아니다. 고객이 떠나기로 결정했을 뿐이다”라고 전했다.

기업들이 디지털 트랜스포메이션을 추진하면서 클라우드를 고려하고 있다면, 어떤 클라우드를 검토하고 있을까? 스카펠리에 따르면 “[스노우플레이크가] 온프레미스 마이그레이션을 위해 경쟁할 때 항상 구글, 마이크로소프트, AWS와 경쟁한다(하지만 AWS와는 협력하기도 한다).”

다시 말해, 기업들은 온프레미스 데이터웨어하우스 또는 BI 솔루션과 함께 많은 시간을 보냈지만 여기에 미래를 걸고 있진 않다. 미래는 클라우드다. [기업들이] 다음 단계를 고려하고 있다면 새 시스템을 도입하는 게 어려워 보일 정도로 오라클과 깊은 관계가 있지 않는 한 [다음 단계가] 오라클이 될 가능성은 높지 않다. 대부분의 기업은 클라우드 기반 데이터베이스, 데이터 웨어하우스/레이크하우스 또는 머신러닝/인공지능 시스템을 찾고 있다. 즉, 구글 빅쿼리가 많아지고 SAP 비즈니스오브젝트는 줄어들고 있다.

데이터 민주화
클라우드가 성공하는 또 다른 이유는 ‘단순성’이다. 물론 클라우드가 근본적으로 사용자 친화적이지는 않지만 많은 클라우드 시스템은 사용자 경험을 중시하는 SaaS 접근 방식을 강조해왔다. 스노우플레이크 경험을 설명한 한 레딧(Reddit) 사용자의 글을 예로 들자면 아래와 같다. “이 SaaS 도구를 쓰기 위해 물리학 박사 학위가 필요하지 않다. 만일 그렇다면 쓸모 없는 도구다. [이는] MySQL 사용자도 선호하고, C-레벨 경영진도 좋아한다. 이와 관련해 고군분투하는 유일한 사람은 스스로 모든 것을 할 수 있고, 전 세계의 모든 사람이 언젠가 파이스파크(PySpark)를 배우리라 생각하는 오만하고 괴상한 엔지니어다.”

필자는 최근 데이터 민주화, 즉 기업이 더 많은 직원에게 더 많고 다양한 데이터 액세스를 제공하기 위해 해야 할 일을 주제로 글을 쓴 적이 있다. 기업이 진정으로 데이터를 민주화하려면 클라우드 기반 도구를 효과적으로 사용하여 클라우드 기반 데이터를 조사하는 방법을 직원들에게 교육해야 한다고 말했다. 

다행스럽게도 클라우드는 머신러닝 시스템이 무거운 부하를 감당할 수 있게 해준다. 몽고DB의 동료 직원 아담 휴즈는 이렇게 말했다. “일각에서는 트랜스리틱스(translytics; Transaction과 Anaytics의 합성어), HTAP, 증강 트랜잭션 데이터베이스라고 부르는 실시간, 운영, 임베디드 애널리틱스를 결합하면 이제 애플리케이션 데이터를 기반으로 한 애널리틱스를 통해 앱에 관한 의사결정을 자동화하고, 사용자에게 실시간 인사이트를 제공할 수 있다.”

이는 기계가 사람을 대신해 사고한다는 의미는 아니다. 연산이 많은 데이터 처리, 즉 힘든 작업을 제거해 사용자로 하여금 데이터가 애플리케이션 그리고 궁극적으로는 비즈니스에 의미하는 바를 신중하게 이해할 수 있도록 지원한다는 의미다. 

이 모든 게 전적으로 클라우드에 의해 주도되는 건 아니지만 클라우드에 의해 향상되고 가속화되고 있다. 데이터가 그 어느 때보다 중요해졌으며, 클라우드 컴퓨팅 덕분에 데이터 액세스 및 분석은 그 어느 때보다 쉬워졌다. 2023년에 대한 확실한 전망이 있다면 이러한 추세가 계속되고 가속화될 것이란 점이다. 

* Matt Asay는 몽고DB(MongoDB)에서 파트너 마케팅을 담당하고 있다. ciokr@idg.co.kr
 
추천 테크라이브러리

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2023 International Data Group. All rights reserved.