Offcanvas

��������� ���������

"데이터 활용이 관건" 美 의류회사 신임 IT 사령탑이 전하는 성장 비결

칼하트의 대표적인 작업복을 거의 어디서나 볼 수 있는 이유는 부분적으로 지속적인 디지털 트랜스포메이션 덕분이다. 디지털 트랜스포메이션은 클라우드, 데이터 애널리틱스, AI를 포함해 첨단 디지털 기술을 최대한 활용하여 133년 된 제조업체의 운영을 발전시키고 있다. 켄터키와 테네시에서 4개의 공장을 운영하고, 미시간 본사에서 모든 제품을 디자인하는 이 회사는 약 4년 전부터 디지털 트랜스포메이션을 시작했다. 오늘날 칼하트 애플리케이션의 90% 이상은 클라우드에서 실행되며, 대부분의 데이터는 자체 개발한 엔터프라이즈 데이터 웨어하우스에 저장 및 분석된다. 19년 경력의 베테랑 카트리나 어거스티는 前 CIO 존 힐 밑에서 칼하트를 재정비하는 데 중추적인 역할을 수행했고, 6개월 전 CIO로 임명됐다. 수석 프로그래머 애널리스트로 입사했던 그는 이제 다음 단계로의 전환을 이끄는 책임을 맡게 됐다고 전했다.    이러한 트랜스포메이션의 일환으로 어거스티는 데이터 레이크를 칼하트의 데이터 아키텍처에 통합할 계획이며, 2가지 AI 개념 증명(POC)이 분기 내에 프로덕션 환경에 들어갈 준비가 될 것이라고 예상했다. 아울러 정보화 시대의 모든 제조업체와 마찬가지로 칼하트도 인력 측면에서 어려움을 겪었고, 이에 서비스 및 물류센터에서 자동화와 로봇을 활용하는 비율이 증가하고 있다고 어거스티는 덧붙였다. 한편 작업복 제조업체의 수요는 확실하게 증가하고 있다. 회사에 따르면 칼하트는 현재 3가지 비즈니스 부문(D2C, D2B 및 도매업)에서 모두 두 자릿수의 성장률을 보이고 있다. 데이터를 최대한 활용할 수 있도록 트랜스포메이션을 조정하다 칼하트는 회사의 220개 애플리케이션을 마이크로소프트 애저로 옮기기 위한 트랜스포메이션의 일환으로 ‘클라우드 익스프레스(Cloud Express)’ 이니셔티브를 시작했다. 웨어하우스 관리 솔루션과 급여 및 복리후생 솔루션이라는 2가지 레거시 애플리케이션은 여전히 온프레미스에서 실행되고 있지만 곧 클라우드 네이티브 솔...

칼하트 제조업 데이터 레이크 데이터 웨어하우스 데이터 애널리틱스

1일 전

칼하트의 대표적인 작업복을 거의 어디서나 볼 수 있는 이유는 부분적으로 지속적인 디지털 트랜스포메이션 덕분이다. 디지털 트랜스포메이션은 클라우드, 데이터 애널리틱스, AI를 포함해 첨단 디지털 기술을 최대한 활용하여 133년 된 제조업체의 운영을 발전시키고 있다. 켄터키와 테네시에서 4개의 공장을 운영하고, 미시간 본사에서 모든 제품을 디자인하는 이 회사는 약 4년 전부터 디지털 트랜스포메이션을 시작했다. 오늘날 칼하트 애플리케이션의 90% 이상은 클라우드에서 실행되며, 대부분의 데이터는 자체 개발한 엔터프라이즈 데이터 웨어하우스에 저장 및 분석된다. 19년 경력의 베테랑 카트리나 어거스티는 前 CIO 존 힐 밑에서 칼하트를 재정비하는 데 중추적인 역할을 수행했고, 6개월 전 CIO로 임명됐다. 수석 프로그래머 애널리스트로 입사했던 그는 이제 다음 단계로의 전환을 이끄는 책임을 맡게 됐다고 전했다.    이러한 트랜스포메이션의 일환으로 어거스티는 데이터 레이크를 칼하트의 데이터 아키텍처에 통합할 계획이며, 2가지 AI 개념 증명(POC)이 분기 내에 프로덕션 환경에 들어갈 준비가 될 것이라고 예상했다. 아울러 정보화 시대의 모든 제조업체와 마찬가지로 칼하트도 인력 측면에서 어려움을 겪었고, 이에 서비스 및 물류센터에서 자동화와 로봇을 활용하는 비율이 증가하고 있다고 어거스티는 덧붙였다. 한편 작업복 제조업체의 수요는 확실하게 증가하고 있다. 회사에 따르면 칼하트는 현재 3가지 비즈니스 부문(D2C, D2B 및 도매업)에서 모두 두 자릿수의 성장률을 보이고 있다. 데이터를 최대한 활용할 수 있도록 트랜스포메이션을 조정하다 칼하트는 회사의 220개 애플리케이션을 마이크로소프트 애저로 옮기기 위한 트랜스포메이션의 일환으로 ‘클라우드 익스프레스(Cloud Express)’ 이니셔티브를 시작했다. 웨어하우스 관리 솔루션과 급여 및 복리후생 솔루션이라는 2가지 레거시 애플리케이션은 여전히 온프레미스에서 실행되고 있지만 곧 클라우드 네이티브 솔...

1일 전

알트릭스, ‘디자이너 클라우드’ UI 업데이트

올해 초 트리팩타(Trifacta) 인수로 통합된 데이터 엔지니어링 클라우드 플랫폼이 알트릭스(Alteryx)와 유사한 UI 환경을 제공하도록 업데이트됐다.    애널리틱스 및 자동화 소프트웨어 기업 알트릭스가 데이터 엔지니어링 클라우드 플랫폼 ‘디자이너 클라우드’의 사용자 인터페이스(UI)를 업데이트했다. 알트릭스와 유사한 경험을 제공하기 위해서다.  이 회사의 수석 부사장 아담 윌슨은 “이전까지 트리팩타가 제공하는 디자이너 클라우드의 UI는 기존의 트리팩타 경험이었다. 이 소프트웨어 인터페이스에 알트릭스 경험을 통합했고, 현재 얼리 액세스 단계에 있다”라고 밝혔다.  한편 트리팩타가 개발한 디자이너 클라우드는 8월부터 프리뷰 단계에 있었다(트리팩타는 지난 1월 미화 4억 달러 규모로 알트릭스에 인수됐다). 초기 액세스 단계에서 더 많은 고객에게 제품을 공개하고, 2023년 1분기에 GA 버전을 출시할 계획이라고 회사 측은 전했다.  또 알트릭스는 스노우플레이크(Snowflake)와의 파트너십을 통해 디자이너 클라우드에 스토리지 및 애널리틱스 기능을 모두 제공하는 데이터 아키텍처인 데이터 웨어하우스 및 데이터 레이크하우스 기능도 추가하고 있다고 말했다.  이 밖에 디자이너 클라우드에는 웹 브라우저를 통해 액세스할 수 있는 로우코드/노코드 인터페이스, 애널리틱스 및 워크플로우를 자동화하는 빌트인 스케줄링 옵션이 포함된다. ciokr@idg.co.kr  

알트릭스 트리팩타 데이터 엔지니어링 데이터베이스 데이터 레이크

2022.11.17

올해 초 트리팩타(Trifacta) 인수로 통합된 데이터 엔지니어링 클라우드 플랫폼이 알트릭스(Alteryx)와 유사한 UI 환경을 제공하도록 업데이트됐다.    애널리틱스 및 자동화 소프트웨어 기업 알트릭스가 데이터 엔지니어링 클라우드 플랫폼 ‘디자이너 클라우드’의 사용자 인터페이스(UI)를 업데이트했다. 알트릭스와 유사한 경험을 제공하기 위해서다.  이 회사의 수석 부사장 아담 윌슨은 “이전까지 트리팩타가 제공하는 디자이너 클라우드의 UI는 기존의 트리팩타 경험이었다. 이 소프트웨어 인터페이스에 알트릭스 경험을 통합했고, 현재 얼리 액세스 단계에 있다”라고 밝혔다.  한편 트리팩타가 개발한 디자이너 클라우드는 8월부터 프리뷰 단계에 있었다(트리팩타는 지난 1월 미화 4억 달러 규모로 알트릭스에 인수됐다). 초기 액세스 단계에서 더 많은 고객에게 제품을 공개하고, 2023년 1분기에 GA 버전을 출시할 계획이라고 회사 측은 전했다.  또 알트릭스는 스노우플레이크(Snowflake)와의 파트너십을 통해 디자이너 클라우드에 스토리지 및 애널리틱스 기능을 모두 제공하는 데이터 아키텍처인 데이터 웨어하우스 및 데이터 레이크하우스 기능도 추가하고 있다고 말했다.  이 밖에 디자이너 클라우드에는 웹 브라우저를 통해 액세스할 수 있는 로우코드/노코드 인터페이스, 애널리틱스 및 워크플로우를 자동화하는 빌트인 스케줄링 옵션이 포함된다. ciokr@idg.co.kr  

2022.11.17

"10년 걸렸던 제품 출시 절반으로" 美 제약회사의 데이터 변혁 여정

美 제약회사 ‘리제네론(Regeneron)’의 CIO 밥 맥코완은 디지털 및 데이터 트랜스포메이션이 (이 회사의) 과학자들에게 가설을 실험하고 테스트하는 데 필요한 데이터를 제공하면서 혁신의 장을 마련하고 있다고 말했다.  디지털 시대의 제약 회사에게 의학적 기적(medical miracle)을 달성해야 한다는 압박은 수석 과학자 못지않게 CIO의 어깨에도 달려 있다. 밥 맥코완은 2018년 리제네론 제약(Regeneron Pharmaceuticals)의 CIO로 승진하기 앞서, 지난 2014년 미화 815억 달러 규모의 기업의 과학, 상업 및 제조 비즈니스를 위한 데이터센터 인프라를 운영한 바 있다. 따라서 그는 적절한 팀과 기술적인 구성 요소를 갖추는 것 외에도 데이터가 미래의 성공을 위한 열쇠라는 점을 알고 있었다.    “리제네론에서 하는 모든 일은 데이터 중심적(data-driven)이다. 하지만 기존에는 데이터센터 중심적이었고, 기술에 많은 제약이 있었다. 기업을 유지하는 데는 효과적이었지만 필요한 규모와 역량을 제공하진 못했다”라고 맥코완은 말했다.  그는 기업이 필요한 것을 달성하려면 대대적인 변화를 겪어야 했고, 아울러 최대 1,000개 데이터 소스의 데이터를 ‘분석 가능한 형식’으로 주입할 수 있는 개선된 데이터 파이프라인을 구축해야 했다고 밝혔다.  이를 위해서는 클라우드 전환이 필수적이었다. 맥코완은 “(리제네론의) 과학자들을 지원하고, 규모를 확장하며, 미래에도 성장할 수 있는 유일한 방법은 컴퓨팅 성능과 스토리지 측면뿐만 아니라 다른 환경, 다른 국가에 배포할 수 있는 클라우드를 받아들이는 것이었다. 클라우드에 있지 않으면 뒤처지게 될 것이라고 봤다”라고 전했다.  클라우드를 통한 과학자 역량 강화 맥코완은 2018년 말부터 리제네론을 AWS로 마이그레이션하기 시작했다. 2020년까지 IT팀은 전체 회사 데이터의 약 60%를 클라우드로 옮겼다. 이는 지난 2021년 160...

디지털 트랜스포메이션 데이터 트랜스포메이션 데이터 레이크 데이터 파이프라인 AWS GCP 마이크로소프트 애저

2022.11.09

美 제약회사 ‘리제네론(Regeneron)’의 CIO 밥 맥코완은 디지털 및 데이터 트랜스포메이션이 (이 회사의) 과학자들에게 가설을 실험하고 테스트하는 데 필요한 데이터를 제공하면서 혁신의 장을 마련하고 있다고 말했다.  디지털 시대의 제약 회사에게 의학적 기적(medical miracle)을 달성해야 한다는 압박은 수석 과학자 못지않게 CIO의 어깨에도 달려 있다. 밥 맥코완은 2018년 리제네론 제약(Regeneron Pharmaceuticals)의 CIO로 승진하기 앞서, 지난 2014년 미화 815억 달러 규모의 기업의 과학, 상업 및 제조 비즈니스를 위한 데이터센터 인프라를 운영한 바 있다. 따라서 그는 적절한 팀과 기술적인 구성 요소를 갖추는 것 외에도 데이터가 미래의 성공을 위한 열쇠라는 점을 알고 있었다.    “리제네론에서 하는 모든 일은 데이터 중심적(data-driven)이다. 하지만 기존에는 데이터센터 중심적이었고, 기술에 많은 제약이 있었다. 기업을 유지하는 데는 효과적이었지만 필요한 규모와 역량을 제공하진 못했다”라고 맥코완은 말했다.  그는 기업이 필요한 것을 달성하려면 대대적인 변화를 겪어야 했고, 아울러 최대 1,000개 데이터 소스의 데이터를 ‘분석 가능한 형식’으로 주입할 수 있는 개선된 데이터 파이프라인을 구축해야 했다고 밝혔다.  이를 위해서는 클라우드 전환이 필수적이었다. 맥코완은 “(리제네론의) 과학자들을 지원하고, 규모를 확장하며, 미래에도 성장할 수 있는 유일한 방법은 컴퓨팅 성능과 스토리지 측면뿐만 아니라 다른 환경, 다른 국가에 배포할 수 있는 클라우드를 받아들이는 것이었다. 클라우드에 있지 않으면 뒤처지게 될 것이라고 봤다”라고 전했다.  클라우드를 통한 과학자 역량 강화 맥코완은 2018년 말부터 리제네론을 AWS로 마이그레이션하기 시작했다. 2020년까지 IT팀은 전체 회사 데이터의 약 60%를 클라우드로 옮겼다. 이는 지난 2021년 160...

2022.11.09

새 술은 새 부대에··· 텍사스 레인저스의 ‘데이터’ 활용법

새로운 구장과 여기서 생성된 데이터는 전략적인 데이터 인프라 개편 덕분에 야구팀이 비즈니스 운영을 트랜스포메이션하는 원동력으로 작용했다.  2016년 美 메이저 리그 베이스볼(MLB)의 프로야구단 ‘텍사스 레인저스(Texas Rangers)’는 텍사스주 알링턴에 최첨단 구장을 새로 건립하겠다고 발표했다. 야구팀을 위한 새로운 장소였을 뿐만 아니라 비즈니스 운영을 다시 생각해 볼 수 있는 기회였다.    1992년에 문을 열었던 예전 구장은 비즈니스 운영팀에 데이터를 제공하긴 했지만 이러한 데이터는 서로 다른 출처에서 수집됐고, 대부분은 지속적으로 업데이트되지 않았다. 새 구장(Globe Life Field)은 개폐식 지붕을 자랑할 뿐만 아니라 1992년에는 존재하지도 않았던 범주의 데이터를 생성한다.  이에 따라 기존 IT 시스템과 수동 비즈니스 및 IT 프로세스를 업데이트해 방대한 양의 새로운 데이터를 처리해야 했다. 텍사스 레인저스의 애널리틱스 시스템 관리자 마첼 노엘은 “이전 구장에서는 필요한 데이터를 얻을 수 없었다. 시스템도 낡았었다. 새로운 최첨단 시설에서 현재 가지고 있는 시스템이 과거에는 없었다”라고 말했다.  그에 따르면 2020년 5월 개장한 새 경기장은 확장 가능한 시스템, 실시간 데이터 액세스, 단일 출처를 기반으로 성장 기반을 제공하는 동시에 시간이 오래 걸리는 수동 프로세스를 자동화할 수 있는, 강력하고 확장 가능한 데이터 및 애널리틱스 환경을 개발할 기회였다.  노엘은 “새로운 데이터 소스가 엄청나게 많을 것이란 사실을 알고 있었다”라면서, “그렇다면 이를 가지고 무엇을 할 것인가? 어떻게 확보할 것인가? 어디에 보관할 것인가? 어떻게 연결할 것인가? 새로운 구장으로 이사하면서 완전히 새로운 세계로 가야 했다”라고 언급했다. 데이터로 ‘팬 경험’을 개선하다  이를 위해 먼저 노엘은 컨설팅 업체 리설런트(Resultant)와 제휴해 소규모 데이터 시각화 프로젝트...

데이터 애널리틱스 자동화 팬 경험 데이터 시각화 데이터 레이크 실시간 데이터 사용자 경험

2022.10.20

새로운 구장과 여기서 생성된 데이터는 전략적인 데이터 인프라 개편 덕분에 야구팀이 비즈니스 운영을 트랜스포메이션하는 원동력으로 작용했다.  2016년 美 메이저 리그 베이스볼(MLB)의 프로야구단 ‘텍사스 레인저스(Texas Rangers)’는 텍사스주 알링턴에 최첨단 구장을 새로 건립하겠다고 발표했다. 야구팀을 위한 새로운 장소였을 뿐만 아니라 비즈니스 운영을 다시 생각해 볼 수 있는 기회였다.    1992년에 문을 열었던 예전 구장은 비즈니스 운영팀에 데이터를 제공하긴 했지만 이러한 데이터는 서로 다른 출처에서 수집됐고, 대부분은 지속적으로 업데이트되지 않았다. 새 구장(Globe Life Field)은 개폐식 지붕을 자랑할 뿐만 아니라 1992년에는 존재하지도 않았던 범주의 데이터를 생성한다.  이에 따라 기존 IT 시스템과 수동 비즈니스 및 IT 프로세스를 업데이트해 방대한 양의 새로운 데이터를 처리해야 했다. 텍사스 레인저스의 애널리틱스 시스템 관리자 마첼 노엘은 “이전 구장에서는 필요한 데이터를 얻을 수 없었다. 시스템도 낡았었다. 새로운 최첨단 시설에서 현재 가지고 있는 시스템이 과거에는 없었다”라고 말했다.  그에 따르면 2020년 5월 개장한 새 경기장은 확장 가능한 시스템, 실시간 데이터 액세스, 단일 출처를 기반으로 성장 기반을 제공하는 동시에 시간이 오래 걸리는 수동 프로세스를 자동화할 수 있는, 강력하고 확장 가능한 데이터 및 애널리틱스 환경을 개발할 기회였다.  노엘은 “새로운 데이터 소스가 엄청나게 많을 것이란 사실을 알고 있었다”라면서, “그렇다면 이를 가지고 무엇을 할 것인가? 어떻게 확보할 것인가? 어디에 보관할 것인가? 어떻게 연결할 것인가? 새로운 구장으로 이사하면서 완전히 새로운 세계로 가야 했다”라고 언급했다. 데이터로 ‘팬 경험’을 개선하다  이를 위해 먼저 노엘은 컨설팅 업체 리설런트(Resultant)와 제휴해 소규모 데이터 시각화 프로젝트...

2022.10.20

“바퀴 달린 데이터 엔진” NJ 트랜싯의 트랜스포메이션 사례

美 뉴저지주를 중심으로 한 동부권의 철도/버스 회사 ‘뉴저지 트랜싯(NJ Transit)’의 최고 데이터 및 디지털 책임자 룩맨 파잘은 데이터센터 스택을 멀티클라우드 플랫폼으로 이전했으며, 가능한 한 많은 인사이트를 추출해 비즈니스를 최적화하고 있다.  NJ 트랜싯에 합류한 이후 파잘은 ‘데이터 혁신’ 지원이라는 핵심 목표를 달성하고 있다. 이를 위해 그는 애널리스트가 원하는 모든 것(심지어는 알지 못했던 것)을 제공할 수 있는 클라우드 기반 플랫폼으로 이 회사의 IT 운영 환경을 전환할 계획을 수립했다. 그 결과 NJ 트랜싯은 보고서 및 원형 차트에서 나아가 고급 챗봇, AI/ML 모델 및 예측 애널리틱스를 활용하게 됐다.  파잘은 이 트랜스포메이션을 언급하면서, “가치를 보여줬다. 지난 몇 년 동안 IT가 구축한 것은 직원들의 삶을 더 단순하게 만드는 방법, 통근 시간을 줄이는 방법이었다”라고 설명했다.    “바퀴 달린 데이터 엔진(Data engine on wheels)” 오래된 인프라에서 더 많은 데이터를 마이닝하기 위해 파잘은 우선 NJ 트랜싯의 스택을 현대화해야 했다고 밝혔다. 그는 “2020년 초 이 회사의 인프라는 메인프레임부터 클라이언트/서버, SaaS 시스템, 심지어는 맞춤형 제품, 기성품, 대기업 제품, 소기업 제품이 뒤섞인 140개의 애플리케이션까지 그야말로 짬뽕과도 같았다”라고 전했다.  수많은 애플리케이션에서 나오는 데이터는 여러 저장소(주로 기존 데이터베이스)에 분산됐다. 그는 IT팀에 대규모 데이터 웨어하우스를 구축하려고 서두르다가 ‘귀중한’ 데이터를 잃어버리지 말고, 일단 모든 데이터를 수집한 다음, 나중에 그 용도를 체계적으로 결정하자고 지시했다. 파잘은 “무슨 데이터인지 신경 쓰지 않았다. 그냥 덤프트럭이라 생각하고 전부 수집하라고 했다”라고 말했다. 그에 따르면 이러한 접근 방식은 실질적인 비즈니스 이점을 창출했으며, 고객 서비스도 개선했다. 이에 따라 오늘날 NJ 트...

데이터 혁신 데이터 트랜스포메이션 멀티클라우드 데이터 웨어하우스 데이터 레이크 데이터 애널리틱스 클라우드 마이그레이션

2022.09.27

美 뉴저지주를 중심으로 한 동부권의 철도/버스 회사 ‘뉴저지 트랜싯(NJ Transit)’의 최고 데이터 및 디지털 책임자 룩맨 파잘은 데이터센터 스택을 멀티클라우드 플랫폼으로 이전했으며, 가능한 한 많은 인사이트를 추출해 비즈니스를 최적화하고 있다.  NJ 트랜싯에 합류한 이후 파잘은 ‘데이터 혁신’ 지원이라는 핵심 목표를 달성하고 있다. 이를 위해 그는 애널리스트가 원하는 모든 것(심지어는 알지 못했던 것)을 제공할 수 있는 클라우드 기반 플랫폼으로 이 회사의 IT 운영 환경을 전환할 계획을 수립했다. 그 결과 NJ 트랜싯은 보고서 및 원형 차트에서 나아가 고급 챗봇, AI/ML 모델 및 예측 애널리틱스를 활용하게 됐다.  파잘은 이 트랜스포메이션을 언급하면서, “가치를 보여줬다. 지난 몇 년 동안 IT가 구축한 것은 직원들의 삶을 더 단순하게 만드는 방법, 통근 시간을 줄이는 방법이었다”라고 설명했다.    “바퀴 달린 데이터 엔진(Data engine on wheels)” 오래된 인프라에서 더 많은 데이터를 마이닝하기 위해 파잘은 우선 NJ 트랜싯의 스택을 현대화해야 했다고 밝혔다. 그는 “2020년 초 이 회사의 인프라는 메인프레임부터 클라이언트/서버, SaaS 시스템, 심지어는 맞춤형 제품, 기성품, 대기업 제품, 소기업 제품이 뒤섞인 140개의 애플리케이션까지 그야말로 짬뽕과도 같았다”라고 전했다.  수많은 애플리케이션에서 나오는 데이터는 여러 저장소(주로 기존 데이터베이스)에 분산됐다. 그는 IT팀에 대규모 데이터 웨어하우스를 구축하려고 서두르다가 ‘귀중한’ 데이터를 잃어버리지 말고, 일단 모든 데이터를 수집한 다음, 나중에 그 용도를 체계적으로 결정하자고 지시했다. 파잘은 “무슨 데이터인지 신경 쓰지 않았다. 그냥 덤프트럭이라 생각하고 전부 수집하라고 했다”라고 말했다. 그에 따르면 이러한 접근 방식은 실질적인 비즈니스 이점을 창출했으며, 고객 서비스도 개선했다. 이에 따라 오늘날 NJ 트...

2022.09.27

“쉽고 빠른 풀스택 접근법” MS 애저 애널리틱스 서비스 7선

마이크로소프트는 애저 클라우드에서 (전체 애널리틱스 스택으로 함께 작동하는) 다양한 데이터 애널리틱스 옵션을 제공한다. 여기서는 핵심 서비스와 적합한 사용 사례를 살펴본다.  비즈니스 데이터를 이해할 수 없다면 사실상 눈을 가린 채로 비행하는 것이나 마찬가지다. 데이터에 숨겨진 인사이트는 비즈니스 운영을 최적화하고, 고객 경험을 미세 조정하며, 새로운 제품 또는 새로운 비즈니스 라인(예: 예측 유지 보수 등)을 개발하는 데 필수적이다.  애널리틱스는 이러한 인사이트를 발견하기 위한 수단이고, 이를 제대로 하려면 데이터 수집 및 준비, 데이터 보강 및 태깅, 보고서 작성 및 공유, 데이터 및 인사이트 관리 및 보호를 위한 도구가 필요하다. 또한 기업들이 점점 더 많은 양의 데이터와 씨름하면서 클라우드는 애널리틱스 작업에 안성맞춤인 장소로 빠르게 변하고 있다.     많은 기업에서 ‘마이크로소프트 애저(Microsoft Azure)’는 애널리틱스를 위한 중앙 허브가 됐다. 데이터 애널리틱스를 광범위하게 해석하는 애저는 12개 이상의 서비스를 제공한다(이후 AI 기반 분석 및 새로운 데이터마트 옵션을 지원하는 ‘파워 BI(Power BI)’ 또는 마이크로소프트 퍼뷰(Microsoft Purview) 등의 거버넌스 지향 접근법도 추가됐다).  마이크로소프트 애널리틱스(Microsoft Analytics)의 CTO 아미르 네츠는 “단편적인 접근법이 아니라, 함께 작동하도록 설계된 애저에서 전체 애널리틱스 서비스 스택을 제공하는 것을 목표로 하고 있다”라고 말했다.  다양한 서비스 간에 중복되는 부분이 있긴 하지만 그는 애저의 애널리틱스 서비스가 애널리틱스 아키텍처 프레임워크 생성 시 기업이 구축하는 계층에 광범위하게 해당된다고 밝혔다. 넷츠는 “데이터 레이크 생성, 데이터 저장, 레이크에서의 데이터 처리, 데이터 엔지니어링, 데이터 웨어하우스 구축, 머신러닝 알고리즘 및 데이터 과학 실행, 비즈니스 사용자...

마이크로소프트 애저 클라우드 애널리틱스 데이터 애널리틱스 데이터 레이크 데이터 웨어하우스 머신러닝

2022.07.04

마이크로소프트는 애저 클라우드에서 (전체 애널리틱스 스택으로 함께 작동하는) 다양한 데이터 애널리틱스 옵션을 제공한다. 여기서는 핵심 서비스와 적합한 사용 사례를 살펴본다.  비즈니스 데이터를 이해할 수 없다면 사실상 눈을 가린 채로 비행하는 것이나 마찬가지다. 데이터에 숨겨진 인사이트는 비즈니스 운영을 최적화하고, 고객 경험을 미세 조정하며, 새로운 제품 또는 새로운 비즈니스 라인(예: 예측 유지 보수 등)을 개발하는 데 필수적이다.  애널리틱스는 이러한 인사이트를 발견하기 위한 수단이고, 이를 제대로 하려면 데이터 수집 및 준비, 데이터 보강 및 태깅, 보고서 작성 및 공유, 데이터 및 인사이트 관리 및 보호를 위한 도구가 필요하다. 또한 기업들이 점점 더 많은 양의 데이터와 씨름하면서 클라우드는 애널리틱스 작업에 안성맞춤인 장소로 빠르게 변하고 있다.     많은 기업에서 ‘마이크로소프트 애저(Microsoft Azure)’는 애널리틱스를 위한 중앙 허브가 됐다. 데이터 애널리틱스를 광범위하게 해석하는 애저는 12개 이상의 서비스를 제공한다(이후 AI 기반 분석 및 새로운 데이터마트 옵션을 지원하는 ‘파워 BI(Power BI)’ 또는 마이크로소프트 퍼뷰(Microsoft Purview) 등의 거버넌스 지향 접근법도 추가됐다).  마이크로소프트 애널리틱스(Microsoft Analytics)의 CTO 아미르 네츠는 “단편적인 접근법이 아니라, 함께 작동하도록 설계된 애저에서 전체 애널리틱스 서비스 스택을 제공하는 것을 목표로 하고 있다”라고 말했다.  다양한 서비스 간에 중복되는 부분이 있긴 하지만 그는 애저의 애널리틱스 서비스가 애널리틱스 아키텍처 프레임워크 생성 시 기업이 구축하는 계층에 광범위하게 해당된다고 밝혔다. 넷츠는 “데이터 레이크 생성, 데이터 저장, 레이크에서의 데이터 처리, 데이터 엔지니어링, 데이터 웨어하우스 구축, 머신러닝 알고리즘 및 데이터 과학 실행, 비즈니스 사용자...

2022.07.04

칼럼ㅣ데이터를 통제할 수 없게 됐는가?

데이터부터 빅데이터, 더 큰 데이터 웨어하우스, 더욱더 큰 데이터 레이크까지 데이터의 ‘얼굴’은 수년에 걸쳐 다양한 형태를 취해왔다. 저장 위치가 변경됐고, 사용 방법도 변경됐다. 추적하기도 어려워졌다. 수십 년 동안 축적된 데이터와 다양한 프로세스가 그야말로 ‘데이터 혼돈(data chaos)’을 불러왔다. 데이터를 적절한 경로로 되돌릴 수 있는 사고방식의 전환이 필요한 때다.  기업 데이터의 ‘얼굴’은 수년에 걸쳐 확장돼 왔으며, 계속해서 빠르게 발전하고 있다. (이에 따라) 기업 내에서 데이터를 저장하는 위치가 변화했다. 사용 방법도 마찬가지다. 추적하기도 어려워졌다.  축적된 데이터 볼륨, 스토리지 아키텍처, 이를 둘러싼 여러 프로세스로 인해 ‘데이터 혼돈(data chaos)’이 발생했다. 현재의 데이터 아키텍처는 모놀리식이고, 중앙집중화돼 있기 때문에 길을 잃었다. 기업들은 통제권을 되찾기 위해 사고방식을 전환해야 한다. 그리고 많은 사람이 오늘날 데이터 분야에서 가장 핫한 트렌드인 ‘데이터 메시’가 해답일 것이라고 이야기한다.    데이터 메시(mesh)? 데이터 메스(mess)? ‘데이터 메시(Data Mesh)’는 아직 초기 단계이긴 하지만 빅데이터를 잇는 개념으로 간주된다. 그렇다면 데이터 메시란 무엇인가? 모든 데이터를 불분명한 소유 형태로 한곳에 보관하는 게 아니라, ‘제품으로써의 데이터(data-as-a-product)’를 제공하는 일종의 연합 모델이다. 이 모델은 여러 데이터 도메인에서 협업 가능한 범용 데이터 표준 웹으로 연결된다. 하지만 데이터 메시의 ‘왜(why)’와 ‘어떻게(how)’에 초점을 맞춰야 한다. 그래야 ‘무엇(what)’에 정신이 팔리거나 이 아키텍처의 기술적 설명에 얽매이는 것보다 훨씬 더 유용할 수 있다. ‘소속 기업에서 데이터 관리를 변경하고 싶은 이유는 무엇이며, 어떻게 해야 할까?’라고 자문하라. 막대한 자금을 지원받는 스타트업에서 일하지 않는 한, 텅 빈 도면과...

데이터 빅데이터 데이터 웨어하우스 데이터 레이크 데이터 메시 사일로

2022.05.24

데이터부터 빅데이터, 더 큰 데이터 웨어하우스, 더욱더 큰 데이터 레이크까지 데이터의 ‘얼굴’은 수년에 걸쳐 다양한 형태를 취해왔다. 저장 위치가 변경됐고, 사용 방법도 변경됐다. 추적하기도 어려워졌다. 수십 년 동안 축적된 데이터와 다양한 프로세스가 그야말로 ‘데이터 혼돈(data chaos)’을 불러왔다. 데이터를 적절한 경로로 되돌릴 수 있는 사고방식의 전환이 필요한 때다.  기업 데이터의 ‘얼굴’은 수년에 걸쳐 확장돼 왔으며, 계속해서 빠르게 발전하고 있다. (이에 따라) 기업 내에서 데이터를 저장하는 위치가 변화했다. 사용 방법도 마찬가지다. 추적하기도 어려워졌다.  축적된 데이터 볼륨, 스토리지 아키텍처, 이를 둘러싼 여러 프로세스로 인해 ‘데이터 혼돈(data chaos)’이 발생했다. 현재의 데이터 아키텍처는 모놀리식이고, 중앙집중화돼 있기 때문에 길을 잃었다. 기업들은 통제권을 되찾기 위해 사고방식을 전환해야 한다. 그리고 많은 사람이 오늘날 데이터 분야에서 가장 핫한 트렌드인 ‘데이터 메시’가 해답일 것이라고 이야기한다.    데이터 메시(mesh)? 데이터 메스(mess)? ‘데이터 메시(Data Mesh)’는 아직 초기 단계이긴 하지만 빅데이터를 잇는 개념으로 간주된다. 그렇다면 데이터 메시란 무엇인가? 모든 데이터를 불분명한 소유 형태로 한곳에 보관하는 게 아니라, ‘제품으로써의 데이터(data-as-a-product)’를 제공하는 일종의 연합 모델이다. 이 모델은 여러 데이터 도메인에서 협업 가능한 범용 데이터 표준 웹으로 연결된다. 하지만 데이터 메시의 ‘왜(why)’와 ‘어떻게(how)’에 초점을 맞춰야 한다. 그래야 ‘무엇(what)’에 정신이 팔리거나 이 아키텍처의 기술적 설명에 얽매이는 것보다 훨씬 더 유용할 수 있다. ‘소속 기업에서 데이터 관리를 변경하고 싶은 이유는 무엇이며, 어떻게 해야 할까?’라고 자문하라. 막대한 자금을 지원받는 스타트업에서 일하지 않는 한, 텅 빈 도면과...

2022.05.24

빅데이터 분석 위한 대규모 확장형 스토리지··· ‘데이터 레이크’ A to Z

데이터 레이크는 데이터 웨어하우스와는 무엇이 다를까? 정의에서부터 활용처, 활용 양태에 대해 살펴본다.    2011년, 당시 비즈니스 인텔리전스 기업 펜타호(Pentaho)의 CTO였던 제임스 딕슨이 ‘데이터 레이크(Data Lake)’라는 용어를 만들었다. 그는 당시 인기 있었던 ‘데이터 마트(Data Mart)’에서 흔히 나타났던 정보 사일로와 대비되는 개념으로 데이터 레이크를 설명했다.    데이터 마트가 손쉬운 소비를 위해 세척되고 패키지화 되며, 구조화된 생수 더미라면 데이터 레이크는 더욱 자연스러운 상태의 물이다. 데이터 레이크의 콘텐츠는 소스로부터 흘러나와 레이크를 채우며, 다양한 레이크 사용자가 검토하거나 몰두하거나 샘플을 채취할 수 있다. 그 이후로 데이터 레이크는 꾸준히 진화했으며, 이제는 빅데이터 저장과 애널리틱스 측면에서 데이트 웨어하우스(Data Warehouse)와 경쟁하고 있다. 오늘날 다양한 도구와 제품이 데이터 레이크에서의 더 빠른 SQL 쿼리를 지원한다. 또 3대 주요 클라우드 벤더는 데이터 레이크 스토리지 및 분석을 제공한다. 한편에서는 거버넌스, 보안, 분석과 알맞은 스토리지를 결합하는 새로운 ‘데이터 레이크하우스(Data Lakehouse)’ 개념도 등장했다. 이 글은 데이터 레이크에 관한 개괄적인 이해를 돕기 위해 작성됐다. 정의에서부터 사용 방법, 데이터 레이크가 데이터 스웜(Data Swamp)이 되지 않도록 하는 방법 등을 살펴본다. 데이터 레이크 개념 ‘데이터 레이크’는 기본적으로 분석 준비가 완료될 때까지 데이터를 보관하는 단일 저장소를 의미한다. 모든 데이터 담는 경우도 있지만, 데이터 웨어하우스에 맞지 않는 데이터만을 보관하기도 한다. 일반적으로, 데이터 레이크는 데이터를 네이티브 파일 형식으로 저장하지만 효율적인 분석을 위해 데이터를 다른 형식으로 전환하는 경우도 있다. 대개 데이터 레이크는 이미지와 비디오 등의 바이너리 데이터, PDF 문서 등의 비구조화...

데이터 레이크 하둡 스토리지 클러스터 데이터마트 데이터 웨어하우스 애널리틱스

2022.05.03

데이터 레이크는 데이터 웨어하우스와는 무엇이 다를까? 정의에서부터 활용처, 활용 양태에 대해 살펴본다.    2011년, 당시 비즈니스 인텔리전스 기업 펜타호(Pentaho)의 CTO였던 제임스 딕슨이 ‘데이터 레이크(Data Lake)’라는 용어를 만들었다. 그는 당시 인기 있었던 ‘데이터 마트(Data Mart)’에서 흔히 나타났던 정보 사일로와 대비되는 개념으로 데이터 레이크를 설명했다.    데이터 마트가 손쉬운 소비를 위해 세척되고 패키지화 되며, 구조화된 생수 더미라면 데이터 레이크는 더욱 자연스러운 상태의 물이다. 데이터 레이크의 콘텐츠는 소스로부터 흘러나와 레이크를 채우며, 다양한 레이크 사용자가 검토하거나 몰두하거나 샘플을 채취할 수 있다. 그 이후로 데이터 레이크는 꾸준히 진화했으며, 이제는 빅데이터 저장과 애널리틱스 측면에서 데이트 웨어하우스(Data Warehouse)와 경쟁하고 있다. 오늘날 다양한 도구와 제품이 데이터 레이크에서의 더 빠른 SQL 쿼리를 지원한다. 또 3대 주요 클라우드 벤더는 데이터 레이크 스토리지 및 분석을 제공한다. 한편에서는 거버넌스, 보안, 분석과 알맞은 스토리지를 결합하는 새로운 ‘데이터 레이크하우스(Data Lakehouse)’ 개념도 등장했다. 이 글은 데이터 레이크에 관한 개괄적인 이해를 돕기 위해 작성됐다. 정의에서부터 사용 방법, 데이터 레이크가 데이터 스웜(Data Swamp)이 되지 않도록 하는 방법 등을 살펴본다. 데이터 레이크 개념 ‘데이터 레이크’는 기본적으로 분석 준비가 완료될 때까지 데이터를 보관하는 단일 저장소를 의미한다. 모든 데이터 담는 경우도 있지만, 데이터 웨어하우스에 맞지 않는 데이터만을 보관하기도 한다. 일반적으로, 데이터 레이크는 데이터를 네이티브 파일 형식으로 저장하지만 효율적인 분석을 위해 데이터를 다른 형식으로 전환하는 경우도 있다. 대개 데이터 레이크는 이미지와 비디오 등의 바이너리 데이터, PDF 문서 등의 비구조화...

2022.05.03

2022년 IT 지출처··· ‘핫한’ 7가지 ‘지는’ 4가지

IT 리더들이 ‘기술’을 활용하여 혁신과 비즈니스 트랜스포메이션에 박차를 가할 방안을 모색하고 있다. 그렇다면 투자가 늘어나고 있는 기술은 무엇인지, 반면에 약화되거나 축소되고 있는 기술은 무엇인지 살펴본다.  팬데믹 기간 동안 가속화된 디지털 트랜스포메이션 물결을 타고 올해에도 기업들은 혁신을 촉진하고 비즈니스 운영을 트랜스포메이션하고자 기술을 적극적으로 활용할 전망이다. 이를 위해서는 기술 투자가 필요하다. 이를 아는 기업들은 새로운 기술 및 기존 기술 예산을 늘리고 있다. 액센츄어에 따르면 전체 디지털 지출은 2023년까지 총 IT 지출의 55%를 차지할 것으로 예상되며, 지난 2021년보다 약 10% 증가하는 수준이다.    액센츄어의 수석 전무이사 애슐리 스카이름은 이러한 지출이 4가지 핵심 영역에 집중될 것이라고 밝혔다. 첫 번째는 시장 출시 속도가 중요한 시장(예: AI, 블록체인, AR/VR 등)에서 가치를 입증하기 위해 새로운 사용 사례를 빠르게 시험하고 프로토타이핑하면서 기업들이 ‘재창조하고 혁신하는’ 영역이다. 두 번째 영역은 데이터 및 애널리틱스용 플랫폼 등 ‘새로운 역량 또는 수익원을 창출하는 혁신적인 투자’를 통해 확장하고 차별화하면서 비즈니스를 성장시키는 것이다. 세 번째는 ERP/CRM, 품질, 공급 계획 시스템 등 경쟁력 있는 비즈니스 역량 또는 프로세스 디지털화를 통해 가치사슬을 디지털화하는 것이다. 마지막은 비즈니스를 운영하고, 데이터센터 및 네트워크 등에서 보안 및 컴플라이언스를 유지하는 데 필요한 기술 역량이다.  여기서는 2022년 CIO와 IT 리더들이 투자하게 될 ‘뜨거운(Hot)’ IT 기술 7가지와 ‘차가운(Cold)’ IT 기술 4가지를 정리했다.   Hot: 클라우드 네이티브 관리형 서비스 KPMG의 수석 고문 마크 생크는 클라우드 네이티브 관리형 서비스를 활용하기 위한 투자가 이뤄질 것이라고 말했다. 그는 “예전엔 기업들이 클라우드 투자로 인한 벤더 락...

IT 투자 IT 리더 CIO IT 리더십 디지털 트랜스포메이션 클라우드 네이티브 사물인터넷 데이터 레이크 데이터 웨어하우스 프라이빗 클라우드 직원 인게이지먼트 애널리틱스 데이터 과학 고객 경험 보안

2022.01.10

IT 리더들이 ‘기술’을 활용하여 혁신과 비즈니스 트랜스포메이션에 박차를 가할 방안을 모색하고 있다. 그렇다면 투자가 늘어나고 있는 기술은 무엇인지, 반면에 약화되거나 축소되고 있는 기술은 무엇인지 살펴본다.  팬데믹 기간 동안 가속화된 디지털 트랜스포메이션 물결을 타고 올해에도 기업들은 혁신을 촉진하고 비즈니스 운영을 트랜스포메이션하고자 기술을 적극적으로 활용할 전망이다. 이를 위해서는 기술 투자가 필요하다. 이를 아는 기업들은 새로운 기술 및 기존 기술 예산을 늘리고 있다. 액센츄어에 따르면 전체 디지털 지출은 2023년까지 총 IT 지출의 55%를 차지할 것으로 예상되며, 지난 2021년보다 약 10% 증가하는 수준이다.    액센츄어의 수석 전무이사 애슐리 스카이름은 이러한 지출이 4가지 핵심 영역에 집중될 것이라고 밝혔다. 첫 번째는 시장 출시 속도가 중요한 시장(예: AI, 블록체인, AR/VR 등)에서 가치를 입증하기 위해 새로운 사용 사례를 빠르게 시험하고 프로토타이핑하면서 기업들이 ‘재창조하고 혁신하는’ 영역이다. 두 번째 영역은 데이터 및 애널리틱스용 플랫폼 등 ‘새로운 역량 또는 수익원을 창출하는 혁신적인 투자’를 통해 확장하고 차별화하면서 비즈니스를 성장시키는 것이다. 세 번째는 ERP/CRM, 품질, 공급 계획 시스템 등 경쟁력 있는 비즈니스 역량 또는 프로세스 디지털화를 통해 가치사슬을 디지털화하는 것이다. 마지막은 비즈니스를 운영하고, 데이터센터 및 네트워크 등에서 보안 및 컴플라이언스를 유지하는 데 필요한 기술 역량이다.  여기서는 2022년 CIO와 IT 리더들이 투자하게 될 ‘뜨거운(Hot)’ IT 기술 7가지와 ‘차가운(Cold)’ IT 기술 4가지를 정리했다.   Hot: 클라우드 네이티브 관리형 서비스 KPMG의 수석 고문 마크 생크는 클라우드 네이티브 관리형 서비스를 활용하기 위한 투자가 이뤄질 것이라고 말했다. 그는 “예전엔 기업들이 클라우드 투자로 인한 벤더 락...

2022.01.10

벤더 기고ㅣ진화하는 ‘데이터 레이크’에 주목해야 할 시점··· 데이터 레이크 현황과 전망

데이터 레이크에 새롭게 주목해야 할 시점이다. 지금까지 기업들은 업무 프로세스를 지원하기 위해 ERP 등 시스템을 구축∙운영해 왔고, 이와 같은 레거시 시스템을 통해서 업무와 관련된 데이터가 발생해 왔다. 약 10년전 ‘빅데이터’라는 새로운 화두는 이처럼 업무를 담당하거나 운영을 지원하는 시스템에서 발생하는 데이터를 기업 의사결정에 접목하려는 목적으로 시작됐다. 이러한 목적에 있어 가장 근접한 ‘최신 기술 집약체’가 바로 ‘데이터 레이크’다. 데이터 레이크 분야에의 관심이 시장 성장으로 이어지고 있는 배경이다.    활성화 요인 데이터 레이크 시장이 뜨거워지는 주요 요인으로는 ▲ 데이터 활용 수요 증가, ▲ 데이터를 둘러싼 기술 발전, ▲ 데이터 기반 의사결정이라는 3가지 추세가 있다. ① 데이터 활용 수요 증가     데이터 레이크는 아직 가공되지 않은 데이터를 저장하기 때문에 보다 효율적으로 다양한 관점에서 분석을 진행할 수 있다. 한정된 데이터에 기반한 분석을 넘어서는 것이 가능하다. 예를 들어 스트리밍 데이터를 활용한 분석, 대규모 데이터와 다양한 언어(텍스트, 이미지 및 비디오 포함)를 활용하는 보다 세분화한 형태의 마케팅, 여러 변수를 활용하는 정확도 높은 수요 예측 등을 가능케 한다.  이렇게 데이터를 활용하면서 기업의 운영 역량(Operational Excellency) 개선 사례(business case)가 늘어나고 있다. 다양한 실증 사례가 여러 산업에서 출현하면서 데이터를 활용하여 비즈니스 프로세스를 운영하려는 필요성이 수요와 연계되어, 데이터 활용 니즈가 증가 추세에 있다. ② 데이터를 둘러싼 기술 발전         기존 관계형 DBMS와 같은 전통방식으로는 BI(Business Intelligence)기반 리포트와 대시보드, ad hoc 보고서 작성 위주라는 한계가 있음을 기업 주체들이 경험했다. 이로 인해 빠르게 급증하...

데이터 레이크 데이터 활용 관계형 DBMS IT 인프라 데이터 분석 데이터 인프라 스마트 시티 사물인터넷 클라우드

2021.12.31

데이터 레이크에 새롭게 주목해야 할 시점이다. 지금까지 기업들은 업무 프로세스를 지원하기 위해 ERP 등 시스템을 구축∙운영해 왔고, 이와 같은 레거시 시스템을 통해서 업무와 관련된 데이터가 발생해 왔다. 약 10년전 ‘빅데이터’라는 새로운 화두는 이처럼 업무를 담당하거나 운영을 지원하는 시스템에서 발생하는 데이터를 기업 의사결정에 접목하려는 목적으로 시작됐다. 이러한 목적에 있어 가장 근접한 ‘최신 기술 집약체’가 바로 ‘데이터 레이크’다. 데이터 레이크 분야에의 관심이 시장 성장으로 이어지고 있는 배경이다.    활성화 요인 데이터 레이크 시장이 뜨거워지는 주요 요인으로는 ▲ 데이터 활용 수요 증가, ▲ 데이터를 둘러싼 기술 발전, ▲ 데이터 기반 의사결정이라는 3가지 추세가 있다. ① 데이터 활용 수요 증가     데이터 레이크는 아직 가공되지 않은 데이터를 저장하기 때문에 보다 효율적으로 다양한 관점에서 분석을 진행할 수 있다. 한정된 데이터에 기반한 분석을 넘어서는 것이 가능하다. 예를 들어 스트리밍 데이터를 활용한 분석, 대규모 데이터와 다양한 언어(텍스트, 이미지 및 비디오 포함)를 활용하는 보다 세분화한 형태의 마케팅, 여러 변수를 활용하는 정확도 높은 수요 예측 등을 가능케 한다.  이렇게 데이터를 활용하면서 기업의 운영 역량(Operational Excellency) 개선 사례(business case)가 늘어나고 있다. 다양한 실증 사례가 여러 산업에서 출현하면서 데이터를 활용하여 비즈니스 프로세스를 운영하려는 필요성이 수요와 연계되어, 데이터 활용 니즈가 증가 추세에 있다. ② 데이터를 둘러싼 기술 발전         기존 관계형 DBMS와 같은 전통방식으로는 BI(Business Intelligence)기반 리포트와 대시보드, ad hoc 보고서 작성 위주라는 한계가 있음을 기업 주체들이 경험했다. 이로 인해 빠르게 급증하...

2021.12.31

칼럼ㅣ'ETL'은 빅데이터와의 경쟁에서 패배했다

‘ETL(Extract, Transform, Load)’은 빅 데이터와의 경쟁에서 패배했다. 솔루션은 전통적인 프로세스 통합 단계를 재정렬하는 것만큼이나 간단하다.  일반 컴퓨터 사용자에게 인터넷이 보급됐던 1989년으로 되돌아가보자. 당시의 데이터 프로세스는 순차적이고, 정적이었으며, 유연하지 못했다. 그러한 시대에서 통합은 혁명이었으며, ‘ETL(추출, 변환, 로드)’은 일반적인 비즈니스 범위를 벗어나는 최신 기술이었다.    다시 현재로 거슬러 올라오자. 오늘날 인터넷에서는 수십억 명의 사용자가 매 순간 상상할 수 없는 양의 데이터를 생성하고 있다. 이로 인해 새로운 시스템 환경이 탄생하고, 모든 것이 주문형(on-demand)으로 이뤄지고 있다.  그 시대의 많은 프로세스와 마찬가지로, 온프레미스 환경을 위한 전통적인 ETL은 더 이상 필요가 없다. 수년간의 진화에도 불구하고 기존 ETL 프로세스는 빅 데이터라는 광기와의 경쟁에서 패배했다.  가트너에 따르면 분석 인사이트의 20%만이 핵심 비즈니스 결과를 촉발한다. 예상한 대로 부정확하고 불충분한 데이터가 주요 원인이다.  전통적인 ETL의 단점 기존 ETL에는 다음과 같은 단점이 있다.  • 모든 변환의 비즈니스 요구사항이 고유하기 때문에 데이터 엔지니어는 커스텀 코드 프로그램 및 스크립트를 처리해야 한다. 따라서 특화되고 변환 불가능한 기술을 개발해야 하고, 코드 베이스 관리가 복잡해진다.   • ETL은 지속적인 간접비가 발생한다. 전담 데이터 엔지니어의 긴 재설계 사이클이 필요하다.   • ETL에서 데이터 과학자는 엔지니어가 변환하고 정제한 데이터 세트만 받을 수 있다. 이로 인해 프로세스가 경직될 뿐만 아니라 결과의 민첩성이 제한된다.   • 초기에 ETL의 목적은 주기적인 배치(batch) 처리 세션이었다. 이는 지속적이고 자동화된 데이터 스트리밍을 지원하지 않는다. 또한 실시간 데이...

ETL ELT 데이터 빅 데이터 데이터 과학 데이터 관리 데이터 레이크 데이터 웨어하우스

2021.09.15

‘ETL(Extract, Transform, Load)’은 빅 데이터와의 경쟁에서 패배했다. 솔루션은 전통적인 프로세스 통합 단계를 재정렬하는 것만큼이나 간단하다.  일반 컴퓨터 사용자에게 인터넷이 보급됐던 1989년으로 되돌아가보자. 당시의 데이터 프로세스는 순차적이고, 정적이었으며, 유연하지 못했다. 그러한 시대에서 통합은 혁명이었으며, ‘ETL(추출, 변환, 로드)’은 일반적인 비즈니스 범위를 벗어나는 최신 기술이었다.    다시 현재로 거슬러 올라오자. 오늘날 인터넷에서는 수십억 명의 사용자가 매 순간 상상할 수 없는 양의 데이터를 생성하고 있다. 이로 인해 새로운 시스템 환경이 탄생하고, 모든 것이 주문형(on-demand)으로 이뤄지고 있다.  그 시대의 많은 프로세스와 마찬가지로, 온프레미스 환경을 위한 전통적인 ETL은 더 이상 필요가 없다. 수년간의 진화에도 불구하고 기존 ETL 프로세스는 빅 데이터라는 광기와의 경쟁에서 패배했다.  가트너에 따르면 분석 인사이트의 20%만이 핵심 비즈니스 결과를 촉발한다. 예상한 대로 부정확하고 불충분한 데이터가 주요 원인이다.  전통적인 ETL의 단점 기존 ETL에는 다음과 같은 단점이 있다.  • 모든 변환의 비즈니스 요구사항이 고유하기 때문에 데이터 엔지니어는 커스텀 코드 프로그램 및 스크립트를 처리해야 한다. 따라서 특화되고 변환 불가능한 기술을 개발해야 하고, 코드 베이스 관리가 복잡해진다.   • ETL은 지속적인 간접비가 발생한다. 전담 데이터 엔지니어의 긴 재설계 사이클이 필요하다.   • ETL에서 데이터 과학자는 엔지니어가 변환하고 정제한 데이터 세트만 받을 수 있다. 이로 인해 프로세스가 경직될 뿐만 아니라 결과의 민첩성이 제한된다.   • 초기에 ETL의 목적은 주기적인 배치(batch) 처리 세션이었다. 이는 지속적이고 자동화된 데이터 스트리밍을 지원하지 않는다. 또한 실시간 데이...

2021.09.15

칼럼ㅣ데이터 레이크 저물고 '데이터 패브릭' 떠오른다

데이터 레이크와 데이터 웨어하우스가 여전히 유용하긴 하지만 이제 데이터 관리에 새로운 접근법을 취할 때다.  지난 20년 동안 CIO, CDO, 애널리스트가 기업 인프라에 저장된 데이터에 관해 의사결정을 내리면서 중앙 집중화를 강조하는 문화를 조성했다. IT 팀의 보호 아래에서 데이터를 처리할 때 (데이터가) 가장 잘 통제되고 유용하다는 것이었다.  이 기간에는 해당 논리에 관한 논쟁이 있을 수 없었다. 이로 인해 데이터 웨어하우징을 통한 첫 번째 데이터 통합의 물결이 일었다. 1990년대에 이는 데이터를 사전 정의된 사용 사례에 맞춰 고정된 구조적 형태로 사전 처리 및 저장하여 여러 비즈니스 인텔리전스 플랫폼을 단일 솔루션으로 연결하는 효과적인 방법이었다.    하지만 시간이 지나면서 이러한 아키텍처에 광범위한 사용자 정의 및 데이터 유지관리가 필요하다는 게 명확해졌고, 확장 요건에도 어려움을 겪었다. 게다가 데이터 프로젝트의 소유권을 부서별로 가져가기 어려웠기 때문에 데이터가 비즈니스에 미치는 전반적인 영향도 감소했다.  그리고 이 문제를 해결하기 위해 새로운 유형의 아키텍처 ‘데이터 레이크’가 등장했다. 기업들은 데이터 레이크를 통해 모든 정형 및 비정형 데이터를 규모에 상관없이 중앙 저장소에 저장할 수 있었다.  데이터 웨어하우징과 마찬가지로 데이터 레이크는 데이터 처리 방식을 변화시켜 실시간 스트리밍 기능과 정형 및 비정형 데이터 처리 기능을 제공했다. 또 데이터 레이크는 데이터 웨어하우스보다 데이터 소비, 저장, 출력을 더욱더 잘 처리하고 메타데이터를 적용하여 데이터 웨어하우스보다 유연한 성능을 제공할 수 있었다.  하지만 이런 발전에도 불구하고 한계점은 남아 있었다. 기업 내의 데이터 팀은 보유한 데이터로 더 많은 일을 할 수 있었지만 서로 다른 요구사항을 가진 비즈니스 내 여러 부서로부터 받은 임시 요청을 처리하느라 진땀을 빼고 있었다.  데이터 플랫폼 아키텍처...

데이터 관리 데이터 거버넌스 마스터 데이터 관리 데이터 레이크 데이터 웨어하우스 데이터 패브릭 데이터 메시

2021.09.10

데이터 레이크와 데이터 웨어하우스가 여전히 유용하긴 하지만 이제 데이터 관리에 새로운 접근법을 취할 때다.  지난 20년 동안 CIO, CDO, 애널리스트가 기업 인프라에 저장된 데이터에 관해 의사결정을 내리면서 중앙 집중화를 강조하는 문화를 조성했다. IT 팀의 보호 아래에서 데이터를 처리할 때 (데이터가) 가장 잘 통제되고 유용하다는 것이었다.  이 기간에는 해당 논리에 관한 논쟁이 있을 수 없었다. 이로 인해 데이터 웨어하우징을 통한 첫 번째 데이터 통합의 물결이 일었다. 1990년대에 이는 데이터를 사전 정의된 사용 사례에 맞춰 고정된 구조적 형태로 사전 처리 및 저장하여 여러 비즈니스 인텔리전스 플랫폼을 단일 솔루션으로 연결하는 효과적인 방법이었다.    하지만 시간이 지나면서 이러한 아키텍처에 광범위한 사용자 정의 및 데이터 유지관리가 필요하다는 게 명확해졌고, 확장 요건에도 어려움을 겪었다. 게다가 데이터 프로젝트의 소유권을 부서별로 가져가기 어려웠기 때문에 데이터가 비즈니스에 미치는 전반적인 영향도 감소했다.  그리고 이 문제를 해결하기 위해 새로운 유형의 아키텍처 ‘데이터 레이크’가 등장했다. 기업들은 데이터 레이크를 통해 모든 정형 및 비정형 데이터를 규모에 상관없이 중앙 저장소에 저장할 수 있었다.  데이터 웨어하우징과 마찬가지로 데이터 레이크는 데이터 처리 방식을 변화시켜 실시간 스트리밍 기능과 정형 및 비정형 데이터 처리 기능을 제공했다. 또 데이터 레이크는 데이터 웨어하우스보다 데이터 소비, 저장, 출력을 더욱더 잘 처리하고 메타데이터를 적용하여 데이터 웨어하우스보다 유연한 성능을 제공할 수 있었다.  하지만 이런 발전에도 불구하고 한계점은 남아 있었다. 기업 내의 데이터 팀은 보유한 데이터로 더 많은 일을 할 수 있었지만 서로 다른 요구사항을 가진 비즈니스 내 여러 부서로부터 받은 임시 요청을 처리하느라 진땀을 빼고 있었다.  데이터 플랫폼 아키텍처...

2021.09.10

김진철의 How-to-Big DataㅣHow-to-Big Data 핵심 정리(Key Takeaways) (2)

이번 글은 지난 글에 이어 2017년 1월부터 지금까지 필자가 소개했던 빅데이터 활용 교훈의 핵심들을 다시 정리해보려고 한다. 지난 쉰 두 번째 글에서는 빅데이터 비즈니스와 관련된 기술의 종류와 활용법에 대해 살펴본 1회부터 21회까지의 기고 내용을 정리한 글이었다. 이번 글은 필자가 독자들로부터 가장 많은 문의를 받았던 빅데이터 비즈니스 조직의 조직과 운영 방법에 관한 내용을 다루었던 22회부터 34회까지 글의 핵심 내용을 정리해보려고 한다.   22회: 빅데이터 조직과 시스템 (1) (2018년 10월 26일 게재)  빅데이터 비즈니스 프로젝트는 아무리 작은 규모라고 해도 일반 기업이 부담하기에는 꽤 많은 자원과 인력이 투입된다. 성공적인 빅데이터 비즈니스를 위해서는 단순히 빅데이터 시스템을 도입하기 위한 조직이 아니라, 빅데이터 시스템을 인프라로 갖춘 후에도 이를 유지, 보수, 운영하면서 데이터 과학 활동을 꾸준하게 할 수 있는 조직 체계가 갖춰져야 한다. CERN의 LHC 실험에서는 막대한 규모의 빅데이터를 처리, 분석할 수 있는 LHC 컴퓨팅 그리드를 건설하기 위해 각 검출기 실험의 “국제공동협력 이사회(Collaboration Board)”와 동급으로 “자원 검토 이사회(Resources Review Board)”를 상설 기구로 두었다. 이 “자원 검토 이사회(Resources Review Board)”는 매 분기별로 실험에 참여하는 각 국 정부의 실험 참여 분담금과 연구팀의 예산, 인력 상황을 검토하고 프로젝트 진행상황을 면밀하게 점검하였다. LHC 가속기와 네 개의 입자 검출기 건설에만 20여년이 걸리고, 건설 후에도 40여년 가까이 운영되어야 하기 때문에, LHC 프로젝트는 많은 위험 요소를 가지고 있다. 근본적으로 LHC 실험이 우주를 구성하는 물질의 근본적인 원리를 탐구하고 밝히려는 과학적 발견과 성과에 초점이 맞춰져 있어 기본적으로 물리학과 가속기, 검출기 건설, 유지, 보수를 위한 공학적, 기술적 측면에 프로젝트...

김진철 빅데이터 데이터 과학 데이터 과학자 빅데이터 비즈니스 아파치 하둡 스파크 데이터 레이크 인공지능 딥러닝 해석가능성 클라우드 운영 지능화

2021.05.31

이번 글은 지난 글에 이어 2017년 1월부터 지금까지 필자가 소개했던 빅데이터 활용 교훈의 핵심들을 다시 정리해보려고 한다. 지난 쉰 두 번째 글에서는 빅데이터 비즈니스와 관련된 기술의 종류와 활용법에 대해 살펴본 1회부터 21회까지의 기고 내용을 정리한 글이었다. 이번 글은 필자가 독자들로부터 가장 많은 문의를 받았던 빅데이터 비즈니스 조직의 조직과 운영 방법에 관한 내용을 다루었던 22회부터 34회까지 글의 핵심 내용을 정리해보려고 한다.   22회: 빅데이터 조직과 시스템 (1) (2018년 10월 26일 게재)  빅데이터 비즈니스 프로젝트는 아무리 작은 규모라고 해도 일반 기업이 부담하기에는 꽤 많은 자원과 인력이 투입된다. 성공적인 빅데이터 비즈니스를 위해서는 단순히 빅데이터 시스템을 도입하기 위한 조직이 아니라, 빅데이터 시스템을 인프라로 갖춘 후에도 이를 유지, 보수, 운영하면서 데이터 과학 활동을 꾸준하게 할 수 있는 조직 체계가 갖춰져야 한다. CERN의 LHC 실험에서는 막대한 규모의 빅데이터를 처리, 분석할 수 있는 LHC 컴퓨팅 그리드를 건설하기 위해 각 검출기 실험의 “국제공동협력 이사회(Collaboration Board)”와 동급으로 “자원 검토 이사회(Resources Review Board)”를 상설 기구로 두었다. 이 “자원 검토 이사회(Resources Review Board)”는 매 분기별로 실험에 참여하는 각 국 정부의 실험 참여 분담금과 연구팀의 예산, 인력 상황을 검토하고 프로젝트 진행상황을 면밀하게 점검하였다. LHC 가속기와 네 개의 입자 검출기 건설에만 20여년이 걸리고, 건설 후에도 40여년 가까이 운영되어야 하기 때문에, LHC 프로젝트는 많은 위험 요소를 가지고 있다. 근본적으로 LHC 실험이 우주를 구성하는 물질의 근본적인 원리를 탐구하고 밝히려는 과학적 발견과 성과에 초점이 맞춰져 있어 기본적으로 물리학과 가속기, 검출기 건설, 유지, 보수를 위한 공학적, 기술적 측면에 프로젝트...

2021.05.31

기고 | ‘늪에 빠진 산업 데이터를 구하라’··· 데이터 히스토리언에 거는 기대

산업 조직들이 보유한 수십 년 묵은 방대한 데이터는 양날의 검과 같다. 제조 공장에서 정제 공장에 이르기까지 산업 조직들은 그동안 신기술이 나오는 족족 채택하곤 했다. 구내에 설치된 구형 기술 위에 스마트 센서, 사물인터넷(IoT) 연결 장치, 클라우드, 산업 AI 등의 신기술을 쌓은 것이다.  그 결과 쌓인 기술의 데이터 생성 방식이 서로 판이하다. 데이터의 전송, 저장 및 확보 방식에서부터 데이터가 상주하는 네트워크 계층, 데이터의 형식 설정 및 접근 방식(그리고 누가 데이터 접근권을 갖는지)에 대한 기본 문제에 이르기까지 이 모든 것은 데이터의 출처에 따라 크게 다르다.  쇠퇴하는 분야 지식에 대한 의존도로 인해 산업 ‘두뇌 유출’ 발생 이 문제는 그동안 산업 부분에서 서서히 그러나 꾸준히 일어난 ‘두뇌 유출’(brain drain)에 의해 더욱 악화됐다. 산업 두뇌 유출은 숙련된 직원이나 분야 전문가들이 은퇴나 기술적 또는 사회적 변화로 인해 단순히 퇴사하는 것에 그치지 않고 산업 전체를 떠날 때 일어난다. 산업 데이터가 이 정도로 다양하고 복잡하면 데이터의 저장 장소와, 형식, 접근 방법 등 기본적인 내용을 파악하는 데만도 고도의 전문 지식과 기술을 갖춘 인력이 필요하다. 많은 조직들이 그동안 근근히 버텨온 것도 조직 전체가 기댈 수 있는 전문 지식을 갖춘 장기 근속 베테랑 근로자들이 있었기 때문이었다.  그러나 엔지니어들이 나이가 들면서 점점 물러나고 그 자리를 대신 차지하게 된 젊은 직원들은 그러한 전문 지식이 없으며 이들이 훈련을 받은 기술과 개념도 완전히 상이하다. 이에 따라 각 조직에는 운영 전문 지식의 두뇌 유출 문제가 발생했다. 그 결과 생긴 기술 간극은 점점 더 넓어졌으며, 기본적인 데이터 랭글링(data wrangling) 작업 처리조차도 거의 불가능해졌다.   데이터가 많을수록 좋은 것은 아니다 산업 조직의 현장 곳곳에 센서와 연결 장치가 설치되는 1차적인 목적은 데이터를 더 많이 생성하기 ...

데이터 레이크 데이터 히스토리언 산업 데이터

2021.05.25

산업 조직들이 보유한 수십 년 묵은 방대한 데이터는 양날의 검과 같다. 제조 공장에서 정제 공장에 이르기까지 산업 조직들은 그동안 신기술이 나오는 족족 채택하곤 했다. 구내에 설치된 구형 기술 위에 스마트 센서, 사물인터넷(IoT) 연결 장치, 클라우드, 산업 AI 등의 신기술을 쌓은 것이다.  그 결과 쌓인 기술의 데이터 생성 방식이 서로 판이하다. 데이터의 전송, 저장 및 확보 방식에서부터 데이터가 상주하는 네트워크 계층, 데이터의 형식 설정 및 접근 방식(그리고 누가 데이터 접근권을 갖는지)에 대한 기본 문제에 이르기까지 이 모든 것은 데이터의 출처에 따라 크게 다르다.  쇠퇴하는 분야 지식에 대한 의존도로 인해 산업 ‘두뇌 유출’ 발생 이 문제는 그동안 산업 부분에서 서서히 그러나 꾸준히 일어난 ‘두뇌 유출’(brain drain)에 의해 더욱 악화됐다. 산업 두뇌 유출은 숙련된 직원이나 분야 전문가들이 은퇴나 기술적 또는 사회적 변화로 인해 단순히 퇴사하는 것에 그치지 않고 산업 전체를 떠날 때 일어난다. 산업 데이터가 이 정도로 다양하고 복잡하면 데이터의 저장 장소와, 형식, 접근 방법 등 기본적인 내용을 파악하는 데만도 고도의 전문 지식과 기술을 갖춘 인력이 필요하다. 많은 조직들이 그동안 근근히 버텨온 것도 조직 전체가 기댈 수 있는 전문 지식을 갖춘 장기 근속 베테랑 근로자들이 있었기 때문이었다.  그러나 엔지니어들이 나이가 들면서 점점 물러나고 그 자리를 대신 차지하게 된 젊은 직원들은 그러한 전문 지식이 없으며 이들이 훈련을 받은 기술과 개념도 완전히 상이하다. 이에 따라 각 조직에는 운영 전문 지식의 두뇌 유출 문제가 발생했다. 그 결과 생긴 기술 간극은 점점 더 넓어졌으며, 기본적인 데이터 랭글링(data wrangling) 작업 처리조차도 거의 불가능해졌다.   데이터가 많을수록 좋은 것은 아니다 산업 조직의 현장 곳곳에 센서와 연결 장치가 설치되는 1차적인 목적은 데이터를 더 많이 생성하기 ...

2021.05.25

김진철의 How-to-Big Data | How-to-Big Data 핵심 정리(Key Takeaways) (1)

이번 글과 다음 글에서는 지난 2017년 1월부터 지금까지 필자가 정리했던 빅데이터 활용 교훈의 핵심을 정리해보는 시간을 가지려고 한다. 필자가 기고를 시작했던 2017년부터 지금까지 빅데이터 기술이나 데이터 과학 활용 양상이 많이 발전했어도 많은 기업이 빅데이터를 차별화된 비즈니스 성공으로 이끈 사례는 생각보다 많지 않다. 필자가 CERN의 LHC 실험을 통해 살펴보았던 빅데이터 활용의 교훈들은 시간이 지나도 여전히 유효하다. 지금까지 살펴본 내용들을 같이 보면서 앞으로 빅데이터를 어떻게 활용해야 시행착오를 덜 겪으면서 비즈니스를 성공으로 이끌 수 있을지 같이 정리해보자.   --> 1회: 연재를 시작하며 (2017년 1월 23일 게재) 필자가 연재를 시작할 당시 데이터 과학 무용론이 고개를 들기 시작하던 때였다. 소위 하둡(Hadoop)과 같은 빅데이터 기술을 도입했지만 비즈니스 효과가 없다는 얘기도 있었고, 빅데이터와 데이터 과학이 실체가 없고 주요 IT 기업들의 솔루션 판매를 위한 마케팅 용어일 뿐이라는 주장도 나타났다.  많은 기업들이 빅데이터의 효과를 확인하지 못하는 이유는 빅데이터를 처리하는 기술, 특히 당시에는 아파치 하둡(Hadoop)과 스파크(Spark)기술 중심의 빅데이터 기술을 도입하는 데에 관심을 보이고, 빅데이터 기술이 도입된 후 정작 해야 하는 데이터 과학을 제대로 하지 않았기 때문이라고 설명했다. 빅데이터와 데이터 과학을 잘 활용해서 효용을 얻기 위해 필요한 것을 데이터, 인프라, 조직 및 시스템, 사람의 네 가지 관점에서 살펴보겠다고 소개했다. 빅데이터와 데이터 과학을 활용하기 위해 가장 중요한 것이 데이터 수집이다. 우선 어떤 데이터를 어떻게 획득할 것인가하는 문제가 빅데이터 비즈니스 모델의 설계와 성공에 많은 영향을 미치기 때문이고, 데이터가 없는데 빅데이터 비즈니스 모델이 작동할 리 없기 때문이다. 데이터는 빅데이터 비즈니스 모델의 연료와 같다. --> 2회: 빅데이터 활용의 근본적인 ...

김진철 빅 데이터 데이터 과학 아파치 하둡 스파크 데이터 레이크 인공지능 딥러닝 해석가능성 클라우드 운영 지능화

2021.04.27

이번 글과 다음 글에서는 지난 2017년 1월부터 지금까지 필자가 정리했던 빅데이터 활용 교훈의 핵심을 정리해보는 시간을 가지려고 한다. 필자가 기고를 시작했던 2017년부터 지금까지 빅데이터 기술이나 데이터 과학 활용 양상이 많이 발전했어도 많은 기업이 빅데이터를 차별화된 비즈니스 성공으로 이끈 사례는 생각보다 많지 않다. 필자가 CERN의 LHC 실험을 통해 살펴보았던 빅데이터 활용의 교훈들은 시간이 지나도 여전히 유효하다. 지금까지 살펴본 내용들을 같이 보면서 앞으로 빅데이터를 어떻게 활용해야 시행착오를 덜 겪으면서 비즈니스를 성공으로 이끌 수 있을지 같이 정리해보자.   --> 1회: 연재를 시작하며 (2017년 1월 23일 게재) 필자가 연재를 시작할 당시 데이터 과학 무용론이 고개를 들기 시작하던 때였다. 소위 하둡(Hadoop)과 같은 빅데이터 기술을 도입했지만 비즈니스 효과가 없다는 얘기도 있었고, 빅데이터와 데이터 과학이 실체가 없고 주요 IT 기업들의 솔루션 판매를 위한 마케팅 용어일 뿐이라는 주장도 나타났다.  많은 기업들이 빅데이터의 효과를 확인하지 못하는 이유는 빅데이터를 처리하는 기술, 특히 당시에는 아파치 하둡(Hadoop)과 스파크(Spark)기술 중심의 빅데이터 기술을 도입하는 데에 관심을 보이고, 빅데이터 기술이 도입된 후 정작 해야 하는 데이터 과학을 제대로 하지 않았기 때문이라고 설명했다. 빅데이터와 데이터 과학을 잘 활용해서 효용을 얻기 위해 필요한 것을 데이터, 인프라, 조직 및 시스템, 사람의 네 가지 관점에서 살펴보겠다고 소개했다. 빅데이터와 데이터 과학을 활용하기 위해 가장 중요한 것이 데이터 수집이다. 우선 어떤 데이터를 어떻게 획득할 것인가하는 문제가 빅데이터 비즈니스 모델의 설계와 성공에 많은 영향을 미치기 때문이고, 데이터가 없는데 빅데이터 비즈니스 모델이 작동할 리 없기 때문이다. 데이터는 빅데이터 비즈니스 모델의 연료와 같다. --> 2회: 빅데이터 활용의 근본적인 ...

2021.04.27

김진철의 How-to-Big Data | 빅데이터 괴담

이번 글은 필자가 지금까지 데이터 과학자로 경력을 쌓아오면서 경험했거나 듣고 읽었던 빅데이터 활용 사례들을 중심으로 빅데이터를 활용하는 과정에서 많은 조직이 흔히 저지르는 실수와 오해, 시행착오에 대해서 살펴보고, 이를 어떻게 개선할 수 있을지 같이 생각해보기로 한다. 소개하는 사례들은 실제 사례들이 아니라 필자가 경험했거나 들은 사례들을 각색하여 만든 가상의 사례들이며, 필자가 전달하고자 하는 메시지를 부각하기 위해 조금 과장했음을 미리 알려 둔다. 지금까지 같이 생각해봤던 빅데이터 활용의 교훈을 되새기고 독자들의 시행착오를 줄이는 것을 돕기 위해 만들 사례들이니 사실이 아닌 것을 염두에 주고 가볍고 즐겁게 읽었으면 좋겠다.   사례 1: 데이터 호수가 너무 넓어서 ROI가 나지 않아 곤란한 A 기업의 CIO 이야기 많은 사람에게 널리 알려진 A 회사에서 빅데이터를 앞세워 승승장구한 C는 요즘 고민이 많다. 문제는 바로 그에게 회사에서 승승장구한 경력을 만들어준 데이터 레이크 시스템 때문이다. C는 2011년도 빅데이터 붐이 일기 시작할 즈음 승진을 위한 기획 아이템으로 뭘 앞세울까 고민하다가 그 당시 막 떠오르고 있던 빅데이터를 앞세워서 A 회사에 하둡 기반의 빅데이터 시스템을 구축하는 기획안을 만들어 임원의 승인을 받는 데 성공했다.  당시 NexR과 같이 오픈소스 하둡을 기반으로 빅데이터 솔루션을 상용화하는 스타트업이 막 등장하고 있었다. 이런 스타트업 중에서 괜찮은 회사 하나를 잘 골라서 같이 일하면서 키우면 자신의 승진에 많이 도움이 될 것 같았다. 운이 좋다면 자신의 직속 임원이 이 스타트업을 인수, 합병하여 사업 성과를 낼 수 있도록 하면서 그 회사의 고급 소프트웨어 엔지니어들을 자연스럽게 회사로 영입하여 자신의 세력으로 키울 수 있을 것 같았다. C는 당시 하둡 기반 빅데이터 스타트업으로서 같이 하둡 시스템 구축 사업을 수행한 D사를 잘 활용하여 예상보다 빠르게 하둡 시스템을 안정적으로 구축할 수 있었다. 이후 프...

김진철 빅데이터 데이터 과학 데이터 과학자 시행착오 데이터 레이크 하둡 스타트업 스파크 플링크 에어플로우 데이터웨어하우스 도커 서비스메시 쿠버네티스

2021.03.29

이번 글은 필자가 지금까지 데이터 과학자로 경력을 쌓아오면서 경험했거나 듣고 읽었던 빅데이터 활용 사례들을 중심으로 빅데이터를 활용하는 과정에서 많은 조직이 흔히 저지르는 실수와 오해, 시행착오에 대해서 살펴보고, 이를 어떻게 개선할 수 있을지 같이 생각해보기로 한다. 소개하는 사례들은 실제 사례들이 아니라 필자가 경험했거나 들은 사례들을 각색하여 만든 가상의 사례들이며, 필자가 전달하고자 하는 메시지를 부각하기 위해 조금 과장했음을 미리 알려 둔다. 지금까지 같이 생각해봤던 빅데이터 활용의 교훈을 되새기고 독자들의 시행착오를 줄이는 것을 돕기 위해 만들 사례들이니 사실이 아닌 것을 염두에 주고 가볍고 즐겁게 읽었으면 좋겠다.   사례 1: 데이터 호수가 너무 넓어서 ROI가 나지 않아 곤란한 A 기업의 CIO 이야기 많은 사람에게 널리 알려진 A 회사에서 빅데이터를 앞세워 승승장구한 C는 요즘 고민이 많다. 문제는 바로 그에게 회사에서 승승장구한 경력을 만들어준 데이터 레이크 시스템 때문이다. C는 2011년도 빅데이터 붐이 일기 시작할 즈음 승진을 위한 기획 아이템으로 뭘 앞세울까 고민하다가 그 당시 막 떠오르고 있던 빅데이터를 앞세워서 A 회사에 하둡 기반의 빅데이터 시스템을 구축하는 기획안을 만들어 임원의 승인을 받는 데 성공했다.  당시 NexR과 같이 오픈소스 하둡을 기반으로 빅데이터 솔루션을 상용화하는 스타트업이 막 등장하고 있었다. 이런 스타트업 중에서 괜찮은 회사 하나를 잘 골라서 같이 일하면서 키우면 자신의 승진에 많이 도움이 될 것 같았다. 운이 좋다면 자신의 직속 임원이 이 스타트업을 인수, 합병하여 사업 성과를 낼 수 있도록 하면서 그 회사의 고급 소프트웨어 엔지니어들을 자연스럽게 회사로 영입하여 자신의 세력으로 키울 수 있을 것 같았다. C는 당시 하둡 기반 빅데이터 스타트업으로서 같이 하둡 시스템 구축 사업을 수행한 D사를 잘 활용하여 예상보다 빠르게 하둡 시스템을 안정적으로 구축할 수 있었다. 이후 프...

2021.03.29

더 스마트한 컴퓨팅··· ‘엣지 애널리틱스’가 견인한다

실시간 애널리틱스 분야에서의 ‘엣지 컴퓨팅’과 ‘IoT 기기’ 활용은 무한한 가능성을 가지고 있다. 엣지 구축을 위한 애널리틱스 모델 설계가 만만치 않지만 말이다.  애널리틱스 및 머신러닝과 관련한 많은 사용 사례가 데이터 웨어하우스 또는 데이터 레이크에 저장된 데이터와 연결되고, 전체 데이터세트나 데이터 하위 집합에서 알고리즘을 실행하며, 클라우드 아키텍처에서 결과를 계산한다. 이는 데이터가 빈번하게 변경되지 않는다면 효과적인 방식이다. 하지만 데이터가 자주 바뀐다면?    오늘날 많은 기업에서 실시간으로 데이터를 처리하고 분석해야 할 필요성이 높아지고 있다. 이러한 변화를 주도한 건 사물인터넷(IoT)이다. 센서에서 스트리밍되는 데이터로 다운스트림 시스템을 제어하기 위해서는 즉각적인 처리와 애널리틱스가 필요하기 때문이다.  또한 실시간 애널리틱스는 의료, 금융 서비스, 제조, 광고 등을 포함한 많은 산업에서도 중요하다. 데이터의 작은 변화가 금융, 의료, 안전 및 기타 비즈니스에 상당한 영향을 미칠 수 있어서다.   실시간 애널리틱스에 관심이 있다면? 또한 엣지 컴퓨팅, AR/VR, 대규모 IoT 센서 및 머신러닝을 조합해 활용하는 신기술에 관심이 있다면? ‘엣지 애널리틱스’ 설계를 이해하는 게 중요하다. 자율주행 드론, 스마트 시티, 소매 체인 관리, 증강현실 게임 네트워크 등의 엣지 컴퓨팅 사용 사례가 모두 대규모이면서 안정적인 엣지 애널리틱스 구축을 목표로 하기 때문이다.  엣지 애널리틱스, 스트리밍 애널리틱스 그리고 엣지 컴퓨팅  서로 다른 여러 애널리틱스, 머신러닝, 엣지 컴퓨팅 패러다임은 ‘엣지 애널리틱스’와 관련돼 있다.  • 엣지 애널리틱스(Edge analytics)는 클라우드 외부 인프라, 그리고 지리적으로 로컬화된 인프라의 ‘엣지에(on the edge)’ 구축된 애널리틱스 및 머신러닝 알고리즘을 가리킨다.  • 스트리밍 애널리틱스(S...

스마트 컴퓨팅 엣지 엣지 컴퓨팅 엣지 애널리틱스 IoT 사물인터넷 센서 데이터 웨어하우스 데이터 레이크 증강현실 가상현실 머신러닝 자율주행 드론 스마트 시티 스트리밍 애널리틱스 이벤트 프로세싱 포그 컴퓨팅

2020.10.28

실시간 애널리틱스 분야에서의 ‘엣지 컴퓨팅’과 ‘IoT 기기’ 활용은 무한한 가능성을 가지고 있다. 엣지 구축을 위한 애널리틱스 모델 설계가 만만치 않지만 말이다.  애널리틱스 및 머신러닝과 관련한 많은 사용 사례가 데이터 웨어하우스 또는 데이터 레이크에 저장된 데이터와 연결되고, 전체 데이터세트나 데이터 하위 집합에서 알고리즘을 실행하며, 클라우드 아키텍처에서 결과를 계산한다. 이는 데이터가 빈번하게 변경되지 않는다면 효과적인 방식이다. 하지만 데이터가 자주 바뀐다면?    오늘날 많은 기업에서 실시간으로 데이터를 처리하고 분석해야 할 필요성이 높아지고 있다. 이러한 변화를 주도한 건 사물인터넷(IoT)이다. 센서에서 스트리밍되는 데이터로 다운스트림 시스템을 제어하기 위해서는 즉각적인 처리와 애널리틱스가 필요하기 때문이다.  또한 실시간 애널리틱스는 의료, 금융 서비스, 제조, 광고 등을 포함한 많은 산업에서도 중요하다. 데이터의 작은 변화가 금융, 의료, 안전 및 기타 비즈니스에 상당한 영향을 미칠 수 있어서다.   실시간 애널리틱스에 관심이 있다면? 또한 엣지 컴퓨팅, AR/VR, 대규모 IoT 센서 및 머신러닝을 조합해 활용하는 신기술에 관심이 있다면? ‘엣지 애널리틱스’ 설계를 이해하는 게 중요하다. 자율주행 드론, 스마트 시티, 소매 체인 관리, 증강현실 게임 네트워크 등의 엣지 컴퓨팅 사용 사례가 모두 대규모이면서 안정적인 엣지 애널리틱스 구축을 목표로 하기 때문이다.  엣지 애널리틱스, 스트리밍 애널리틱스 그리고 엣지 컴퓨팅  서로 다른 여러 애널리틱스, 머신러닝, 엣지 컴퓨팅 패러다임은 ‘엣지 애널리틱스’와 관련돼 있다.  • 엣지 애널리틱스(Edge analytics)는 클라우드 외부 인프라, 그리고 지리적으로 로컬화된 인프라의 ‘엣지에(on the edge)’ 구축된 애널리틱스 및 머신러닝 알고리즘을 가리킨다.  • 스트리밍 애널리틱스(S...

2020.10.28

IDG 설문조사

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.8