Offcanvas

AI / CIO / 데이터센터 / 디지털 트랜스포메이션 / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스 / 클라우드

디스커버FS의 ‘데이터 파이프라인’ 혁신기

2021.07.06 Thor Olavsrud  |  CIO
실시간으로 데이터 인사이트를 얻기 위해서는 각종 프로세서를 매끄럽게 만들어야 했다. 디스커버FS는 클라우드 네이티브 데이터 패브릭을 구축해 데이터 파이프라인 과정의 자동화를 도모했다. 

AI 성공의 핵심 요소 중 하나를 강조한다면 단연 데이터다. 하지만 데이터를 활용하고 분석을 잘 활용하는 조직이라 하더라도 자동화된 데이터 파이프라인을 구축하는 데 고생할 수 있다.

디스커버FS(Discover Financial Services)는 2019년 개발자와 데이터 엔지니어들이 시간이 많이 소요되고 회사의 민첩성을 저해하는 복잡한 수동 프로세스를 처리하는 과정에서 이 문제에 봉착했다. 머신러닝과 실시간 데이터 인사이트를 제대로 활용하기 위해 디스커버FS는 데이터 획득, 품질 고도화, 사용 방법을 혁신해야 했다. 

해결 방안은? 메타데이터 기반 자동화, 실시간 소화/로딩, 클라우드 거버넌스를 위해 다양한 서비스를 엮는 자체개발 플랫폼인 클라우드 데이터 패브릭(Cloud Data Fabric)이다.

 
디스커버FS의 부사장 겸 CIO 아미르 아루니
디스커버FS의 부사장 겸 CIO 아미르 아루니는 “기술 리더들을 모아 문제를 고민하고 초기의 필수 요소를 정리한 후 목표를 달성할 수 있는 방법에 대한 구조적 아이디어를 수립했다. 다양한 엔지니어링 제품 개발자 또는 리더들을 만나 피드백을 얻고 방향을 수정했다”라고 말했다.

예전에는 디스커버의 데이터 파이프라인 구축 프로세스에 개발자와 엔지니어들 사이의 긴 대화가 필요했다. 분석용 데이터 전송에 대해 논의해야 했던 것이다. 논의가 끝나면 개발자들은 운영 데이터베이스에서 데이터를 추출하기 위해 수동으로 스크립트를 작성하고 미가공 데이터를 분석 환경 도착 구역으로 전송하기 위해 스크립트를 예약했다. 

데이터 엔지니어들은 스키마 검증 등 다양한 작업을 수행하기 위해 미가공 데이터 파일을 수용하는 특화된 데이터 애플리케이션을 구축했다. 데이터 엔지니어들은 또한 올바른 필드를 토큰화 하기 위해 로직을 프로그래밍할 수 있도록 데이터 민감도 정보를 수집해야 했다.

궁극적으로, 데이터 엔지니어들은 몇 시간 동안 수동으로 로직을 작성하고 분석 데이터를 전송할 곳과 이를 저장할 올바른 형식을 파악해야 했다.

아루니와 그의 팀은 디스커버의 보안팀 및 파일전송팀, 클라우드 인프라 그룹, DBA 및 데이터 거버넌스팀, 데이터 엔지니어 및 사이언티스트와 모여 이 상황을 해결하기 위한 아이디어를 모았다. 그 결과 디스커버FS가 최근 CIO 100 IT 우수상을 수상한 ‘클라우드 데이터 패브릭’이 탄생했다.

이 서비스는 디스커버의 운영 애플리케이션 데이터베이스에서 데이터를 스트리밍하고 메타데이터를 수집하며 민감한 데이터 필드를 토큰화하며 데이터세트의 혈통을 추적한다.

아루니는 “패브릭의 제품들은 메타데이터 기반 자동화와 원활한 사용자 경험을 통해 데이터 엔지니어링 효율성을 개선한다. 예를 들어, 우리의 패브릭은 데이터를 훨씬 빠른 속도로 소화하는 제품들로 구성되어 있으며, 몇 개의 버튼만 누르면 데이터를 여러 개의 목적지로 실시간 전송할 수 있다”라고 말했다.

성공을 위한 기반
그러나 이 프로젝트에도 문제는 있었으며, 가장 큰 문제는 모든 수준의 사람들이 같은 목표와 비전을 갖는 것이었다고 아루니가 말했다.

그는 “엔지니어부터 현장 관리진과 임원까지 모두가 항상 여러 번의 대화를 거쳐 합의에 도달해야 했다. 우리 조직은 크며 다양한 생각, 의견, 이해 수준이 존재한다. 주도하기 위해서는 경청, 목표 설정, 문제 해결 중 이 모든 측면을 고려해야 한다”라고 말했다.

이를 위해 디스커버FS는 ‘런웨이(The Runway)’라는 새로운 이니셔티브를 도입했다. 이것은 엔지니어링 인력, 극단적인 자동화, 애자일 활동, 신뢰성과 기술 조직, 규율과 직원 경험 등 5개의 업무 스트림으로 구성된다. 런웨이는 간소화를 강조하면서 하나의 애자일 접근방식을 개발하고 수동 기능을 자동화하는 데 집중하는 소규모의 자치 엔지니어링팀들을 하나로 묶는다. 

프로젝트를 위해 기술을 구현하는 팀들을 형성하는 과정에는 적지 않은 시간이 소요됐다고 아루니가 말했다. 다양한 기술 책임자와의 의사소통 및 신뢰 형성이 필요했으며, 팀들은 파일 전송 개발자, DBA, 데이터 관리 인력, 보안 전문가, 다양한 풀스택 개발자 그룹과 교차 기능적으로 협력해야 했다. 설계자, 제품 관리자, 스크럼 마스터, 관리팀들이 이 노력을 조율했다. 많은 엔지니어들이 처음으로 클라우드 소프트웨어에서 개발하는 방법을 배워야 했다.

아루니는 “더 자율적인 팀을 구성하기 위해 우리는 제품 인력에게 다양한 스킬세트를 제공했다. 즉, 모두가 이전에는 조직적 장벽 때문에 접근할 기회가 없었던 기술에 참여할 수 있었다”라고 말했다.

아루니는 디스커버에 대한 클라우드 데이터 패브릭의 영향이 중요했다고 말했다. 이 프로젝트는 데이터 파이프라인의 엔지니어링 개발 및 지원 시간을 단축시켰으며, 데이터 사이언티스트, AI/ML 엔지니어, 모델 개발자들은 더욱 유의미한 데이터를 더욱 신속하게 얻을 수 있다. 이 프로젝트 덕분에 수백만 달러가 절감되고 소급 데이터의 비용을 방지할 수 있었다.

아루니는 “이 혁신 이니셔티브를 통해 절감된 시간, 역량, 자금은 디스커버FS에게 엄청난 성과였다”FK고 말했다.

또한 그는 디스커버FS의 엔지니어들이 클라우드 데이터 패브릭의 개발 및 배치 전반에 걸쳐 추가적인 개선을 위한 ‘다양한 아이디어’를 개발했다고 전했다. 아루니는 “가능한 많이 자동화하라. 사용자 경험이 가장 중요하다. 엔지니어들에게 권한을 부여하라”라고 말했다.
 
---------------------------------------------------------------
데이터 과학 인기기사
-> 사내 '데이터 과학' 교육은 이렇게··· 전문가 4인의 조언
-> 10년 후, 데이터 과학자 사라진다?··· ‘오토ML’로 싹 달라진다!
-> 데이터 과학자의 놀이터이자 배움터··· ‘캐글’ 탐험 안내서<티오베>
-> '데이터 과학자' 영입보다 양성··· 한 제조서비스 회사의 업스킬링 사례​​​​​​​
-> '데이터 과학자 없는 머신러닝' AutoML의 이해
-> '핫'한 직업 데이터 과학자, 필요 역량은?​​​​​​​
-> '32만 구독자 만족시켜라'··· 블룸버그의 머신러닝·데이터 과학 활용법​​​​​​​
---------------------------------------------------------------

ciokr@idg.co.kr
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.