데이터 애널리틱스나 AI 애플리케이션을 제대로 활용하기 위해서는 지루하지만 꼭 필요한 작업들을 수행해야 한다. 데이터 통합, 모델링, 유지관리 등이 대표적이다. 이러한 작업을 적절히 수행하지 않는다면 데이터 접근과 활용 자체가 어렵다. 때로는 부정확한 결과에 직면하게 된다.
글로벌 기술 기업인 레노버에게 데이터 애널리틱스 활용처는 다양하다. 일례로 입문용 게임용 노트북이라는 새로운 틈새 시장을 파악하는 데 도움이 됐다. 고객용 원격 진단 기능을 통해 서버 및 기타 기기의 활용성에도 일조했다.
미국의 케이블 및 통신 기업 컴캐스트 또한 데이터 애널리틱스를 적극적으로 활용하고 있다. 비용을 절감하고 10페타바이트 상당의 보안 데이터를 활용해 공격을 더 잘 이해하고, 더 효과적으로 대응할 수 있게 한다.
퍼스트 커머스 뱅크의 EVP이자 COO인 그레고리 가르시아는 통합된 실시간 데이터를 활용하여 비즈니스 위험성을 파악하고 있다. 가령 상업용 부동산 소유자가 주택 담보 대출금을 지불하기 어렵게 만들 수 있는 공실률 악화와 지표를 효과적으로 모니터링한다.
그러나 이러한 목표에 도달하기 위해서는 적절한 기반과 준비가 필요하다. 이 어렵고 지속적인 작업에는 사일로화 된 데이터를 통합하고 모델링하고 이해하는 것은 물론 시간이 지남에 따라 유지하고 보호하는 것이 포함된다.
데이터 사일로 통합
레노버의 고객 인증 사용 로그에 따르면 고급 게임 노트북보다는 게임용 소비자 등급의 아이디어패드 노트북을 사용하는 고객의 비율이 높았다. 이에 따라 레노버는 게임에 처음 입문하는 게이머를 위한 새로운 보급형 게이밍 노트북 및 데스크톱 제품군인 레노버 LOQ를 출시했다고 인텔리전트 디바이스 그룹의 클라우드 및 소프트웨어 비즈니스 엔지니어링 글로벌 책임자인 기리쉬 후거는 말했다.
회사는 또 기기 데이터를 사용하여 AI 기반 예측 애널리틱스를 통해 고객이 잠재적인 IT 문제를 이해하고 사전에 예방 및 해결할 수 있도록 지원하는 레노보 디바이스 인텔리전스를 개발했다. 레노버 디바이스 인텔리전스는 IT 지원 비용을 최적화하고 직원의 다운타임을 줄이며 사용자 경험을 개선하는 데 도움이 됐다고 이 업체는 설명했다.
퍼스트 서비스 크레디트 유니온의 최고 데이터 책임자인 타이 로빈스는 신용 조합 업계에서 운영 중인 비관계형이며 종종 독점적인 표 형식의 구식 데이터베이스로부터 데이터를 통합하는 데 어려움을 겪었다. 그는 “데이터와 상호 작용하는 프로그래밍 언어의 전문가가 되어야 했고, 각 데이터 소스 내의 각 데이터 요소의 관계를 이해하는 것은 물론 다른 데이터 소스의 요소와의 관계도 이해해야 했다”라고 말했다.
그는 메타데이터 기반의 클린치 데이터 컬래버레이션 플랫폼을 사용하여 일반적인 모델링 및 통합 작업을 18개월에서 6주로 단축할 수 있었다고 전했다. 결과적으로 신용 조합 데이터에 대한 문턱을 낮춤으로써 고객 서비스를 개선할 수 있었다. 또 다양한 유형의 데이터에 대한 검색과 유지 관리를 쉽게 함으로써 컴플라이언스 관리 및 감사 제어 체인을 구현할 수도 있게 됐다.
오션 테크놀로지 그룹(OTG)의 CTO인 이안 헵워스는 회사 플랫폼에서 관리하는 2만 척의 선박의 유지 보수 및 선원 데이터를 통합할 뿐만 아니라 OTG가 인수한 6개 회사의 데이터를 통합해야 하는 상황이었다. 이 업체는 현재 데이터를 정확하고 액세스할 수 있게 유지할 뿐만 아니라 수십 년 동안의 과거 데이터를 활용하여 선박 운영에 대한 잠재적인 위험과 개선 기회를 식별하고자 했다.
인수한 각 회사에는 서로 다른 기본 키를 가진 여러 데이터 세트가 있었다고 헵워스는 전했다. 그는 "이러한 데이터를 데이터 웨어하우스에 효율적으로 저장하고 고객 뷰를 구축할 수 있는 도구가 필요했다"라고 덧붙였다.
그는 스냅로직의 통합 플랫폼을 사용하여 개발자들이 각 데이터 소스에 대한 API(애플리케이션 프로그래밍 인터페이스)를 수동으로 구축하는 것을 자유롭게 하고, 데이터를 정리하여 신속하고 효율적으로 웨어하우스에 저장하도록 했다. 그는 스냅로직이 직원의 작업량을 줄일 뿐만 아니라 OTG의 고객이 데이터를 다운로드할 수 있도록 API를 제공했다고 말했다.
데이터 모델링, 이해 및 변환
컴캐스트는 잠재적인 보안 및 신뢰성 문제에 대한 방대한 데이터를 수집해야만 했지만 수집 데이터를 제대로 활용할 수 있는 쉬운 방법은 없었다고 기업 EVP 겸 CISO이자 최고 제품 개인 정보 보호 책임자인 누푸르 데이비스는 말했다.
고가의 온프레미스 데이터 레이크를 클라우드로 이전한 후, 컴캐스트는 3계층 아키텍처를 구축했다. 첫 번째 계층에는 포렌식 분석과 같이 빈도가 낮은 사용 사례를 위해 저비용 및 저속 스토리지에 1년 분량의 원시 데이터를 보관한다. 두 번째 계층에는 현재 필요한 데이터를 "메타데이터와 함께 완전히 정규화된 시계열로 저장"하여 애널리스트가 보다 즉각적인 검색에 사용할 수 있도록 한다. 세 번째 계층에는 비싸지만 성능이 가장 뛰어난 스토리지에 사용 빈도가 높고 페르소나에 필요한 데이터 링크로 구성된 데이터 마트와 데이터 웨어하우스가 담긴다.
컴캐스트는 소매점의 보안 와이파이와 같이 비즈니스 연속성에 중요한 보안 인프라를 위해 예측 애널리틱스에 중점을 두고 있다. 다른 기업과 마찬가지로, 컴캐스트도 데이터 패브릭을 향한 방향으로 나아가고 있다. 데이터를 필요로 하는 사용자들에게 복사본을 만들어 주는 대신, 사용자가 단일 '진실 공급원(SSOT)'에서 데이터에 액세스할 수 있도록 하는 것이다.
이와 관련해 데이비스는 데이터 전송 또는 저장 비용을 절감하는 것보다 데이터 관리자가 데이터를 더 쉽게 관리할 수 있도록 하는 것이 목표라고 말했다. 그러면서도 데이터 관리 툴을 폐기하고 데이터 레이크가 그 기능을 수행함으로써 1,000만 달러 이상의 비용을 절감할 수 있었다고 그는 덧붙였다.
고객 충성도, 온라인 주문 및 고객을 위한 기타 시스템을 관리하는 페이트로닉스의 데이터 과학 책임자인 제시 마샬은 데이터 전환 작업에 대한 사용자 지정 코딩을 줄이고자 했다. 애널리틱스 및 보고서에 사용할 수 있는 형태로 변환, 정리 및 구조화하는 작업에 지나치게 많은 인력이 투입됐기 때문이다.
직원들이 새로운 프로젝트에 집중할 수 있도록 데이터 전환 작업에서 벗어나도록 하기 위해, 그는 콜레스 데이터 전환 툴을 채택했다. 이 툴은 페이트로닉스에게 변환을 생성할 수 있는 드래그 앤 드롭 인터페이스를 제공하고 데이터 전환 문제를 쉽게 해결할 수 있을 뿐만 아니라 회사의 인프라가 변화함에 따라 이러한 전환을 유지 관리할 수 있게 해준다고 그는 말했다.
새로운 전환을 쉽게 만들 수 있는 기능 덕분에 이 업체는 더 많은 분석적 접근 방식을 시도할 수 있다. 그는 "예전에는 유용한 애널리틱스 아이디어가 10가지 있어도 그 중 4가지에만 작업할 시간이 있었다"라며 "아이디어 중 60%가 실패하더라도 우리는 팀이 모든 아이디어를 시도해 보고자 한다"라고 말했다.
장기간에 걸친 데이터 유지 및 보안
전사적으로 더 많은 데이터와 더 나은 데이터가 필요한 상황이기는 하지만, 데이터 작업에 자금을 지원하도록 사업부나 이사회를 설득하는 것은 어려울 수 있다.
상업용 부동산 서비스 회사인 JLL의 최고 기술 책임자인 야오 모린은 데이터 유지 보수를 배관작업에 비유한다. 즉, 데이터가 오작동하여 지저분하고 긴급한 문제를 일으킬 때까지 아무도 신경쓰지 않는다는 것이다. 필요한 자금을 확보하기 위해 데이터 실무자들은 비즈니스 리더들에게 데이터의 가치를 계속 보여주어야 하며, 데이터를 유지 보수하지 않으면 가치가 급락한다는 점을 입증해야 한다고 그는 말했다.
JLL에게 있어 그러한 가치에는 코로나19 봉쇄 이후 노동자들이 사무실로 복귀함에 따라 새로운 유형의 정보에 대한 고객(및 건물을 점유하는 임대인)의 요구를 충족시키는 것도 해당된다. 여기에는 직원들이 책상에 고립된 채로 앉아 있는지 아니면 붐비는 회의실에서 회의를 하는지, 회의실 공기의 질은 어떤지, 직원들이 다시 사무실로 돌아올 수 있도록 유인할 수 있는 사무실 근처에 식당과 같은 편의시설이 영업을 하는지 등이 포함된다.
지속적인 데이터 관리를 위해서는 고위 경영진의 지원이 중요하다. 그러나 레노버의 후거는 이러한 작업을 수행하는 것을 모두의 공동 책임이라고 강조했다. 그는 각 부서에서 데이터 애호가를 찾고 다른 데이터 챔피언 또는 데이터 협의회와의 교육 과정 및 정기적인 회의를 통해 기술을 구축하는 것이 실무 차원의 지지를 구축하는 한 가지 방법이라고 말했다. 또한 지속적인 교육, 훈련, 숙련도 향상도 데이터 관리를 개선하는 데 매우 중요하다고 그는 덧붙였다.
퍼스트 커머스 뱅크의 가르시아는 "많은 이사회와 은행 CEO가 데이터 분석가를 수익 창출원으로 보지 않기 때문에 상업 대출 기관보다 데이터 분석가를 고용하는 것을 꺼려한다는 것이 CIO가 직면하는 문제이다. 하지만 실시간 데이터로 준비가 잘 된 데이터 분석가 수십 명을 구비한 금융 기관 하나가 그들을 이끌어 줄 적절한 애널리틱스 없이 포트폴리오를 늘리려고 아무 생각없이 애만 쓰는 수많은 대출 기관보다는 분명히 더 효율적일 것이다”라고 말했다.
조기 착수가 필요
데이터 모델링에서 보안에 이르는 작업을 표준화해야 할 시기는 데이터를 수집할 때부터다. "우리는 데이터 수집 프로세스의 많은 부분을 템플릿화한다"라고 모린은 말하며, 비즈니스 리더가 데이터 레이크에서 어떤 정보를 얻을 수 있는지 알 수 있도록 메타데이터와 데이터 사전을 추가해야 한다고 설명했다. "이러한 템플릿이 없으면 사후에 그러한 정보를 추가하기가 어렵다"라고 그는 전했다.
퍼스트 서비스 크레디트 유니온의 로빈스는 쉽게 분석할 수 있는 데이터를 생성하기 위해 총체적인 선행 데이터 모델링이 필요하다고 촉구했다. 예를 들어, 신용 조합이 매달 얼마나 많은 예금을 받았는지 묻는 쿼리는 해당 보고서의 데이터를 가져오는 데 필요한 요소에만 집중하기 십상이다. 관련 보고서를 생성하고 예금을 받은 신규 계좌 수를 조회하려면 처음부터 다시 시작해야 하므로 귀중한 시간을 낭비하게 된다.
그는 "메타데이터 플랫폼을 사용하면 해당 요소에 맞게 조정된 모든 데이터를 하나의 보기에 모아서 해당 데이터에 대한 여러 보고서 중 하나를 간단히 수행할 수 있다"라고 설명했다.
이러한 일상적인 이점과 함께, 컴캐스트와 같은 기업들은 올바른 데이터 아키텍처와 인프라를 통해 예상보다 훨씬 빠르게 흥미진진한 새로운 생성형 AI 애플리케이션을 개발할 수 있었다. 하지만 이러한 이점을 누리기 위해서는 "인프라를 올바르게 구축하고 데이터를 정리해야 한다. 많은 노력이 필요하지만, 이러한 작업이 완료되면 놀라운 일이 가능하다"라고 데이비스는 말했다. ciokr@idg.co.kr