Offcanvas

데브옵스 / 디지털 트랜스포메이션 / 빅데이터 | 애널리틱스 / 훈련|교육

‘데이터옵스팀’에게 유용한 AI 활용 사례 5가지

2023.09.13 Isaac Sacolick  |  InfoWorld
데이터 품질이 그 어느 때보다 중요해졌지만, 기업 내부에서 관련 작업을 수행하려고 하면 많은 어려움을 마주치게 된다. 다음은 데이터옵스팀에게 유용한 AI와 ML로 데이터 운영을 자동화하는 5가지 방법이다.
 
ⓒ Getty Images Bank

데이터 랭글링, 데이터옵스, 데이터 준비, 데이터 통합 등 뭐라고 부르든, 데이터를 통합하고 정리하는 작업을 관리하는 것은 노동 집약적이다. 많은 기업이 새로운 데이터를 효율적으로 통합하고, 데이터 품질을 개선하고, 마스터 데이터 레코드를 중앙 집중화하고, 정리된 고객 데이터 프로필을 생성하는 데 어려움을 겪고 있다.

데이터옵스는 새로 나온 개념이 아니지만, 데이터 기반 조직이 늘어나고  분석 수준이 기업의 경쟁력이 되는 경우가 늘어나면서 그 중요성이 더욱 커지고 있다. 또한 기술 분야 선구자들은 AI 검색 기능을 구축하고 대규모 언어 모델에 사용할 데이터를 준비하기 위해 데이터옵스를 비정형 데이터 소스로 확장하고 있다.

데이터 전환을 위한 AI 및 ML 활용
데이터옵스는 더 효율적이고, 더 나은 품질의 결과를 제공하고, 대규모 데이터 볼륨과 속도를 처리할 수 있도록 확장하고, 더 다양한 데이터 원본으로 작업하고, 데이터 파이프라인의 안정성을 개선해야 한다. 

뉴젠 소프트웨어(Newgen Software)의 AI 책임자 라잔 나기나는 “데이터로 제대로 된 성과를 만들려면 전환과 개선을 거쳐야 하며, 데이터옵스는 효율적인 프로세스와 자동화를 통해 데이터 관리를 혁신하고 데이터의 가치를 극대화하는 중요한 분야이다. 데이터옵스는 데이터 품질, 접근성, 신뢰성 개선에 중점을 두고 데이터를 효율적으로 처리할 수 있도록 인력, 기술, 워크플로우를 통합하는 것과 관련 있다”라고 말했다.

데이터 파이프라인을 자동화하는 도구가 개선되고 있으며, 많은 도구가 머신러닝과 인공지능 기능을 활용한다. AI 및 ML 데이터옵스 기술은 데이터 운영을 수동 및 규칙 기반 접근 방식에서 지능형 자동화로 전환해 준다.

인포시스(Infosys)의 수석 부사장 겸 데이터, 애널리틱스 및 AI 부문 글로벌 책임자인 수닐 세난은 기업이 데이터옵스에서 ML과 AI를 활용할 때 여러 경쟁력을 확보할 수 있다고 강조했다. 세난은 “기업은 빠른 데이터 검색, 카탈로그화, 신속한 데이터 프로파일링을 위해 AI를 배포할 수 있으며, ML은 이상 징후를 감지하고 불일치를 식별하며 데이터를 보강할 수 있다. AI, ML, 자동화를 함께 사용하면 데이터 품질을 개선하고, 마스터 데이터를 조율하며, 데이터 제품 및 효과적인 데이터 팀을 구축하기 위한 구조를 만들 수 있다”라고 설명했다. 

데이터옵스팀은 어디에서 자동화를 확장하고 ML과 AI를 ‘게임체인저’ 같은 기능으로 사용할 수 있을까? 다음은 다섯 가지 예이다.

1. 새 데이터 세트에 대한 데이터 준비 시간 단축 
크럭스(Crux)의 CEP인 윌 프라이버그는 “고급 AI/ML 기능은 데이터 통합, 전환 및 통합 가시성에 대한 패러다임의 전환을 이끈다. 자동화된 솔루션을 사용하면 데이터옵스팀은 데이터 준비에 드는 시간의 70%를 줄이면서 고부가가치를 만드는데 더 집중할 수 있다”라고 말했다.

수동 작업과 관련하여 데이터옵스팀은 다음 2가지 질문을 집중적으로 고려해야 한다.
• 새 데이터 세트의 최초 발견부터 조직의 데이터 레이크에서 로드, 정제 및 합류되어 데이터 카탈로그에 나열될 때까지 측정된 주기 시간은 얼마인가?
• 데이터 파이프라인이 구축되면 모니터링 및 자동화를 사용하여 데이터 형식의 변경을 감지하고 조정하고 있는가?

데이터 파이프라인을 로드하고 지원하기 위해 수동 데이터 프로세싱 단계가 필요한 경우, 데이터옵스팀은 새로운 데이터 소스의 주기 시간을 개선하는 동시에 데이터 파이프라인 문제로부터 복구할 기회를 가질 수 있다.

프라이버그는 “데이터 팀이 데이터 품질에 대한 표준을 정의하고 그런 표준을 AI로 접목해 프로그래밍해보자. 해당 기술은 외부 데이터 세트를 온보딩할 때 스키마 변경 및 데이터 프로필 이상을 감지하고 관리하여 데이터 파이프라인이 깨지거나 수동 개입이 필요하지 않도록 할 수 있다”라고 덧붙였다.

2. 데이터 통합 가시성 및 지속적인 모니터링 확장
데이터옵스 엔지니어가 모니터링, 알림 및 자동화를 사용하여 문제를 식별하고 신속하게 수정 사항을 구현하지 않을 때면 데이터 파이프라인에 손상이 발생한다. 사전 예방적 해결 방법으로 데이터옵스 통합 가시성 도구를 마련할 수 있다. 해당 도구로 데이터 통합 이벤트 로깅 및 데이터 파이프라인 모니터링할 수 있다.

프리사이슬리(Precisely)의 제품 관리 수석 부사장인 에밀리 워싱턴은 “오늘날 조직이 처리해야 하는 데이터의 양을 고려할 때 수동으로 문제를 찾아 해결하려면 시간이 많이 걸린다. 데이터 품질을 보장하는 효과적인 접근 방식은 데이터가 조직의 에코시스템에 유입될 때 데이터를 검증하고 전반적인 데이터 무결성 전략의 일부로 데이터 통합 가시성을 채택하여 지속적인 모니터링을 보장하는 것이다”라고 설명했다.

데이터 통합 가시성은 실시간 의사 결정, 대시보드 업데이트, 머신러닝 모델에 사용할 수 있도록 일관되고 신뢰할 수 있는 데이터 파이프라인을 제공하는 것을 목표로 한다. 이는 사이트 안정성 엔지니어링에서 제시하는 원칙 중 하나로 데이터옵스팀은 서비스 수준을 이런 목표를 중심으로 관리하면 좋다. 같은 원칙은 데이터 파이프라인에도 동일하게 적용된다.

워싱턴은 “데이터 통합 가시성은 조직이 대규모의 데이터 품질을 사전에 식별하고 관리할 수 있도록 도와주며, 그 결과 데이터 파이프라인이 더 건강해지고, 팀의 생산성이 향상되며, 고객의 만족도가 높아진다”라고 설명했다.

앞으로 생성형 AI의 데이터옵스 기능이 주류가 되면 다음과 같은 방식으로 대규모 데이터 통합 가시성을 구현할 수 있다.
• 데이터 문제 패턴을 식별하고 해결책을 추천하거나 데이터 클리닝 작업을 자동화
• 데이터 파이프라인에 대한 코드 수정 및 제안 추천
• 데이터 파이프라인 문서화 및 데이터 관찰을 위해 캡처한 정보 개선

3. 데이터 분석 및 분류 개선 
데이터옵스팀은 또한 AI와 ML을 사용하여 데이터 파이프라인을 통해 스트리밍 되는 데이터를 분석하고 분류할 수 있다.

테라데이터(Teradata)의 최고 제품 책임자인 힐러리 애쉬톤은 “AI 기반 데이터 캡처는 이상 징후 감지, 관련성 평가, 데이터 매칭을 수행하여 조기에 시스템으로 유입되는 데이터의 품질을 높인다. ML 모델을 활용하여 데이터에서 숨겨진 패턴을 찾고, 표준에 맞게 정리 및 조율하고, 민감한 데이터를 분류하여 적절한 거버넌스를 보장할 수 있다”라고 설명했다.

데이터를 분류하는 과정에서는 개인 식별 정보(PII) 및 기타 민감한 데이터를 식별해 두어야 한다. 이런 민감 데이터 포함 여부를 알지 못하는 데이터세트에서도 관련 데이터를 미리 파악해  놓아야 한다. 일단 데이터가 식별되면 데이터 거버넌스팀은 자동화 규칙을 정의하여 소스를 재분류하고 다른 비즈니스 규칙을 트리거 할 수 있다. 

애쉬톤은 생성형 AI가 더욱 강력한 데이터 품질 및 거버넌스 도구를 주도할 것이라고 믿고 있다. 애쉬톤은 “데이터옵스팀은 비즈니스 도메인 지식과 협업 플랫폼의 데이터를 활용하여 데이터에 더 풍부한 맥락과 패턴을 제공하는 방법을 모색할 것이다”라고 밝혔다.

데이터 컴플라이언스의 또 다른 사용 사례는 보안 분야이다. 프리브옵스(PrivOps)의 공동 창립자이자 CTO인 타일러 존슨은 데이터옵스가 자동화와 AI를 통해 가치를 제공할 수 있는 영역 중 흔히 간과되는 영역이 ‘ID 및 액세스 관리’라고 설명했다.  

존슨은 “자동화는 오래된 권한을 사용하여 조직에 침투하는 악의적인 공격자의 위험을 최소화할 수 있지만, 권한이 있는 사용자의 위협을 해결하는 데는 아무런 도움이 되지 않는다. 데이터 파이프라인 워크플로우를 확장하여 사용자 접속 로깅 데이터를 집계하고 AI와 통합함으로써 인포섹과 파트너십을 맺은 데이터옵스는 조직 내외부로부터의 위협을 최소화할 수 있다. AI는 의심스러운 액세스 패턴을 식별하고 탐지되면 보안 운영 센터(SOC)에 경고를 보낸다”라고 말했다.

4. 정제된 데이터에 더 빠른 액세스 제공
데이터 스트림에서 민감한 정보 및 기타 이상 징후를 식별하는 것은 기본적인 데이터 거버넌스 사용 사례이지만, 비즈니스팀이 진정으로 원하는 것은 정제된 데이터에 더 빠르게 액세스하는 것이다. 

마케팅, 영업, 고객 서비스 분야에서는 주로 데이터 기록에 대한 실시간 업데이트가 필요하다. 이때 2가지 접근 방식을 택할 수 있는데, 먼저 고객 데이터 프로필(CDP) 데이터베이스로 데이터를 실시간으로 보내면서 고객 정보를 중앙 집중화할 수 있다.  

트레저 데이터(Treasure Data)의 최고 제품 및 기술 책임자 칼 워스는 “데이터 프로세싱 파이프라인 전반에 걸쳐 데이터 품질 문제를 감지하고 해결하는 데 적합한 도구를 적용하는 것은 매우 중요하다. 보통 데이터 수집 중에 실행할 자동화된 탐색 데이터 분석, 데이터 정리, 결정론적 및 확률론적 사용자 ID 일치 도구를 예약하는 것에서부터 시작된다. 실시간으로 사용자 ID를 하나로 묶어 놓으면 자동화된 세그먼테이션(클러스터링 및 기타 머신러닝 모델 활용)과 결합하여 데이터가 축적됨에 따라 인사이트와 개인화를 지속적으로 추구할 수 있다. 마지막으로, 자동화된 예측 및 이상 징후 감지 알고리즘과 데이터 드리프트 감지와 결합되어 시간이 지나도 높은 품질이 유지되도록 보장한다”라고 말했다.

고객 데이터와 관련된 두 번째 관리 방식에는 마스터 데이터 관리(Master Data Management, MDM)가 있다. MDM에선 데이터옵스가 여러 데이터 소스에서 기본 고객 기록과 필드를 식별하는 규칙을 정의한다.

렐티오(Reltio)의 CEO이자 설립자 겸 회장인 매니쉬 수드는 머신러닝이 여러 소스의 정보를 결합하는 데 도움이 된다고 말한다. 수드는 “최신 접근 방식은 자동화 및 ML 기반 기법을 활용하여 여러 소스의 데이터를 신속하게 통합함으로써 기존 MDM 시스템의 제한된 범위에서 벗어날 수 있다”라고 설명했다.

머신러닝은 MDM 시스템에서 비즈니스 규칙의 수와 복잡성을 줄이는 데도 도움이 된다. 세마키(Semarchy)의 아웃바운드 제품 관리자인 데이비드 콕스는 “데이터옵스에서는 메타데이터에 대한 규칙을 하드코딩 하는 등 마스터 데이터 관리, 특히 데이터 품질을 개선하기 위해 자동화를 오랫동안 사용해 왔다. 대규모이고 고속이면서 복잡한 데이터의 품질을 제어하려면 무한한 수의 규칙이 필요할 수 있으므로, 인공지능과 머신러닝은 데이터 품질을 대규모로 자동화하는 데 도움이 될 수 있다”라고 말했다.

테이머(Tamr)의 데이터 제품 총괄 관리자인 앤서니 데이튼은 머신러닝이 유지 관리하기 어려운 비즈니스 규칙을 대체할 수 있는 사례를 공유했다. 데이튼은 “AI와 ML은 데이터옵스에 실질적인 차이를 가져올 수 있는 강력한 도구이다. 예를 들어, 중복된 고객 기록을 하나의 포괄적인 기록으로 병합하여 데이터 정확도를 높이고 더 나은 인사이트를 얻을 수 있다”라고 밝혔다.

특히 문서 및 기타 비정형 데이터 소스에서 추출한 정보로 고객 기록을 보강하는 것과 관련하여 CDP 및 MDM 솔루션에서 더 많은 생성형 AI 기능을 기대할 수 있다.

5. 데이터 정제의 비용 절감 및 이점 증대
데이터옵스는 AI와 ML을 사용하여 기존 데이터 정리 및 파이프라인 수정 같은 목표를 넘어 데이터 보강과 같은 고부가가치 서비스를 제공할 수 있다.

콜레스(Coalesce)의 공동 창립자이자 CTO인 사티시 제이안씨는 “데이터의 양과 복잡성이 증가함에 따라 데이터 품질 규칙을 수동으로 설정하는 것은 더 이상 확장성이 보장되지 않으며, AI/ML은 확장성 문제를 해결할 수 있는 유망한 접근 방식을 제공한다. 이러한 기술은 자동화를 활용하여 잘못된 데이터를 효율적으로 식별하고 수정함으로써 부정적인 결과를 완화할 수 있다”라고 말했다.

악셀데이터(Acceldata)의 공동 창립자 겸 CTO인 애쉬인 라지바가 패턴을 통한 학습으로 지속적인 데이터 품질 개선을 가능하게 하는 ML의 사례를 공유했다. 라지바는 “학습한 내용을 적용하여 오류를 수정하고, 누락된 데이터를 채우고, 레이블을 추가하고, 스마트 분류를 수행하고, 데이터 중복을 제거할 수 있다”라고 설명했다.

결론
엑사솔(Exasol)의 데이터 과학 수석 제품 관리자인 에스와 나지레디는 데이터옵스의 효율성을 높이는 것이 중요하다고 강조한다. 나지레디는 “오늘날 대부분의 데이터 및 애널리틱스팀은 특히 운영 비용과 인력을 줄여야 한다는 압박이 커지면서 데이터 건강 및 모니터링에 대한 요구 사항을 따라잡을 시간과 리소스가 부족하다. 자동화된 머신러닝(오토ML), 노코드 및 로우코드를 활용하는 데이터 팀은 데이터의 고품질 상태를 보장하면서 비즈니스에 적용된 ML의 가치를 더 빠르게 실현할 수 있다”라고 설명했다.

데이터옵스팀은 AI 및 ML 기법을 사용하고 수작업이나 하드코딩 된 비즈니스 규칙에 덜 의존하면서 워크로드를 줄이고 데이터 품질을 개선하며 데이터 파이프라인의 안정성을 높일 수 있다. 이러한 변화가 적용되면, 팀은 AI와 ML을 사용하여 새로운 데이터 세트를 통합하는 시간을 단축하고 고객 기록을 보강하고 데이터 거버넌스를 개선함으로써 경쟁력 있는 비즈니스 가치를 창출할 수 있다.
ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.