데브옵스 / 디지털 트랜스포메이션 / 빅데이터 | 애널리틱스 / 훈련|교육

‘데이터옵스팀’에게 유용한 AI 활용 사례 5가지

2023.09.13 Isaac Sacolick | InfoWorld

데이터 품질이 그 어느 때보다 중요해졌지만, 기업 내부에서 관련 작업을 수행하려고 하면 많은 어려움을 마주치게 된다. 다음은 데이터옵스팀에게 유용한 AI와 ML로 데이터 운영을 자동화하는 5가지 방법이다.

데이터 랭글링, 데이터옵스, 데이터 준비, 데이터 통합 등 뭐라고 부르든, 데이터를 통합하고 정리하는 작업을 관리하는 것은 노동 집약적이다. 많은 기업이 새로운 데이터를 효율적으로 통합하고, 데이터 품질을 개선하고, 마스터 데이터 레코드를 중앙 집중화하고, 정리된 고객 데이터 프로필을 생성하는 데 어려움을 겪고 있다.

데이터옵스는 새로 나온 개념이 아니지만, 데이터 기반 조직이 늘어나고 분석 수준이 기업의 경쟁력이 되는 경우가 늘어나면서 그 중요성이 더욱 커지고 있다. 또한 기술 분야 선구자들은 AI 검색 기능을 구축하고 대규모 언어 모델에 사용할 데이터를 준비하기 위해 데이터옵스를 비정형 데이터 소스로 확장하고 있다.

데이터 전환을 위한 AI 및 ML 활용
데이터옵스는 더 효율적이고, 더 나은 품질의 결과를 제공하고, 대규모 데이터 볼륨과 속도를 처리할 수 있도록 확장하고, 더 다양한 데이터 원본으로 작업하고, 데이터 파이프라인의 안정성을 개선해야 한다.

뉴젠 소프트웨어(Newgen Software)의 AI 책임자 라잔 나기나는 “데이터로 제대로 된 성과를 만들려면 전환과 개선을 거쳐야 하며, 데이터옵스는 효율적인 프로세스와 자동화를 통해 데이터 관리를 혁신하고 데이터의 가치를 극대화하는 중요한 분야이다. 데이터옵스는 데이터 품질, 접근성, 신뢰성 개선에 중점을 두고 데이터를 효율적으로 처리할 수 있도록 인력, 기술, 워크플로우를 통합하는 것과 관련 있다”라고 말했다.

데이터 파이프라인을 자동화하는 도구가 개선되고 있으며, 많은 도구가 머신러닝과 인공지능 기능을 활용한다. AI 및 ML 데이터옵스 기술은 데이터 운영을 수동 및 규칙 기반 접근 방식에서 지능형 자동화로 전환해 준다.

인포시스(Infosys)의 수석 부사장 겸 데이터, 애널리틱스 및 AI 부문 글로벌 책임자인 수닐 세난은 기업이 데이터옵스에서 ML과 AI를 활용할 때 여러 경쟁력을 확보할 수 있다고 강조했다. 세난은 “기업은 빠른 데이터 검색, 카탈로그화, 신속한 데이터 프로파일링을 위해 AI를 배포할 수 있으며, ML은 이상 징후를 감지하고 불일치를 식별하며 데이터를 보강할 수 있다. AI, ML, 자동화를 함께 사용하면 데이터 품질을 개선하고, 마스터 데이터를 조율하며, 데이터 제품 및 효과적인 데이터 팀을 구축하기 위한 구조를 만들 수 있다”라고 설명했다.

데이터옵스팀은 어디에서 자동화를 확장하고 ML과 AI를 ‘게임체인저’ 같은 기능으로 사용할 수 있을까? 다음은 다섯 가지 예이다.

1. 새 데이터 세트에 대한 데이터 준비 시간 단축
크럭스(Crux)의 CEP인 윌 프라이버그는 “고급 AI/ML 기능은 데이터 통합, 전환 및 통합 가시성에 대한 패러다임의 전환을 이끈다. 자동화된 솔루션을 사용하면 데이터옵스팀은 데이터 준비에 드는 시간의 70%를 줄이면서 고부가가치를 만드는데 더 집중할 수 있다”라고 말했다.

수동 작업과 관련하여 데이터옵스팀은 다음 2가지 질문을 집중적으로 고려해야 한다.
• 새 데이터 세트의 최초 발견부터 조직의 데이터 레이크에서 로드, 정제 및 합류되어 데이터 카탈로그에 나열될 때까지 측정된 주기 시간은 얼마인가?
• 데이터 파이프라인이 구축되면 모니터링 및 자동화를 사용하여 데이터 형식의 변경을 감지하고 조정하고 있는가?

데이터 파이프라인을 로드하고 지원하기 위해 수동 데이터 프로세싱 단계가 필요한 경우, 데이터옵스팀은 새로운 데이터 소스의 주기 시간을 개선하는 동시에 데이터 파이프라인 문제로부터 복구할 기회를 가질 수 있다.

프라이버그는 “데이터 팀이 데이터 품질에 대한 표준을 정의하고 그런 표준을 AI로 접목해 프로그래밍해보자. 해당 기술은 외부 데이터 세트를 온보딩할 때 스키마 변경 및 데이터 프로필 이상을 감지하고 관리하여 데이터 파이프라인이 깨지거나 수동 개입이 필요하지 않도록 할 수 있다”라고 덧붙였다.

2. 데이터 통합 가시성 및 지속적인 모니터링 확장
데이터옵스 엔지니어가 모니터링, 알림 및 자동화를 사용하여 문제를 식별하고 신속하게 수정 사항을 구현하지 않을 때면 데이터 파이프라인에 손상이 발생한다. 사전 예방적 해결 방법으로 데이터옵스 통합 가시성 도구를 마련할 수 있다. 해당 도구로 데이터 통합 이벤트 로깅 및 데이터 파이프라인 모니터링할 수 있다.

프리사이슬리(Precisely)의 제품 관리 수석 부사장인 에밀리 워싱턴은 “오늘날 조직이 처리해야 하는 데이터의 양을 고려할 때 수동으로 문제를 찾아 해결하려면 시간이 많이 걸린다. 데이터 품질을 보장하는 효과적인 접근 방식은 데이터가 조직의 에코시스템에 유입될 때 데이터를 검증하고 전반적인 데이터 무결성 전략의 일부로 데이터 통합 가시성을 채택하여 지속적인 모니터링을 보장하는 것이다”라고 설명했다.

데이터 통합 가시성은 실시간 의사 결정, 대시보드 업데이트, 머신러닝 모델에 사용할 수 있도록 일관되고 신뢰할 수 있는 데이터 파이프라인을 제공하는 것을 목표로 한다. 이는 사이트 안정성 엔지니어링에서 제시하는 원칙 중 하나로 데이터옵스팀은 서비스 수준을 이런 목표를 중심으로 관리하면 좋다. 같은 원칙은 데이터 파이프라인에도 동일하게 적용된다.

워싱턴은 “데이터 통합 가시성은 조직이 대규모의 데이터 품질을 사전에 식별하고 관리할 수 있도록 도와주며, 그 결과 데이터 파이프라인이 더 건강해지고, 팀의 생산성이 향상되며, 고객의 만족도가 높아진다”라고 설명했다.

앞으로 생성형 AI의 데이터옵스 기능이 주류가 되면 다음과 같은 방식으로 대규모 데이터 통합 가시성을 구현할 수 있다.
• 데이터 문제 패턴을 식별하고 해결책을 추천하거나 데이터 클리닝 작업을 자동화
• 데이터 파이프라인에 대한 코드 수정 및 제안 추천
• 데이터 파이프라인 문서화 및 데이터 관찰을 위해 캡처한 정보 개선

3. 데이터 분석 및 분류 개선
데이터옵스팀은 또한 AI와 ML을 사용하여 데이터 파이프라인을 통해 스트리밍 되는 데이터를 분석하고 분류할 수 있다.

테라데이터(Teradata)의 최고 제품 책임자인 힐러리 애쉬톤은 “AI 기반 데이터 캡처는 이상 징후 감지, 관련성 평가, 데이터 매칭을 수행하여 조기에 시스템으로 유입되는 데이터의 품질을 높인다. ML 모델을 활용하여 데이터에서 숨겨진 패턴을 찾고, 표준에 맞게 정리 및 조율하고, 민감한 데이터를 분류하여 적절한 거버넌스를 보장할 수 있다”라고 설명했다.

데이터를 분류하는 과정에서는 개인 식별 정보(PII) 및 기타 민감한 데이터를 식별해 두어야 한다. 이런 민감 데이터 포함 여부를 알지 못하는 데이터세트에서도 관련 데이터를 미리 파악해 놓아야 한다. 일단 데이터가 식별되면 데이터 거버넌스팀은 자동화 규칙을 정의하여 소스를 재분류하고 다른 비즈니스 규칙을 트리거 할 수 있다.

애쉬톤은 생성형 AI가 더욱 강력한 데이터 품질 및 거버넌스 도구를 주도할 것이라고 믿고 있다. 애쉬톤은 “데이터옵스팀은 비즈니스 도메인 지식과 협업 플랫폼의 데이터를 활용하여 데이터에 더 풍부한 맥락과 패턴을 제공하는 방법을 모색할 것이다”라고 밝혔다.

데이터 컴플라이언스의 또 다른 사용 사례는 보안 분야이다. 프리브옵스(PrivOps)의 공동 창립자이자 CTO인 타일러 존슨은 데이터옵스가 자동화와 AI를 통해 가치를 제공할 수 있는 영역 중 흔히 간과되는 영역이 ‘ID 및 액세스 관리’라고 설명했다.

존슨은 “자동화는 오래된 권한을 사용하여 조직에 침투하는 악의적인 공격자의 위험을 최소화할 수 있지만, 권한이 있는 사용자의 위협을 해결하는 데는 아무런 도움이 되지 않는다. 데이터 파이프라인 워크플로우를 확장하여 사용자 접속 로깅 데이터를 집계하고 AI와 통합함으로써 인포섹과 파트너십을 맺은 데이터옵스는 조직 내외부로부터의 위협을 최소화할 수 있다. AI는 의심스러운 액세스 패턴을 식별하고 탐지되면 보안 운영 센터(SOC)에 경고를 보낸다”라고 말했다.

4. 정제된 데이터에 더 빠른 액세스 제공
데이터 스트림에서 민감한 정보 및 기타 이상 징후를 식별하는 것은 기본적인 데이터 거버넌스 사용 사례이지만, 비즈니스팀이 진정으로 원하는 것은 정제된 데이터에 더 빠르게 액세스하는 것이다.

마케팅, 영업, 고객 서비스 분야에서는 주로 데이터 기록에 대한 실시간 업데이트가 필요하다. 이때 2가지 접근 방식을 택할 수 있는데, 먼저 고객 데이터 프로필(CDP) 데이터베이스로 데이터를 실시간으로 보내면서 고객 정보를 중앙 집중화할 수 있다.

트레저 데이터(Treasure Data)의 최고 제품 및 기술 책임자 칼 워스는 “데이터 프로세싱 파이프라인 전반에 걸쳐 데이터 품질 문제를 감지하고 해결하는 데 적합한 도구를 적용하는 것은 매우 중요하다. 보통 데이터 수집 중에 실행할 자동화된 탐색 데이터 분석, 데이터 정리, 결정론적 및 확률론적 사용자 ID 일치 도구를 예약하는 것에서부터 시작된다. 실시간으로 사용자 ID를 하나로 묶어 놓으면 자동화된 세그먼테이션(클러스터링 및 기타 머신러닝 모델 활용)과 결합하여 데이터가 축적됨에 따라 인사이트와 개인화를 지속적으로 추구할 수 있다. 마지막으로, 자동화된 예측 및 이상 징후 감지 알고리즘과 데이터 드리프트 감지와 결합되어 시간이 지나도 높은 품질이 유지되도록 보장한다”라고 말했다.

고객 데이터와 관련된 두 번째 관리 방식에는 마스터 데이터 관리(Master Data Management, MDM)가 있다. MDM에선 데이터옵스가 여러 데이터 소스에서 기본 고객 기록과 필드를 식별하는 규칙을 정의한다.

렐티오(Reltio)의 CEO이자 설립자 겸 회장인 매니쉬 수드는 머신러닝이 여러 소스의 정보를 결합하는 데 도움이 된다고 말한다. 수드는 “최신 접근 방식은 자동화 및 ML 기반 기법을 활용하여 여러 소스의 데이터를 신속하게 통합함으로써 기존 MDM 시스템의 제한된 범위에서 벗어날 수 있다”라고 설명했다.

머신러닝은 MDM 시스템에서 비즈니스 규칙의 수와 복잡성을 줄이는 데도 도움이 된다. 세마키(Semarchy)의 아웃바운드 제품 관리자인 데이비드 콕스는 “데이터옵스에서는 메타데이터에 대한 규칙을 하드코딩 하는 등 마스터 데이터 관리, 특히 데이터 품질을 개선하기 위해 자동화를 오랫동안 사용해 왔다. 대규모이고 고속이면서 복잡한 데이터의 품질을 제어하려면 무한한 수의 규칙이 필요할 수 있으므로, 인공지능과 머신러닝은 데이터 품질을 대규모로 자동화하는 데 도움이 될 수 있다”라고 말했다.

테이머(Tamr)의 데이터 제품 총괄 관리자인 앤서니 데이튼은 머신러닝이 유지 관리하기 어려운 비즈니스 규칙을 대체할 수 있는 사례를 공유했다. 데이튼은 “AI와 ML은 데이터옵스에 실질적인 차이를 가져올 수 있는 강력한 도구이다. 예를 들어, 중복된 고객 기록을 하나의 포괄적인 기록으로 병합하여 데이터 정확도를 높이고 더 나은 인사이트를 얻을 수 있다”라고 밝혔다.

특히 문서 및 기타 비정형 데이터 소스에서 추출한 정보로 고객 기록을 보강하는 것과 관련하여 CDP 및 MDM 솔루션에서 더 많은 생성형 AI 기능을 기대할 수 있다.

5. 데이터 정제의 비용 절감 및 이점 증대
데이터옵스는 AI와 ML을 사용하여 기존 데이터 정리 및 파이프라인 수정 같은 목표를 넘어 데이터 보강과 같은 고부가가치 서비스를 제공할 수 있다.

콜레스(Coalesce)의 공동 창립자이자 CTO인 사티시 제이안씨는 “데이터의 양과 복잡성이 증가함에 따라 데이터 품질 규칙을 수동으로 설정하는 것은 더 이상 확장성이 보장되지 않으며, AI/ML은 확장성 문제를 해결할 수 있는 유망한 접근 방식을 제공한다. 이러한 기술은 자동화를 활용하여 잘못된 데이터를 효율적으로 식별하고 수정함으로써 부정적인 결과를 완화할 수 있다”라고 말했다.

악셀데이터(Acceldata)의 공동 창립자 겸 CTO인 애쉬인 라지바가 패턴을 통한 학습으로 지속적인 데이터 품질 개선을 가능하게 하는 ML의 사례를 공유했다. 라지바는 “학습한 내용을 적용하여 오류를 수정하고, 누락된 데이터를 채우고, 레이블을 추가하고, 스마트 분류를 수행하고, 데이터 중복을 제거할 수 있다”라고 설명했다.

결론
엑사솔(Exasol)의 데이터 과학 수석 제품 관리자인 에스와 나지레디는 데이터옵스의 효율성을 높이는 것이 중요하다고 강조한다. 나지레디는 “오늘날 대부분의 데이터 및 애널리틱스팀은 특히 운영 비용과 인력을 줄여야 한다는 압박이 커지면서 데이터 건강 및 모니터링에 대한 요구 사항을 따라잡을 시간과 리소스가 부족하다. 자동화된 머신러닝(오토ML), 노코드 및 로우코드를 활용하는 데이터 팀은 데이터의 고품질 상태를 보장하면서 비즈니스에 적용된 ML의 가치를 더 빠르게 실현할 수 있다”라고 설명했다.

데이터옵스팀은 AI 및 ML 기법을 사용하고 수작업이나 하드코딩 된 비즈니스 규칙에 덜 의존하면서 워크로드를 줄이고 데이터 품질을 개선하며 데이터 파이프라인의 안정성을 높일 수 있다. 이러한 변화가 적용되면, 팀은 AI와 ML을 사용하여 새로운 데이터 세트를 통합하는 시간을 단축하고 고객 기록을 보강하고 데이터 거버넌스를 개선함으로써 경쟁력 있는 비즈니스 가치를 창출할 수 있다.
ciokr@idg.co.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기

데이터옵스 AI 생성형AI 데이터 정체 파이프라인

“유료 VPN, 분명한 가치 있다” VPN 선택 가이드

VPN (가상 사설 네트워크, Virtual Private Network)은 인터넷 사용자에게 개인 정보 보호와 보안을 제공하는 중요한 도구로 널리 인정받고 있다. VPN은 공공 와이파이 환경에서도 데이터를 안전하게 전송할 수 있고, 개인 정보를 보호하는 데 도움을 준다. VPN 서비스의 수요가 증가하는 것도 같은 이유에서다. 동시에 유료와 무료 중 어떤 VPN을 선택해야 할지 많은 관심을 가지고 살펴보는 사용자가 많다. 가장 먼저 사용자의 관심을 끄는 것은 별도의 예산 부담이 없는 무료 VPN이지만, 그만큼의 한계도 있다. 무료 VPN, 정말 괜찮을까? 무료 VPN 서비스는 편리하고 경제적 부담도 없지만 고려할 점이 아예 없는 것은 아니다. 보안 우려 대부분의 무료 VPN 서비스는 유료 서비스에 비해 보안 수준이 낮을 수 있다. 일부 무료 VPN은 사용자 데이터를 수집해 광고주나 서드파티 업체에 판매하는 경우도 있다. 이러한 상황에서 개인 정보가 유출될 우려가 있다. 속도와 대역폭 제한 무료 VPN 서비스는 종종 속도와 대역폭에 제한을 생긴다. 따라서 사용자는 느린 인터넷 속도를 경험할 수 있으며, 높은 대역폭이 필요한 작업을 수행하는 데 제약을 받을 수 있다. 서비스 제한 무료 VPN 서비스는 종종 서버 위치가 적거나 특정 서비스 또는 웹사이트에 액세스하지 못하는 경우가 생긴다. 또한 사용자 수가 늘어나 서버 부하가 증가하면 서비스의 안정성이 저하될 수 있다. 광고 및 추적 일부 무료 VPN은 광고를 삽입하거나 사용자의 온라인 활동을 추적하여 광고주에게 판매할 수 있다. 이 경우 사용자가 광고를 보아야 하거나 개인 정보를 노출해야 할 수도 있다. 제한된 기능 무료 VPN은 유료 버전에 비해 기능이 제한될 수 있다. 예를 들어, 특정 프로토콜이나 고급 보안 기능을 지원하지 않는 경우가 그렇다. 유료 VPN의 필요성 최근 유행하는 로맨스 스캠은 인터넷 사기의 일종으로, 온라인 데이트나 소셜 미디어를 통해 가짜 프로필을 만들어 상대를 속이는 행위다. 이러한 상황에서 VPN은 사용자가 안전한 연결을 유지하고 사기 행위를 방지하는 데 도움이 된다. VPN을 통해 사용자는 상대방의 신원을 확인하고 의심스러운 활동을 감지할 수 있다. 그 외에도 유료 VPN만의 강점을 적극 이용해야 하는 이유는 다음 3가지로 요약할 수 있다. 보안 강화 해외 여행객이 증가함에 따라 공공 와이파이를 사용하는 경우가 늘어나고 있다. 그러나 공공 와이파이는 보안이 취약해 개인 정보를 노출할 위험이 있다. 따라서 VPN을 사용하여 데이터를 암호화하고 개인 정보를 보호하는 것이 중요하다. 서프샤크 VPN은 사용자의 개인 정보를 안전하게 유지하고 해킹을 방지하는 데 유용하다. 개인 정보 보호 인터넷 사용자의 검색 기록과 콘텐츠 소비 패턴은 플랫폼에 의해 추적될 수 있다. VPN을 사용하면 사용자의 IP 주소와 로그를 숨길 수 있으며, 개인 정보를 보호할 수 있다. 또한 VPN은 사용자의 위치를 숨기고 인터넷 활동을 익명으로 유지하는 데 도움이 된다. 지역 제한 해제 해외 여행 중에도 한국에서 송금이 필요한 경우가 생길 수 있다. 그러나 IP가 해외 주소이므로 은행 앱에 접근하는 것이 제한될 수 있다. VPN을 사용하면 지역 제한을 해제해 해외에서도 한국 인터넷 서비스를 이용할 수 있다. 따라서 해외에서도 안전하고 편리하게 인터넷을 이용할 수 있다. 빠르고 안전한 유료 VPN, 서프샤크 VPN 뛰어난 보안 서프샤크 VPN은 강력한 암호화 기술을 사용하여 사용자의 인터넷 연결을 안전하게 보호한다. 이는 사용자의 개인 정보와 데이터를 보호하고 외부 공격으로부터 사용자를 보호하는 데 도움이 된다. 다양한 서버 위치 서프샤크 VPN은 전 세계 곳곳에 여러 서버가 위치하고 있어, 사용자가 지역 제한된 콘텐츠에 액세스할 수 있다. 해외에서도 로컬 콘텐츠에 손쉽게 접근할 수 있음은 물론이다. 속도와 대역폭 서프샤크 VPN은 빠른 속도와 무제한 대역폭을 제공하여 사용자가 원활한 인터넷 경험을 누릴 수 있도록 지원한다. 온라인 게임, 스트리밍, 다운로드 등 대역폭이 필요한 활동에 이상적이다. 다양한 플랫폼 지원 서프샤크 VPN은 다양한 플랫폼 및 디바이스에서 사용할 수 있다. 윈도우, 맥OS, iOS, 안드로이드 등 다양한 운영체제 및 디바이스에서 호환되어 사용자가 어디서나 안전한 인터넷을 즐길 수 있다. 디바이스 무제한 연결 서프샤크 VPN은 무제한 연결을 제공하여 사용자가 필요할 때 언제든지 디바이스의 갯수에 상관없이 VPN을 사용할 수 있다.

평점 - 댓글 -개

평점

Offcanvas

‘데이터옵스팀’에게 유용한 AI 활용 사례 5가지

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기

Sponsored

댓글

추천 테크라이브러리

인터뷰 | “‘친환경+AI’ 앞세워 데이터센터 새바람 이끌 것”··· 엠피리온 디지털 최고전략책임자 최용석

일문일답 | “AI 기반 옵저버빌리티, IT 넘어 기업 전반에서 중요해질 것” 다이나트레이스 이효은 지사장

인터뷰 | “위기에서 기회를 보다’ 아이브릭스 채종현 대표가 전하는 ‘비즈니스 AI’ 이야기

인터뷰 | 빠른 대용량 편집기 ‘엠에디터’를 아시나요? ··· 40년 경력의 개발자 에무라 유타카 대표

일문일답 | 브로드컴 앤디 날라판 CIO·CTO·CSO가 말하는 클라우드 성공 노하우