Offcanvas

AI / How To / 개발자 / 데브옵스 / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스

벤더 기고 | 현실 속 효과적인 데이터옵스를 위한 3가지 필수 조건

2022.08.12   |  CIO KR
데이터는 한 기업의 가장 가치 있는 자산일 수 있다. 어쩌면 기업 자체보다도 더 가치 있을지도 모른다. 그러나 데이터는 전달 상 문제들로 인해 부정확하거나 지속적으로 지연되어 효과적으로 활용되지 못하는 경우가 많다.

기업의 데이터 자산을 완전히 이해하기란 쉬운 일이 아니다. 특히 비즈니스 환경이 변화하며 복잡성이 증가하는 상황에서는 더욱 그렇다. 데이터의 출처를 추적하고 종속성 분석 및 최신 상태로 유지하는 것 모두 리소스 집약적인 업무다. 

이 시점에서 데브옵스와 사촌격이면서도 확연히 다른 데이터옵스가 등장하게 되는데, 이는 데이터분석을 위한 일련의 모범사례로 볼 수 있다. 시간이 지남에 따라, 데이터옵스는 이제 관행으로 발전했다. 데이터 중심의 애플리케이션부터 최종 사용자 또는 고객에게 정확한 비즈니스 관련 정보를 제공하기에 이르기까지 데이터의 수명 주기 가속화에 기여한다. 

데이터옵스는 대부분의 기업에서 데이터 자산 내 발생하는 비효율성에서 시작되었다. 즉 다양한 IT 사일로로 인해 아예 소통을 하지 못하거나 효과적으로 소통하지 못하는 것에서 비롯된 것이다. 예를 들어 특정 작업에서 데이터를 이용하는 한 팀을 위해 구축된 툴이 종종 다른 팀에는 가시성을 제공하지 못하는 경우가 이에 해당된다. 또 데이터 소스 통합은 우연적이고, 수동적이며 종종 문제를 야기하곤 했는데, 더 심각한 점은 최종 사용자에게 전달되는 정보의 질이나 가치가 기대 이하거나 완전히 부정확한 경우가 많았다.

데이터옵스가 이런 문제점의 해결방안으로 부각되는 동안, 기업의 최고 경연진은 약속에 비해 가치가 낮을 수 있지 않을까하는 우려를 가질 수 있다. 이미 시행 중인 프로세스를 혼란에 빠뜨릴 수도 있을 것처럼 보일 수도 있다. 과연 새로운 프로세스를 구분하고, 채택 및 실행하는 불편함보다 이점이 많을 것인가? 나는 회사에서 이 주제에 대해 토론할 때 종종 ‘10의 법칙’을 인용하고 참조한다. ‘10의 법칙’이란 데이터에 결함이 있을 때 결국에는 10배 더 많은 비용이 든다 뜻이다. 이 법칙을 보더라도, 데이터옵스는 매우 중요하고 도입할 가치가 있다.

데이터옵스를 인지하지 못한 채 이미 사용하고 있을 수 있다
넓은 의미에서 데이터옵스는 데이터 이해관계자 간의 소통을 개선시켜준다. 이는 기업에서 급증하는 데이터 사일로를 제거한다. 사실 데이터옵스는 완전히 새로운 것이 아니다. 빠르게 변화를 시도하는 회사에서는 이미 데이터옵스 구성을 실행하고 있지만 적절한 용어를 사용하거나 인식하지 못하고 있을 수 있다.

데이터옵스는 혁신적일 수 있지만 모든 훌륭한 프레임워크와 마찬가지로 성공을 달성하려면 몇 가지 기본 규칙이 요구된다. 현실에서 효과적인 데이터옵스를 위한 3가지 필수 조건은 다음과 같다:

1. 옵저버빌리티 도입
먼저, 옵저버빌리티는 전체 데이터옵스 프로세스의 기본이다. 이를 통해 기업은 지속적인 통합 및 지속적인 제공(Continuous Integration/Continous Delivery; 이하 CI/CD) 파이프라인 전반을 한눈에 파악할 수 있다. 옵저버빌리티가 없으면 기업은 안전하게 자동화를 하거나 지속적인 제공을 구축할 수 없다.

숙련된 데브옵스 환경에서 옵저버빌리티 시스템은 전체적인 시야를 제공하며 이러한 시각을 부서 전체에서 액세스할 수 있어야 하고 CI/CD 워크플로우에 통합되어야 한다. 옵저버빌리티를 도입하면 조직은 옵저버빌리티를 데이터 파이프라인의 왼쪽에 배치하여 데이터가 운영 환경에 들어가기 전에 커뮤니케이션 시스템을 모니터링하고 조정한다. 조직은 데이터베이스를 설계할 때 이 프로세스를 시작하고 해당 데이터의 다른 소비자와 함께 비생산 시스템을 관찰해야 한다. 이렇게 하면 데이터베이스가 운영 환경으로 이동하기 전에 애플리케이션이 데이터와 얼마나 잘 상호 작용하는지 알 수 있다.

모니터링 도구를 사용하면 정보를 더 잘 파악하고 보다 많은 진단을 수행할 수 있다. 즉 문제 해결 권장 사항이 개선돼 오류가 문제로 커지기 전에 오류를 해결하는 데 도움이 된다. 모니터링은 데이터 전문가에게 맥락을 제공한다. 그러나 전문가는 모니터링의 ‘히포크라테스 선서’를 준수하는 것을 잊지 말아야 한다. 다시 말해, 해를 끼쳐서는 안 된다.

모니터링에서 오버헤드가 너무 많이 발생하여 성능이 저하되면 이는 한계를 넘은 것이다. 특히 옵저버빌리티를 추가할 때는 오버헤드가 낮아야 한다. 데이터 모니터링이 옵저버빌리티의 기초로 간주될 때, 데이터 전문가는 예상대로 작업을 진행할 수 있기 때문이다.

2. 데이터 자산 관리 
다음으로, 스키마와 데이터를 파악해야 한다.

첫 번째로, 전체 데이터 자산을 문서화하여 변경사항과 변경사항이 미치는 영향을 파악해야 한다. 데이터베이스 스키마가 변경될 경우, 데이터베이스 스키마가 응용프로그램 및 다른 데이터베이스에 미치는 영향을 측정해야 한다. 이러한 영향 분석은 데이터가 어디에서 오고 어디로 이동하는지 알고 있는 경우에만 가능하다.

데이터베이스 스키마 및 코드 변경 외에도 데이터 개인 정보 보호 및 데이터 계통 전체 보기에 대한 컴플라이언스를 제어해야 한다. 데이터 위치 및 유형, 특히 개인 식별 정보(PII)에 태그를 지정하여 모든 데이터가 어디에 저장되는지 파악하는 것이 중요하다. 다시 말해, 중요한 정보는 어디에 저장되는지, 이러한 데이터가 어떤 다른 앱과 보고서와 연결되는지, 각 시스템에서 데이터에 접근할 수 있는 사람은 누구인지를 파악할 수 있어야 한다.

3. 데이터 테스트 자동화
데브옵스의 광범위한 도입은 코드와 애플리케이션에 대한 유닛 테스트라는 일반적인 문화를 가져왔다. 데이터 자체, 데이터 품질, 코드 및 애플리케이션에서 데이터 작동 방식 또는 작동하지 않는 경우를 테스트하는 일은 종종 간과되곤 한다. 또한 최신 데이터를 사용하여 지속적으로 테스트해야 한다. 검증되지 않은 데이터는 불안정하다.

현재 시스템이 사용 가능한 시스템 중 가장 안정적인지 확인하기 위해서는 가장 불안정한 데이터를 사용하여 테스트하면 된다. 테스트는 빠르게 이뤄져야 한다. 그렇지 않으면 비효율적인 루틴과 프로세스를 운영 환경으로 밀어 넣을 수 있으며 엄청난 비용을 야기할 수도 있다.

서드파티 데이터든 스크립트를 직접 작성하든, 데이터를 테스트하는 데 사용하는 제품은 견고해야 하며 자동화된 테스트 및 빌드 프로세스의 일부여야 한다. 데이터가 CI/CD 파이프라인을 통해 이동할 때 품질, 액세스 및 성능 테스트를 수행해야 한다. 간단히 말해서, 조직은 데이터를 사용하기 전에 먼저 그 데이터를 잘 이해해야 한다.

데이터옵스는 데이터 비즈니스에 있어 필수적인 부분이며 데이터 변환의 기초이다. 기업이 데이터옵스를 위해 위에 나열한 세 가지 필수 사항을 잘 지켜준다면, 기업은 이미 가지고 있는 것과 다음 단계에 도달하기 위한 준비가 되어 있을 것이다.

* Douglas McDowell은 솔라윈즈 데이터베이스 총괄관리자다. 리더십 팀 및 이사회에게 계획, 연구, 비즈니스 전략, 그리고 분석에 대한 조언을 제공한다. 이는 마이크로소프트를 포함한 솔라윈즈 최대 파트너들과의 연계를 강화한다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.