Offcanvas

개발자 / 애플리케이션

마이크로서비스 모니터링 전략··· 'RED'의 개념과 장단점

2021.11.08 Tim Yocum  |  InfoWorld
요청 수(Rate), 오류율(Error), 소요 시간(Duration)에 중점을 두는 모니터링 기법 ‘RED’를 활용하면 최종 사용자를 대상으로 서비스가 어떻게 작동하는지 파악할 수 있다. 

사용자에게 양질의 제품과 경험을 제공하는 데 있어 애플리케이션 모니터링은 필수적이다. 하지만 단순하게 수많은 애플리케이션 지표를 수집하는 것만으로는 실질적인 문제를 해결할 수 없다. 

소프트웨어 회사는 사용자가 겪고 있는 문제를 신속하게 해결할 수 있도록 지표에서 실행 가능한 인사이트를 확보해야 한다. 여기서는 RED 기법을 살펴본다.
 
ⓒGetty Images

RED 기법이란?
RED 기법은 톰 윌키가 구글에서 일하면서 터득한 것을 토대로 만든 모니터링 방법론이다. 구글의 SRE(Site Reliability Engineering) 팀에서 개발한 ‘4가지 황금 신호(Four Golden Signals)’에서 파생됐다.

RED는 이전의 모니터링 철학과 기법(예: USE 기법(사용률, 포화도, 오류율 확인) 등)이 소프트웨어 회사 및 최신 소프트웨어 아키텍처의 목표와 완전히 일치하지 않았다는 것에 초점을 맞춘다. 

USE가 하드웨어와 인프라에 더 많이 적용되는 반면 RED는 애플리케이션 사용자의 경험에 중점을 둔다. 다시 말해, RED 기법의 목표는 소프트웨어 애플리케이션이 무엇보다 최종 사용자를 위해 제대로 작동하는지 확인하는 것이다. 

마이크로서비스 아키텍처, 컨테이너, 클라우드 인프라의 시대에서 하드웨어와 관련된 메트릭은 서비스 수준 목표(Service Level Objectives; SLO)가 충족되는 한 그다지 중요하지 않다. 

RED는 요청 수(Rate), 오류율(Errors), 소요 시간(Duration)을 나타낸다. 이는 아키텍처의 각 서비스에서 모니터링해야 할 3가지 핵심 지표다.

• 요청 수(Rate) - 서비스가 초당 처리하는 요청 수
• 오류율(Error) - 초당 실패한 요청 수
• 소요 시간(Duration) - 각 요청에 드는 시간


이 3가지 지표를 사용해 서비스가 어떻게 작동하는지 파악할 수 있다. 요청 수는 서비스로 전송되는 트래픽 양을 기준으로 한다. 이러한 요청 중에서 실패한 비율을 통해 서비스가 SLO 내에서 작동하는지 알 수 있다. 마지막으로 서비스에서 각 요청을 처리하는 데 걸리는 시간은 애플리케이션의 전체 사용자 경험에 관한 인사이트를 제공한다.  

이점
RED 기법의 첫 번째 이점은 서비스에 문제가 있는 이유를 파악하는 데 필요한 인지 부하를 줄일 수 있다는 것이다. RED는 각 서비스의 내부 디테일을 전체 아키텍처에서 이해할 수 있는 것으로 추상화한다. 이를 통해 문제를 더 빠르게 해결할 수 있을 뿐만 아니라 (팀 구성원이 직접 개발하지 않은 서비스에 대응할 수 있기 때문에) 운영팀을 더 쉽게 확장할 수 있다.

RED 추상화를 사용하면 무엇이 잘못됐는지 쉽게 이해하고 이를 수정하는 방법을 파악할 수 있다. 수정하려는 서비스가 (내부적으로 이해하지 못하는) 블랙박스인 경우에도 엔지니어는 원격 측정 데이터를 살펴보고, 사용자 경험을 개선하기 위한 조치를 결정할 수 있다. 모든 서비스에 동일한 매트릭이 사용되기 때문에 교육 시간이나 서비스 관련 지식도 줄일 수 있다.

또 다른 이점은 사용자 및 기업의 전체 목표에 더 밀접하게 부합한다는 것이다. 사용자는 인프라에 관심이 없다. 즉, CPU 사용량, 메모리 사용량 또는 기타 하드웨어 지표를 신경 쓰지 않는다. 

하지만 앱 사용 시 오류 메시지가 뜨는 것은 신경 쓴다. 웹 사이트 페이지 로딩에 시간이 오래 걸리는 것도 신경 쓴다. RED 기법을 활용하면 서비스가 SLO에 부합하지 않을 때 그리고 사용자 경험이 미흡할 때 이를 명확하게 알 수 있다.

마지막 이점은 서비스 전반에서 작업 및 경고 자동화가 더 쉬워진다는 것이다. 모든 서비스가 동일하게 취급되기 때문에 더 간단하고 안전하게 반복 작업을 자동화할 수 있다. 동일한 3가지 지표를 사용한다는 점에서 여러 서비스에 걸쳐 대시보드 레이아웃 등을 표준화할 수도 있다.
 
ⓒInfluxData
 
ⓒInfluxData

한계
그렇다고 RED 기법이 완벽한 것은 아니다. 이 기법은 요청 기반 애플리케이션을 주요 대상으로 설계돼 배치 프로세싱 또는 스트리밍과 관련된 사용 사례에 필요한 인사이트는 제공하지 못할 수 있다. 

두 번째 단점은 RED ‘외부(external)’ 보기로는 서비스 장애에 얼마나 가까운지 파악하기 어려울 수 있다는 것이다. 트래픽이 약간 증가해 응답 시간도 증가할 수 있다. 하지만 그 이유를 파악할 수 있는 내부 애플리케이션 지표가 없을 수 있다. RED 기법을 사용하면 여러 요인에 따라 지표가 다르게 해석될 수 있다. 따라서 이를 신중하게 도입 및 구현할 필요가 있다.

좋은 소식은 RED 기법이 모니터링의 모든 측면을 다루도록 고안된 것이 아니라는 점이다. 톰 윌키는 애플리케이션의 모든 부분을 모니터링할 수 있도록 USE 등의 다른 모니터링 기법과 RED 모니터링 기법을 함께 사용하는 게 좋다고 권고했다. ciokr@idg.co.kr



 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.