오늘날의 네트워크 성능 관리 도구가 할 수 있는 일
현대 클라우드 벤더의 네트워크는 놀랍도록 복잡하다. 앱네타(AppNeta)의 사장 겸 CEO 매트 스티븐스는 “ISP, 로컬 통신사, 티어 1 통신사에서 자신과 클라우드 제공자 사이에 15단계를 거쳐야 하는 경우가 꽤 흔하다. 그리고 클라우드 제공자 내부에서 추가적으로 30단계를 거쳐야 한다. 총 10~20단계였던 것이 이제는 40 또는 50단계의 레이어 3 네트워크가 되었다. 각각 성능에 영향을 미친다”라고 말했다.
네트워크 복잡성이 증가하면서 문제 발생 가능성도 증가했다. 스티븐스는 “여러 직원들의 여러 개의 애플리케이션을 실행하고 이런 애플리케이션이 프라이빗 데이터센터, 조직이 클라우드로 운용하려 하는 가상 데이터센터, 완전 퍼블릭 클라우드 등 여러 소스로부터 호스팅 될 때(하이브리드 IT의 정의) 1개의 변수가 추가될 때마다 복잡성이 [기하급수적으로] 증가한다”라고 설명했다.
이에 따라 네트워크팀들이 시장을 탐색하고 있다. EMA에 따르면 네트워크팀들의 57%는 클라우드 네트워킹 가시성 문제를 해결하기 위해 특수 도구를 이미 입수했다. EMA는 네트워크 성능 관리 도구가 다음의 조합을 통해 클라우드 모니터링 기능을 확보하곤 한다고 설명했다.
• 클라우드에 배치된 가상 네트워크 요소로부터 지표 수집
• 플로우 로그 및 클라우드 제공자가 제공하는 기타 원격 측정값 수집
• 패킷 플로우 등 클라우드에서 네트워크 트래픽 데이터 수집
• SaaS 서비스 방향의 합성 트래픽 분석
로한에 따르면 전통적인 네트워크 관리 도구는 데이터센터 또는 구내 네트워크의 라우터와 스위치의 건전성을 모니터링하기 위해 고안되었지만, 클라우드에서는 상황이 달라진다. 그는 “네트워크 엔지니어들은 [클라우드 인프라가] 빠르게 성장하고 자신이 직접 구축하지 않았으며 항상 변화하기 때문에 머릿속에 이에 대한 그림을 그리지 않고 있다. 왜냐하면 이것이 클라우드이기 때문이다”라고 말했다.
이로 인해 이제 그들에게는 다양한 도구가 요구된다. 로한은 “네트워크팀들은 일단 단순히 AWS의 API 또는 클라우드 제공자의 API 중 하나로부터 데이터를 가져오는 도구를 사용할 것이다. 하지만 연결성 문제는 알 수 없다. 왜 효과가 없는지도 알 수 없다. 우리는 거기에서부터 시작했다. 우리의 도구가 현재 클라우드에서 네트워크 전문가에게 도움이 되는 것이 복잡한 토폴로지의 연결 문제를 해결하는 데 도움이 되고 있다고 생각한다”라고 말했다.
실제로 켄틱의 도구는 네트워크 엔지니어에게 ‘물려 받은’ 기존 네트워크의 그림을 제공할 수 있다고 로한이 강조했다. 그는 “이를 통해 시각화 할 수 있다. 네트워크 엔지니어들이 ‘여기에 트랜싯(Transit) 게이트웨이를 설치하고 여기에 피어링(Peering) 연결을...’이라고 말하고 기존의 네트워크 스킬을 활용할 수 있게 된다. 결과적으로 네트워크 통제력을 확보할 수 있다”라고 말했다.
클라우드 가시성을 위한 네트워크 지표
하이브리드 클라우드 네트워크의 상태를 보여줄 수 있는 원격 측정 데이터는 다양한다. 데이터센터, WAN, 인터넷, 클라우드, 모바일, 엣지 등 온갖 네트워크와 물리 및 가상 기기 및 전용 또는 클라우드 네이티브 장치 등로부터 산출된 데이터가 활용될 수 있다.
이러한 데이터는 데이터센터 구성 요소, 클라우드 인프라(서비스 메시, 트랜싯, 진입 게이트웨이 등), 인터넷 인프라, 캠퍼스 장치, 전통적인 WAN 라우터와 스위치, SD-WAN 게이트웨이, IoT 종점 등으로부터 비롯된다.
원격 측정 유형에는 네트워크 장치로부터 내보낸 플로우 데이터(NetFlow, J-Flow, sFlow, IETF의 IPFIX 등의 플로우 수집 표준), 클라우드 제공자의 가상 프라이빗 클라우드 플로우 로그, SNMP 기반 장치 원격 측정값, syslog 또는 SNMP 트랩을 통해 전송된 이벤트 알림 등이 포함될 수 있다.
네트워크 플로우와 패킷 등의 수동적인 모니터링 데이터와 함께 네트워크팀들은 점차 전통적인 인프라 및 트래픽 모니터링 지표를 강화하기 위해 기본 핑(Ping) 테스트와 레이어 7 합성 모니터링 등의 능동적 모니터링 기법으로 전환하고 있다고 EMA가 밝혔다. EMA에 따르면 네트워크팀 중 21%가 지속적인 네트워크 가용성 및 성능 모니터링을 위해 합성 트래픽 도구를 사용하고 있는 것으로 추정된다.
누가 네트워크 성능 관리 도구를 공급하고 있는가?
오늘날 네트워크 성능 관리 분야는 복잡하다. 주요 벤더로는 아세디언(Accedian), 앱네타(AppNeta), 시스코 싸우전드아이즈(Cisco-ThousandEyes), c패킷 네트웍스(cPacket Networks), 켄틱(Kentik), 로직모니터(LogicMonitor), 매니지엔진(ManageEngine), 리버베드(Riverbed), 솔라윈즈(SolarWinds) 등이 있다.
그러나 모든 것을 아우르는 단일 제공업체는 없으며, 많은 도구가 경쟁적이기보다는 보완적이다. 일반적인 IT 조직은 4~10개의 도구를 사용하여 네트워크를 모니터링하고 문제를 해결한다고 EMA가 밝혔다.
가트너는 네트워크 성능 모니터링 시장 가이드에서 조직들이 점차 하이브리드화 되면서 구내 환경에서 이상적이었던 도구의 효과성이 감소하고 있다고 진단했다. 일부 제공업체의 솔루션이 구내 및 클라우드 환경에 대한 가시성을 제공할 수 있지만 항상 같은 관점에서 바라볼 수 없는 데이터 전송 요건 및 다양한 네트워크 때문에 어렵다는 설명이다.
네트워크 성능 관리 도구를 찾고 있는 기업들을 위한 조언에서 가트너는 다음과 같이 조언했다.
“기업들은 구내 환경과 마찬가지로 클라우드에서 같은 모니터링 접근방식을 사용하고 싶은 유혹을 이겨야 하며, 패킷 수집 및 분석의 경우에는 더욱 그렇다. API나 트루 네트워크 보우(True Network Bow) 데이터 등 클라우드 네이티브 기능에 대한 지원을 제공하는 제공업체에 집중해야 한다.”
네트워크 문제해결에 AI 더하기
최신 네트워크 모니터링 도구의 차별점은 성능을 측정하고 발견사항을 통해 네트워크팀들이 받고 있는 질문에 답할 수 있는 능력이다.
앱네타의 스티븐스는 “하이브리드 클라우드로 이동할 때 중요한 것은 ‘효과가 있는가? 없는가? 작동하고 있는가? 아닌가?’가 아니다. ‘느리면’ ‘작동하고 있지 않다’는 새로운 생각이다!”라고 강조했다.
그는 이어 “오늘날에는 사용자들이 전화해서 세일즈포스에 연결할 수 없다고 이야기하지 않는다. 그들은 세일즈포스의 스크립트가 느리게 실행되어 업무 능력에 영향을 미치고 있다고 불평한다”라고 말했다.
그는 “배치된 아키텍처에 상관없이 우리는 기업이 이해하기 위한 가시성을 제공할 것이다. ‘내가 필요한 성능은 이것이다. 현재의 성능은 이렇다. 차이가 큰데, 내가 조치를 취해야 하는가? 아니면 다른 문제부터 해결해야 하는가?’”라고 말했다.
이 때, 인공지능이 도움이 될 수 있다. 도구들이 점차 네트워크 데이터에서 패턴을 찾고 히스토리 이상 감지와 기저 원인 분석에 기초하여 결론을 도출하도록 고안된 AI 기반 진단을 지원하고 있다.
스티븐스는 “우리는 단순히 문제가 있다고 알려줄 뿐 아니라 위치를 알려준다. 그 이유를 알려주고 해결책을 제시하며 (제안된 해결책이 효과가 있을 가능성이 정량화된) 신뢰도 점수도 부여한다”라고 말했다.
네트워크팀에 문제를 이해하고 해결책의 우선순위를 설정할 수 있는 도구가 있으면 기업들이 주요 비즈니스 전환 프로젝트를 진행할 때 IT에 신뢰감을 줄 수 있다고 스티븐스가 말했다.
네트워크 제공업체 및 기업 IT 네트워크 경력 30년 이상의 수석 시스템 네트워크 엔지니어 스콧 벌거는 지난 3년 동안 2곳의 대기업에서 앱네타의 기술을 다룬 인물이다.
벌거는 “클라우드 인프라에 대한 가시성은 최소한이기 때문에 서비스 제공자 클라우드의 E2E(End to End) 패킷 손실, 지터(Jitter) 및 지연 속도를 추적하는 능력을 통해 클라우드 제공자에게 ‘패킷 손실이 발생하고 있다’고 이야기할 수 있는 자율성과 타당성을 확보할 수 있다. 반박할 수 없는 확실한 증거를 확보하게 된다”라고 말했다.
벌거가 가장 우려하는 지표는 패킷 손실이다. 그는 “TCP/IP 기반 네트워크는 손실을 수용하도록 고안되었지만 토폴로지에 따라 4% 또는 5%를 초과하면 손실이 눈에 띄고 최종 사용자에게 영향을 미치기 시작한다. 따라서 일부 손실을 용인할 수 있지만 상당한 손실 또는 장기적인 손실은 영향을 미친다”라고 말했다.
큰 그림에서 네트워크 가시성 도구는 문제를 확인할 뿐 아니라 성능 문제를 방지하는 데도 도움이 된다. 벌거는 “이런 플랫폼은 문제가 고객에 영향을 미치기 전에 이에 대한 가시성을 제공한다”라고 말했다.
하지만 반응적 자세에서 선제적 자세로 바꾸는 것은 쉽지 않다. 벌거는 “데브옵스(DevOps) 또는 헬프 데스크 모델이 즉각적인 문제를 지원하느라 포화되는 경우 충분한 대역폭을 확보하지 못해 사람들이 ‘지금은 문제가 작지만 조치를 취하지 않으면 문제가 커질 것이다’라고 이야기하게 된다”라고 말했다.
그는 “우리는 선제적 해결을 우선시하는 문화가 필요하다. 이를 이해하는 관리자는 이에 전적으로 동의하며 설이지 않는다”라고 말했다. ciokr@idg.co.kr