2018.07.25

금융IT 업체 Q2의 급성장 비결은 '멀티 클라우드 모니터링'

Ann Bednarz | Network World
5년전만 해도 Q2의 서버는 240대에 불과했다. 현재는 8500대다. 지난 5년간 자체 인프라 구축에 1억 5000만 달러를 쏟아부었다. 이렇게 구축한 설비를 통해 4페타바이트 이상의 사용자 데이터를 처리한다. Q2의 CIO 루 센코는 "사용자수가 120만에서 1150만으로 늘어났다. 다운타임은 서비스 초기보다 1/5 수준으로 줄어들었다"라고 말했다.



텍사스 오스틴에 본사를 둔 Q2의 클라우드 플랫폼은 뱅크오브아메리카(BoA), 웰스파고(Wells Fargo), 시티그룹(Citigroup) 같은 거대 은행과 경쟁하는 중소 은행이 주로 사용한다. Q2의 플랫폼을 이용하면 중소 은행이 온라인 예금, 모바일 등록, 금융 관리와 결제 등 사용자가 원하는 기능을 사용할 수 있다. Q2가 백엔드 통합과 보안, 성능을 책임진다. 센코는 "단일한 끊김없는 사용자 경험을 만드는 것이 우리의 경쟁력이다"라고 말했다. Q2는 위험 관리와 평가, 컴플라이언스, 규제 관리, 상품 개발, 재해 복구, 장애 대응 같은 서비스도 제공한다.

Q2의 CIO 루 센코기술 측면에서 가장 큰 어려움은 보안과 컴플라이언스, 가용성을 유지하면서 기존 백엔드 시스템을 새 애플리케이션과 연동해 인터넷으로 서비스하는 것이다. 특히 업타임은 아무리 강조해도 지나치지 않다. Q2는 다운타임을 피하기 위한 탄력성을 높이는 작업과, 피할 수 없는 장애에 대한 대처를 능률화하는 작업 간의 균형에 상당한 공을 들였다.

센코는 "결국은 장애가 발생하기 마련이다. 따라서 중요한 것은 다운타임을 최대한 줄이는 것이다. 모니터링하고 더 신속하게 대응하는 방법을 찾아야 한다"라고 말했다.

이를 위해 Q2는 지난 수년간 자사 플랫폼을 재설계했다. 센코는 "기존에는 닷넷 숍과 3티어 아키텍처, SQL 백엔드를 이용했지만, 컨테이너 기술 기반의 오픈소스 마이크로서비스 아키텍처로 전환했다. 현재는 컨테이너와 오케스트레이션을 전면적으로 도입해 사용하고 있다"라고 말했다.

최종 목표는 민첩성
여기서 끝이 아니다. 센코는 지난 1년간 개발팀과 함께 새로운 계획을 구상했다. 그는 "우리가 기업 고객에 제안하는 것은 앞으로 기업이 사용할 기술이 무엇이든 함께 계획을 만들어보자는 것이다. 우리가 잘 사용할 수 있도록 보장할 것이다. 아직 실현된 방법은 아니지만, 매우 빠르게 변화하고 있다"라고 말했다.

Q2의 소규모 개발팀들은 새 기능을 제공하기 위해 더 빨리 작업을 처리한다. 때로는 새 서비스를 기획해 개발하는 데까지 불과 60일 정도 걸리기도 한다. 센코는 "모든 기술은 인터넷에서 빠르게 다운로드해 단기간에 프로토타입을 만들고 품질관리(QA)를 거쳐 탄력성과 확장성 테스트를 거친다. 이후 데브옵스로 이행한 후 실제 서비스에 들어간다. 만드는 데 6개월씩 걸리던 작업 방식은 이제 상상도 할 수 없다"라고 말했다.

문제는 모니터링 툴이었다. Q2 플랫폼의 사용자가 늘어나고 개발 주기가 줄어들면서 모니터링 툴이 이 속도를 감당하지 못했다. 이때 도움을 준 것이 로직모니터(LogicMonitor)였다. 이 업체의 SaaS 기반 성능 모니터링 플랫폼은 온프레미스와 퍼블릭 클라우드 그리고 하이브리드 IT 인프라용으로 개발됐다. 센코는 "이 업체의 플랫폼은 우리의 개발 속도에 맞춰 잘 작동했다"라고 말했다.

Q2가 새 애플리케이션 서비스를 시작하면 로직모니터가 이들을 감지해 모니터링을 시작한다. Q2가 단일 화면으로 모니터링 환경을 통합할 수 있도록 지원한다. 로직모니터 팀은 Q2의 필요에 따라 민첩하게 모니터링 커버리지를 확장한다. 따라서 IT 팀은 개발 파트너에 앞서 대응할 수 있다. 센코는 "이는 단순하게 우리의 새로운 제품화 과정의 일부가 아니다. 그동안 우리가 알지 못했던 것을 보여준다는 점에서도 의미가 크다"라고 말했다.


새로 도입한 강력한 툴 덕분에 Q2는 모니터링과 트러블슈팅에 대한 시각도 바꾸었다. Q2는 NOC(network operations center)를 대신해 IOC(integrated operations center)를 신설했다. IOC로 전환한 이후 노련한 직원들이 복잡한 문제에 더 잘 대응할 수 있게 됐다. 기존 NOC에서는 문제가 발생했을 때 종종 NOC 범위를 넘어서서 DBA나 네트워크 관리자, 서버팀까지 관여하곤 했다. IOC는 이들 전문가를 모두 통합하는 조직이므로 이제는 시스템 경고에 대응하고 모니터링하는 팀까지 협업하면서 효율적으로 장애를 해결할 수 있게 됐다.

현재 IOC는 풀타임 직원 33명과 관리자 2명으로 구성됐다. 모니터링 툴에서 알림을 제공하는 문제의 87%가 IOC 내에서 처리된다. 이러한 조직적 변화로 치명적인 상황에 대한 장애 관리도 개선됐다. 센코는 "우리는 장애 관리 절차를 새로 만들었다. 기존에는 그냥 구색 맞추기 메뉴얼이었지만, 이젠 더이상 IT의 천덕꾸러기가 아니다. 장애 관리는 모든 것을 평가하는 핵심이다"라고 말했다.

Q2는 IOC에 대한 투자와 더불어 직원 교육과 계약에도 더 신경쓰고 있다. 센코는 "우리가 계속해서 이 플랫폼을 발전시키려면 직원을 교육하고 그들과 함께 성장해야 한다. 직원 교육과 능력 계발에 많은 돈을 쓰는 이유다"라고 말했다. 이러한 노력은 모두 기업을 이해하는 IT 직원을 계속 근속시키기 위한 것이다. 센코는 "이들 직원이 가진 고객에 대한 지식과 툴 사용법, 회사의 미션에 대한 이해 등은 다른 직원으로 쉽게 대체할 수 없는 것이다. 직원에 새로운 기술을 가르치기는 차라리 쉽다. 그러나 이러한 이해를 심어주는 것은 매우 어렵다"라고 말했다. ciokr@idg.co.kr



2018.07.25

금융IT 업체 Q2의 급성장 비결은 '멀티 클라우드 모니터링'

Ann Bednarz | Network World
5년전만 해도 Q2의 서버는 240대에 불과했다. 현재는 8500대다. 지난 5년간 자체 인프라 구축에 1억 5000만 달러를 쏟아부었다. 이렇게 구축한 설비를 통해 4페타바이트 이상의 사용자 데이터를 처리한다. Q2의 CIO 루 센코는 "사용자수가 120만에서 1150만으로 늘어났다. 다운타임은 서비스 초기보다 1/5 수준으로 줄어들었다"라고 말했다.



텍사스 오스틴에 본사를 둔 Q2의 클라우드 플랫폼은 뱅크오브아메리카(BoA), 웰스파고(Wells Fargo), 시티그룹(Citigroup) 같은 거대 은행과 경쟁하는 중소 은행이 주로 사용한다. Q2의 플랫폼을 이용하면 중소 은행이 온라인 예금, 모바일 등록, 금융 관리와 결제 등 사용자가 원하는 기능을 사용할 수 있다. Q2가 백엔드 통합과 보안, 성능을 책임진다. 센코는 "단일한 끊김없는 사용자 경험을 만드는 것이 우리의 경쟁력이다"라고 말했다. Q2는 위험 관리와 평가, 컴플라이언스, 규제 관리, 상품 개발, 재해 복구, 장애 대응 같은 서비스도 제공한다.

Q2의 CIO 루 센코기술 측면에서 가장 큰 어려움은 보안과 컴플라이언스, 가용성을 유지하면서 기존 백엔드 시스템을 새 애플리케이션과 연동해 인터넷으로 서비스하는 것이다. 특히 업타임은 아무리 강조해도 지나치지 않다. Q2는 다운타임을 피하기 위한 탄력성을 높이는 작업과, 피할 수 없는 장애에 대한 대처를 능률화하는 작업 간의 균형에 상당한 공을 들였다.

센코는 "결국은 장애가 발생하기 마련이다. 따라서 중요한 것은 다운타임을 최대한 줄이는 것이다. 모니터링하고 더 신속하게 대응하는 방법을 찾아야 한다"라고 말했다.

이를 위해 Q2는 지난 수년간 자사 플랫폼을 재설계했다. 센코는 "기존에는 닷넷 숍과 3티어 아키텍처, SQL 백엔드를 이용했지만, 컨테이너 기술 기반의 오픈소스 마이크로서비스 아키텍처로 전환했다. 현재는 컨테이너와 오케스트레이션을 전면적으로 도입해 사용하고 있다"라고 말했다.

최종 목표는 민첩성
여기서 끝이 아니다. 센코는 지난 1년간 개발팀과 함께 새로운 계획을 구상했다. 그는 "우리가 기업 고객에 제안하는 것은 앞으로 기업이 사용할 기술이 무엇이든 함께 계획을 만들어보자는 것이다. 우리가 잘 사용할 수 있도록 보장할 것이다. 아직 실현된 방법은 아니지만, 매우 빠르게 변화하고 있다"라고 말했다.

Q2의 소규모 개발팀들은 새 기능을 제공하기 위해 더 빨리 작업을 처리한다. 때로는 새 서비스를 기획해 개발하는 데까지 불과 60일 정도 걸리기도 한다. 센코는 "모든 기술은 인터넷에서 빠르게 다운로드해 단기간에 프로토타입을 만들고 품질관리(QA)를 거쳐 탄력성과 확장성 테스트를 거친다. 이후 데브옵스로 이행한 후 실제 서비스에 들어간다. 만드는 데 6개월씩 걸리던 작업 방식은 이제 상상도 할 수 없다"라고 말했다.

문제는 모니터링 툴이었다. Q2 플랫폼의 사용자가 늘어나고 개발 주기가 줄어들면서 모니터링 툴이 이 속도를 감당하지 못했다. 이때 도움을 준 것이 로직모니터(LogicMonitor)였다. 이 업체의 SaaS 기반 성능 모니터링 플랫폼은 온프레미스와 퍼블릭 클라우드 그리고 하이브리드 IT 인프라용으로 개발됐다. 센코는 "이 업체의 플랫폼은 우리의 개발 속도에 맞춰 잘 작동했다"라고 말했다.

Q2가 새 애플리케이션 서비스를 시작하면 로직모니터가 이들을 감지해 모니터링을 시작한다. Q2가 단일 화면으로 모니터링 환경을 통합할 수 있도록 지원한다. 로직모니터 팀은 Q2의 필요에 따라 민첩하게 모니터링 커버리지를 확장한다. 따라서 IT 팀은 개발 파트너에 앞서 대응할 수 있다. 센코는 "이는 단순하게 우리의 새로운 제품화 과정의 일부가 아니다. 그동안 우리가 알지 못했던 것을 보여준다는 점에서도 의미가 크다"라고 말했다.


새로 도입한 강력한 툴 덕분에 Q2는 모니터링과 트러블슈팅에 대한 시각도 바꾸었다. Q2는 NOC(network operations center)를 대신해 IOC(integrated operations center)를 신설했다. IOC로 전환한 이후 노련한 직원들이 복잡한 문제에 더 잘 대응할 수 있게 됐다. 기존 NOC에서는 문제가 발생했을 때 종종 NOC 범위를 넘어서서 DBA나 네트워크 관리자, 서버팀까지 관여하곤 했다. IOC는 이들 전문가를 모두 통합하는 조직이므로 이제는 시스템 경고에 대응하고 모니터링하는 팀까지 협업하면서 효율적으로 장애를 해결할 수 있게 됐다.

현재 IOC는 풀타임 직원 33명과 관리자 2명으로 구성됐다. 모니터링 툴에서 알림을 제공하는 문제의 87%가 IOC 내에서 처리된다. 이러한 조직적 변화로 치명적인 상황에 대한 장애 관리도 개선됐다. 센코는 "우리는 장애 관리 절차를 새로 만들었다. 기존에는 그냥 구색 맞추기 메뉴얼이었지만, 이젠 더이상 IT의 천덕꾸러기가 아니다. 장애 관리는 모든 것을 평가하는 핵심이다"라고 말했다.

Q2는 IOC에 대한 투자와 더불어 직원 교육과 계약에도 더 신경쓰고 있다. 센코는 "우리가 계속해서 이 플랫폼을 발전시키려면 직원을 교육하고 그들과 함께 성장해야 한다. 직원 교육과 능력 계발에 많은 돈을 쓰는 이유다"라고 말했다. 이러한 노력은 모두 기업을 이해하는 IT 직원을 계속 근속시키기 위한 것이다. 센코는 "이들 직원이 가진 고객에 대한 지식과 툴 사용법, 회사의 미션에 대한 이해 등은 다른 직원으로 쉽게 대체할 수 없는 것이다. 직원에 새로운 기술을 가르치기는 차라리 쉽다. 그러나 이러한 이해를 심어주는 것은 매우 어렵다"라고 말했다. ciokr@idg.co.kr

X