2015.08.26

기고 | 데이터 아닌 '스토리'로 차트를 선택하라

Andy Cotgreave | Computerworld
“이봐, 여기 와서 데이터 좀 봐봐. 무슨 차트를 써야 데이터가 잘 보일까?” 일은 하다 보면 드물지 않게 받는 질문이다. 그리고 이런 질문을 받을 때마다 필자의 대답은 한결같다.

“무슨 이야기를 하고 싶은데?”

최고의 차트를 만들려면 듣는 이가 누군지, 그리고 보유한 데이터의 생성 목적은 무엇이며 어떤 유형인지를 모두 고려해야 한다. 이들보다 더 중요한 것은 데이터 안의 ‘어떤 이야기’를 차트로 표현하고자 하는 지의 문제다.

지리적 데이터를 가지고 있다고 해서 반드시 그것을 지도로 그려내거나, 날짜 데이터를 무조건 경향 선으로 표현할 이유는 어디에도 없다. 또한 요소들 간의 관계를 보고 싶은 경우에도 방법은 파이 차트 외에도 다양하다.

핵심은 데이터를 가장 잘 보여줄 방법을 이해하는 것이며, 이를 위해선 가장 먼저, 잘 짜여진 이야기가 필요하다.

“잠깐, 지리 데이터를 지도로 표현하는 게 낡은 방식이라는 얘기야?”

아니다! 필자가 설명하는 핵심은, 차트를 그리기 전에 우선 데이터를 탐구해보라는 것이다. 데이터가 말하는 이야기와 경향을 포착하고, 그것을 가장 잘 표현할, 다시 말 해 독자의 이해를 가장 잘 이끌어낼 방식을 고민해야 한다.

데이터의 유형은 같더라도 그것이 전하는 메시지의 성격과 복잡도 등은 천차만별인데, 어떻게 데이터와 차트 유형을 일대일로 대응할 수 있을까?

우주 왕복선 챌린저 호의 폭발 사고를 예로 들어보자. 이 사고는 로켓 부품 가운데 하나인 O-링이 저온 환경에서 문제를 일으키며 발생했다. 당시 로켓 추진기 엔지니어들은 이 문제를 인지하고 있었고, 비행 플래너들에게 수 차례 그것을 보고했다. 발사 전날까지 엔지니어 한 명이 문제를 제기한 기록이 남아있다.

하지만 엔지니어들이 첨부한 차트는 문제를 인지하는 사람들만 해석할 수 있는 방식으로 작성됐고, 결국 NASA는 해당 보고를 외면했다. 그리고 그 결과, 챌린저 호는 여정을 떠나기도 전 폭발하고 만다.

에드워드 터프트는 엔지니어들이 차트를 다른 방식으로 작성했더라면 비행 플래너들을 설득할 수 있었을 것이고, 챌린저 호에 탑승한 일곱 우주인이 목숨을 잃는 일이 없었을 것이라 주장한다.

그는 O-링의 문제가 전달 과정에서 조금씩 간략화됐으며, 결국 무시해도 되는 문제로 바뀌어버렸다고 지적했다. 이어 하나의 단일 차트로 문제가 정리됐다면 그런 일이 없었을 것이라 강조했다. 또 어떤 데이터 차트에서도 인간의 생명과 관련한 요소는 가장 중점적으로 다뤄져야 한다고 덧붙였다.

또 다른 예를 살펴보자. 지리적 데이터를 장기간 관리해온 이들이라면 익숙할 ‘여러 개의 작은 지도들’ 문제다.

여기 두 개의 데이터 셋이 있다. 하나는 미국 내 도로 사망자 수 데이터고, 다른 하나는 미 가뭄 지표 데이터다.

둘 모두 놀라운 이야기를 담고 있는 자료들이다. 도로 사망자 데이터는 필자의 연구와 관련이 있어 여러 번 인용한 바 있으며, 가뭄 지표는 뉴욕 타임즈에서 크게 다뤄진 바 있다.

아래의 차트들은 1999-2014년의 데이터를 보여주고 있다. 우선, 아래의 차트는 각 해를 한 달 단위로 나눠 가뭄 지표를 제시하고 있다.


미 가뭄 지표, 2005-2014

여러 개의 작은 지도들은 가뭄 데이터를 훌륭하게 보여주고 있다. 비전문가라도 이를 보고 연중 어느 지역이, 그리고 국가 전체적으론 얼마나 심각하게 가뭄을 앓았는지를 파악할 수 있다.

그렇다면 다음 데이터로 넘어가보자. 미국 내 도로 사망자 수 역시 유사한 범위 지표(주 단위, 기간별 구분)로 분류됨으로, 동일하게 여러 개의 작은 지도들로 표시하면 역시 직관적으로 표현이 가능할 것이다. 여기 실제 제작한 차트를 살펴보자.


미 도로 사망자, 1998-2011

딱 봐도 따분하지 않은가? 여기에서 어떤 시각을 뽑아낼 수 있을까? 이 차트를 보고 월, 년 별로 달라지는 차이를 포착하기란 불가능하다. 오랜 기간 전국 단위의 수집을 거쳐 완성된 값진 데이터지만, 여러 개의 작은 지도로 표현하면 벽지로나 쓰일법한 당황스런 형태가 되고 말았다.

그렇다면 우리는 어떻게 데이터에서 이야기를 뽑아내, 적절한 형태의 차트로 제작할 수 있을까? 다음의 단계를 참고해보자.

1. 가장 먼저 데이터 유형에 따른 작업 가이드라인을 이해하는 것이 중요하다. 이와 관련해선 스티븐 퓨(Stephen Few)벤 존스(Ben Jones)의 저서가 도움이 될 것이다. 우선 기본 원칙을 익힌 후 자신만의 고민을 시작해보자.

2. 데이터를 반복적이고 신속하게 연구해보라. 빨리, 자주 실패하는 과정 속에서 데이터 속의 이야기를 발견할 수 있다.

3. 다른 이들의 피드백을 수집하라. 자신이 작성한 차트는 그 핵심이 눈을 감아도 보일 것이다. 그러나 그 메시지를 다른 이들도 읽어낼 수 있을지는 그들의 피드백 없이는 절대 확언할 수 없다. 다른 이들에게 차트를 보여주고, 그 속의 이야기가 명확한지 확인해보라.

* 앤디 콧그리브는 IDG 기고자 네트워크의 일원으로, 제품 컨설팅에서부터 제품 마케팅에 이르는 다양한 역할을 담당했다. 현재는 선임 기술 에반젤리스트 직책을 담당하고 있다. ciokr@idg.co.kr 



2015.08.26

기고 | 데이터 아닌 '스토리'로 차트를 선택하라

Andy Cotgreave | Computerworld
“이봐, 여기 와서 데이터 좀 봐봐. 무슨 차트를 써야 데이터가 잘 보일까?” 일은 하다 보면 드물지 않게 받는 질문이다. 그리고 이런 질문을 받을 때마다 필자의 대답은 한결같다.

“무슨 이야기를 하고 싶은데?”

최고의 차트를 만들려면 듣는 이가 누군지, 그리고 보유한 데이터의 생성 목적은 무엇이며 어떤 유형인지를 모두 고려해야 한다. 이들보다 더 중요한 것은 데이터 안의 ‘어떤 이야기’를 차트로 표현하고자 하는 지의 문제다.

지리적 데이터를 가지고 있다고 해서 반드시 그것을 지도로 그려내거나, 날짜 데이터를 무조건 경향 선으로 표현할 이유는 어디에도 없다. 또한 요소들 간의 관계를 보고 싶은 경우에도 방법은 파이 차트 외에도 다양하다.

핵심은 데이터를 가장 잘 보여줄 방법을 이해하는 것이며, 이를 위해선 가장 먼저, 잘 짜여진 이야기가 필요하다.

“잠깐, 지리 데이터를 지도로 표현하는 게 낡은 방식이라는 얘기야?”

아니다! 필자가 설명하는 핵심은, 차트를 그리기 전에 우선 데이터를 탐구해보라는 것이다. 데이터가 말하는 이야기와 경향을 포착하고, 그것을 가장 잘 표현할, 다시 말 해 독자의 이해를 가장 잘 이끌어낼 방식을 고민해야 한다.

데이터의 유형은 같더라도 그것이 전하는 메시지의 성격과 복잡도 등은 천차만별인데, 어떻게 데이터와 차트 유형을 일대일로 대응할 수 있을까?

우주 왕복선 챌린저 호의 폭발 사고를 예로 들어보자. 이 사고는 로켓 부품 가운데 하나인 O-링이 저온 환경에서 문제를 일으키며 발생했다. 당시 로켓 추진기 엔지니어들은 이 문제를 인지하고 있었고, 비행 플래너들에게 수 차례 그것을 보고했다. 발사 전날까지 엔지니어 한 명이 문제를 제기한 기록이 남아있다.

하지만 엔지니어들이 첨부한 차트는 문제를 인지하는 사람들만 해석할 수 있는 방식으로 작성됐고, 결국 NASA는 해당 보고를 외면했다. 그리고 그 결과, 챌린저 호는 여정을 떠나기도 전 폭발하고 만다.

에드워드 터프트는 엔지니어들이 차트를 다른 방식으로 작성했더라면 비행 플래너들을 설득할 수 있었을 것이고, 챌린저 호에 탑승한 일곱 우주인이 목숨을 잃는 일이 없었을 것이라 주장한다.

그는 O-링의 문제가 전달 과정에서 조금씩 간략화됐으며, 결국 무시해도 되는 문제로 바뀌어버렸다고 지적했다. 이어 하나의 단일 차트로 문제가 정리됐다면 그런 일이 없었을 것이라 강조했다. 또 어떤 데이터 차트에서도 인간의 생명과 관련한 요소는 가장 중점적으로 다뤄져야 한다고 덧붙였다.

또 다른 예를 살펴보자. 지리적 데이터를 장기간 관리해온 이들이라면 익숙할 ‘여러 개의 작은 지도들’ 문제다.

여기 두 개의 데이터 셋이 있다. 하나는 미국 내 도로 사망자 수 데이터고, 다른 하나는 미 가뭄 지표 데이터다.

둘 모두 놀라운 이야기를 담고 있는 자료들이다. 도로 사망자 데이터는 필자의 연구와 관련이 있어 여러 번 인용한 바 있으며, 가뭄 지표는 뉴욕 타임즈에서 크게 다뤄진 바 있다.

아래의 차트들은 1999-2014년의 데이터를 보여주고 있다. 우선, 아래의 차트는 각 해를 한 달 단위로 나눠 가뭄 지표를 제시하고 있다.


미 가뭄 지표, 2005-2014

여러 개의 작은 지도들은 가뭄 데이터를 훌륭하게 보여주고 있다. 비전문가라도 이를 보고 연중 어느 지역이, 그리고 국가 전체적으론 얼마나 심각하게 가뭄을 앓았는지를 파악할 수 있다.

그렇다면 다음 데이터로 넘어가보자. 미국 내 도로 사망자 수 역시 유사한 범위 지표(주 단위, 기간별 구분)로 분류됨으로, 동일하게 여러 개의 작은 지도들로 표시하면 역시 직관적으로 표현이 가능할 것이다. 여기 실제 제작한 차트를 살펴보자.


미 도로 사망자, 1998-2011

딱 봐도 따분하지 않은가? 여기에서 어떤 시각을 뽑아낼 수 있을까? 이 차트를 보고 월, 년 별로 달라지는 차이를 포착하기란 불가능하다. 오랜 기간 전국 단위의 수집을 거쳐 완성된 값진 데이터지만, 여러 개의 작은 지도로 표현하면 벽지로나 쓰일법한 당황스런 형태가 되고 말았다.

그렇다면 우리는 어떻게 데이터에서 이야기를 뽑아내, 적절한 형태의 차트로 제작할 수 있을까? 다음의 단계를 참고해보자.

1. 가장 먼저 데이터 유형에 따른 작업 가이드라인을 이해하는 것이 중요하다. 이와 관련해선 스티븐 퓨(Stephen Few)벤 존스(Ben Jones)의 저서가 도움이 될 것이다. 우선 기본 원칙을 익힌 후 자신만의 고민을 시작해보자.

2. 데이터를 반복적이고 신속하게 연구해보라. 빨리, 자주 실패하는 과정 속에서 데이터 속의 이야기를 발견할 수 있다.

3. 다른 이들의 피드백을 수집하라. 자신이 작성한 차트는 그 핵심이 눈을 감아도 보일 것이다. 그러나 그 메시지를 다른 이들도 읽어낼 수 있을지는 그들의 피드백 없이는 절대 확언할 수 없다. 다른 이들에게 차트를 보여주고, 그 속의 이야기가 명확한지 확인해보라.

* 앤디 콧그리브는 IDG 기고자 네트워크의 일원으로, 제품 컨설팅에서부터 제품 마케팅에 이르는 다양한 역할을 담당했다. 현재는 선임 기술 에반젤리스트 직책을 담당하고 있다. ciokr@idg.co.kr 

X