데이터 분석, 시각화를 위한 새로운 도구를 찾고있는가? NICAR(National Institute for Computer-Assisted Reporting) 컨퍼런스에서 처음 선보인 이 슬라이드 프레젠테이션에서는 수십 가지 대안이 담겨 있다. 이 중에서 데이터 작업을 향상시켜줄 애플리케이션, 서비스, 혹은 학습 자원을 최소한 한 가지 이상은 분명히 찾게될 것이다.
CTS 코드
... div 태그 안에 이런 HTML 코드를 작성하기만 하면 된다. (여기에서는 각각 HTML 목록으로의 두개의 HTML 테이블이 있다) 그래서 필수 자바스크립트(javaScript) 라이브러리가 페이지에 포함되어 있는 한, 기본 HTML을 아는 누구나 사용할 수 있다.
구글 차트 툴
구글에는 두가지 각기 다른 차트 플랫폼이 있었다. 하나는 고정식 JPG 이미지를 만드는 것이다. 그러나 이는 점차 사라지는 분위기다. 나머지 하나는 웹사이트에 임베드 하기위한 인터랙티브 차트를 만드는 차트 툴 API다.
흥미롭게도, 구글의 차트 툴은 구글이 “차트 툴 데이터 소스”라 부르는 프로토콜을 포함한다. 이로인해 SQL-같은 쿼리를 당신의 데이터에 할 수 있는데, 그 프로토콜은 구글 스프레드시트와 퓨전 테이블(Fusion Tables)로 시행된다.
그러나 구글이 내부 개편을 하면서 서비스를 종종 없애버린다는 점을 명심해야 한다. 이는 특히 장기적 프로젝트를 진행할때 구글 API에 의존하는 것을 다시한번 생각하게 만든다.
더 많은 정보: https://developers.google.com/chart/
테이블톱.js
공공 라디오 방송국 WNYC는 밸런스 미디어(Balance Media)와 협력하여 구글 스프레드시트에서 데이터를 쉽게 추출하고 그 데이터를 당신이 원하는 포맷으로 표시해주는 테이블톱(Tabletop)이라는 이름의 자바스크립트 라이브러리를 만들었다.
이를 활용할 경우 스프레드시트를 업데이트 하면 그 즉시 HTML 버전이 웹페이지에 업데이트되게 된다. WNYC의 시장 후보 추적기에서 벌어지는 일들이 바로 테이블톱의 좋은 예로 볼 수 있다.
더 많은 정보: http://builtbybalance.com/Tabletop
데이터세트
데이터세트(Dataset) 자바스크립트 라이브러리 역시 구글 스프레드시트에서 데이터를 잡아낼 수 있다. 사실 설치할 수 있는 브라우저 북마클릿(bookmarklet)도 있기는 하다. 이를 이용해 공공 스프레드시트를 볼 때, 그 데이터를 사용해 클릭으로 몇몇 기본 데이터세트 코드를 생성할 수 있다.
그러나 데이터세트은 다양한 형태의 원격 혹은 지역 소스로부터의 데이터 획득, 쿼리, 변환등을 돕도록 설계되어 북마클릿보다 훨씬 더 많은 일들을 할 수 있게 해준다.
데이터세트는 가디언(Guardian)과 부쿠(Boucoup)에 의해 만들어진 미소 프로젝트(Miso Project)의 일환으로, 빌과 멜린다 게이츠 재단(Bill and Melinda Gates Foundation)을 비롯한 여러 주체들의 후원을 받고 있다. 데이터세트는 수많은 예시와 학습 교재들이 아주 잘 문서화돼 있다.
더 많은 정보: http://misoproject.com/dataset
구글 퓨전 테이블
구글 앱에 저장된 데이터를 시각화에 사용하고 싶은 경우, 구글의 자체 퓨전 테이블(Fusion Tables)이 몇몇 유형의 데이터비즈(dataviz)를 상당히 간편하게 해준다. 특히 지도가 대표적이다.
사용자 지역과 관련된 데이터로 테이블에 참여하여 그 지역의 지리를 규정하고 이를 지도로 표시할 수 있다.
더 많은 정보: http://www.google.com/drive/start/apps.html#fusiontables
퓨전 테이블 지도 예시
이 예시 지도는 미국 매사추세츠주(Massachusetts) 주의원 지역구마다의 인구 변화를 지도상에 표시한다.
더욱 유용한 툴이 필요하다면, 컴퓨터월드(Computerworld)의 구글 퓨전 테이블 안에서 지도를 작성하는 방법 기사를 참고하라. 구글은 또 수많은 퓨전 테이블 교육 교재등을 포스팅 해오고 있다.
ESRI 매핑 포 에브리원
ESRI의 매핑 포 에브리원(Mapping for Everyone)은 몇몇 각기 다른 유형의 지도를 작성하고 이를 웹페이지 상에 넣도록 해주는 무료 툴이다.
이 지도는 오직 ESRI가 포함한 데이터 세트만 사용할 수 있어서, 사용자 스스로의 데이터를 올리진 못한다. 만약 이용가능한 데이터가 당신의 요구사항을 충족시키지 못하는 경우가 있을 수 있다. 매핑 포 에브리원 페이지는 역시 그런 상황에 대비하여 매핑 APIs(mapping APIs)를 포함한 기타 무료 ESRI 툴로의 링크를 제공한다.
퀀텀 GIS(QGIS)
QGIS(Quantum GIS)는 아크GIS(arcgis) 소프트웨어의 오픈소스 대안으로, 많은 노동 절감 기능들만큼 세련되진 않았지만, 아주 유능하고 팔팔하다. QGIS 커뮤니티는 그 기능성을 더욱 연장시켜줄 수많은 플러그인들을 만들어왔다.
당신은 다수의 데이터 테이블을 QGIS의 멀티-레이어 지도 안에 로드하고, 공통 필드상에 테이블에 참여하고, 제대로된 지리적 시각화와 분석을 수행할 수 있다.
받는곳: http://www.qgis.org
통계적 컴퓨팅을 위한 R 프로젝트
통계적 컴퓨팅을 위한 R 프로젝트(R Project for Statistical Computing)는 연구쪽과 학계 커뮤니티에서 데이터 분석에 아주 많이 사용되고 있으며, 시각화에도 상당히 적합하다. QGIS에서처럼, 성능을 상당부분 연장시켜주는 수많은 플러그인과 툴이 존재한다.
베이직 R(Basic R)은 윈도우, 맥(Mac) 그리고 다양한 유닉스 플랫폼 상에서 실행되는 무료 명령-행 툴이지만, 그 플랫폼에 관련된 전체적 생태계 또한 존재한다. 예를 들어, R스튜디오(RStudio)는 R과 사용하도록 설계된 무료 IDE다. 엑셀 내에서 사용하기위한 (비영리 사용 목적에는 무료인) 플러그인까지 있을 정도다.
받는 곳: http://www.r-project.org
R 배우기
많은 명령행 환경들과 마찬가지로, R에도 학습 곡선이 있다. 몇몇 자원은 NICAR(National Institute for Computer Assisted Reporting)에서 온 것이다:
- 피터 알드하우스(Peter Aldhous)의 통계용 R(R for Statistics): 첫 걸음, PDF(First Steps, PDF)
- 제이콥 펜튼(Jacob Fenton)의 핸즈-온 R(Hands-on R), 단계적 안내, PDF
- 핸들리 위캠(Handley Wickham)의 NICAR 13 슬라이드와 코드
스탯윙
스탯윙(Statwing)은 원클릭 데이터 분석을 제공한다: 데이터를 업로드하고, 빈도, 시각화, 상관도 등의 분석을 위한 각기 다른 변수를 선택하면 된다.
클라우드 서비스가 데이터를 자동-분석하도록 하는데 있어 당연히 조심해야할 필요가 있다. 그러나 스탯윙은 통계학적 유효성과 효과 크기 같은 결론에 어떻게 이르렀는지를 고급 탭 안에서 분명 설명하고 있다.
스탯윙은 데이터 1MB를 24시간 저장하도록 무료 계정을 제공한다. (더 많은 스토리지는 물론, 데이터가 사이트상에 남아있길 원한다면, 월 25달러 요금제 구독를 선택해야 한다.)
받는 곳: https://www.statwing.com