2016.11.04

에어비앤비, 데이터 과학 공유 플랫폼을 오픈소스로 전환

Sharon Machlis | Computerworld
에어비앤비가 컴퓨터 코드를 공유한다는 원칙에 따라 자사 데이터 과학 공유 플랫폼인 ‘날리지 리포지토리’도 오픈소스로 전환한다고 밝혔다.


에어비앤비 날리지 리포지토리 화면. Credit: Airbnb

대부분의 기업에는 컴퓨터 코드를 점검하고 공유하는 기본적인 절차가 있다. 하지만 데이터 분석에 관해서는 어떨까?

에어비앤비 엔지니어링과 데이터 과학팀의 2명은 지난 2월 “프레젠테이션 자료, 이메일, 구글 문서도구가 뒤섞인 데서 중요한 정보들이 종종 발견되곤 한다”며 블로그에서 밝혔다. 조직 내 누군가가 기존 업무 자료를 사용할 때, 종종 이전 결과물을 재실행하고 확인하며 코드를 업데이트하느라 시간을 낭비하게 된다. 그러고 나서 프레젠테이션 자료, 이메일 또는 구글 문서도구에서 자료를 찾아야 하는 무한 반복 작업을 통해 여기저기 흩어져 있는 자료들을 모으게 될 것이다.

이 문제의 해결 방법에 관해 다양한 아이디어를 고민한 후 에어비엔비는 결과 보고용 마크다운 템플릿과 기트(git) 버전 관리를 결합한 날리지 리포지토리를 사내에 개설했다. 그리고 에어비앤비는 향후 프로젝트 발전에 기여할 사람들을 모색하고자 최근 날리지 리포지토리 베타를 오픈소스로 전환했다.

기트는 일반적으로 개발자들이 코딩할 때 협업하는 데 사용하는 버전 관리와 일종의 동료 평가다. 마크다운은 한번에 쉽게 재생할 수 있는 파일로 텍스트와 코드를 합쳐 놓은 것이다. 마크다운이 일반적으로 무엇을 할 수 있는지에 관한 더 많은 정보는 R스튜디오의 튜토리얼 온 R 마크다운(RStudio's tutorial on R Markdown)에서 알아볼 수 있다. 마크다운은 파이썬 같은 다른 언어에서도 사용할 수 있다.

당신은 마크다운이 일반적으로 할 수 있는 것의 더 많은 정보를 위한 R 마크다운에 르스튜디오의 지침서를 볼 수 있습니다. 마크다운은 또한 파이썬과 같은 다른 언어가 가능하다.

에어비엔비 프레임워크를 사용하려면 파이썬을 설치해야 하며, 이 프레임워크는 몇 개의 포맷에서 ‘날리지 포스트’를 지원한다.

"포스트들은 주피터 노트북, R마크다운 파일이나 평범한 마크다운에서 작성됐지만, 쿼리 파일과 다른 스크립트 등 모든 파일은 정해져 있다. 에어비앤비 스케일링 날리지(Scaling Knowledge at Airbnb)의 미디움 포스트에 따르면, 모든 파일은 작성자, 태그, TLDR 등 적은 량의 정형 메타 데이터와 함께 시작한다. 파이썬 스크립트는 내용을 유효하게 하고, 포스트를 마크다운 구성과 함께 평문으로 전환해 준다. 리뷰 절차를 위해 기트허브의 요청 시스템을 사용할 수도 있다. 사내 블로그가 시간, 주제 또는 내용에 따라 구성되면서, 날리지 리포지토리의 콘텐츠를 담은 플라스크 웹-앱이 됐다.

기트허브 저장소에 따르면, 에어비앤비의 날리지 리포지토리는 특히 노트북(R마크다운과 주피터/아이파이썬 노트북)에 중점을 두고 날리지 포스트용 다양한 데이터 저장소를 제공하고 있다. ciokr@idg.co.kr
 



2016.11.04

에어비앤비, 데이터 과학 공유 플랫폼을 오픈소스로 전환

Sharon Machlis | Computerworld
에어비앤비가 컴퓨터 코드를 공유한다는 원칙에 따라 자사 데이터 과학 공유 플랫폼인 ‘날리지 리포지토리’도 오픈소스로 전환한다고 밝혔다.


에어비앤비 날리지 리포지토리 화면. Credit: Airbnb

대부분의 기업에는 컴퓨터 코드를 점검하고 공유하는 기본적인 절차가 있다. 하지만 데이터 분석에 관해서는 어떨까?

에어비앤비 엔지니어링과 데이터 과학팀의 2명은 지난 2월 “프레젠테이션 자료, 이메일, 구글 문서도구가 뒤섞인 데서 중요한 정보들이 종종 발견되곤 한다”며 블로그에서 밝혔다. 조직 내 누군가가 기존 업무 자료를 사용할 때, 종종 이전 결과물을 재실행하고 확인하며 코드를 업데이트하느라 시간을 낭비하게 된다. 그러고 나서 프레젠테이션 자료, 이메일 또는 구글 문서도구에서 자료를 찾아야 하는 무한 반복 작업을 통해 여기저기 흩어져 있는 자료들을 모으게 될 것이다.

이 문제의 해결 방법에 관해 다양한 아이디어를 고민한 후 에어비엔비는 결과 보고용 마크다운 템플릿과 기트(git) 버전 관리를 결합한 날리지 리포지토리를 사내에 개설했다. 그리고 에어비앤비는 향후 프로젝트 발전에 기여할 사람들을 모색하고자 최근 날리지 리포지토리 베타를 오픈소스로 전환했다.

기트는 일반적으로 개발자들이 코딩할 때 협업하는 데 사용하는 버전 관리와 일종의 동료 평가다. 마크다운은 한번에 쉽게 재생할 수 있는 파일로 텍스트와 코드를 합쳐 놓은 것이다. 마크다운이 일반적으로 무엇을 할 수 있는지에 관한 더 많은 정보는 R스튜디오의 튜토리얼 온 R 마크다운(RStudio's tutorial on R Markdown)에서 알아볼 수 있다. 마크다운은 파이썬 같은 다른 언어에서도 사용할 수 있다.

당신은 마크다운이 일반적으로 할 수 있는 것의 더 많은 정보를 위한 R 마크다운에 르스튜디오의 지침서를 볼 수 있습니다. 마크다운은 또한 파이썬과 같은 다른 언어가 가능하다.

에어비엔비 프레임워크를 사용하려면 파이썬을 설치해야 하며, 이 프레임워크는 몇 개의 포맷에서 ‘날리지 포스트’를 지원한다.

"포스트들은 주피터 노트북, R마크다운 파일이나 평범한 마크다운에서 작성됐지만, 쿼리 파일과 다른 스크립트 등 모든 파일은 정해져 있다. 에어비앤비 스케일링 날리지(Scaling Knowledge at Airbnb)의 미디움 포스트에 따르면, 모든 파일은 작성자, 태그, TLDR 등 적은 량의 정형 메타 데이터와 함께 시작한다. 파이썬 스크립트는 내용을 유효하게 하고, 포스트를 마크다운 구성과 함께 평문으로 전환해 준다. 리뷰 절차를 위해 기트허브의 요청 시스템을 사용할 수도 있다. 사내 블로그가 시간, 주제 또는 내용에 따라 구성되면서, 날리지 리포지토리의 콘텐츠를 담은 플라스크 웹-앱이 됐다.

기트허브 저장소에 따르면, 에어비앤비의 날리지 리포지토리는 특히 노트북(R마크다운과 주피터/아이파이썬 노트북)에 중점을 두고 날리지 포스트용 다양한 데이터 저장소를 제공하고 있다. ciokr@idg.co.kr
 

X