2020.06.25

굿바이 하둡! 라쿠텐, 클라우드 기반 스노우플레이크로 전환

Scott Carey | InfoWorld
일본 전자상거래 대기업 라쿠텐의 미국 내 자회사인 라쿠텐 리워즈가 하드웨어 비용을 줄이고 더 쉽게 자산을 관리하기 위해 하둡 대신 새로운 시스템을 도입했다. 

캘리포니아에 있는 라쿠텐 리워즈는 웹에서 제휴 마케팅 링크로 돈을 버는 쇼핑 포인트 회사다. 이에 대한 보상으로 회원들은 파트너 소매기업을 통해 구매할 때마다 포인트와 캐쉬백 보상을 얻는다.
 
ⓒGetty Images Bnak

따라서 많은 사용자 통찰 데이터를 얻을 수밖에 없으며, 정확히 말하자면 콜드 스토리지 안에 수백 테라바이트의 데이터가 저장되어 있다.

2018년 라쿠텐 리워즈는 파이썬이나 스칼라 코딩 작업 없이 더 많은 사용자에게 이 통찰을 제대로 제공하기위해, 그리고 하드웨어에 대한 자본 지출을 줄이기 위해 클라우드를 고려하기 시작했다.

‘SQL 서버 기기는 우아하게 확장되지 않는다’
이베이츠(Ebates)라는 이름을 사용했던 이 회사는 2014년에 일본의 전자상거래 대기업 라쿠텐(Rakuten)에 인수됐으며 그 이후로 빠르게 성장하면서 기술 스택을 현대화하고 고객을 유도하고 유지하는 방식을 더욱 데이터 지향적으로 바꾸게 되었다.

그 시작은 아키텍처였다. 지난 3년 동안, 라쿠텐 리워즈는 자사의 빅데이터 자산을 대부분 온프레미스 SQL에서 온프레미스 하둡으로 이전했으며 지금은 스노우플레이크의 클라우드 데이터 웨어하우스 서비스로 이전했다.

라쿠텐 리워즈의 분석 VP 마크 스테인지 트리기어는 “SQL 서버 기기는 우아하게 확장되지 않기 때문에 우리는 클라우데라를 통해 온프레미스 하둡을 선택했고 스파크와 파이썬을 사용하여 ETL을 운용했으며 거기에서 어느 정도 성능을 얻었다”라고 <인포월드>에 밝혔다.

그는 “[하둡] 구조를 관리하는 것은 다소 복잡한 일이기 때문에 클라우드 웨어하우스를 본 후 이전을 결정했고 중앙 집중식 기업용 데이터 웨어하우스와 레이크를 갖게 되었다”라고 말했다.

전직 블룸버그 개발자이자 빅데이터 컨설턴트인 마크 리트빈치크는 자신의 블로그 게시물 “하둡은 죽었나?”에서 2010년대 초가 지난 이후로 하둡에 대한 관심이 점점 줄어들고 있다고 주장했다.

현재 데이터 엔지니어링팀의 부담을 크게 경감해 주는 클라우드 프레임워크는 기업들이 유휴 온프레미스 기기 보유 비용을 줄이고 전반적인 분석 활동을 간소화하는 방법을 고려하면서 인기가 높아지고 있다.

하둡에서 갈아타기
스테인지 트리기어와 수석 데이터 엔지니어 조지 존은 2018년 중반 자사의 핵심 시스템을 AWS 퍼블릭 클라우드 인프라 기반의 스노우플레이크 클라우드 데이터 웨어하우스로 대대적으로 데이터 마이그레이션하기로 결정했다.

이 마이그레이션은 2019년 말에 완료될 ETL 및 실제 데이터 생성 작업 부하를 이동하기 전에 보고 계층과 기업에서 가장 많이 사용하는 데이터 세트부터 시작되었으며, 더욱 민감한 HR 및 신용카드 정보는 제외되었다.

클라우드 컴퓨팅을 활용함으로써 라쿠텐은 첨두 쇼핑 시간에 맞추어 더욱 잘 확장/축소할 수 있다. 또한 스노우플레이크를 통해 해당 기업은 자사의 데이터 레이크를 일련의 다양한 모양과 크기를 가진 웨어하우스로 분할하여 여러 팀의 요건을 충족하면서 팀들이 단일 클러스터에서 메모리 또는 CPU 용량을 두고 경쟁하지 않고 필요에 따라 일회성 프로젝트를 위해 새로운 것을 생성할 수 있게 되었다.

스테인지 트리기어는 “이전에는 한 사용자의 대규모 SQL 쿼리가 실질적으로 다른 사용자의 다른 쿼리를 차단하거나 붕괴시키거나 우리의 ETL 처리의 일부를 방해할 수 있었다. 기업이 성장하고 데이터 용량이 폭발적으로 증가하면서 쿼리 실행에 더 많은 시간이 소요되었다. 우리는 결국 이런 문제를 해결하기 위해 다른 기기에서 데이터를 시도하고 복제해야 했으며, 그 후 우리가 대규모 데이터 복제 및 동기화의 범위를 처리해야 하는 상황이 오면서 일련의 다른 문제도 생겨났다”라고 설명했다.

라쿠텐이 자사 분석가들에게 제공하는 보상
현재 라쿠텐은 고객 부문에서 매일 단일 고객의 쇼핑 이력 전체 수준까지 더욱 손쉽게 재처리할 수 있다. 그리고 더욱 효과적인 마케팅 표적화 또는 추천 모델링을 위해 그들의 관심 영역을 재구성할 수 있다. 이는 고객이 새로운 신발 구매를 실제로 고려하는 순간에 이에 대해 생각할 시간을 주는 대신에 표적화된 제안을 제공하는 데 도움이 된다.

스테인지 트리기어는 “수천만 개의 계정에서 이를 하루 동안 여러 번에 걸쳐 수행할 수 있다. 그리고 각 사용자의 그것을 JSON 모델로 패키지화하고 각 회원 프로필이 모든 사용자에 대해 하루에 여러 번 다시 계산하여 단 몇 줄의 SQL로 쿼리 처리된다”라고 설명했다.

이를 통해 파이썬 또는 스파크 기술이 있는 데이터 과학자부터 SQL에 익숙한 분석가까지 다양한 사람으로부터 얻은 자잘한 통찰로부터 분석이 민주화된다.

스테인지 트리기어는 “스칼라, 파이썬, 스파크보다는 SQL로 코딩하는 사람을 찾기가 쉽다. 이것이 하나의 적절한 SQL 패키지로 제공되기 때문에 현재 스칼라보다는 파이썬 기술이 뛰어난 나의 분석팀은 보고, 분석, 기능 엔지니어링을 위한 데이터 파이프라인을 더욱 쉽게 생성할 수 있다”라고 말했다.

현재 클라우드 성능 개선 덕분에 결제 처리 등의 다른 빅데이터 작업에 훨씬 적은 시간이 소요되고 있다.

스테인지 트리기어는 “수억 달러의 결제금을 처리하려면 많은 일을 해야 한다. 보통 이런 중대한 분기별 업무에 수 주가 소요되었지만, 이제는 며칠 만에 계산하고 처리하며 재측정 할 수 있다”라고 말했다.

하둡 이후의 삶
이 모든 노력에는 어느 정도의 비용 효율성도 수반된다. 스테인지 트리기어 CFO 조지 존은 현재 비즈니스 기능별 일일 데이터 처리 비용을 명시한 일일 타블로 보고서를 받고 있다.

스테인지 트리기어는 “각 [기능의] 효율적인 비용을 확인하고 이를 장기간에 걸쳐 유지할 수 있다. 우리의 지출처와 최적화 시간 소요 대상을 손쉽게 확인할 수 있으며, 새로운 작업 부하는 비용을 즉시 보여준다. 하둡에서는 어려운 부분이었다”라고 설명했다. ciokr@idg.co.kr



2020.06.25

굿바이 하둡! 라쿠텐, 클라우드 기반 스노우플레이크로 전환

Scott Carey | InfoWorld
일본 전자상거래 대기업 라쿠텐의 미국 내 자회사인 라쿠텐 리워즈가 하드웨어 비용을 줄이고 더 쉽게 자산을 관리하기 위해 하둡 대신 새로운 시스템을 도입했다. 

캘리포니아에 있는 라쿠텐 리워즈는 웹에서 제휴 마케팅 링크로 돈을 버는 쇼핑 포인트 회사다. 이에 대한 보상으로 회원들은 파트너 소매기업을 통해 구매할 때마다 포인트와 캐쉬백 보상을 얻는다.
 
ⓒGetty Images Bnak

따라서 많은 사용자 통찰 데이터를 얻을 수밖에 없으며, 정확히 말하자면 콜드 스토리지 안에 수백 테라바이트의 데이터가 저장되어 있다.

2018년 라쿠텐 리워즈는 파이썬이나 스칼라 코딩 작업 없이 더 많은 사용자에게 이 통찰을 제대로 제공하기위해, 그리고 하드웨어에 대한 자본 지출을 줄이기 위해 클라우드를 고려하기 시작했다.

‘SQL 서버 기기는 우아하게 확장되지 않는다’
이베이츠(Ebates)라는 이름을 사용했던 이 회사는 2014년에 일본의 전자상거래 대기업 라쿠텐(Rakuten)에 인수됐으며 그 이후로 빠르게 성장하면서 기술 스택을 현대화하고 고객을 유도하고 유지하는 방식을 더욱 데이터 지향적으로 바꾸게 되었다.

그 시작은 아키텍처였다. 지난 3년 동안, 라쿠텐 리워즈는 자사의 빅데이터 자산을 대부분 온프레미스 SQL에서 온프레미스 하둡으로 이전했으며 지금은 스노우플레이크의 클라우드 데이터 웨어하우스 서비스로 이전했다.

라쿠텐 리워즈의 분석 VP 마크 스테인지 트리기어는 “SQL 서버 기기는 우아하게 확장되지 않기 때문에 우리는 클라우데라를 통해 온프레미스 하둡을 선택했고 스파크와 파이썬을 사용하여 ETL을 운용했으며 거기에서 어느 정도 성능을 얻었다”라고 <인포월드>에 밝혔다.

그는 “[하둡] 구조를 관리하는 것은 다소 복잡한 일이기 때문에 클라우드 웨어하우스를 본 후 이전을 결정했고 중앙 집중식 기업용 데이터 웨어하우스와 레이크를 갖게 되었다”라고 말했다.

전직 블룸버그 개발자이자 빅데이터 컨설턴트인 마크 리트빈치크는 자신의 블로그 게시물 “하둡은 죽었나?”에서 2010년대 초가 지난 이후로 하둡에 대한 관심이 점점 줄어들고 있다고 주장했다.

현재 데이터 엔지니어링팀의 부담을 크게 경감해 주는 클라우드 프레임워크는 기업들이 유휴 온프레미스 기기 보유 비용을 줄이고 전반적인 분석 활동을 간소화하는 방법을 고려하면서 인기가 높아지고 있다.

하둡에서 갈아타기
스테인지 트리기어와 수석 데이터 엔지니어 조지 존은 2018년 중반 자사의 핵심 시스템을 AWS 퍼블릭 클라우드 인프라 기반의 스노우플레이크 클라우드 데이터 웨어하우스로 대대적으로 데이터 마이그레이션하기로 결정했다.

이 마이그레이션은 2019년 말에 완료될 ETL 및 실제 데이터 생성 작업 부하를 이동하기 전에 보고 계층과 기업에서 가장 많이 사용하는 데이터 세트부터 시작되었으며, 더욱 민감한 HR 및 신용카드 정보는 제외되었다.

클라우드 컴퓨팅을 활용함으로써 라쿠텐은 첨두 쇼핑 시간에 맞추어 더욱 잘 확장/축소할 수 있다. 또한 스노우플레이크를 통해 해당 기업은 자사의 데이터 레이크를 일련의 다양한 모양과 크기를 가진 웨어하우스로 분할하여 여러 팀의 요건을 충족하면서 팀들이 단일 클러스터에서 메모리 또는 CPU 용량을 두고 경쟁하지 않고 필요에 따라 일회성 프로젝트를 위해 새로운 것을 생성할 수 있게 되었다.

스테인지 트리기어는 “이전에는 한 사용자의 대규모 SQL 쿼리가 실질적으로 다른 사용자의 다른 쿼리를 차단하거나 붕괴시키거나 우리의 ETL 처리의 일부를 방해할 수 있었다. 기업이 성장하고 데이터 용량이 폭발적으로 증가하면서 쿼리 실행에 더 많은 시간이 소요되었다. 우리는 결국 이런 문제를 해결하기 위해 다른 기기에서 데이터를 시도하고 복제해야 했으며, 그 후 우리가 대규모 데이터 복제 및 동기화의 범위를 처리해야 하는 상황이 오면서 일련의 다른 문제도 생겨났다”라고 설명했다.

라쿠텐이 자사 분석가들에게 제공하는 보상
현재 라쿠텐은 고객 부문에서 매일 단일 고객의 쇼핑 이력 전체 수준까지 더욱 손쉽게 재처리할 수 있다. 그리고 더욱 효과적인 마케팅 표적화 또는 추천 모델링을 위해 그들의 관심 영역을 재구성할 수 있다. 이는 고객이 새로운 신발 구매를 실제로 고려하는 순간에 이에 대해 생각할 시간을 주는 대신에 표적화된 제안을 제공하는 데 도움이 된다.

스테인지 트리기어는 “수천만 개의 계정에서 이를 하루 동안 여러 번에 걸쳐 수행할 수 있다. 그리고 각 사용자의 그것을 JSON 모델로 패키지화하고 각 회원 프로필이 모든 사용자에 대해 하루에 여러 번 다시 계산하여 단 몇 줄의 SQL로 쿼리 처리된다”라고 설명했다.

이를 통해 파이썬 또는 스파크 기술이 있는 데이터 과학자부터 SQL에 익숙한 분석가까지 다양한 사람으로부터 얻은 자잘한 통찰로부터 분석이 민주화된다.

스테인지 트리기어는 “스칼라, 파이썬, 스파크보다는 SQL로 코딩하는 사람을 찾기가 쉽다. 이것이 하나의 적절한 SQL 패키지로 제공되기 때문에 현재 스칼라보다는 파이썬 기술이 뛰어난 나의 분석팀은 보고, 분석, 기능 엔지니어링을 위한 데이터 파이프라인을 더욱 쉽게 생성할 수 있다”라고 말했다.

현재 클라우드 성능 개선 덕분에 결제 처리 등의 다른 빅데이터 작업에 훨씬 적은 시간이 소요되고 있다.

스테인지 트리기어는 “수억 달러의 결제금을 처리하려면 많은 일을 해야 한다. 보통 이런 중대한 분기별 업무에 수 주가 소요되었지만, 이제는 며칠 만에 계산하고 처리하며 재측정 할 수 있다”라고 말했다.

하둡 이후의 삶
이 모든 노력에는 어느 정도의 비용 효율성도 수반된다. 스테인지 트리기어 CFO 조지 존은 현재 비즈니스 기능별 일일 데이터 처리 비용을 명시한 일일 타블로 보고서를 받고 있다.

스테인지 트리기어는 “각 [기능의] 효율적인 비용을 확인하고 이를 장기간에 걸쳐 유지할 수 있다. 우리의 지출처와 최적화 시간 소요 대상을 손쉽게 확인할 수 있으며, 새로운 작업 부하는 비용을 즉시 보여준다. 하둡에서는 어려운 부분이었다”라고 설명했다. ciokr@idg.co.kr

X