Offcanvas

AI / 머신러닝|딥러닝 / 비즈니스|경제 / 빅데이터 | 애널리틱스 / 애플리케이션

자동차 정보 공유 플랫폼 에드먼즈, 데이터 인프라 통합으로 AI 기반을 만들다

2023.07.12 Thor Olavsrud  |  CIO
자동차 정보 및 리뷰 공유 서비스 업체 에드먼즈(Edmunds)는 생성형 AI 및 기타 머신러닝 기능을 활용하는 과정에서 데이터 처리, 데이터 웨어하우징 및 데이터 과학을 위한 인프라를 다시 구상하는 작업을 먼저 시행해야 했다. 
 
ⓒ Getty Images Bank

미국 캘리포니아에 본사를 두고 자동차 정보 및 리뷰 공유 서비스를 제공하는 에드먼즈는 10년 동안 데이터 인프라를 통합하는 데 여러 노력을 기울여왔다. 이제 보다 적극적으로 데이터 하우스의 인프라를 관리하면서 에드먼즈는 인공지능(AI)과 머신러닝(ML)을 핵심으로 하는 대담하고 새로운 미래를 구상하고 있다.

에드먼즈의 기술 담당 부사장인 그렉 로키타는 “우리는 통합 과제를 대부분 해결했다. 이제는 어떻게 AI 환경에서 계속 앞서 나갈 것인지, 제품 팀의 생산성을 높이고 경쟁업체보다 우위를 점하기 위해 어떤 기반 프레임워크를 개발해야 하는지에 주목하고 있다”라고 말했다.

로키타는 에드먼즈에서 2005년 기술 담당 전무로 시작하여 18년 이상 근무했다. 이제 그의 역할은 데이터 엔지니어링, 애널리틱스 개발, 차량 재고 및 통계와 가격 책정 팀에 대한 책임을 아우르고 있다.

에드먼즈는 1966년에 일련의 인쇄된 구매 가이드로서 탄생했으며 1990년대에 CD-ROM을 통해 데이터를 제공하기 시작했다. 온라인 기반 서비스를 전환하려는 노력은 그로부터 얼마되지 않은 후 시작됐다. 로키타는 에드먼즈가 첫 번째 무료 온라인 잡지를 창간했을 때 합류했다. 몇 년 후 그의 팀은 회사의 첫 번째 스마트폰 앱을 출시했다.

현재 에드먼즈의 웹사이트는 신차 및 중고 차량 가격, 딜러 및 재고 목록, 차량 리뷰 및 자동차 소유와 구매에 대한 조언까지도 제공한다. 에드먼즈는 2021년에 카맥스에 4억 400만 달러에 인수되었다.

로키타가 AI 환경에서 선두를 유지하고자 하는 방법 중 하나는 에드워즈의 비정형 데이터(차량 리뷰, 등급, 사설)를 생성형 AI에 노출시키는 새로운 챗GPT 플러그인을 만드는 것이다.

오픈AI는 ‘커먼 크롤(Common Crawl)’이라고 불리는 공개적으로 사용 가능한 수십억 개의 웹페이지에서 생성형 AI를 훈련시켰다. 하지만 빠른 인터넷 세상에서 크롤링한 데이터는 업데이트되지 않을 경우 너무 오래된 데이터로 변해있기도 하다. 에드먼즈의 새로운 플러그인에 대한 아이디어는 전문화되고 지속적으로 업데이트되는 대규모 데이터 모음에서 끌어낼 수 있는 기능을 챗GPT에게 제공하는 것이다.

로키타는 “‘토요타 캠리 2022는 어떻게 몰아야 하는가?’라고 물으면 아무 해답도 얻지 못할 것이다. 플러그인을 개발하여 최신 데이터를 제공하려 한다”라고 말했다.

에드먼즈에게는 생성형 AI로 차량의 더 자세한 세부 정보나 사진을 원하는 사용자가 사이트 링크를 클릭하여 트래픽이 궁극적으로 올라가기를 기대하고 있다. 

거의 모든 산업을 변화시킨 2000년대의 인터넷 혁명과 마찬가지로, 로키타는 우리가 이제 새로운 변곡점에 서 있다고 굳게 믿고 있다.

로키타는 “20~30년 전에는 인터넷이 모든 회사에 정착되었다. 우리는 바로 지금 AI에서도 같은 일이 일어나고 있다고 생각한다. 농업 회사든, 산업 회사든, 건설 회사든 상관없이 AI가 회사에 내장되어 자재를 주문하는 방법, 작물에 물을 주어야 하는지 여부를 결정하는 방법 등을 최적화한다”라고 밝혔다.

그럼 의미에서 로키타는 AI가 회사 구조의 일부가 되지 않으면 에드먼즈는 뒤쳐질 수 있다고 보고 있다. 그는 “우리 팀의 과제는 AI 관련 프레임워크를 만들고 그 경로 위에서 회사를 다시 시작하는 것이다”라고 설명했다.

로키타는 이러한 전환의 핵심은 데이터 웨어하우스와 AI/ML을 서로 다른 시스템을 갖춘 별도의 부서로 생각하지 않는 것이라고 표현했다.

로키타는 “데이터 웨어하우스와 AI/ML는 동일한 시스템의 다른 표현이라는 것을 이해해야 한다. 데이터 웨어하우스는 과거 데이터에 관한 것이다. AI 모델은 미래 데이터에 관한 것이다. 과거의 행동과 미래의 행동이 예측되어 하나의 타임라인이 되는 테이블을 상상해 봐야 한다”라고 말했다.

해당 아이디어를 기반으로 로키타는 에드먼즈의 데이터 인프라를 통합하기 시작했다. 새로운 데이터 기술의 이점을 일찍부터 인식한 많은 기업들과 마찬가지로 에드먼즈의 데이터 인프라는 동급 최고의 포인트 솔루션으로 성장했다.

그는 “네테자(Netezza) 및 테라데이터(Teradata)와 같은 전문 시스템을 통해 처리하면서 우리는 오라클 랙을 기반으로 구축된 전용 데이터 웨어하우스로 시작했다. 하둡에서 데이터를 처리한 다음 네테자에 로드 하여 사람들이 데이터를 조회할 수 있도록 하곤 했다”라고 설명했다.

약 10년 전, 로키타는 인프라 통합 여정을 시작했다. 첫 번째 단계는 클라우드로 전환하는 것이었다. 로키타의 팀은 네테자를 아마존 레드시프트로 교체하고, 데이터 과학 및 AI를 위한 데이터브릭스 클라우드 플랫폼을 추가했다. 그러나 통합에는 큰 진전이 없었다. 데이터 과학, 데이터 웨어하우징 및 데이터 처리를 위한 서로 다른 시스템으로 인해 해당 팀은 여전히 데이터가 동기화되지 않을까 우려해야 했다.

로키타는 “애널리스트와 협력하여 두 가지 다른 지점에 있는 데이터를 볼 때 해당 데이터가 일치하지 않으면 신뢰를 잃게 된다. 조직 내 사용자가 데이터를 일관되게 보는 것이 핵심이다”라고 말했다.

데이터브릭스가 플랫폼에 새로운 데이터 웨어하우징 기능을 추가함에 따라 로키타는 레드시프트 및 하둡에서 벗어나 대신 데이터브릭스를 AWS의 추가적인 계층으로 사용하여 모든 작업을 수행하기로 결정했다. 로키타는 이러한 변화가 비용 절감에 도움이 되었을 뿐만 아니라 운영 관리도 더욱 용이하게 만들었다고 설명했다.

로키타는 “이제는 데이터를 복제하지 않고도 그 위에 모델을 생성할 수는 추가적인 장점이 있는 데이터 처리와 서비스를 모두 처리하는 하나의 시스템을 갖추게 되었다”라고 밝혔다.

로키타 팀은 데이터브릭스의 최신 기능인 데이터브릭스 마켓플레이스(데이터, AI 모델 및 애플리케이션을 위한 마켓플레이스)를 활용하고 있다. 데이터브릭스는 해당 서비스에서 오픈소스 기반 모델을 큐레리팅 하고, 지침 준수 및 텍스트 요약 같은 기능을 지원하고 있다. S&P 글로벌 익스페리언, 아큐웨더, 렉시스넥시스 등과 같은 타사 데이터 공급업체도 데이터브릭스 마켓플레이스에 등록되있다.

로키타는 “해당 기능으로 복잡한 개발 없이 버튼 하나만 클릭하여 타사 데이터를 에드먼즈의 데이터에 결합할 수 있다. 이는 많은 기업에게 애널리틱스 및 ML 사용에 대한 새로운 지평을 열어줄 것”이라고 밝혔다.

그는 특히 에드먼즈의 모회사인 카맥스가 자체 데이터브릭스 인스턴스를 실행하지만, 해당 인스턴스는 마이크로소프트 애저에서 실행되고 에드먼즈의 인스턴스는 AWS에서 실행된다는 점에 주목했다. 마켓플레이스를 사용하면 인프라를 통합할 필요가 없다.

로키타는 “우리는 종종 서로 데이터를 공유하기를 원한다. 이제 개발 비용 없이 우리는 그들과 데이터 세트를 공유하고 그들도 우리와 데이터 세트를 공유할 수 있다. 우리는 데이터 공유뿐만 아니라 모델 공유와 대시보드 공유 등 다음에 일어날 일에 대해 매우 흥분하고 있다”라고 말했다.
ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.