Offcanvas

AI / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스 / 애플리케이션 / 오픈소스

스파크로 오픈소스 데이터 관리 쉽게…데이터브릭스, 허깅페이스와 맞손

2023.04.27 이지현  |  CIO KR
데이트브릭스가 아파치 스파크 데이터 프레임에서 허깅페이스(Hugging Face)의 데이터세트를 보다 쉽게 활용할 수 있도록 기술을 개선했다고 26일 밝혔다. 허깅페이스와 협업을 통해 만든 이번 기술로 사용자는 AI 모델 개발 과정에서 필요한 고품질 데이터 세트 생성 과정을 간소화할 수 있을 것으로 보인다. 
 
ⓒ 허깅페이스&데이터브릭스

허깅페이스 데이터세트란 AI 및 데이터 분석에 필요한 오픈소스 기반 데이터를 모아둔 것이다. 이미지, 자연어, 오디오 등 다양한 형태로 이용할 수 있으며 정제된 데이터를 코드 한 줄로 불러서 쉽게 사용할 수 있다. 데이터브릭스는 이번에 ‘from_spark’라는 함수를 지원하며 허깅페이스에 등록된 데이터세트를 불러오는 속도를 높였다.

from_spark 함수가 없던 이전에는 스파크 데이터프레임에서 허깅페이스 데이터세트를 가져오려면 사용자가 데이터를 파케이(Parquet) 파일로 작성한 다음, 허깅페이스 데이터세트에서 해당 파일을 가리켜 다시 로드해야 했다. 16GB 데이터 기준으로 이런 과정이 완료되기까지 걸리는 시간은 22분이었다. 

데이터브릭스는 공식 홈페이지를 통해 “이전의 방식은 데이터를 디스크에 썼다가 다시 읽어와야 하는 번거로움이 있었고, 데이터를 데이터 집합에 다시 로드하는 과정에서 리소스를 많이 소모하고 따라서 시간과 비용이 더 많이 들었다”라며 “새로운 from_spark 함수 덕에 사용자는 스파크 데이터 프레임을 허깅페이스 데이터 세트에 쉽게 매핑하여 훈련 파이프라인에 매우 간단하게 통합할 수 있다. 덕분에 비용은 절감되고 속도는 빨라지며 16GB 데이터 세트의 처리 시간이 22분에서 단 12분으로 줄어 처리 속도가  최대 40% 단축되는 효과가 있다”라고 설명했다. 

허깅페이스 CEO 클렘 델란지는 공식 홈페이지를 통해 “스파크는 대규모 데이터 작업을 위한 효율적인 엔진이며, 이제 사용자가 이 기술을 활용해 허깅페이스 모델을 보다 효과적으로 미세 조정할 수 있을 것”이라고 밝혔다. 

데이터브릭스는 이번 지원은 사용자에게 편의성을 제공하는 조치이자 오픈소스 커뮤니티에 기여를 더 늘리는 과정이라고 설명했다. 

최근 데이터브릭스와 허깅페이스는 현재 데이터 및 AI 업계에서 오픈소스 기술 확산을 주도하고 있다. 데이터브릭스는 4월12일 오픈소스 기반 대형언어모델(LLM) ‘돌리 2.0’를 공개했으며, 허깅페이스는 25일 챗GPT의 대체기술 ‘허깅챗(HuggingChat)’을 오픈소스로 공개했다. 
jihyun_lee@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.