Offcanvas

데이터센터 / 비즈니스|경제 / 빅데이터 | 애널리틱스 / 신기술|미래 / 애플리케이션 / 클라우드

'알루시오' 1.0 버전 공개··· 인메모리로 빅데이터 속도 높여

2016.02.25 Serdar Yegulalp  |  InfoWorld

이미지 출처 : Thinkstock


지난 23일 오픈소스 인 메모리 분산 스토리지 시스템인 '알루시오(Alluxio)' 1.0 버전이 공개됐다. 데이터가 저장된 스토리지 종류와 관계없이 더 빠르게 통합된 접근을 제공하는 것을 목표로 하며, 본래 '택욘(Tachyon)'이란 이름으로 알려졌던 기술이다.

알루시오는 스파크(Spark)와 맵리듀스(MapReduce), 플린크(Flink), 프레스토(Presto) 등이 다양한 오픈소스 스토리지 시스템에서 사용할 수 있다. EMC나 넷앱 같은 스토리지 업체 제품은 물론 아마존 S3, 구글 클라우드 스토리지, 오픈스택 스위프트 등 클라우드 스토리지도 지원한다.

알루시오는 언뜻 보면 멤캐시드(Memcached)나 레디스(Redis) 같은 인 메모리 캐싱 시스템과 비슷해 보인다. 그러나 분산 컴퓨팅 애플리케이션과 스토리지 사이에 있는 계층으로 보는 것이 더 정확하다. 통합 API를 통해 애플리케이션이 여러 스토리지에 접근할 수 있도록 지원한다. 애플리케이션은 알루시오 API와 레거시 API 중 선택해 사용할 수 있는데, 전자는 가능한 최고 속도를 제공하고 후자는 더 느리지만 호환성에 장점이 있다.

지난 2월 초 인텔 블로그에 올라온 글을 보면 알루시오가 그동안 빅데이터 프레임워크의 한계로 알려진 문제를 어떻게 해결했는지를 알 수 있다. 예를 들어 애플리케이션 간의 데이터 공유 문제를 보면, 알루시오는 HDFS에 데이터를 쓰고 이를 다시 읽어 오는 대신 알루시오 인 메모리 저장소에 쓴 후 더 빠른 속도로 이를 읽어온다.

알루시오를 이용하면 스파크 같은 프레임워크가 가진 JVM의 가비지 컬렉션과 온-힙 캐시 문제도 완화할 수 있다. IBM은 지난해 8월 자사 블로그를 통해 알루시오(당시에는 '택욘'이라고 불리던 시절이다)의 쓰기 성능이 인 메모리 HDFS보다 110배 빠르다고 주장했다. 이 블로그를 보면 실제 워크플로우에서 엔드투엔드 호출시간(latency)이 4배 개선됐다는 내용도 있다.

알루시오는 다른 빅데이터 솔루션을 보완하기도 한다. 예를 들어 아파치 애로우(Apache Arrow)에 알루시오를 적용하면 최신 CPU에 적합한 형식으로 사용할 수 있어 데이터 처리 속도를 높인다. 애로우가 데이터를 요구하면 알루시오가 이를 스토리지에서 불러와 제공하는 방식이다

한편 택욘을 알루시오로 구현하는 과정에서 여러 빅데이터 프로젝트가 지원에 나섰다. 특히 스파크가 주도적인 역할을 했다. 알루시오 측은 앞으로도 꾸준히 다른 빅데이터 프로젝트와 스토리지 시스템 업체의 지원을 끌어낸다는 구상이다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.