2017.07.14

'아파치 스파크' 2.2 공개··· 스트리밍 데이터 처리 강화

Serdar Yegulalp | InfoWorld
다목적 인메모리 데이터 처리 프레임워크인 아파치 스파크(Spark) 2.2 버전이 마침내 공개됐다. 이번 버전의 가장 큰 변화는 '구조화된 스트리밍(Structured Streaming)' 기능이다. 이를 이용하면 스파크의 배치 기반 데이터 처리 메타포 자체 방식을 통해 데이터 스트림을 처리할 수 있다. 오랜기간 개발해 온 기능으로 데이터 과학 관련 작업을 하는 많은 사람에게 도움이 될 것으로 보인다.

구조화된 스트리밍이 제공하는 이점은 다양하다. 아파치 카프카(Kafka) 소스에 사용되거나 여기서 추출한 데이터용 저장소 혹은 소스 역할을 할 수 있으며, 이전보다 카프카 연결의 지연시간을 줄였다.

카프카는 아파치 소프트웨어 재단의 분산 메시지 버스로 스트리밍 애플리케이션에 광범위하게 사용된다. 일반적으로 카프카는 다른 스트림 처리 프레임워크인 아파치 스톰(Apache Storm)과 함께 사용하는데, 스톰은 스트림 프로세싱에 제한이 있다. 반면 스파크는 이런 제한이 적고 개발자에게 덜 복잡한 API를 제공한다.

또한, 구조화된 스트리밍은 현재 스파크의 트리거링 메커니즘을 사용해 스트리밍 작업을 한번 처리하고 종료하도록 할 수 있다. 스파크 활용을 지원하는 업체인 데이터브릭스(Databricks)는 구조화된 스트리밍이 스파크 배치 작업을 실행하는 것보다 더 효과적인 실행 모델이라고 설명했다.

스파크내 머선러닝 라이브러리의 네이티브 컬렉션 MLlib은 데이터 세트에 대한 페이지랭크(PageRank)나 다층 로지스틱 회귀 분석 같은 작업에 적합한 알고리즘이 추가됐다. 머신러닝은 스파크가 일반적으로 사용되는 분야 중 하나다. 또한, 스파크내 머신러닝 기능의 주요 변화는 R 언어에 대한 지원이 강화된 것이다. 이전 버전에서도 자바와 파이선, R을 지원했지만 2.2버전에서는 분산 알고리즘 10개가 새로 추가됐다. ciokr@idg.co.kr

2017.07.14

'아파치 스파크' 2.2 공개··· 스트리밍 데이터 처리 강화

Serdar Yegulalp | InfoWorld
다목적 인메모리 데이터 처리 프레임워크인 아파치 스파크(Spark) 2.2 버전이 마침내 공개됐다. 이번 버전의 가장 큰 변화는 '구조화된 스트리밍(Structured Streaming)' 기능이다. 이를 이용하면 스파크의 배치 기반 데이터 처리 메타포 자체 방식을 통해 데이터 스트림을 처리할 수 있다. 오랜기간 개발해 온 기능으로 데이터 과학 관련 작업을 하는 많은 사람에게 도움이 될 것으로 보인다.

구조화된 스트리밍이 제공하는 이점은 다양하다. 아파치 카프카(Kafka) 소스에 사용되거나 여기서 추출한 데이터용 저장소 혹은 소스 역할을 할 수 있으며, 이전보다 카프카 연결의 지연시간을 줄였다.

카프카는 아파치 소프트웨어 재단의 분산 메시지 버스로 스트리밍 애플리케이션에 광범위하게 사용된다. 일반적으로 카프카는 다른 스트림 처리 프레임워크인 아파치 스톰(Apache Storm)과 함께 사용하는데, 스톰은 스트림 프로세싱에 제한이 있다. 반면 스파크는 이런 제한이 적고 개발자에게 덜 복잡한 API를 제공한다.

또한, 구조화된 스트리밍은 현재 스파크의 트리거링 메커니즘을 사용해 스트리밍 작업을 한번 처리하고 종료하도록 할 수 있다. 스파크 활용을 지원하는 업체인 데이터브릭스(Databricks)는 구조화된 스트리밍이 스파크 배치 작업을 실행하는 것보다 더 효과적인 실행 모델이라고 설명했다.

스파크내 머선러닝 라이브러리의 네이티브 컬렉션 MLlib은 데이터 세트에 대한 페이지랭크(PageRank)나 다층 로지스틱 회귀 분석 같은 작업에 적합한 알고리즘이 추가됐다. 머신러닝은 스파크가 일반적으로 사용되는 분야 중 하나다. 또한, 스파크내 머신러닝 기능의 주요 변화는 R 언어에 대한 지원이 강화된 것이다. 이전 버전에서도 자바와 파이선, R을 지원했지만 2.2버전에서는 분산 알고리즘 10개가 새로 추가됐다. ciokr@idg.co.kr

X