2019.07.12

'줄리아' vs. '파이썬'··· 최고의 데이터 언어는?

Serdar Yegulalp | InfoWorld
파이썬은 데이터 분석용 언어로 확고하게 자리를 잡았다. 파이썬 생태계는 과학 계산과 데이터 분석 작업을 빠르고 편리하게 해 주는 라이브러리와 툴, 애플리케이션으로 가득 차 있다. 그러나 과학 계산과 머신러닝, 데이터 마이닝, 대규모 선형 대수, 분산 및 병렬 계산 같은 작업을 할 때 파이썬의 속도나 기능에 만족하지 못하는 개발자를 중심으로 줄리아(Julia) 언어가 부상하고 있다. 줄리아는 파이썬의 대안이 될 수 있을까?
 
ⓒ Getty Images Bank

줄리아 언어란 무엇인가
줄리아는 4인으로 구성된 팀이 2009년 개발해 2012년 일반에 공개했다. 과학 계산과 데이터 처리에 사용되는 파이썬 등 기타 언어와 애플리케이션의 단점을 해결하는 대안으로 시작했다. 줄리아 개발팀은 “우리는 욕심이 많다”며 다음과 같은 글을 남겼다.
 
"우리는 오픈 소스이면서 자유롭게 쓸 수 있는 언어를 원한다. C의 속도에 루비의 역동성을 원한다. 동형성(homoiconic)이 있으면서 리스프(Lisp) 같은 진정한 매크로를 지원하되 매트랩(Matlab)과 같이 분명하고 익숙한 수학적 표기법이 있는 언어를 원한다. 파이썬만큼 일반 프로그래밍에 사용할 수 있고 R만큼 통계가 쉬우며 펄(Perl)만큼 문자열 처리가 자연스럽고, 매트랩만큼 선형대수가 강력하며 셸(shell)처럼 프로그램을 이어 붙이는 것에 능한 것을 원한다. 배우기가 매우 간단하면서도 대부분의 전문 해커를 기쁘게 할 수 있는 것, 대화형이기를 원하고 컴파일되기를 원한다. (C만큼 속도가 빨라야 한다고 말했던가?)"
 
줄리아는 이런 야심을 다음과 같은 방식으로 실현한다.
 
- 해석되는 것이 아니라 컴파일됨: 더 빠른 런타임 성능을 위해 LLVM 컴파일러 프레임워크를 사용해 JIT(just-in-time) 컴파일된다. 최상의 상태에서는 C의 속도에 근접하거나 맞먹는다.
- 대화형: 파이썬과 비슷한 대화형 명령줄인 REPL(read-eval-print loop)이 제공된다. 일회용 스크립트와 명령어를 빠르게 바로 입력할 수 있다.
- 간단한 구문: 줄리아 구문은 파이썬과 비슷하다. 간결하지만 표현이 풍부하고 강력하다.
- 동적인 유형 지정과 정적인 유형 지정의 장점 결합: 변수의 유형을 지정할 수 있다. 예를 들어 무부호 32비트 정수는 'unsigned 32-bit integer'로 정의한다. 또한, 특정 유형의 변수를 처리하는 일반 사례가 허용되는 유형의 계층도 만들 수 있다. 예를 들면, 정수의 길이를 지정하거나 부호를 붙이지 않고도 정수를 수락하는 함수를 작성할 수 있다. 유형 지정이 필요 없으면 아예 안 할 수도 있다.
- 파이썬, C, 포트란(Fortran) 라이브러리 호출 가능: C 또는 포트란으로 작성된 외부 라이브러리와 직접 접속할 수 있다. 파이콜(PyCall) 라이브러리를 통해 파이썬 코드와 접속하는 것도 가능하고 심지어 파이썬과 줄리아 간 데이터 공유도 가능하다.
- 메타프로그래밍 지원: 줄리아 프로그램은 다른 줄리아 프로그램을 생성할 수 있으며 자체 코드를 수정할 수도 있다. 리스프 같은 언어를 떠올리게 하는 방식으로 가능하다.
- 모든 기능을 갖춘 디버거 보유: 줄리아 1.1에서 디버깅 스위트가 공개됐다. 로컬 REPL로 코드 실행, 결과 사이 이동, 변수 점검, 코드에 중단점 추가 등을 할 수 있다. 코드로 생성된 함수를 통한 이동과 같은 섬세한 작업도 할 수 있다.
  
파이썬 대비 줄리아의 장점
줄리아는 처음부터 과학과 숫자 계산을 목적으로 개발됐다. 따라서 이런 경우에 사용하면 유리한 기능이 당연히 많다.
  
- 빠른 속도: 줄리아의 JIT 컴파일과 유형 선언은 “순수”하고 최적화되지 않은 파이썬을 크게 앞설 수 있음을 의미한다. 파이썬은 외부 라이브러리와 서드파티 JIT 컴파일러(PyPy), 사이썬(Cython) 같은 도구를 이용한 최적화 등을 통해 더 빠르게 만들 수는 있지만 줄리아는 애초부터 속도가 빠르게 설계돼 있다.
- 수학 친화적 구문: 줄리아가 겨냥하는 주요 사용자는 과학 계산 언어와 매트랩, R, 매스매티카(Mathematica), 옥타브(Octave)와 같은 환경을 사용하는 사람들이다. 수학 연산을 처리하는 줄리아 구문은 컴퓨팅 세계 외부에서 작성된 수학 공식에 더 가깝다. 따라서 프로그래머가 아닌 사람이 이해하기 더 쉽다.
- 자동 메모리 관리 기능: 파이썬과 마찬가지로 줄리아는 메모리를 할당하고 회수하는 일로 사용자에게 부담을 주지 않는다. 또한, 가비지 수집을 어느 정도 수동 제어할 수 있도록 지원한다. 줄리아로 바꿔도 파이썬의 일반적인 편리함 가운데 하나를 그대로 누릴 수 있는 것이다.
- 탁월한 병렬 처리: 수학 및 과학 계산이 잘 되려면 해당 컴퓨터에 사용 가능한 자원 전체, 특히 여러 개의 코어를 활용할 수 있어야 한다. 파이썬과 줄리아는 모두 병렬 연산 처리를 지원한다. 그러나, 파이썬의 연산 병렬화 방식에는 스레드 또는 노드 간에 데이터의 직렬화와 직렬화 해제가 요구되는 경우가 많다. 반면, 줄리아의 병렬화는 더 세련됐다. 또한, 줄리아의 병렬화 구문은 파이썬보다 상부가 무거운 정도가 덜해서 사용 문턱이 낮다.
  
줄리아 대비 파이썬의 장점
줄리아는 데이터 과학을 목적으로 개발된 반면, 파이썬은 그러한 역할로 널리 쓰이긴 하지만 데이터 과학자가 매력을 느낄만한 강력한 장점을 제공한다. 파이썬이 데이터 과학 업무에 더 나은 선택인 이유는 다음과 같다.
   
- 줄리아 배열은 1 인덱스 처리됨: 이는 모호한 문제처럼 여겨질 수 있지만 성가신 문제가 될 가능성이 있다. 파이썬과 C를 비롯한 대부분의 언어에서 배열의 첫 요소는 0으로 접근된다. 예를 들어 문자열의 첫 문자를 나타내는 파이썬의 string[0]이 있다. 반면 줄리아는 배열의 첫 요소에 1을 사용한다. 이는 임의로 정해진 것이 아니다. 매스매티카와 같은 다른 여러 수학 및 과학 애플리케이션은 1 인덱스 처리를 사용하고 줄리아 역시 그 사용자를 고려해 이렇게 정한 것이다. 실험적인 기능으로 줄리아의 0 인덱스 처리를 지원하는 것이 가능하지만, 기본적으로 1 인덱스 처리하는 줄리아의 특성은 기존 프로그래밍 습관이 몸에 밴 일반 사용자에게 방해가 될 수 있다.
- 성숙함: 줄리아 언어는 아직 성숙하지 않았다. 그동안 꽤 많은 기능 변화가 있었지만 본격적으로 개발을 시작한 것이 2009년이다. 반면, 파이썬은 나온 지 거의 30년이 돼 간다.
- 훨씬 더 많은 서드파티 패키지: 파이썬이 보유한 서드파티 패키지의 폭과 유용성은 여전히 파이썬의 가장 큰 매력이다. 줄리아는 상대적으로 새롭다 보니 소프트웨어 생태계 규모가 작다. 이런 단점은 기존 C 및 파이썬 라이브러리를 사용할 수 있다는 점으로 일부 상쇄되지만 줄리아가 더 성장하려면 자체 라이브러리가 필요하다.
- 사용자가 수백만 명: 대규모의 헌신적이고 활발한 커뮤니티가 없는 언어는 성장의 한계가 있기 마련이다. 줄리아 커뮤니티는 열정적이고 커지고 있지만 파이썬 커뮤니티의 규모에 비하면 아직 미미하다. 파이썬의 거대한 커뮤니티는 큰 장점이다.
- 속도가 빨라지는 중: 파이썬 인터프리터가 개선된 것도 있지만(멀티 코어 및 병렬 처리에 대한 개선 포함) 파이썬은 속도를 올리기가 더 쉬워졌다. mypyc 프로젝트는 유형 주석이 있는 파이썬을 사이썬에 비해 덜 투박한 네이티브 C로 변환해 일반적으로 4배의 성능 향상을 가져온다. 순수한 수학 연산의 경우에는 훨씬 더 향상되기도 한다. ciokr@idg.co.kr



2019.07.12

'줄리아' vs. '파이썬'··· 최고의 데이터 언어는?

Serdar Yegulalp | InfoWorld
파이썬은 데이터 분석용 언어로 확고하게 자리를 잡았다. 파이썬 생태계는 과학 계산과 데이터 분석 작업을 빠르고 편리하게 해 주는 라이브러리와 툴, 애플리케이션으로 가득 차 있다. 그러나 과학 계산과 머신러닝, 데이터 마이닝, 대규모 선형 대수, 분산 및 병렬 계산 같은 작업을 할 때 파이썬의 속도나 기능에 만족하지 못하는 개발자를 중심으로 줄리아(Julia) 언어가 부상하고 있다. 줄리아는 파이썬의 대안이 될 수 있을까?
 
ⓒ Getty Images Bank

줄리아 언어란 무엇인가
줄리아는 4인으로 구성된 팀이 2009년 개발해 2012년 일반에 공개했다. 과학 계산과 데이터 처리에 사용되는 파이썬 등 기타 언어와 애플리케이션의 단점을 해결하는 대안으로 시작했다. 줄리아 개발팀은 “우리는 욕심이 많다”며 다음과 같은 글을 남겼다.
 
"우리는 오픈 소스이면서 자유롭게 쓸 수 있는 언어를 원한다. C의 속도에 루비의 역동성을 원한다. 동형성(homoiconic)이 있으면서 리스프(Lisp) 같은 진정한 매크로를 지원하되 매트랩(Matlab)과 같이 분명하고 익숙한 수학적 표기법이 있는 언어를 원한다. 파이썬만큼 일반 프로그래밍에 사용할 수 있고 R만큼 통계가 쉬우며 펄(Perl)만큼 문자열 처리가 자연스럽고, 매트랩만큼 선형대수가 강력하며 셸(shell)처럼 프로그램을 이어 붙이는 것에 능한 것을 원한다. 배우기가 매우 간단하면서도 대부분의 전문 해커를 기쁘게 할 수 있는 것, 대화형이기를 원하고 컴파일되기를 원한다. (C만큼 속도가 빨라야 한다고 말했던가?)"
 
줄리아는 이런 야심을 다음과 같은 방식으로 실현한다.
 
- 해석되는 것이 아니라 컴파일됨: 더 빠른 런타임 성능을 위해 LLVM 컴파일러 프레임워크를 사용해 JIT(just-in-time) 컴파일된다. 최상의 상태에서는 C의 속도에 근접하거나 맞먹는다.
- 대화형: 파이썬과 비슷한 대화형 명령줄인 REPL(read-eval-print loop)이 제공된다. 일회용 스크립트와 명령어를 빠르게 바로 입력할 수 있다.
- 간단한 구문: 줄리아 구문은 파이썬과 비슷하다. 간결하지만 표현이 풍부하고 강력하다.
- 동적인 유형 지정과 정적인 유형 지정의 장점 결합: 변수의 유형을 지정할 수 있다. 예를 들어 무부호 32비트 정수는 'unsigned 32-bit integer'로 정의한다. 또한, 특정 유형의 변수를 처리하는 일반 사례가 허용되는 유형의 계층도 만들 수 있다. 예를 들면, 정수의 길이를 지정하거나 부호를 붙이지 않고도 정수를 수락하는 함수를 작성할 수 있다. 유형 지정이 필요 없으면 아예 안 할 수도 있다.
- 파이썬, C, 포트란(Fortran) 라이브러리 호출 가능: C 또는 포트란으로 작성된 외부 라이브러리와 직접 접속할 수 있다. 파이콜(PyCall) 라이브러리를 통해 파이썬 코드와 접속하는 것도 가능하고 심지어 파이썬과 줄리아 간 데이터 공유도 가능하다.
- 메타프로그래밍 지원: 줄리아 프로그램은 다른 줄리아 프로그램을 생성할 수 있으며 자체 코드를 수정할 수도 있다. 리스프 같은 언어를 떠올리게 하는 방식으로 가능하다.
- 모든 기능을 갖춘 디버거 보유: 줄리아 1.1에서 디버깅 스위트가 공개됐다. 로컬 REPL로 코드 실행, 결과 사이 이동, 변수 점검, 코드에 중단점 추가 등을 할 수 있다. 코드로 생성된 함수를 통한 이동과 같은 섬세한 작업도 할 수 있다.
  
파이썬 대비 줄리아의 장점
줄리아는 처음부터 과학과 숫자 계산을 목적으로 개발됐다. 따라서 이런 경우에 사용하면 유리한 기능이 당연히 많다.
  
- 빠른 속도: 줄리아의 JIT 컴파일과 유형 선언은 “순수”하고 최적화되지 않은 파이썬을 크게 앞설 수 있음을 의미한다. 파이썬은 외부 라이브러리와 서드파티 JIT 컴파일러(PyPy), 사이썬(Cython) 같은 도구를 이용한 최적화 등을 통해 더 빠르게 만들 수는 있지만 줄리아는 애초부터 속도가 빠르게 설계돼 있다.
- 수학 친화적 구문: 줄리아가 겨냥하는 주요 사용자는 과학 계산 언어와 매트랩, R, 매스매티카(Mathematica), 옥타브(Octave)와 같은 환경을 사용하는 사람들이다. 수학 연산을 처리하는 줄리아 구문은 컴퓨팅 세계 외부에서 작성된 수학 공식에 더 가깝다. 따라서 프로그래머가 아닌 사람이 이해하기 더 쉽다.
- 자동 메모리 관리 기능: 파이썬과 마찬가지로 줄리아는 메모리를 할당하고 회수하는 일로 사용자에게 부담을 주지 않는다. 또한, 가비지 수집을 어느 정도 수동 제어할 수 있도록 지원한다. 줄리아로 바꿔도 파이썬의 일반적인 편리함 가운데 하나를 그대로 누릴 수 있는 것이다.
- 탁월한 병렬 처리: 수학 및 과학 계산이 잘 되려면 해당 컴퓨터에 사용 가능한 자원 전체, 특히 여러 개의 코어를 활용할 수 있어야 한다. 파이썬과 줄리아는 모두 병렬 연산 처리를 지원한다. 그러나, 파이썬의 연산 병렬화 방식에는 스레드 또는 노드 간에 데이터의 직렬화와 직렬화 해제가 요구되는 경우가 많다. 반면, 줄리아의 병렬화는 더 세련됐다. 또한, 줄리아의 병렬화 구문은 파이썬보다 상부가 무거운 정도가 덜해서 사용 문턱이 낮다.
  
줄리아 대비 파이썬의 장점
줄리아는 데이터 과학을 목적으로 개발된 반면, 파이썬은 그러한 역할로 널리 쓰이긴 하지만 데이터 과학자가 매력을 느낄만한 강력한 장점을 제공한다. 파이썬이 데이터 과학 업무에 더 나은 선택인 이유는 다음과 같다.
   
- 줄리아 배열은 1 인덱스 처리됨: 이는 모호한 문제처럼 여겨질 수 있지만 성가신 문제가 될 가능성이 있다. 파이썬과 C를 비롯한 대부분의 언어에서 배열의 첫 요소는 0으로 접근된다. 예를 들어 문자열의 첫 문자를 나타내는 파이썬의 string[0]이 있다. 반면 줄리아는 배열의 첫 요소에 1을 사용한다. 이는 임의로 정해진 것이 아니다. 매스매티카와 같은 다른 여러 수학 및 과학 애플리케이션은 1 인덱스 처리를 사용하고 줄리아 역시 그 사용자를 고려해 이렇게 정한 것이다. 실험적인 기능으로 줄리아의 0 인덱스 처리를 지원하는 것이 가능하지만, 기본적으로 1 인덱스 처리하는 줄리아의 특성은 기존 프로그래밍 습관이 몸에 밴 일반 사용자에게 방해가 될 수 있다.
- 성숙함: 줄리아 언어는 아직 성숙하지 않았다. 그동안 꽤 많은 기능 변화가 있었지만 본격적으로 개발을 시작한 것이 2009년이다. 반면, 파이썬은 나온 지 거의 30년이 돼 간다.
- 훨씬 더 많은 서드파티 패키지: 파이썬이 보유한 서드파티 패키지의 폭과 유용성은 여전히 파이썬의 가장 큰 매력이다. 줄리아는 상대적으로 새롭다 보니 소프트웨어 생태계 규모가 작다. 이런 단점은 기존 C 및 파이썬 라이브러리를 사용할 수 있다는 점으로 일부 상쇄되지만 줄리아가 더 성장하려면 자체 라이브러리가 필요하다.
- 사용자가 수백만 명: 대규모의 헌신적이고 활발한 커뮤니티가 없는 언어는 성장의 한계가 있기 마련이다. 줄리아 커뮤니티는 열정적이고 커지고 있지만 파이썬 커뮤니티의 규모에 비하면 아직 미미하다. 파이썬의 거대한 커뮤니티는 큰 장점이다.
- 속도가 빨라지는 중: 파이썬 인터프리터가 개선된 것도 있지만(멀티 코어 및 병렬 처리에 대한 개선 포함) 파이썬은 속도를 올리기가 더 쉬워졌다. mypyc 프로젝트는 유형 주석이 있는 파이썬을 사이썬에 비해 덜 투박한 네이티브 C로 변환해 일반적으로 4배의 성능 향상을 가져온다. 순수한 수학 연산의 경우에는 훨씬 더 향상되기도 한다. ciokr@idg.co.kr

X