2021.04.21

블로그ㅣ‘파이썬’이 데이터 과학을 집어삼키고 있다

Matt Asay | InfoWorld
데이터 과학에서 파이썬의 우세가 갈수록 R 언어로 기울어지리라 예상했다. 하지만 그 예측은 빗나갔다. 
 
ⓒGetty Images

지난 2015년 필자는 한 칼럼'(In data science, the R language is swallowing Python)'을 기고했다. 그리고 “데이터 과학에서 파이썬의 우세가 갈수록 R 언어로 기울어질 것”이라고 예상한 바 있다. 예측은 빗나갔다. 

최근 데이터 과학자 겸 애널리스트 테렌스 신이 1만 5,000개 이상의 데이터 과학자 채용 공고를 분석한 결과에서 볼 수 있듯이, 실제로는 R 언어 채택 비율이 감소하고 있는 반면에 파이썬을 쓰는 비율은 계속해서 증가하고 있다. 물론 이게 데이터 과학자들이 조만간 R을 사용하지 않을 것이란 의미는 아니다. 아마도 각각의 장점에 따라 파이썬과 R을 모두 사용하게 될 가능성이 크다. 

그렇긴 하지만 만약 인포월드(InfoWorld) 기자 닉 엘프린의 예측이 맞고 (그의 말처럼) ‘2021년은 데이터 과학이 모든 업무 및 부서에 영향을 미치는 전사적인 역량이 될 한 해’라면 지배적인 위치를 차지할 언어는 기업 내에서 가장 많은 사람이 접근할 수 있는 언어일 것이다. 

‘파이썬’의 압승이다. 

데이터 과학 붐의 동력
다음의 ‘2021년 가장 필요한 데이터 과학 기술 톱 10’ 차트를 보면 뭔가 익숙하게 느껴질 것이다. 데이터 과학자 제프 헤일이 지난 2019년에 공개했던 분석 결과와 상당히 유사하기 때문이다. 좀 더 자세히 살펴보면 몇 가지 동향을 파악할 수 있다. 아래와 같다.
 
ⓒTerence Shin
 
ⓒJeff Hale
 
• 클라우드 관련 기술의 중요성이 많이 증가하고 있다. 
• 마찬가지로 파이썬 및 텐서플로우 등의 딥러닝 관련 기술의 중요성도 크게 증가하고 있다. 
• SQL과 파이썬의 중요성은 계속 증가하고 있지만 R은 정체 상태다. 
• 하둡(Hadoop), 하이브(Hive), 스파크(Spark) 등의 아파치 제품의 중요성이 계속 감소하고 있다. 


조금 더 깊이 파고들면 가장 빠르게 성장하는 것으로 보이는 기술은 곧 가장 배우기 쉬운 기술이다. 예를 들면 이런 이유 때문에 텐서플로우와 파이토치 모두 성장했지만 파이토치의 성장세는 이전에 필자가 설명한 이점들로(‘머신러닝에 관심있다면?··· 이제는 파이토치다’라는 기사를 참조하라) 텐서플로우를 크게 앞질렀다. 

파이토치의 인기는 프로젝트에서도 나타나기 시작했다. 파이토치 누적 기여자 수는 가까운 미래에 텐서플로우 기여자를 넘어설 것으로 예상된다(지난 12개월간 파이토치 기여자 수는 이미 텐서플로우를 능가했다).

몇 년 전 레드몽크(Redmonk)의 애널리스트 제임스 거버너는 “편의성이 곧 킬러 앱”이라고 언급한 바 있다. 몽고DB(MongoDB)에서 패스틀리(Fastly), 개츠비JS(GatsbyJS)까지 다양한 기술에 대한 기본 설정값은 개발자가 더 빠르게 생산성을 높일 수 있도록 하는 것이다. 

다시 파이썬(그리고 R)으로 돌아가자. R 언어는 여전히 데이터 과학에서 많이 사용되며, 가까운 미래에 이 상황이 급격하게 바뀌리라 예상되지 않는다. 

하지만 우리는 R에서 파이썬으로 전환하는 데이터 과학자가 그 반대의 경우보다 훨씬 더 많다는 사실을 목격했다(정확하게는 두 배다). 데이터 과학 관련 정보 공유 플랫폼(Towards Data Science)의 기자 에밋 보드로는 그 이유로 파이썬의 더 나은 편의성, 성능, 생태계 등을 꼽았다. 

물론 R 언어가 통계 컴퓨팅에 광범위하게 사용되고 있긴 하지만 점점 더 많은 기업(그리고 이 기업에 소속된 개발자와 데이터 과학자)에서 과학적 관점이 아닌 기술적 관점으로 데이터 과학을 적용하면서 파이썬은 계속 치솟을 전망이다. 

* Matt Asay는 인포월드에 기고하는 기술 전문 저술가다. ciokr@idg.co.kr
 



2021.04.21

블로그ㅣ‘파이썬’이 데이터 과학을 집어삼키고 있다

Matt Asay | InfoWorld
데이터 과학에서 파이썬의 우세가 갈수록 R 언어로 기울어지리라 예상했다. 하지만 그 예측은 빗나갔다. 
 
ⓒGetty Images

지난 2015년 필자는 한 칼럼'(In data science, the R language is swallowing Python)'을 기고했다. 그리고 “데이터 과학에서 파이썬의 우세가 갈수록 R 언어로 기울어질 것”이라고 예상한 바 있다. 예측은 빗나갔다. 

최근 데이터 과학자 겸 애널리스트 테렌스 신이 1만 5,000개 이상의 데이터 과학자 채용 공고를 분석한 결과에서 볼 수 있듯이, 실제로는 R 언어 채택 비율이 감소하고 있는 반면에 파이썬을 쓰는 비율은 계속해서 증가하고 있다. 물론 이게 데이터 과학자들이 조만간 R을 사용하지 않을 것이란 의미는 아니다. 아마도 각각의 장점에 따라 파이썬과 R을 모두 사용하게 될 가능성이 크다. 

그렇긴 하지만 만약 인포월드(InfoWorld) 기자 닉 엘프린의 예측이 맞고 (그의 말처럼) ‘2021년은 데이터 과학이 모든 업무 및 부서에 영향을 미치는 전사적인 역량이 될 한 해’라면 지배적인 위치를 차지할 언어는 기업 내에서 가장 많은 사람이 접근할 수 있는 언어일 것이다. 

‘파이썬’의 압승이다. 

데이터 과학 붐의 동력
다음의 ‘2021년 가장 필요한 데이터 과학 기술 톱 10’ 차트를 보면 뭔가 익숙하게 느껴질 것이다. 데이터 과학자 제프 헤일이 지난 2019년에 공개했던 분석 결과와 상당히 유사하기 때문이다. 좀 더 자세히 살펴보면 몇 가지 동향을 파악할 수 있다. 아래와 같다.
 
ⓒTerence Shin
 
ⓒJeff Hale
 
• 클라우드 관련 기술의 중요성이 많이 증가하고 있다. 
• 마찬가지로 파이썬 및 텐서플로우 등의 딥러닝 관련 기술의 중요성도 크게 증가하고 있다. 
• SQL과 파이썬의 중요성은 계속 증가하고 있지만 R은 정체 상태다. 
• 하둡(Hadoop), 하이브(Hive), 스파크(Spark) 등의 아파치 제품의 중요성이 계속 감소하고 있다. 


조금 더 깊이 파고들면 가장 빠르게 성장하는 것으로 보이는 기술은 곧 가장 배우기 쉬운 기술이다. 예를 들면 이런 이유 때문에 텐서플로우와 파이토치 모두 성장했지만 파이토치의 성장세는 이전에 필자가 설명한 이점들로(‘머신러닝에 관심있다면?··· 이제는 파이토치다’라는 기사를 참조하라) 텐서플로우를 크게 앞질렀다. 

파이토치의 인기는 프로젝트에서도 나타나기 시작했다. 파이토치 누적 기여자 수는 가까운 미래에 텐서플로우 기여자를 넘어설 것으로 예상된다(지난 12개월간 파이토치 기여자 수는 이미 텐서플로우를 능가했다).

몇 년 전 레드몽크(Redmonk)의 애널리스트 제임스 거버너는 “편의성이 곧 킬러 앱”이라고 언급한 바 있다. 몽고DB(MongoDB)에서 패스틀리(Fastly), 개츠비JS(GatsbyJS)까지 다양한 기술에 대한 기본 설정값은 개발자가 더 빠르게 생산성을 높일 수 있도록 하는 것이다. 

다시 파이썬(그리고 R)으로 돌아가자. R 언어는 여전히 데이터 과학에서 많이 사용되며, 가까운 미래에 이 상황이 급격하게 바뀌리라 예상되지 않는다. 

하지만 우리는 R에서 파이썬으로 전환하는 데이터 과학자가 그 반대의 경우보다 훨씬 더 많다는 사실을 목격했다(정확하게는 두 배다). 데이터 과학 관련 정보 공유 플랫폼(Towards Data Science)의 기자 에밋 보드로는 그 이유로 파이썬의 더 나은 편의성, 성능, 생태계 등을 꼽았다. 

물론 R 언어가 통계 컴퓨팅에 광범위하게 사용되고 있긴 하지만 점점 더 많은 기업(그리고 이 기업에 소속된 개발자와 데이터 과학자)에서 과학적 관점이 아닌 기술적 관점으로 데이터 과학을 적용하면서 파이썬은 계속 치솟을 전망이다. 

* Matt Asay는 인포월드에 기고하는 기술 전문 저술가다. ciokr@idg.co.kr
 

X