2020.07.01

데이터 과학자가 겪는 가장 큰 어려움은?··· "고된 데이터 준비 및 정제"

Serdar Yegulalp | InfoWorld
'데이터 정제 및 준비 작업'이 여전히 데이터 과학자 업무의 거의 절반을 차지하고 있는 것으로 나타났다. 

데이터 과학자와 소프트웨어 엔지니어가 겪는 가장 큰 어려움은 무엇일까. 아나콘다(Anaconda)의 최근 설문조사에 따르면 고된 데이터 수집 및 정제, 편향된 모델, 데이터 프라이버시, 경험과 기술을 갖춘 전문가 채용의 어려움 등이 주된 문제인 것으로 드러났다. 
 
ⓒGetty Images

과학용 컴퓨팅 애플리케이션의 파이썬 배포판 제작 업체 아나콘다가 '2020 데이터 과학 현황 조사(2020 State Of Data Science)'를 공개했다. 이번 설문에는 전 세계 100개국 2,360명이 참여했고 이 중 절반 정도가 미국 개발자였다.

보고서는 최근 데이터 과학 환경이 많이 개선됐음에도 데이터 관련 소모적인 작업이 여전히 데이터 과학자들의 주 업무라고 밝혔다. 응답자들은 데이터 로딩과 정제 작업에 각각 업무 시간의 19%와 26%를 사용한다고 말했다. 이는 전체 업무 시간의 절반에 해당하는 수치다. 이 밖에 모델 선택과 학습, 배포에 각각 11% 정도로, 총 34%를 쓰고 있는 것으로 나타났다.

데이터 과학 실무 관련해서 가장 큰 어려움은 기업의 IT 보안 규정을 준수하는 것이었다. 데이터 과학자와 개발자, 시스템 관리자의 대답이 모두 비슷했다. 이는 주로 새로운 앱을 대규모로 배포하는 것과 관련 있다. 또한 머신러닝과 데이터 과학 앱의 수명주기 문제는 보안 취약점을 패치하면서 다양한 오픈소스 애플리케이션 스택을 유지하는 것 등 내부적인 이슈를 가리킨다고 보고서는 설명했다.

설문 결과 확인된 또 다른 문제는 기업에서 필요로 하는 기술과 교육기관에서 가르치는 기술 간의 차이다. 대학 대부분이 통계와 머신러닝 이론, 파이썬 프로그래밍 수업을 제공하고 학생 대부분도 이런 과정을 듣는다. 그러나 기업이 가장 필요로 하는 데이터 관리 기술은 대학에서 거의 가르치지 않는다. 고급 수학 지식도 필요한 데 학생들이 종종 간과하곤 한다.

학생들은 스스로 경험 부족(40%)과 기술적 능력 부족(26%)을 문제로 언급하면서 이를 취업에서 가장 큰 어려움으로 꼽았다. 업체는 이러한 부분을 내실 있는 인턴십 프로그램을 통해 보완할 수 있다고 분석했다. 단순히 이력서에 한 줄 더 쓰기 위한 것 또는 한번 해보는 정도를 넘어서는 인턴십 프로그램이 필요하다는 지적이다.

한편 이번 설문에서 다시 확인된 것이 바로 파이썬의 위상이다. 보고서에 따르면 파이썬은 데이터 과학 분야에서 여전히 가장 널리 사용하는 언어인 것으로 나타났다. 큰 격차를 두고 R이 2위를 차지했고 자바스크립트, 자바, C/C+, C#이 뒤를 이었다. 줄리아(Julia)가 빠르게 부상하고 있지만 아직 순위에는 이름을 올리지 못했다. ciokr@idg.co.kr



2020.07.01

데이터 과학자가 겪는 가장 큰 어려움은?··· "고된 데이터 준비 및 정제"

Serdar Yegulalp | InfoWorld
'데이터 정제 및 준비 작업'이 여전히 데이터 과학자 업무의 거의 절반을 차지하고 있는 것으로 나타났다. 

데이터 과학자와 소프트웨어 엔지니어가 겪는 가장 큰 어려움은 무엇일까. 아나콘다(Anaconda)의 최근 설문조사에 따르면 고된 데이터 수집 및 정제, 편향된 모델, 데이터 프라이버시, 경험과 기술을 갖춘 전문가 채용의 어려움 등이 주된 문제인 것으로 드러났다. 
 
ⓒGetty Images

과학용 컴퓨팅 애플리케이션의 파이썬 배포판 제작 업체 아나콘다가 '2020 데이터 과학 현황 조사(2020 State Of Data Science)'를 공개했다. 이번 설문에는 전 세계 100개국 2,360명이 참여했고 이 중 절반 정도가 미국 개발자였다.

보고서는 최근 데이터 과학 환경이 많이 개선됐음에도 데이터 관련 소모적인 작업이 여전히 데이터 과학자들의 주 업무라고 밝혔다. 응답자들은 데이터 로딩과 정제 작업에 각각 업무 시간의 19%와 26%를 사용한다고 말했다. 이는 전체 업무 시간의 절반에 해당하는 수치다. 이 밖에 모델 선택과 학습, 배포에 각각 11% 정도로, 총 34%를 쓰고 있는 것으로 나타났다.

데이터 과학 실무 관련해서 가장 큰 어려움은 기업의 IT 보안 규정을 준수하는 것이었다. 데이터 과학자와 개발자, 시스템 관리자의 대답이 모두 비슷했다. 이는 주로 새로운 앱을 대규모로 배포하는 것과 관련 있다. 또한 머신러닝과 데이터 과학 앱의 수명주기 문제는 보안 취약점을 패치하면서 다양한 오픈소스 애플리케이션 스택을 유지하는 것 등 내부적인 이슈를 가리킨다고 보고서는 설명했다.

설문 결과 확인된 또 다른 문제는 기업에서 필요로 하는 기술과 교육기관에서 가르치는 기술 간의 차이다. 대학 대부분이 통계와 머신러닝 이론, 파이썬 프로그래밍 수업을 제공하고 학생 대부분도 이런 과정을 듣는다. 그러나 기업이 가장 필요로 하는 데이터 관리 기술은 대학에서 거의 가르치지 않는다. 고급 수학 지식도 필요한 데 학생들이 종종 간과하곤 한다.

학생들은 스스로 경험 부족(40%)과 기술적 능력 부족(26%)을 문제로 언급하면서 이를 취업에서 가장 큰 어려움으로 꼽았다. 업체는 이러한 부분을 내실 있는 인턴십 프로그램을 통해 보완할 수 있다고 분석했다. 단순히 이력서에 한 줄 더 쓰기 위한 것 또는 한번 해보는 정도를 넘어서는 인턴십 프로그램이 필요하다는 지적이다.

한편 이번 설문에서 다시 확인된 것이 바로 파이썬의 위상이다. 보고서에 따르면 파이썬은 데이터 과학 분야에서 여전히 가장 널리 사용하는 언어인 것으로 나타났다. 큰 격차를 두고 R이 2위를 차지했고 자바스크립트, 자바, C/C+, C#이 뒤를 이었다. 줄리아(Julia)가 빠르게 부상하고 있지만 아직 순위에는 이름을 올리지 못했다. ciokr@idg.co.kr

X