2021.03.25

'드디어 안개 걷혔다'··· 데이터 과학 현주소와 미래는?

Michael Berthold | InfoWorld
2020년은 ‘데이터 과학(Data Science)’이 얼마나 가치 있는지를 보여준 한 해였다. 물론 그 한계가 드러난 한 해이기도 했다. 

작년은 ‘데이터 과학이 성장한 한 해’라고 할 수 있다. 수많은 기업이 데이터 중심의 애플리케이션을 대폭 도입했고 (성공한 정도는 다르지만) 데이터 과학으로 문제를 해결했다. 그 과정에서 데이터 과학은 얼마나 성숙했는지를 보여줬고 그리고 실제로 가치가 있다는 것을 증명해 보였다. 

전 세계적 팬데믹 위기는 데이터 과학 분야에서도 위기였다. 코로나19 사태로 인해 방대한 양의 데이터를 신속하게 분석하고 공유해야 했다. 또 계속해서 조건이 바뀌는 상황에서 긴급하게 예측 모델을 실행하고 업데이트해야 했다. 

따라서 지난 12개월은 데이터 과학에 있어 그 가치는 물론이고 한계까지 확인할 수 있었던 한 해였다. 2020년 데이터 과학에서 드러난 실상과 2021년 전망을 살펴본다. 
 
ⓒGetty Images

2020년의 데이터 과학
데이터 과학의 확산은 신나는 일이었지만 이 분야가 이제 어느 정도 자리를 잡았다는 잘못된 인식을 가져왔다. 오히려 그 반대다. 데이터 과학은 여전히 빠른 속도로 혁신하고 있는 ‘새로운 분야’로 남아있다.

하이프사이클에 따른다면 데이터 과학은 업계의 여러 업체가 AI를 채택하면서 2020년에 주류로 편입하는 것처럼 보였다. 그리고 모든 제품이나 서비스에 어떤 형태로든 인공지능이 적용되는 것처럼 보였다. 따라서 기업들은 스마트 데이터 솔루션으로 모든 문제를 해결할 수 있으리라 기대했고 기대치가 터무니없이 높아졌다. 하지만 데이터 과학은 그런 식으로 작동하지 않는다. 

다행스럽게도, 이제 사람들은 하이프에서 벗어나 데이터 과학이 할 수 있는 일과 없는 일을 이해할 수 있는 적절한 질문을 하기 시작했다. 따라서 현재 데이터 과학은 품질과 제대로 구축했을 때 얻을 수 있는 ROI를 바탕으로 주목받고 있다. 

1. 적응성(Adaptability) 
데이터 과학의 근본적인 과제 가운데 하나는 생성된 모델을 반복적이면서 안정적으로 가져와 프로덕션 단계에 적용하는 방법을 찾는 것이었다. 이 과제는 (확실히 코로나19 사태 이후 더 중요해진) ROI를 실현하는 데 있어 큰 방해요소가 될 수 있다. 

팬데믹을 거치면서 변화된 여러 행동을 생각해보자. 코로나19 사태 이전에 구축한 머신러닝 모델을 전체적으로 다시 설계하거나 학습시키진 않더라도 최소한 이러한 변화를 반영할 수 있도록 업데이트해야 했다. 

설명하자면, 문제 영역 그리고 머신러닝 모델이 해결하도록 요청받은 사항에 따라 새로운 현실은 코로나 이전과 크게 다를 수 있다. 즉 기존의 기본 가정이 더 이상 맞지 않기 때문에 인사이트 도출에 필요한 수백만 개의 데이터 포인트가 무너질 수 있다. 

이에 따라 새로운 데이터를 통합하고 새로운 현실에 적응하기 위해 모델을 업데이트해야 했으며 데이터 과학 모델 생성에서 프로덕션 단계까지 전체 프로세스를 재검토해야 했다. 

이는 꽤 어려운 일이다. 게다가 기업들은 갑자기 모델을 매우 신속하게 수정해야 했기 때문에 모델 테스트의 엄격함과 빈도가 떨어지는 문제가 발생했다. 모델은 검증 없이 급하게 생성됐다. 이는 데이터 과학의 신뢰성에 악영향을 미쳤다. 

2020년에는 제대로 테스트한 데이터 과학 모델을 생성하는 것과 (재설계 없이 필요에 따라 수정할 수 있는) 프로덕션 레디 모델을 배포하는 것 사이의 격차가 부각됐다. 다행히도 시간이 지나면서 이런 격차를 없앨 새로운 방식들이 등장하기 시작하고 있다. 

2. AI 모델 편향
데이터 과학의 신뢰성과 유용성에 의문을 제기한 또 다른 문제는 편향이었다. 2020년에는 사회정의가 화두로 부상했다. 자연스럽게 가능한 한 모든 곳에서 편향을 없애려는 노력이 이뤄졌다. 그리고 거의 모든 기업이 AI를 채택했기 때문에 AI 모델에서 편향을 제거하려고 시도했다. 하지만 이는 본질적으로 문제가 되는 작업이었다. 

데이터 과학 모델에서 편향을 없애고 이를 ‘비차별적’으로 만들면 결과가 약해지고 궁극적으로 모델의 가치가 떨어지는 경우가 많기 때문이다. 또 데이터 과학 모델에서 한 요소를 제거할 때 다른 요소가 유입될 수 있기 때문이다. 즉 편향이 완전히 제거되는 게 아니라 다른 종류의 편향으로 대체되는 결과를 낳는 위험이 존재한다. 

AI 모델의 편향을 줄이는 건 중요한 문제다. 의사결정에 도움을 받기 위해 데이터 과학을 이용하는 경우가 늘고 있어서다. 이로 인해 편향된 또는 부당한 결정을 내리게 되는 건 좋지 않다. 

윤리적인 방식으로 데이터 과학 모델을 생성하고 배포하려면 어떻게 해야 할까? 데이터 과학 모델은 설명할 수 있어야 하고 증명할 수 있어야 한다. 이는 의심할 여지없이 앞으로 몇 달 그리고 몇 년 동안 더 깊게 탐구될 영역이다. 

2021년 이후의 데이터 과학
지난 한 해 동안 상당한 진전이 이뤄지면서 데이터 과학의 발목을 붙잡고 있었던 문제들이 수면 위로 올라왔다. 이제 데이터 과학을 둘러싼 하이프 사이클이 종료됐고 이 분야는 더욱더 진지하게 혁신과 문제 해결에 집중할 수 있게 됐다. 

• 프로덕션 혁신
아마도 데이터 과학 분야에서 가장 흥미로운 기회는 통합 배포 이면의 모멘텀일 것이다. 모델 생성과 프로덕션 배포 간 격차를 좁히기 위한 기술이 나오고 있고, 데이터 과학자들은 더 이상 서로 다른 기술들을 변환할 필요가 없게 될 전망이다. 이는 게임 체인저가 되리라 예상된다. 시간을 절약하고 실패를 줄이는 한편 더욱더 정확한 결과를 얻게 해줄 것이기 때문이다. 

모델을 테스트 단계에서 프로덕션 단계로 더 빨리, 더 쉽게 이동할 수 있게 되면 데이터 과학은 데이터 과학자들은 물론 여러 이해관계자에게 훨씬 더 큰 ROI를 제공할 것이다. 기업에서는 여러 그룹이 데이터 인사이트를 사용하고 이해할 수 있다는 이점을 누릴 수 있다. 

• 2세대 협업
앞으로 다양한 그룹이 데이터 과학 모델 생성과 개발에 참여하게 될 것으로 예측된다. 비즈니스 애널리스트와 엔지니어는 데이터 과학자와 협력할 필요가 있다. 모두가 협력해야 데이터 과학 모델을 제대로 구축할 수 있다. 각 그룹은 서로 다른 관점을 제시해 데이터 과학 모델을 더욱더 통찰력 있고 효과적이며 비즈니스에 유용하게 만들 수 있다. 

특히, 데이터 과학 영역에서 필요한 협업은 각기 다른 니즈를 충족하기 위해 다양한 수준에서 협업 모델을 결합하는 형태를 취할 것이다. 기업은 구성요소를 공유함으로써 특정한 전문지식, 데이터 혼합, 머신 최적화 또는 보고 모듈을 한데 엮어 전사적으로 공유할 수 있다. 이러한 기능적이고 목적이 분명한 협업과 적절한 자동화가 결합돼 다음 단계의 데이터 과학을 규정할 것이다. 

• 유연한 환경
코로나19 사태는 디지털 트랜스포메이션 이니셔티브를 가속했고 이에 따라 클라우드 및 하이브리드 환경이 훨씬 더 많이 보편화됐다. 이러한 추세는 2021년에도 계속될 전망이다. 

물론 기업은 하나의 클라우드에만 록인돼 있거나 또는 모든 데이터를 클라우드에 옮기진 않는다. 많은 온프레미스 환경이 그대로 유지되고 있다. 기업들은 가끔 사용할 뿐인 컴퓨팅 리소스를 전부 구매할 필요가 없는 혼합된 환경에 데이터센터 인프라를 포함시키길 원할 것이다. 

기업들은 특정 워크로드의 리소스 요구사항을 충족하기 위해 하이브리드 환경을 확장 및 축소할 수 있는 탄력성과 역량을 모색할 것이다. 따라서 데이터 과학의 효율성을 극대화하기 위해서는 데이터 과학 모델이 다양한 환경에서 실행되고 이를 데이터센터와 클라우드 간에 공유할 수 있어야 한다. 

결론
오늘날 데이터 과학 분야의 성숙도는 아직 체계적이지 못하고 혼란스러운 상태다. 2021년에는 이제 막 데이터 과학을 시작한 기업과 꽤 오래전부터 이를 활용해온 기업 간 격차가 어느 정도 줄어들 것이다. 그러나 이런 격차는 한동안 계속 존재하리라 예측된다.

이유가 무엇일까? 데이터 과학 모델을 성공적으로 구축하고 그 역량과 한계를 파악한 기업들은 오픈소스 기술을 사용하여 계속해서 실험하면서 무언가를 시도할 것이기 때문이다. 만약 여기에 성공하면 데이터 과학 모델을 더욱더 광범위하게 사용할 수 있다. IT 예산을 낭비하지 않으면서도 자유롭게 실험하고 한계를 뛰어넘을 것이다. 그리고 여기서 큰 혁신이 이뤄질 것이다. 

이와 동시에 데이터 과학의 접근성이 높아질 전망이다. 로우코드 기능이 전사적으로 더 많은 사용자에게 더 많은 기회를 제공할 것이다. 더욱더 많은 사람이 데이터 과학을 이해하고 이를 활용해 그 어느 때보다 빠르게 문제를 해결하면서 데이터 과학이 민주화되고 새로운 가능성이 열릴 것이다. 

데이터 과학은 팬데믹이라는 위기를 만났음에도 불구하고 2020년 큰 성과를 일궈냈다. 물론 주요 과제들을 직면하기도 했다. 하지만 그 덕분에 발전이 이뤄지고 있기도 하다. 2021년은 데이터 과학이 현실을 직시하고, 더 유의미한 방식으로 ROI를 보여주는 한 해가 될 것이다. ciokr@idg.co.kr



 



2021.03.25

'드디어 안개 걷혔다'··· 데이터 과학 현주소와 미래는?

Michael Berthold | InfoWorld
2020년은 ‘데이터 과학(Data Science)’이 얼마나 가치 있는지를 보여준 한 해였다. 물론 그 한계가 드러난 한 해이기도 했다. 

작년은 ‘데이터 과학이 성장한 한 해’라고 할 수 있다. 수많은 기업이 데이터 중심의 애플리케이션을 대폭 도입했고 (성공한 정도는 다르지만) 데이터 과학으로 문제를 해결했다. 그 과정에서 데이터 과학은 얼마나 성숙했는지를 보여줬고 그리고 실제로 가치가 있다는 것을 증명해 보였다. 

전 세계적 팬데믹 위기는 데이터 과학 분야에서도 위기였다. 코로나19 사태로 인해 방대한 양의 데이터를 신속하게 분석하고 공유해야 했다. 또 계속해서 조건이 바뀌는 상황에서 긴급하게 예측 모델을 실행하고 업데이트해야 했다. 

따라서 지난 12개월은 데이터 과학에 있어 그 가치는 물론이고 한계까지 확인할 수 있었던 한 해였다. 2020년 데이터 과학에서 드러난 실상과 2021년 전망을 살펴본다. 
 
ⓒGetty Images

2020년의 데이터 과학
데이터 과학의 확산은 신나는 일이었지만 이 분야가 이제 어느 정도 자리를 잡았다는 잘못된 인식을 가져왔다. 오히려 그 반대다. 데이터 과학은 여전히 빠른 속도로 혁신하고 있는 ‘새로운 분야’로 남아있다.

하이프사이클에 따른다면 데이터 과학은 업계의 여러 업체가 AI를 채택하면서 2020년에 주류로 편입하는 것처럼 보였다. 그리고 모든 제품이나 서비스에 어떤 형태로든 인공지능이 적용되는 것처럼 보였다. 따라서 기업들은 스마트 데이터 솔루션으로 모든 문제를 해결할 수 있으리라 기대했고 기대치가 터무니없이 높아졌다. 하지만 데이터 과학은 그런 식으로 작동하지 않는다. 

다행스럽게도, 이제 사람들은 하이프에서 벗어나 데이터 과학이 할 수 있는 일과 없는 일을 이해할 수 있는 적절한 질문을 하기 시작했다. 따라서 현재 데이터 과학은 품질과 제대로 구축했을 때 얻을 수 있는 ROI를 바탕으로 주목받고 있다. 

1. 적응성(Adaptability) 
데이터 과학의 근본적인 과제 가운데 하나는 생성된 모델을 반복적이면서 안정적으로 가져와 프로덕션 단계에 적용하는 방법을 찾는 것이었다. 이 과제는 (확실히 코로나19 사태 이후 더 중요해진) ROI를 실현하는 데 있어 큰 방해요소가 될 수 있다. 

팬데믹을 거치면서 변화된 여러 행동을 생각해보자. 코로나19 사태 이전에 구축한 머신러닝 모델을 전체적으로 다시 설계하거나 학습시키진 않더라도 최소한 이러한 변화를 반영할 수 있도록 업데이트해야 했다. 

설명하자면, 문제 영역 그리고 머신러닝 모델이 해결하도록 요청받은 사항에 따라 새로운 현실은 코로나 이전과 크게 다를 수 있다. 즉 기존의 기본 가정이 더 이상 맞지 않기 때문에 인사이트 도출에 필요한 수백만 개의 데이터 포인트가 무너질 수 있다. 

이에 따라 새로운 데이터를 통합하고 새로운 현실에 적응하기 위해 모델을 업데이트해야 했으며 데이터 과학 모델 생성에서 프로덕션 단계까지 전체 프로세스를 재검토해야 했다. 

이는 꽤 어려운 일이다. 게다가 기업들은 갑자기 모델을 매우 신속하게 수정해야 했기 때문에 모델 테스트의 엄격함과 빈도가 떨어지는 문제가 발생했다. 모델은 검증 없이 급하게 생성됐다. 이는 데이터 과학의 신뢰성에 악영향을 미쳤다. 

2020년에는 제대로 테스트한 데이터 과학 모델을 생성하는 것과 (재설계 없이 필요에 따라 수정할 수 있는) 프로덕션 레디 모델을 배포하는 것 사이의 격차가 부각됐다. 다행히도 시간이 지나면서 이런 격차를 없앨 새로운 방식들이 등장하기 시작하고 있다. 

2. AI 모델 편향
데이터 과학의 신뢰성과 유용성에 의문을 제기한 또 다른 문제는 편향이었다. 2020년에는 사회정의가 화두로 부상했다. 자연스럽게 가능한 한 모든 곳에서 편향을 없애려는 노력이 이뤄졌다. 그리고 거의 모든 기업이 AI를 채택했기 때문에 AI 모델에서 편향을 제거하려고 시도했다. 하지만 이는 본질적으로 문제가 되는 작업이었다. 

데이터 과학 모델에서 편향을 없애고 이를 ‘비차별적’으로 만들면 결과가 약해지고 궁극적으로 모델의 가치가 떨어지는 경우가 많기 때문이다. 또 데이터 과학 모델에서 한 요소를 제거할 때 다른 요소가 유입될 수 있기 때문이다. 즉 편향이 완전히 제거되는 게 아니라 다른 종류의 편향으로 대체되는 결과를 낳는 위험이 존재한다. 

AI 모델의 편향을 줄이는 건 중요한 문제다. 의사결정에 도움을 받기 위해 데이터 과학을 이용하는 경우가 늘고 있어서다. 이로 인해 편향된 또는 부당한 결정을 내리게 되는 건 좋지 않다. 

윤리적인 방식으로 데이터 과학 모델을 생성하고 배포하려면 어떻게 해야 할까? 데이터 과학 모델은 설명할 수 있어야 하고 증명할 수 있어야 한다. 이는 의심할 여지없이 앞으로 몇 달 그리고 몇 년 동안 더 깊게 탐구될 영역이다. 

2021년 이후의 데이터 과학
지난 한 해 동안 상당한 진전이 이뤄지면서 데이터 과학의 발목을 붙잡고 있었던 문제들이 수면 위로 올라왔다. 이제 데이터 과학을 둘러싼 하이프 사이클이 종료됐고 이 분야는 더욱더 진지하게 혁신과 문제 해결에 집중할 수 있게 됐다. 

• 프로덕션 혁신
아마도 데이터 과학 분야에서 가장 흥미로운 기회는 통합 배포 이면의 모멘텀일 것이다. 모델 생성과 프로덕션 배포 간 격차를 좁히기 위한 기술이 나오고 있고, 데이터 과학자들은 더 이상 서로 다른 기술들을 변환할 필요가 없게 될 전망이다. 이는 게임 체인저가 되리라 예상된다. 시간을 절약하고 실패를 줄이는 한편 더욱더 정확한 결과를 얻게 해줄 것이기 때문이다. 

모델을 테스트 단계에서 프로덕션 단계로 더 빨리, 더 쉽게 이동할 수 있게 되면 데이터 과학은 데이터 과학자들은 물론 여러 이해관계자에게 훨씬 더 큰 ROI를 제공할 것이다. 기업에서는 여러 그룹이 데이터 인사이트를 사용하고 이해할 수 있다는 이점을 누릴 수 있다. 

• 2세대 협업
앞으로 다양한 그룹이 데이터 과학 모델 생성과 개발에 참여하게 될 것으로 예측된다. 비즈니스 애널리스트와 엔지니어는 데이터 과학자와 협력할 필요가 있다. 모두가 협력해야 데이터 과학 모델을 제대로 구축할 수 있다. 각 그룹은 서로 다른 관점을 제시해 데이터 과학 모델을 더욱더 통찰력 있고 효과적이며 비즈니스에 유용하게 만들 수 있다. 

특히, 데이터 과학 영역에서 필요한 협업은 각기 다른 니즈를 충족하기 위해 다양한 수준에서 협업 모델을 결합하는 형태를 취할 것이다. 기업은 구성요소를 공유함으로써 특정한 전문지식, 데이터 혼합, 머신 최적화 또는 보고 모듈을 한데 엮어 전사적으로 공유할 수 있다. 이러한 기능적이고 목적이 분명한 협업과 적절한 자동화가 결합돼 다음 단계의 데이터 과학을 규정할 것이다. 

• 유연한 환경
코로나19 사태는 디지털 트랜스포메이션 이니셔티브를 가속했고 이에 따라 클라우드 및 하이브리드 환경이 훨씬 더 많이 보편화됐다. 이러한 추세는 2021년에도 계속될 전망이다. 

물론 기업은 하나의 클라우드에만 록인돼 있거나 또는 모든 데이터를 클라우드에 옮기진 않는다. 많은 온프레미스 환경이 그대로 유지되고 있다. 기업들은 가끔 사용할 뿐인 컴퓨팅 리소스를 전부 구매할 필요가 없는 혼합된 환경에 데이터센터 인프라를 포함시키길 원할 것이다. 

기업들은 특정 워크로드의 리소스 요구사항을 충족하기 위해 하이브리드 환경을 확장 및 축소할 수 있는 탄력성과 역량을 모색할 것이다. 따라서 데이터 과학의 효율성을 극대화하기 위해서는 데이터 과학 모델이 다양한 환경에서 실행되고 이를 데이터센터와 클라우드 간에 공유할 수 있어야 한다. 

결론
오늘날 데이터 과학 분야의 성숙도는 아직 체계적이지 못하고 혼란스러운 상태다. 2021년에는 이제 막 데이터 과학을 시작한 기업과 꽤 오래전부터 이를 활용해온 기업 간 격차가 어느 정도 줄어들 것이다. 그러나 이런 격차는 한동안 계속 존재하리라 예측된다.

이유가 무엇일까? 데이터 과학 모델을 성공적으로 구축하고 그 역량과 한계를 파악한 기업들은 오픈소스 기술을 사용하여 계속해서 실험하면서 무언가를 시도할 것이기 때문이다. 만약 여기에 성공하면 데이터 과학 모델을 더욱더 광범위하게 사용할 수 있다. IT 예산을 낭비하지 않으면서도 자유롭게 실험하고 한계를 뛰어넘을 것이다. 그리고 여기서 큰 혁신이 이뤄질 것이다. 

이와 동시에 데이터 과학의 접근성이 높아질 전망이다. 로우코드 기능이 전사적으로 더 많은 사용자에게 더 많은 기회를 제공할 것이다. 더욱더 많은 사람이 데이터 과학을 이해하고 이를 활용해 그 어느 때보다 빠르게 문제를 해결하면서 데이터 과학이 민주화되고 새로운 가능성이 열릴 것이다. 

데이터 과학은 팬데믹이라는 위기를 만났음에도 불구하고 2020년 큰 성과를 일궈냈다. 물론 주요 과제들을 직면하기도 했다. 하지만 그 덕분에 발전이 이뤄지고 있기도 하다. 2021년은 데이터 과학이 현실을 직시하고, 더 유의미한 방식으로 ROI를 보여주는 한 해가 될 것이다. ciokr@idg.co.kr



 

X