Offcanvas

��������� ���������

‘데이터를 가치로 바꾼다’··· 데이터과학 ABC

데이터 과학은 통계 분석에서 머신러닝에 이르는 각종 접근법을 사용하여 정형 및 비정형 데이터에서 통찰력을 얻는 방법을 의미한다. 대부분의 조직에서는 매출 개선, 비용 절감, 비즈니스 민첩성, 고객 경험 개선, 신제품 개발 등의 형태로 데이터를 가치로 변환하기 위해 사용된다. 즉 데이터 과학은 조직이 수집한 수많은 데이터에 목적과 가치를 부여한다.   데이터 과학 vs. 데이터 애널리틱스 밀접한 관계이기는 하지만 같은 용어는 아니다. 데이터 애널리틱스는 조직의 데이터가 어떤 모습인지 이해하는 데 사용되는 데이터 과학의 구성 요소이다. 데이터 과학은 애널리틱스의 산출물을 이용하여 문제를 해결한다.  데이터 과학자들은 데이터로 무언가를 조사하는 것은 단순히 분석이라고 말하곤 한다. 데이터 과학은 문제를 설명하고 해결하기 위해 분석을 또 다른 단계로 나아가게 한다. 데이터 애널리틱스와 데이터 과학 간의 차이는 또한 시간 척도(timescale)에서도 나타난다. 데이터 애널리틱스는 현재의 현실 상태를 기술하는 반면, 데이터 과학은 미래를 예측 또는 이해하기 위해 데이터를 사용한다.  장점 데이터 과학의 비즈니스 가치는 각 조직과 조직의 필요에 따라 다르다. 가령 데이터 과학은 하드웨어 장애를 예측하도록 도울 수 있어 다운타임을 방지할 수 있게 해준다. 매장 진열대에 무엇을 놓을 것인지, 혹은 제품의 특성에 기초하여 그것이 얼마나 인기가 있을 것인지를 예측하는 데 도움이 될 수도 있다. 데이터 과학의 비즈니스 가치에 대한 자세한 통찰력에 대해서는 ‘데이터 애널리틱스의 예상치 못한 이점’(영문)과 ‘데이터 애널리틱스이라는 암흑 과학 설명’(영문)을 참조한다.   ->나쁜 데이터 과학자 구별하기 '8가지 신호' ->이상은 '데이터 과학자', 현실은 '디지털 청소부' ->데이터 과학자에 관한 4가지 오해 일자리 데이터 과학 학위 프로그램의 수는 빠르게 증가하고 있지만, 조직이 데이터 과학자를 구...

데이터 과학팀 데이터 과학자 데이터 애널리틱스

2022.04.26

데이터 과학은 통계 분석에서 머신러닝에 이르는 각종 접근법을 사용하여 정형 및 비정형 데이터에서 통찰력을 얻는 방법을 의미한다. 대부분의 조직에서는 매출 개선, 비용 절감, 비즈니스 민첩성, 고객 경험 개선, 신제품 개발 등의 형태로 데이터를 가치로 변환하기 위해 사용된다. 즉 데이터 과학은 조직이 수집한 수많은 데이터에 목적과 가치를 부여한다.   데이터 과학 vs. 데이터 애널리틱스 밀접한 관계이기는 하지만 같은 용어는 아니다. 데이터 애널리틱스는 조직의 데이터가 어떤 모습인지 이해하는 데 사용되는 데이터 과학의 구성 요소이다. 데이터 과학은 애널리틱스의 산출물을 이용하여 문제를 해결한다.  데이터 과학자들은 데이터로 무언가를 조사하는 것은 단순히 분석이라고 말하곤 한다. 데이터 과학은 문제를 설명하고 해결하기 위해 분석을 또 다른 단계로 나아가게 한다. 데이터 애널리틱스와 데이터 과학 간의 차이는 또한 시간 척도(timescale)에서도 나타난다. 데이터 애널리틱스는 현재의 현실 상태를 기술하는 반면, 데이터 과학은 미래를 예측 또는 이해하기 위해 데이터를 사용한다.  장점 데이터 과학의 비즈니스 가치는 각 조직과 조직의 필요에 따라 다르다. 가령 데이터 과학은 하드웨어 장애를 예측하도록 도울 수 있어 다운타임을 방지할 수 있게 해준다. 매장 진열대에 무엇을 놓을 것인지, 혹은 제품의 특성에 기초하여 그것이 얼마나 인기가 있을 것인지를 예측하는 데 도움이 될 수도 있다. 데이터 과학의 비즈니스 가치에 대한 자세한 통찰력에 대해서는 ‘데이터 애널리틱스의 예상치 못한 이점’(영문)과 ‘데이터 애널리틱스이라는 암흑 과학 설명’(영문)을 참조한다.   ->나쁜 데이터 과학자 구별하기 '8가지 신호' ->이상은 '데이터 과학자', 현실은 '디지털 청소부' ->데이터 과학자에 관한 4가지 오해 일자리 데이터 과학 학위 프로그램의 수는 빠르게 증가하고 있지만, 조직이 데이터 과학자를 구...

2022.04.26

칼럼ㅣ머신러닝의 첫 번째 규칙은 ML 없이 시작하는 것이다

‘머신러닝(ML)’을 하는 가장 좋은 방법은 때때로 머신러닝을 전혀 하지 않는 것이다. 실제로 아마존의 응용 과학자 유진 얀에 따르면 머신러닝의 첫 번째 규칙은 머신러닝 없이 시작하는 것이다.  이게 무슨 소리인가?  수개월에 걸친 고된 노력으로 공들여 만든 ML 모델을 소개하는 건 멋진 일이다. 그러나 이는 가장 효과적인 접근 방식이 아니다. 더 간단하고 접근하기 쉬운 방법이 있다.    지난 2016년 데이터 과학자 노아 로랑이 “데이터 과학자는 대부분 산수를 할 뿐이다”라고 언급한 건 지나친 단순화일 수 있다. 하지만 그의 말은 크게 틀리지 않으며, 아무리 데이터를 작동시키는 프로세스를 복잡하게 만들고 싶더라도 작게 시작하는 것이 좋다는 로랑과 얀의 주장은 확실히 옳다.  과도한 복잡성  데이터 과학자는 많은 급여를 받는다. 따라서 예측 애널리틱스와 같은 것을 복잡한 전문용어와 방대한 모델로 포장해 급여를 정당화하고 싶을 수 있다. 그래선 안 된다.  로랑의 주장은 오늘날에도 유효하다. 그는 “비즈니스 문제의 아주 작은 부분 집합만이 머신러닝으로 가장 잘 해결된다. 대부분은 단지 좋은 데이터와 그것이 무엇을 의미하는지 이해만 하면 된다”라고 밝혔다.  그러면서 로랑은 데이터를 가져오기 위한 SQL 쿼리, 해당 데이터에 관한 기본 연산(차이 및 백분위수 계산 등), 결과 그래프 작성, 설명 또는 권장사항 작성 등의 더 간단한 방법을 추천했다.  이것이 쉽다고 말하는 게 아니다. 데이터에서 인사이트를 얻으려고 할 때 머신러닝에서 시작할 필요가 없다는 말이다. 또 많은 양의 데이터가 반드시 필요한 것도 아니다. 엘리제블(Eligible)의 CEO 케이틀린 글리슨은 “작은 데이터부터 시작하는 게 중요하다. 나를 최고의 발견으로 이끈 것은 눈 깜짝할 사이에 생긴 이상 현상이었다”라면서, 때로는 분포를 그리는 것만으로도 충분히 명확한 패턴을 확인할 수 있다고 말했다.&nb...

머신러닝 데이터 과학자 데이터 과학 ML 휴리스틱 애널리틱스

2021.09.28

‘머신러닝(ML)’을 하는 가장 좋은 방법은 때때로 머신러닝을 전혀 하지 않는 것이다. 실제로 아마존의 응용 과학자 유진 얀에 따르면 머신러닝의 첫 번째 규칙은 머신러닝 없이 시작하는 것이다.  이게 무슨 소리인가?  수개월에 걸친 고된 노력으로 공들여 만든 ML 모델을 소개하는 건 멋진 일이다. 그러나 이는 가장 효과적인 접근 방식이 아니다. 더 간단하고 접근하기 쉬운 방법이 있다.    지난 2016년 데이터 과학자 노아 로랑이 “데이터 과학자는 대부분 산수를 할 뿐이다”라고 언급한 건 지나친 단순화일 수 있다. 하지만 그의 말은 크게 틀리지 않으며, 아무리 데이터를 작동시키는 프로세스를 복잡하게 만들고 싶더라도 작게 시작하는 것이 좋다는 로랑과 얀의 주장은 확실히 옳다.  과도한 복잡성  데이터 과학자는 많은 급여를 받는다. 따라서 예측 애널리틱스와 같은 것을 복잡한 전문용어와 방대한 모델로 포장해 급여를 정당화하고 싶을 수 있다. 그래선 안 된다.  로랑의 주장은 오늘날에도 유효하다. 그는 “비즈니스 문제의 아주 작은 부분 집합만이 머신러닝으로 가장 잘 해결된다. 대부분은 단지 좋은 데이터와 그것이 무엇을 의미하는지 이해만 하면 된다”라고 밝혔다.  그러면서 로랑은 데이터를 가져오기 위한 SQL 쿼리, 해당 데이터에 관한 기본 연산(차이 및 백분위수 계산 등), 결과 그래프 작성, 설명 또는 권장사항 작성 등의 더 간단한 방법을 추천했다.  이것이 쉽다고 말하는 게 아니다. 데이터에서 인사이트를 얻으려고 할 때 머신러닝에서 시작할 필요가 없다는 말이다. 또 많은 양의 데이터가 반드시 필요한 것도 아니다. 엘리제블(Eligible)의 CEO 케이틀린 글리슨은 “작은 데이터부터 시작하는 게 중요하다. 나를 최고의 발견으로 이끈 것은 눈 깜짝할 사이에 생긴 이상 현상이었다”라면서, 때로는 분포를 그리는 것만으로도 충분히 명확한 패턴을 확인할 수 있다고 말했다.&nb...

2021.09.28

‘죽지 않았다, 진화할 뿐’··· 2021 BI 트렌드 7

비즈니스 인텔리전스(Business Intelligence, BI)는 ‘소리 없는 아우성’과 같은 모순어법이 아니다. 전혀 죽지 않았다. 그리고 인공지능으로 대체되지도 않는다. 사실 BI는 살아 있고 멀쩡하다. 더 사용하기 쉬워지고 더 많은 직원들에게 확대되고 있으며 클라우드로 이동하고 있다. 또 더욱 광범위한 ERP 및 CRM 소프트웨어 스위트에 내장되고 있으며 이제 AI와 머신러닝을 아우르고 있다. IDC의 2020년 데이터에 따르면 전 세계 전체 비즈니스 인텔리전스 및 분석 시장은 192억 달러에 달했으며, 팬데믹 관련 경제 충격에도 불구하고 5.2%나 성장했다. 앞으로 기업들이 미래의 비즈니스 발전을 위해 데이터를 사용하는 디지털 전환과 더 스마트한 방법에 집중하면서 BI 성장이 가속화될 것으로 예상된다. 시장 리더는 업계에서 가장 강력한 마이크로소프트, SAP, 세일즈포스, IBM, SAS, 오라클 등의 기업이다. 이들 주도 기업들이 시장의 약 60%를 차지하고 있기 때문에 쏘우트스팟(ThoughtSpot)과 앨터라이즈(Alteryz) 등의 혁신 기업이 새 시장을 개척할 여지가 크다. 하지만 BI는 오래되었고 성과가 부족하다고 말하는 사람도 있을 수 있다. 일반 직원들이 사용하기에 너무 어렵고 멋진 보고서와 제안서를 화려한 색상의 대시보드로 그려내지만 직원들의 실질적인 비즈니스 문제를 해결하는 데 도움이 되지 않으며 데이터 카탈로그, 데이터 웨어하우스 생성 등 너무 많은 초기 작업이 필요하다는 비판이 있다. BARC 리서치 센터(BARC Research Center)의 설립자 겸 CEO 카슨 밴지는 팬데믹 이전에 일각에서는 BI를 투자 가치가 입증되지 않은 구형 기술로 보고 있었다며, “하지만 지금은 크게 바뀌었다”라고 말했다. 회사 데이터에 따르면 기업들이 공급망, 빠르게 변화하는 소비자 행동, 자체적인 비즈니스 프로세스에 대한 더욱 심층적인 이해를 얻어야 할 필요성을 인식하면서 다시금 BI에 집중하고 있다는 설명이다. 2021년 이후의 주...

비즈니스 인텔리전스 데이터 과학자 애널리틱스

2021.08.17

비즈니스 인텔리전스(Business Intelligence, BI)는 ‘소리 없는 아우성’과 같은 모순어법이 아니다. 전혀 죽지 않았다. 그리고 인공지능으로 대체되지도 않는다. 사실 BI는 살아 있고 멀쩡하다. 더 사용하기 쉬워지고 더 많은 직원들에게 확대되고 있으며 클라우드로 이동하고 있다. 또 더욱 광범위한 ERP 및 CRM 소프트웨어 스위트에 내장되고 있으며 이제 AI와 머신러닝을 아우르고 있다. IDC의 2020년 데이터에 따르면 전 세계 전체 비즈니스 인텔리전스 및 분석 시장은 192억 달러에 달했으며, 팬데믹 관련 경제 충격에도 불구하고 5.2%나 성장했다. 앞으로 기업들이 미래의 비즈니스 발전을 위해 데이터를 사용하는 디지털 전환과 더 스마트한 방법에 집중하면서 BI 성장이 가속화될 것으로 예상된다. 시장 리더는 업계에서 가장 강력한 마이크로소프트, SAP, 세일즈포스, IBM, SAS, 오라클 등의 기업이다. 이들 주도 기업들이 시장의 약 60%를 차지하고 있기 때문에 쏘우트스팟(ThoughtSpot)과 앨터라이즈(Alteryz) 등의 혁신 기업이 새 시장을 개척할 여지가 크다. 하지만 BI는 오래되었고 성과가 부족하다고 말하는 사람도 있을 수 있다. 일반 직원들이 사용하기에 너무 어렵고 멋진 보고서와 제안서를 화려한 색상의 대시보드로 그려내지만 직원들의 실질적인 비즈니스 문제를 해결하는 데 도움이 되지 않으며 데이터 카탈로그, 데이터 웨어하우스 생성 등 너무 많은 초기 작업이 필요하다는 비판이 있다. BARC 리서치 센터(BARC Research Center)의 설립자 겸 CEO 카슨 밴지는 팬데믹 이전에 일각에서는 BI를 투자 가치가 입증되지 않은 구형 기술로 보고 있었다며, “하지만 지금은 크게 바뀌었다”라고 말했다. 회사 데이터에 따르면 기업들이 공급망, 빠르게 변화하는 소비자 행동, 자체적인 비즈니스 프로세스에 대한 더욱 심층적인 이해를 얻어야 할 필요성을 인식하면서 다시금 BI에 집중하고 있다는 설명이다. 2021년 이후의 주...

2021.08.17

커리어 전환 고민 중이라면... 유망 'IT 직종' 9선

‘머신러닝 엔지니어’부터 ‘멀티 클라우드 통합 전문가’까지 새롭게 부상하고 있는 혹은 부활한 인기 IT 직종을 살펴본다.   수요가 가장 높은 IT 직종은 현재도 채용하기 어려운 상황이며, 앞으로도 계속 그러할 전망이다. 美 노동통계국(BLS)에 따르면 IT 인력 구인 공고는 2019년 이래 최고 수준을 기록했다.  美 이동통신산업협회(CTIA)에 의하면 가장 수요가 높은 직종은 ▲소프트웨어 및 애플리케이션 개발자, ▲IT 지원 전문가, ▲시스템 엔지니어 및 아키텍트, ▲IT 프로젝트 매니저, ▲시스템 애널리스트다. 이어서 CTIA는 신기술 관련 직종이 IT 일자리의 약 28%를 차지했다고 덧붙였다.  여기서는 여러 채용 담당자, 경영진, 기술 전문가가 밝힌 ‘앞으로 가장 수요가 높을 IT 직종’을 소개한다. 현재 하는 일이 지겹거나 또는 비전이 없다고 느낀다면 한동안 안전하게 성장할 다음의 IT 직종을 고려해볼 수 있겠다.    1. 프로그래밍(IT 직종과 무관)  스위트워터(Sweetwater)의 CIO 제이슨 존슨은 현재 직무와 관계없이 소프트웨어 개발 역량을 요구하는 직종이 많아지고 있다고 말했다.  그는 “예를 들면 데이터 과학자, 웹 개발자, 네트워크 엔지니어, 컴퓨터 프로그래머, 데이터베이스 관리자 등이 여기에 포함된다”라면서, “소프트웨어 개발은 기본 기술로 간주돼 왔고 여전히 그렇다. 이제는 모든 IT 직종을 위한 기반으로 자리잡아가고 있다”라고 언급했다.  존슨은 구체적으로 ‘파이썬(Python)’과 ‘R’ 언어를 알아야 한다고 밝혔다. 그는 “표준 API 및 앤서블을 사용하여 구성 변경을 롤아웃하고 테라폼 같은 도구를 쓰는 코드형 인프라와 관련된 클라우드 베스트 프랙티스를 활용한다고 하자. 필요로 하는 모든 기술 역량을 갖추려면 오늘날의 IT 엔지니어는 소프트웨어 개발자가 돼야 한다”라고 설명했다.  2. 제품 관리자  ...

프로그래밍 제품 관리자 소프트웨어 개발자 사이버 보안 데이터 과학자 데이터 엔지니어 머신러닝 엔지니어 AI 엔지니어 멀티 클라우드 통합 전문가 풀스택 엔지니어 사물인터넷 엔지니어

2021.08.12

‘머신러닝 엔지니어’부터 ‘멀티 클라우드 통합 전문가’까지 새롭게 부상하고 있는 혹은 부활한 인기 IT 직종을 살펴본다.   수요가 가장 높은 IT 직종은 현재도 채용하기 어려운 상황이며, 앞으로도 계속 그러할 전망이다. 美 노동통계국(BLS)에 따르면 IT 인력 구인 공고는 2019년 이래 최고 수준을 기록했다.  美 이동통신산업협회(CTIA)에 의하면 가장 수요가 높은 직종은 ▲소프트웨어 및 애플리케이션 개발자, ▲IT 지원 전문가, ▲시스템 엔지니어 및 아키텍트, ▲IT 프로젝트 매니저, ▲시스템 애널리스트다. 이어서 CTIA는 신기술 관련 직종이 IT 일자리의 약 28%를 차지했다고 덧붙였다.  여기서는 여러 채용 담당자, 경영진, 기술 전문가가 밝힌 ‘앞으로 가장 수요가 높을 IT 직종’을 소개한다. 현재 하는 일이 지겹거나 또는 비전이 없다고 느낀다면 한동안 안전하게 성장할 다음의 IT 직종을 고려해볼 수 있겠다.    1. 프로그래밍(IT 직종과 무관)  스위트워터(Sweetwater)의 CIO 제이슨 존슨은 현재 직무와 관계없이 소프트웨어 개발 역량을 요구하는 직종이 많아지고 있다고 말했다.  그는 “예를 들면 데이터 과학자, 웹 개발자, 네트워크 엔지니어, 컴퓨터 프로그래머, 데이터베이스 관리자 등이 여기에 포함된다”라면서, “소프트웨어 개발은 기본 기술로 간주돼 왔고 여전히 그렇다. 이제는 모든 IT 직종을 위한 기반으로 자리잡아가고 있다”라고 언급했다.  존슨은 구체적으로 ‘파이썬(Python)’과 ‘R’ 언어를 알아야 한다고 밝혔다. 그는 “표준 API 및 앤서블을 사용하여 구성 변경을 롤아웃하고 테라폼 같은 도구를 쓰는 코드형 인프라와 관련된 클라우드 베스트 프랙티스를 활용한다고 하자. 필요로 하는 모든 기술 역량을 갖추려면 오늘날의 IT 엔지니어는 소프트웨어 개발자가 돼야 한다”라고 설명했다.  2. 제품 관리자  ...

2021.08.12

김진철의 How-to-Big DataㅣHow-to-Big Data 핵심 정리(Key Takeaways) (3)

이번 글은 지난 쉰세 번째 글에 이어 2017년 1월부터 지금까지 필자가 소개했던 빅데이터 활용의 핵심들을 다시 정리해보는 마지막 글이다. 지난 쉰세 번째 글에서는 필자가 독자들로부터 가장 많은 문의를 받았던 내용인 빅데이터 비즈니스 조직의 조직 및 운영에 관한 22회부터 34회까지의 글을 요약 정리했다. How-to-Big Data의 주요 내용을 요약 정리하는 글의 마지막 편인 이번 글에서 빅데이터 비즈니스의 미래를 다루었던 35회부터 51회까지 글의 핵심 내용을 다시 짚어보려고 한다.     --> 김진철의 How-to-Big Data | How-to-Big Data 핵심 정리(Key Takeaways) (1) --> 김진철의 How-to-Big DataㅣHow-to-Big Data 핵심 정리(Key Takeaways) (2)   35회: 빅데이터의 미래 (1) (2019년 11월 27일 게재) 34회까지 CERN의 LHC 빅데이터 사례를 통해 배운 빅데이터 비즈니스의 교훈을 앞으로 어떻게 적용하는 것이 좋을지 생각해보기 위해 빅데이터 비즈니스의 미래를 살펴보는 글의 첫 번째 글이었다. 빅데이터 기술과 비즈니스가 앞으로 어떻게 변화해갈지 생각해보는 데 도움이 될 수 있도록 빅데이터 현상이 왜 일어나는지 그 근본 배경에 대해서 같이 생각해보았다. 빅데이터 현상은 컴퓨터 기술이 그 시대에 필요로 하는 데이터 처리의 요구사항을 극복하지 못할 때 나타나는 필연적인 현상이며, 현재 우리가 경험하는 빅데이터 현상 전에도 다른 양상으로 여러 번 나타났다.  이런 맥락에서 빅데이터 기술의 역사는 컴퓨터 기술 발전의 역사와 맥을 같이 한다. 다만 현재 우리가 겪는 빅데이터 현상이 이전과 다른 것은 베오울프 클러스터 기술로 시작된 분산 컴퓨팅 기술의 발전과 수평적 확장성의 발전, 이런 분산 컴퓨팅과 수평적 확장성을 지원하는 기술로 처리가능한 데이터의 양이 폭증하는 것과 함께 중요해진 데이터 수...

김진철 빅 데이터 데이터 과학 사이버 물리 시스템 클라우드 컴퓨팅 5G 6G 인공지능 머신러닝 모바일 엣지 컴퓨팅 자율 컴퓨팅 데브옵스 고랭 엣지 컴퓨팅 딥러닝 데이터 과학자 ESG 경영

2021.06.29

이번 글은 지난 쉰세 번째 글에 이어 2017년 1월부터 지금까지 필자가 소개했던 빅데이터 활용의 핵심들을 다시 정리해보는 마지막 글이다. 지난 쉰세 번째 글에서는 필자가 독자들로부터 가장 많은 문의를 받았던 내용인 빅데이터 비즈니스 조직의 조직 및 운영에 관한 22회부터 34회까지의 글을 요약 정리했다. How-to-Big Data의 주요 내용을 요약 정리하는 글의 마지막 편인 이번 글에서 빅데이터 비즈니스의 미래를 다루었던 35회부터 51회까지 글의 핵심 내용을 다시 짚어보려고 한다.     --> 김진철의 How-to-Big Data | How-to-Big Data 핵심 정리(Key Takeaways) (1) --> 김진철의 How-to-Big DataㅣHow-to-Big Data 핵심 정리(Key Takeaways) (2)   35회: 빅데이터의 미래 (1) (2019년 11월 27일 게재) 34회까지 CERN의 LHC 빅데이터 사례를 통해 배운 빅데이터 비즈니스의 교훈을 앞으로 어떻게 적용하는 것이 좋을지 생각해보기 위해 빅데이터 비즈니스의 미래를 살펴보는 글의 첫 번째 글이었다. 빅데이터 기술과 비즈니스가 앞으로 어떻게 변화해갈지 생각해보는 데 도움이 될 수 있도록 빅데이터 현상이 왜 일어나는지 그 근본 배경에 대해서 같이 생각해보았다. 빅데이터 현상은 컴퓨터 기술이 그 시대에 필요로 하는 데이터 처리의 요구사항을 극복하지 못할 때 나타나는 필연적인 현상이며, 현재 우리가 경험하는 빅데이터 현상 전에도 다른 양상으로 여러 번 나타났다.  이런 맥락에서 빅데이터 기술의 역사는 컴퓨터 기술 발전의 역사와 맥을 같이 한다. 다만 현재 우리가 겪는 빅데이터 현상이 이전과 다른 것은 베오울프 클러스터 기술로 시작된 분산 컴퓨팅 기술의 발전과 수평적 확장성의 발전, 이런 분산 컴퓨팅과 수평적 확장성을 지원하는 기술로 처리가능한 데이터의 양이 폭증하는 것과 함께 중요해진 데이터 수...

2021.06.29

현실 속 성공적인 AI팀이란?··· 현장의 여러 풍경

거대 IT 기업의 박사 집단이 아니다. AI의 활용이 확대되면서 비즈니스 스킬 등 다양한 역량을 보유한 혼합 팀이 기업의 AI 성공에 중요하다는 사실이 밝혀지고 있다.   점차 많은 기업들이 AI 프로젝트를 확대하고 개념 증명을 비즈니스 전환의 동인으로 변모시키면서 실제 AI를 활용해 성공하기 위해서 필요한 것이 무엇인지가 명확해지고 있다. AI팀의 경우 알려진 것보다 광범위한 스킬이 필요하며, 트랜슬레이터(Translator), 즉, 운영 및 AI 개념을 비즈니스 용어로 설명할 수 있는 능력을 가진 사람이 특히 요구된다. 즉, AI 성공은 데이터 사이언티스트 집단만으로는 달성하기 어렵다. 맥킨지(McKinsey&Co)의 파트너 루이스 헤링은 AI 프로젝트에서 성공하기 위해서는 팀을 융합해야 한다고 말했다. 그녀는 “기술적인 측면을 보면 점차 생산에 바로 투입할 수 있는 코드를 확보하고 조직 전반에 걸쳐 재사용이 가능한 요소를 보유하는 방법이 점차 강조되고 있다. 하지만 무엇보다도 비즈니스 측면과 기술 측면 사이를 연결해 줄 수 있는 사람들이 더욱 중요해지고 있다”라고 말했다. 앞선 기업들이 비즈니스 문제를 해결하기 위해 어떻게 AI팀을 구성하고 있는지, 또 AI 기술의 발전이 어떻게 성공을 위해 필요한 기초 스킬을 변화시키고 있는지 살펴본다.    즉, AI 성공은 데이터 사이언티스트 집단만으로는 달성하기 어렵다. 성공적인 AI 팀이 수행하는 핵심 역할 성공적인 AI 프로젝트를 위해서는 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 엔지니어, 생산 책임자, 변화 관리 전문가, 번역가 등 광범위한 스킬을 갖춘 팀원들이 필요하다고 헤링이 말했다. 개념 증명과 시범 프로젝트의 경우 데이터 문제는 다른 양상을 보인다. 생산 현장에 투입할 수 있는 AI 배치에는 여러 이질적인 소스로부터 빠른 속도로 얻은 많은 양의 데이터가 필요하다. 그녀는 “데이터 사이언티스트와 데이터 엔지니어가 숨은 영웅이다. 레거시 영역들이...

AI 팀 트랜슬레이터 데이터 과학자 머신러닝 엔지니어

2021.06.10

거대 IT 기업의 박사 집단이 아니다. AI의 활용이 확대되면서 비즈니스 스킬 등 다양한 역량을 보유한 혼합 팀이 기업의 AI 성공에 중요하다는 사실이 밝혀지고 있다.   점차 많은 기업들이 AI 프로젝트를 확대하고 개념 증명을 비즈니스 전환의 동인으로 변모시키면서 실제 AI를 활용해 성공하기 위해서 필요한 것이 무엇인지가 명확해지고 있다. AI팀의 경우 알려진 것보다 광범위한 스킬이 필요하며, 트랜슬레이터(Translator), 즉, 운영 및 AI 개념을 비즈니스 용어로 설명할 수 있는 능력을 가진 사람이 특히 요구된다. 즉, AI 성공은 데이터 사이언티스트 집단만으로는 달성하기 어렵다. 맥킨지(McKinsey&Co)의 파트너 루이스 헤링은 AI 프로젝트에서 성공하기 위해서는 팀을 융합해야 한다고 말했다. 그녀는 “기술적인 측면을 보면 점차 생산에 바로 투입할 수 있는 코드를 확보하고 조직 전반에 걸쳐 재사용이 가능한 요소를 보유하는 방법이 점차 강조되고 있다. 하지만 무엇보다도 비즈니스 측면과 기술 측면 사이를 연결해 줄 수 있는 사람들이 더욱 중요해지고 있다”라고 말했다. 앞선 기업들이 비즈니스 문제를 해결하기 위해 어떻게 AI팀을 구성하고 있는지, 또 AI 기술의 발전이 어떻게 성공을 위해 필요한 기초 스킬을 변화시키고 있는지 살펴본다.    즉, AI 성공은 데이터 사이언티스트 집단만으로는 달성하기 어렵다. 성공적인 AI 팀이 수행하는 핵심 역할 성공적인 AI 프로젝트를 위해서는 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 엔지니어, 생산 책임자, 변화 관리 전문가, 번역가 등 광범위한 스킬을 갖춘 팀원들이 필요하다고 헤링이 말했다. 개념 증명과 시범 프로젝트의 경우 데이터 문제는 다른 양상을 보인다. 생산 현장에 투입할 수 있는 AI 배치에는 여러 이질적인 소스로부터 빠른 속도로 얻은 많은 양의 데이터가 필요하다. 그녀는 “데이터 사이언티스트와 데이터 엔지니어가 숨은 영웅이다. 레거시 영역들이...

2021.06.10

김진철의 How-to-Big DataㅣHow-to-Big Data 핵심 정리(Key Takeaways) (2)

이번 글은 지난 글에 이어 2017년 1월부터 지금까지 필자가 소개했던 빅데이터 활용 교훈의 핵심들을 다시 정리해보려고 한다. 지난 쉰 두 번째 글에서는 빅데이터 비즈니스와 관련된 기술의 종류와 활용법에 대해 살펴본 1회부터 21회까지의 기고 내용을 정리한 글이었다. 이번 글은 필자가 독자들로부터 가장 많은 문의를 받았던 빅데이터 비즈니스 조직의 조직과 운영 방법에 관한 내용을 다루었던 22회부터 34회까지 글의 핵심 내용을 정리해보려고 한다.   22회: 빅데이터 조직과 시스템 (1) (2018년 10월 26일 게재)  빅데이터 비즈니스 프로젝트는 아무리 작은 규모라고 해도 일반 기업이 부담하기에는 꽤 많은 자원과 인력이 투입된다. 성공적인 빅데이터 비즈니스를 위해서는 단순히 빅데이터 시스템을 도입하기 위한 조직이 아니라, 빅데이터 시스템을 인프라로 갖춘 후에도 이를 유지, 보수, 운영하면서 데이터 과학 활동을 꾸준하게 할 수 있는 조직 체계가 갖춰져야 한다. CERN의 LHC 실험에서는 막대한 규모의 빅데이터를 처리, 분석할 수 있는 LHC 컴퓨팅 그리드를 건설하기 위해 각 검출기 실험의 “국제공동협력 이사회(Collaboration Board)”와 동급으로 “자원 검토 이사회(Resources Review Board)”를 상설 기구로 두었다. 이 “자원 검토 이사회(Resources Review Board)”는 매 분기별로 실험에 참여하는 각 국 정부의 실험 참여 분담금과 연구팀의 예산, 인력 상황을 검토하고 프로젝트 진행상황을 면밀하게 점검하였다. LHC 가속기와 네 개의 입자 검출기 건설에만 20여년이 걸리고, 건설 후에도 40여년 가까이 운영되어야 하기 때문에, LHC 프로젝트는 많은 위험 요소를 가지고 있다. 근본적으로 LHC 실험이 우주를 구성하는 물질의 근본적인 원리를 탐구하고 밝히려는 과학적 발견과 성과에 초점이 맞춰져 있어 기본적으로 물리학과 가속기, 검출기 건설, 유지, 보수를 위한 공학적, 기술적 측면에 프로젝트...

김진철 빅데이터 데이터 과학 데이터 과학자 빅데이터 비즈니스 아파치 하둡 스파크 데이터 레이크 인공지능 딥러닝 해석가능성 클라우드 운영 지능화

2021.05.31

이번 글은 지난 글에 이어 2017년 1월부터 지금까지 필자가 소개했던 빅데이터 활용 교훈의 핵심들을 다시 정리해보려고 한다. 지난 쉰 두 번째 글에서는 빅데이터 비즈니스와 관련된 기술의 종류와 활용법에 대해 살펴본 1회부터 21회까지의 기고 내용을 정리한 글이었다. 이번 글은 필자가 독자들로부터 가장 많은 문의를 받았던 빅데이터 비즈니스 조직의 조직과 운영 방법에 관한 내용을 다루었던 22회부터 34회까지 글의 핵심 내용을 정리해보려고 한다.   22회: 빅데이터 조직과 시스템 (1) (2018년 10월 26일 게재)  빅데이터 비즈니스 프로젝트는 아무리 작은 규모라고 해도 일반 기업이 부담하기에는 꽤 많은 자원과 인력이 투입된다. 성공적인 빅데이터 비즈니스를 위해서는 단순히 빅데이터 시스템을 도입하기 위한 조직이 아니라, 빅데이터 시스템을 인프라로 갖춘 후에도 이를 유지, 보수, 운영하면서 데이터 과학 활동을 꾸준하게 할 수 있는 조직 체계가 갖춰져야 한다. CERN의 LHC 실험에서는 막대한 규모의 빅데이터를 처리, 분석할 수 있는 LHC 컴퓨팅 그리드를 건설하기 위해 각 검출기 실험의 “국제공동협력 이사회(Collaboration Board)”와 동급으로 “자원 검토 이사회(Resources Review Board)”를 상설 기구로 두었다. 이 “자원 검토 이사회(Resources Review Board)”는 매 분기별로 실험에 참여하는 각 국 정부의 실험 참여 분담금과 연구팀의 예산, 인력 상황을 검토하고 프로젝트 진행상황을 면밀하게 점검하였다. LHC 가속기와 네 개의 입자 검출기 건설에만 20여년이 걸리고, 건설 후에도 40여년 가까이 운영되어야 하기 때문에, LHC 프로젝트는 많은 위험 요소를 가지고 있다. 근본적으로 LHC 실험이 우주를 구성하는 물질의 근본적인 원리를 탐구하고 밝히려는 과학적 발견과 성과에 초점이 맞춰져 있어 기본적으로 물리학과 가속기, 검출기 건설, 유지, 보수를 위한 공학적, 기술적 측면에 프로젝트...

2021.05.31

도미노피자의 데이터 과학 비밀 재료는... 'ML옵스'

글로벌 피자 브랜드 도미노(Domino’s)가 ‘ML옵스(MLOps)’를 활용하고 있다. ML옵스는 도미노의 데이터 과학팀이 IT 지원 없이도 데이터 모델을 갱신하고 프로덕션 환경에 투입할 수 있도록 지원한다.  다른 대형 브랜드와 마찬가지로 도미노 피자도 고객 서비스 향상을 위해 데이터를 많이 활용하고 있다. 그런데 세계 1위 피자 브랜드 도미노의 데이터 과학팀에는 의사결정 속도를 높이는 비밀 재료가 있다. 모델을 프로덕션 환경에 더욱더 빠르게 제공하도록 지원하는 머신러닝(Machin Learning; ML) 호스팅 플랫폼이 바로 그것이다.    도미노의 데이터 과학팀은 이 플랫폼을 사용해 다양한 ML 및 AI 모델을 실행하고 정제하며 검증한다. 또한 컴퓨팅 리소스와 관련된 IT 의존도를 낮추고 있기도 하다. 도미노의 데이터 과학 및 AI 부문 책임자 잭 프라고소에 따르면 이는 역사적으로 오랜 마찰을 빚어왔던 부분이다.  그는 “피자 주문이 상당히 많다. 데이터 과학팀은 이 주문 데이터를 처리한다”라며, “하지만 모델을 프로덕션 환경으로 투입할 방법이 빠져 있었다”라고 말했다.  비즈니스 인사이트를 얻기 위해 애널리틱스를 활용하는 건 그 자체로도 충분히 어려운 일이다. 여기에 더해 데이터 과학팀 실무자들은 IT로부터 서버, 소프트웨어 개발 환경 등 필요한 모든 것을 조달하느라 딜레이가 발생하는 문제도 해결했다.  이러한 딜레이는 의사결정 속도를 높이고 원하는 비즈니스 결과를 얻고자 ‘시간에 민감한(time-sensitive)’ 데이터 모델을 구축하는 데이터 과학팀에게 문제를 야기한다고 프라고소는 전했다.  ML옵스를 향한 도미노의 여정 140억 달러의 연매출을 올리는 도미노는 5년 차 스타트업 데이터트론(Datatron)과 협력해 이 문제를 부분적으로 완화했다. 데이터트론은 ML 모델 운영(일명 ML옵스)을 지원하는 플랫폼 구축 업체로, 이 분야에서 데이터로봇(DataRobot), 구...

도미노 데이터 과학 ML옵스 머신러닝 데이터 데이터 모델 데이터 과학자

2021.05.06

글로벌 피자 브랜드 도미노(Domino’s)가 ‘ML옵스(MLOps)’를 활용하고 있다. ML옵스는 도미노의 데이터 과학팀이 IT 지원 없이도 데이터 모델을 갱신하고 프로덕션 환경에 투입할 수 있도록 지원한다.  다른 대형 브랜드와 마찬가지로 도미노 피자도 고객 서비스 향상을 위해 데이터를 많이 활용하고 있다. 그런데 세계 1위 피자 브랜드 도미노의 데이터 과학팀에는 의사결정 속도를 높이는 비밀 재료가 있다. 모델을 프로덕션 환경에 더욱더 빠르게 제공하도록 지원하는 머신러닝(Machin Learning; ML) 호스팅 플랫폼이 바로 그것이다.    도미노의 데이터 과학팀은 이 플랫폼을 사용해 다양한 ML 및 AI 모델을 실행하고 정제하며 검증한다. 또한 컴퓨팅 리소스와 관련된 IT 의존도를 낮추고 있기도 하다. 도미노의 데이터 과학 및 AI 부문 책임자 잭 프라고소에 따르면 이는 역사적으로 오랜 마찰을 빚어왔던 부분이다.  그는 “피자 주문이 상당히 많다. 데이터 과학팀은 이 주문 데이터를 처리한다”라며, “하지만 모델을 프로덕션 환경으로 투입할 방법이 빠져 있었다”라고 말했다.  비즈니스 인사이트를 얻기 위해 애널리틱스를 활용하는 건 그 자체로도 충분히 어려운 일이다. 여기에 더해 데이터 과학팀 실무자들은 IT로부터 서버, 소프트웨어 개발 환경 등 필요한 모든 것을 조달하느라 딜레이가 발생하는 문제도 해결했다.  이러한 딜레이는 의사결정 속도를 높이고 원하는 비즈니스 결과를 얻고자 ‘시간에 민감한(time-sensitive)’ 데이터 모델을 구축하는 데이터 과학팀에게 문제를 야기한다고 프라고소는 전했다.  ML옵스를 향한 도미노의 여정 140억 달러의 연매출을 올리는 도미노는 5년 차 스타트업 데이터트론(Datatron)과 협력해 이 문제를 부분적으로 완화했다. 데이터트론은 ML 모델 운영(일명 ML옵스)을 지원하는 플랫폼 구축 업체로, 이 분야에서 데이터로봇(DataRobot), 구...

2021.05.06

김진철의 How-to-Big Data | 빅데이터 괴담

이번 글은 필자가 지금까지 데이터 과학자로 경력을 쌓아오면서 경험했거나 듣고 읽었던 빅데이터 활용 사례들을 중심으로 빅데이터를 활용하는 과정에서 많은 조직이 흔히 저지르는 실수와 오해, 시행착오에 대해서 살펴보고, 이를 어떻게 개선할 수 있을지 같이 생각해보기로 한다. 소개하는 사례들은 실제 사례들이 아니라 필자가 경험했거나 들은 사례들을 각색하여 만든 가상의 사례들이며, 필자가 전달하고자 하는 메시지를 부각하기 위해 조금 과장했음을 미리 알려 둔다. 지금까지 같이 생각해봤던 빅데이터 활용의 교훈을 되새기고 독자들의 시행착오를 줄이는 것을 돕기 위해 만들 사례들이니 사실이 아닌 것을 염두에 주고 가볍고 즐겁게 읽었으면 좋겠다.   사례 1: 데이터 호수가 너무 넓어서 ROI가 나지 않아 곤란한 A 기업의 CIO 이야기 많은 사람에게 널리 알려진 A 회사에서 빅데이터를 앞세워 승승장구한 C는 요즘 고민이 많다. 문제는 바로 그에게 회사에서 승승장구한 경력을 만들어준 데이터 레이크 시스템 때문이다. C는 2011년도 빅데이터 붐이 일기 시작할 즈음 승진을 위한 기획 아이템으로 뭘 앞세울까 고민하다가 그 당시 막 떠오르고 있던 빅데이터를 앞세워서 A 회사에 하둡 기반의 빅데이터 시스템을 구축하는 기획안을 만들어 임원의 승인을 받는 데 성공했다.  당시 NexR과 같이 오픈소스 하둡을 기반으로 빅데이터 솔루션을 상용화하는 스타트업이 막 등장하고 있었다. 이런 스타트업 중에서 괜찮은 회사 하나를 잘 골라서 같이 일하면서 키우면 자신의 승진에 많이 도움이 될 것 같았다. 운이 좋다면 자신의 직속 임원이 이 스타트업을 인수, 합병하여 사업 성과를 낼 수 있도록 하면서 그 회사의 고급 소프트웨어 엔지니어들을 자연스럽게 회사로 영입하여 자신의 세력으로 키울 수 있을 것 같았다. C는 당시 하둡 기반 빅데이터 스타트업으로서 같이 하둡 시스템 구축 사업을 수행한 D사를 잘 활용하여 예상보다 빠르게 하둡 시스템을 안정적으로 구축할 수 있었다. 이후 프...

김진철 빅데이터 데이터 과학 데이터 과학자 시행착오 데이터 레이크 하둡 스타트업 스파크 플링크 에어플로우 데이터웨어하우스 도커 서비스메시 쿠버네티스

2021.03.29

이번 글은 필자가 지금까지 데이터 과학자로 경력을 쌓아오면서 경험했거나 듣고 읽었던 빅데이터 활용 사례들을 중심으로 빅데이터를 활용하는 과정에서 많은 조직이 흔히 저지르는 실수와 오해, 시행착오에 대해서 살펴보고, 이를 어떻게 개선할 수 있을지 같이 생각해보기로 한다. 소개하는 사례들은 실제 사례들이 아니라 필자가 경험했거나 들은 사례들을 각색하여 만든 가상의 사례들이며, 필자가 전달하고자 하는 메시지를 부각하기 위해 조금 과장했음을 미리 알려 둔다. 지금까지 같이 생각해봤던 빅데이터 활용의 교훈을 되새기고 독자들의 시행착오를 줄이는 것을 돕기 위해 만들 사례들이니 사실이 아닌 것을 염두에 주고 가볍고 즐겁게 읽었으면 좋겠다.   사례 1: 데이터 호수가 너무 넓어서 ROI가 나지 않아 곤란한 A 기업의 CIO 이야기 많은 사람에게 널리 알려진 A 회사에서 빅데이터를 앞세워 승승장구한 C는 요즘 고민이 많다. 문제는 바로 그에게 회사에서 승승장구한 경력을 만들어준 데이터 레이크 시스템 때문이다. C는 2011년도 빅데이터 붐이 일기 시작할 즈음 승진을 위한 기획 아이템으로 뭘 앞세울까 고민하다가 그 당시 막 떠오르고 있던 빅데이터를 앞세워서 A 회사에 하둡 기반의 빅데이터 시스템을 구축하는 기획안을 만들어 임원의 승인을 받는 데 성공했다.  당시 NexR과 같이 오픈소스 하둡을 기반으로 빅데이터 솔루션을 상용화하는 스타트업이 막 등장하고 있었다. 이런 스타트업 중에서 괜찮은 회사 하나를 잘 골라서 같이 일하면서 키우면 자신의 승진에 많이 도움이 될 것 같았다. 운이 좋다면 자신의 직속 임원이 이 스타트업을 인수, 합병하여 사업 성과를 낼 수 있도록 하면서 그 회사의 고급 소프트웨어 엔지니어들을 자연스럽게 회사로 영입하여 자신의 세력으로 키울 수 있을 것 같았다. C는 당시 하둡 기반 빅데이터 스타트업으로서 같이 하둡 시스템 구축 사업을 수행한 D사를 잘 활용하여 예상보다 빠르게 하둡 시스템을 안정적으로 구축할 수 있었다. 이후 프...

2021.03.29

‘데이터 랭글링’ 및 ‘탐구 데이터 분석’ 따라잡기

초보 데이터 사이언티스트는 데이터를 위한 적절한 모델만 찾아 적용하면 된다는 생각을 할 때가 있다. 애석하게도 이보다 더 데이터 사이언스의 현실과 동떨어진 것도 드물 것이다. 사실, 데이터 랭글링(Data Wrangling, 소위 말하는 데이터 정제 및 변경)과 탐구 데이터 분석(exploratory data analysis)은 데이터 사이언티스트가 소요하는 시간의 80%를 차지하는 경우가 많다. 데이터 랭글링과 탐구 데이터 분석의 개념은 쉽다. 단 제대로 하기가 어려울 수 있다. 정제되지 않거나 잘못 정제된 데이터는 쓰레기이며, GIGO 원리(garbage in, garbage out)는 모델링과 분석에도 적용된다. 데이터 랭글링이란? 데이터가 곧바로 사용 가능한 형태로 나오는 경우는 드물다. 오류와 누락으로 오염되는 경우가 많으며 원하는 구조를 가진 경우가 거의 없고 일반적으로 콘텍스트가 누락되어 있다. 데이터 랭글링은 데이터를 발견하고 정제하며 검증하고 사용 가능하도록 구조화한 후 콘텐츠의 질을 높이며(날씨와 경제 상황 등 공개 데이터로부터 얻은 정보 추가 등의 방식으로) 경우에 따라 데이터를 통합 및 변환하는 과정이다. 정확하게 말하면 데이터 랭글링 작업은 경우에 따라 달라질 수 있다. 데이터가 기구 또는 IoT 장치에서 제공되는 경우 데이터 전송이 프로세스의 주된 부분일 수 있다. 데이터를 머신러닝에 사용하는 경우 변환에 정규화와 표준화뿐 아니라 차원수 감소도 포함될 수 있다.  탐구 데이터 분석이 메모리와 저장 공간이 제한된 개인용 컴퓨터에서 수행되는 경우, 랭글링 프로세스에 데이터 하위 세트 추출이 포함될 수 있다. 데이터를 여러 개의 소스로부터 얻는 경우 측정값의 필드 이름과 단위를 매핑과 변환을 통해 통합해야 한다. 탐구 데이터 분석이란 무엇인가? 탐구 데이터 분석은 프린스턴 대학교(Princeton University)와 벨 연구소(Bell Labs) 소속인 존 투키와 긴밀히 연관되어 있다. 투키는 1961년에 탐구 데이터 ...

데이터 과학자 데이터 랭글링 탐구 데이터 분석 데이터 처리 애널리틱스 데이터 정제 데이터 모델링 ETL ELT 데이터 마이닝 데이터 스크래핑

2021.03.26

초보 데이터 사이언티스트는 데이터를 위한 적절한 모델만 찾아 적용하면 된다는 생각을 할 때가 있다. 애석하게도 이보다 더 데이터 사이언스의 현실과 동떨어진 것도 드물 것이다. 사실, 데이터 랭글링(Data Wrangling, 소위 말하는 데이터 정제 및 변경)과 탐구 데이터 분석(exploratory data analysis)은 데이터 사이언티스트가 소요하는 시간의 80%를 차지하는 경우가 많다. 데이터 랭글링과 탐구 데이터 분석의 개념은 쉽다. 단 제대로 하기가 어려울 수 있다. 정제되지 않거나 잘못 정제된 데이터는 쓰레기이며, GIGO 원리(garbage in, garbage out)는 모델링과 분석에도 적용된다. 데이터 랭글링이란? 데이터가 곧바로 사용 가능한 형태로 나오는 경우는 드물다. 오류와 누락으로 오염되는 경우가 많으며 원하는 구조를 가진 경우가 거의 없고 일반적으로 콘텍스트가 누락되어 있다. 데이터 랭글링은 데이터를 발견하고 정제하며 검증하고 사용 가능하도록 구조화한 후 콘텐츠의 질을 높이며(날씨와 경제 상황 등 공개 데이터로부터 얻은 정보 추가 등의 방식으로) 경우에 따라 데이터를 통합 및 변환하는 과정이다. 정확하게 말하면 데이터 랭글링 작업은 경우에 따라 달라질 수 있다. 데이터가 기구 또는 IoT 장치에서 제공되는 경우 데이터 전송이 프로세스의 주된 부분일 수 있다. 데이터를 머신러닝에 사용하는 경우 변환에 정규화와 표준화뿐 아니라 차원수 감소도 포함될 수 있다.  탐구 데이터 분석이 메모리와 저장 공간이 제한된 개인용 컴퓨터에서 수행되는 경우, 랭글링 프로세스에 데이터 하위 세트 추출이 포함될 수 있다. 데이터를 여러 개의 소스로부터 얻는 경우 측정값의 필드 이름과 단위를 매핑과 변환을 통해 통합해야 한다. 탐구 데이터 분석이란 무엇인가? 탐구 데이터 분석은 프린스턴 대학교(Princeton University)와 벨 연구소(Bell Labs) 소속인 존 투키와 긴밀히 연관되어 있다. 투키는 1961년에 탐구 데이터 ...

2021.03.26

칼럼ㅣ’록스타’ 지위에 오른 데이터 과학자··· 최적의 팀을 구성하려면?

구글에서 ‘록스타(Rock Star)’와 ‘데이터 과학자(Data Scientist)’를 검색해보자. 놀라운 일이 벌어질 것이다. ‘록스타’와 ‘데이터 과학자’ 이 두 단어를 한 문장에 사용하는 것은 사실이다.  별다른 의미가 있는 건 아니다. 필자는 데이터 과학자로서 업계에서 뛰어난 인재들, 다시 말해 ‘록스타’들과 함께 일하면서 이들의 창의성, 지능, 비전, 재능에 놀라곤 한다.  게다가 이 록스타들은 AI를 중심으로 자신의 역량과 전문지식을 결합해 비즈니스, 산업, 더 나아가 세상이 직면한 큰 문제들을 해결하고자 노력하고 있다. 이를테면 경제적 불평등과 소득불균형을 바로잡기 위해 노력한다거나, 금융위기와 돈세탁을 막기 위해 머신러닝을 개발하고 있다. 대규모로 사용할 수 있는 관련 툴과 플랫폼을 구축하고 있기도 하다.    가끔씩 경영진들은 필자에게 “당신이 이야기하면 AI가 쉬워 보인다. 우리는 어떻게 AI를 시작할 수 있는가?”라고 말하곤 한다. 여기에 답하자면, 가장 먼저 쉬운 일은 아니라고 밝히고 싶다. 팀 구조와 조직 철학으로 인해 복잡해지는 경우가 많다.  그리고서 ‘록스타 애널리틱스 팀’을 구축하는 것부터 시작하라고 권고하고 싶다. 이는 데이터 과학자들의 역량을 균형 있게 조정하는 동시에 팀 전반의 역량 격차를 인지하고 해결한 최적의 앙상블 팀을 의미한다.  물론 초기 투자 비용은 만만치 않을 것이다. 데이터 과학 인재 수요가 높기 때문이다. 하지만 코리니움(Corinium)의 최근 보고서에 따르면 AI 제품 수요도 코로나19 사태 이후로 많이 증가한 것으로 나타났다.  록스타 애널리틱스 팀을 구축할 생각인가? 그렇다면 다음의 지침을 고려하라. ‘무대 설정하기’: 니즈 및 역량을 검토하라 함께 아름다운 곡을 연주하는 앙상블 팀을 구성하기 전에 할 일이 있다. 일단 조직을 면밀하게 살펴보면서 질문을 던져야 한다.  이 팀으로 무엇을 달성하고자 하는가? 이 팀을...

데이터 애널리틱스 데이터 과학자 데이터 과학 록스타 AI 인공지능 머신러닝 프로젝트 관리자 알고리즘 알고리즘 개발자 분석 소프트웨어 엔지니어 애널리틱스 전문가 AI 에반젤리스트

2021.01.14

구글에서 ‘록스타(Rock Star)’와 ‘데이터 과학자(Data Scientist)’를 검색해보자. 놀라운 일이 벌어질 것이다. ‘록스타’와 ‘데이터 과학자’ 이 두 단어를 한 문장에 사용하는 것은 사실이다.  별다른 의미가 있는 건 아니다. 필자는 데이터 과학자로서 업계에서 뛰어난 인재들, 다시 말해 ‘록스타’들과 함께 일하면서 이들의 창의성, 지능, 비전, 재능에 놀라곤 한다.  게다가 이 록스타들은 AI를 중심으로 자신의 역량과 전문지식을 결합해 비즈니스, 산업, 더 나아가 세상이 직면한 큰 문제들을 해결하고자 노력하고 있다. 이를테면 경제적 불평등과 소득불균형을 바로잡기 위해 노력한다거나, 금융위기와 돈세탁을 막기 위해 머신러닝을 개발하고 있다. 대규모로 사용할 수 있는 관련 툴과 플랫폼을 구축하고 있기도 하다.    가끔씩 경영진들은 필자에게 “당신이 이야기하면 AI가 쉬워 보인다. 우리는 어떻게 AI를 시작할 수 있는가?”라고 말하곤 한다. 여기에 답하자면, 가장 먼저 쉬운 일은 아니라고 밝히고 싶다. 팀 구조와 조직 철학으로 인해 복잡해지는 경우가 많다.  그리고서 ‘록스타 애널리틱스 팀’을 구축하는 것부터 시작하라고 권고하고 싶다. 이는 데이터 과학자들의 역량을 균형 있게 조정하는 동시에 팀 전반의 역량 격차를 인지하고 해결한 최적의 앙상블 팀을 의미한다.  물론 초기 투자 비용은 만만치 않을 것이다. 데이터 과학 인재 수요가 높기 때문이다. 하지만 코리니움(Corinium)의 최근 보고서에 따르면 AI 제품 수요도 코로나19 사태 이후로 많이 증가한 것으로 나타났다.  록스타 애널리틱스 팀을 구축할 생각인가? 그렇다면 다음의 지침을 고려하라. ‘무대 설정하기’: 니즈 및 역량을 검토하라 함께 아름다운 곡을 연주하는 앙상블 팀을 구성하기 전에 할 일이 있다. 일단 조직을 면밀하게 살펴보면서 질문을 던져야 한다.  이 팀으로 무엇을 달성하고자 하는가? 이 팀을...

2021.01.14

김진철의 How-to-Big Data | CPS와 Digital Transformation (1)

필자가 데이터 과학자로서 경력을 시작하게 된 계기가 된 유럽 입자 물리학 연구소(European Organization of Nuclear Research(Conseil Européenne pour la Recherche Nucléaire); CERN)의 대형 강입자 가속기(The Large Hadron Collider; LHC) CMS 실험의 빅데이터 경험을 바탕으로 이 How-to-Big Data 연재를 해온 것도 벌써 4년이 다 되었다. 빅데이터라는 말이 본격적으로 나타나기 한참 전부터 데이터 과학자로서, 빅데이터 전문가로서 빅데이터를 다루면서 느껴왔던 생각들과 통찰, 교훈을 관련 업계에서 일하시는 분들과 나누기 위해 시작한 연재가 벌써 4년간 지속되고 있는 것을 보면서 필자가 그간 경험하고 생각했던 것들이 참 다양하고 많았다는 것을 다시 느끼게 된다.   필자가 본 연재를 준비하고 집필하면서 독자분들에게 가장 전달하고 싶었던 메시지 중의 하나는 빅데이터를 잘 활용하여 빅데이터 비즈니스를 성공시키려면 빅데이터 기술을 잘 알고 활용하는 것만으로는 부족하다는 것이다.  이런 필자의 생각은 How-to-Big Data 연재가 어떤 내용으로 구성될 것인지 소개했던 연재의 첫 번째 글부터 분명하게 드러나 있다[2]. 당시 빅데이터 트렌드를 주도하고 있던 아파치 하둡(Apache Hadoop)에 대한 과도한 기대, 이런 지나친 관심이 일으키고 있던 빅데이터 비즈니스와 데이터 과학에의 편견과 오해를 조금이나마 바로잡고, 빅데이터와 데이터 과학이 비즈니스에 줄 수 있는 진정한 가치에 대해서 다시 생각해보고자 했던 의도가 얼마나 달성되었는지 모르겠다. 4년이 된 지금 시점에서 첫 번째 글을 썼을 때의 초심을 돌이켜보게 만드는 주제로 돌아가 보려고 한다. 빅데이터와 사이버 물리 시스템이 미래 비즈니스 변화의 동력으로서 자리 잡아 가는 과정을 표현하는 말로서, 그리고 빅데이터와 사이버 물리 시스템을 바탕으로 데이터 기반 비즈니스가 일반 회사들의...

김진철 빅데이터 디지털 트랜스포메이션 데이터 과학자 버버리 GM 디지털 전환 구글 아마존 페이스북 애플 에어비앤비 우버 사물인터넷 제조업 플랫폼 비즈니스 사이버 물리 시스템

2020.12.28

필자가 데이터 과학자로서 경력을 시작하게 된 계기가 된 유럽 입자 물리학 연구소(European Organization of Nuclear Research(Conseil Européenne pour la Recherche Nucléaire); CERN)의 대형 강입자 가속기(The Large Hadron Collider; LHC) CMS 실험의 빅데이터 경험을 바탕으로 이 How-to-Big Data 연재를 해온 것도 벌써 4년이 다 되었다. 빅데이터라는 말이 본격적으로 나타나기 한참 전부터 데이터 과학자로서, 빅데이터 전문가로서 빅데이터를 다루면서 느껴왔던 생각들과 통찰, 교훈을 관련 업계에서 일하시는 분들과 나누기 위해 시작한 연재가 벌써 4년간 지속되고 있는 것을 보면서 필자가 그간 경험하고 생각했던 것들이 참 다양하고 많았다는 것을 다시 느끼게 된다.   필자가 본 연재를 준비하고 집필하면서 독자분들에게 가장 전달하고 싶었던 메시지 중의 하나는 빅데이터를 잘 활용하여 빅데이터 비즈니스를 성공시키려면 빅데이터 기술을 잘 알고 활용하는 것만으로는 부족하다는 것이다.  이런 필자의 생각은 How-to-Big Data 연재가 어떤 내용으로 구성될 것인지 소개했던 연재의 첫 번째 글부터 분명하게 드러나 있다[2]. 당시 빅데이터 트렌드를 주도하고 있던 아파치 하둡(Apache Hadoop)에 대한 과도한 기대, 이런 지나친 관심이 일으키고 있던 빅데이터 비즈니스와 데이터 과학에의 편견과 오해를 조금이나마 바로잡고, 빅데이터와 데이터 과학이 비즈니스에 줄 수 있는 진정한 가치에 대해서 다시 생각해보고자 했던 의도가 얼마나 달성되었는지 모르겠다. 4년이 된 지금 시점에서 첫 번째 글을 썼을 때의 초심을 돌이켜보게 만드는 주제로 돌아가 보려고 한다. 빅데이터와 사이버 물리 시스템이 미래 비즈니스 변화의 동력으로서 자리 잡아 가는 과정을 표현하는 말로서, 그리고 빅데이터와 사이버 물리 시스템을 바탕으로 데이터 기반 비즈니스가 일반 회사들의...

2020.12.28

사내 '데이터 과학' 교육은 이렇게··· 전문가 4인의 조언

정보 자원을 활용할 수 있는 방법에 관해 알고 있는 기술 전문가(특히, 데이터 과학자)들에 대한 수요가 하늘을 찌르고 있다. 이에 일부 기업들은 직원들이 데이터 과학자가 되도록 새로운 기술을 가르치거나 교차 훈련시키는 데이터 과학 교육 프로그램을 구성하여 자체적으로 해결하고 있다. 데이터 과학은 많은 기업들에게 여전히 새로운 영역이며 이런 프로그램을 구성하고 유지하기란 쉽지 않다. 직원들에게 성공적으로 새로운 기술을 가르치는 방법에 관한 몇 가지 조언을 정리했다.    데이터 과학 문화를 조성하라 누구든 잠재적으로 데이터 과학자가 될 수 있다고 생각하고, 이 전제가 중요하다는 것을 뒷받침하는 문화를 조성해야 한다. 브랜드 개발 및 마케팅 의사소통 대행사 히빙(Hiebing)의 수석 데이터 과학자 프랭크 밴더월은 “특정 전문가진을 확보하는 대신에 문화 전체를 데이터 지향적으로 바꿀 필요가 있는지 판단하는 것이 중요하다”라고 말했다. 밴더월은 “90년대 방식의 디지털 접근법을 사용해선 곤란하다 당시에는 조직 내에 디지털 팀이 있었다. 전문가 몇 명만 있으면 문제없었다. 지금은 모든 팀이 디지털화되어야 한다는 기대치가 있다. 일부 사람들에게 부담이 가중되는 대신 조직 전반에 걸쳐 전환이 필요하다”라고 말했다. 단, 데이터 과학의 전환 시점은 조직마다 다르다며 “아직 중대한 시점에 도달하지 않았지만 그 시기가 다가오고 있다”라고 그는 말했다. 문화의 변화에는 실질적으로 누구나 이해할 수 있는 언어의 사용이 수반된다. 밴더월은 “기본적인 것처럼 보이지만 간과하기 쉬우며, 특히 코치들의 경우는 더욱 그렇다. 우리는 언어에 대한 이해를 공유하는 것부터 시작해야 한다. 데이터 과학자는 특정 용어를 매우 쉽게 사용하지만 이런 것들을 보편적으로 이해할 수 있도록 풀어서 설명하지 않으면 다른 사람들이 위축될 수 있다”라고 말했다. 이것은 모두가 용어를 이해하도록 하는 것을 의미할 때가 있다. 용어를 접근성이 좀 더 좋은 언어로 대체하는 것을 의미...

데이터 과학자 시민 데이터 과학 데이터 교육 애널리틱스 교육

2020.12.10

정보 자원을 활용할 수 있는 방법에 관해 알고 있는 기술 전문가(특히, 데이터 과학자)들에 대한 수요가 하늘을 찌르고 있다. 이에 일부 기업들은 직원들이 데이터 과학자가 되도록 새로운 기술을 가르치거나 교차 훈련시키는 데이터 과학 교육 프로그램을 구성하여 자체적으로 해결하고 있다. 데이터 과학은 많은 기업들에게 여전히 새로운 영역이며 이런 프로그램을 구성하고 유지하기란 쉽지 않다. 직원들에게 성공적으로 새로운 기술을 가르치는 방법에 관한 몇 가지 조언을 정리했다.    데이터 과학 문화를 조성하라 누구든 잠재적으로 데이터 과학자가 될 수 있다고 생각하고, 이 전제가 중요하다는 것을 뒷받침하는 문화를 조성해야 한다. 브랜드 개발 및 마케팅 의사소통 대행사 히빙(Hiebing)의 수석 데이터 과학자 프랭크 밴더월은 “특정 전문가진을 확보하는 대신에 문화 전체를 데이터 지향적으로 바꿀 필요가 있는지 판단하는 것이 중요하다”라고 말했다. 밴더월은 “90년대 방식의 디지털 접근법을 사용해선 곤란하다 당시에는 조직 내에 디지털 팀이 있었다. 전문가 몇 명만 있으면 문제없었다. 지금은 모든 팀이 디지털화되어야 한다는 기대치가 있다. 일부 사람들에게 부담이 가중되는 대신 조직 전반에 걸쳐 전환이 필요하다”라고 말했다. 단, 데이터 과학의 전환 시점은 조직마다 다르다며 “아직 중대한 시점에 도달하지 않았지만 그 시기가 다가오고 있다”라고 그는 말했다. 문화의 변화에는 실질적으로 누구나 이해할 수 있는 언어의 사용이 수반된다. 밴더월은 “기본적인 것처럼 보이지만 간과하기 쉬우며, 특히 코치들의 경우는 더욱 그렇다. 우리는 언어에 대한 이해를 공유하는 것부터 시작해야 한다. 데이터 과학자는 특정 용어를 매우 쉽게 사용하지만 이런 것들을 보편적으로 이해할 수 있도록 풀어서 설명하지 않으면 다른 사람들이 위축될 수 있다”라고 말했다. 이것은 모두가 용어를 이해하도록 하는 것을 의미할 때가 있다. 용어를 접근성이 좀 더 좋은 언어로 대체하는 것을 의미...

2020.12.10

10년 후, 데이터 과학자 사라진다?··· ‘오토ML’로 싹 달라진다!

‘오토ML(AutoML)’은 개발자를 데이터 과학자로 바꿀 준비가 돼 있다. 반대 경우도 마찬가지다. 오토ML이 데이터 과학을 어떻게 더 나은 방향으로 변화시키는 걸까? 앞으로 10년 후에는, 현재 우리가 알고 있는 데이터 과학자가 없어질 것이다. 일자리가 사라질 걱정은 할 필요 없다. 데이터 과학자들도 걱정할 필요는 없다. 하는 일이 달라지는 것이기 때문이다. 오히려 미국 노동부(Bureau of Labor) 통계에 따르면 데이터 과학자의 역할은 2029년까지 평균보다 더 높은 속도로 확대될 전망이다.    설명하자면, 기술 발전으로 인해 데이터 과학자의 업무와 기업이 애널리틱스에 접근하는 방식에 큰 변화가 초래될 것으로 예상된다. 원시 데이터부터 모델까지 머신러닝 파이프라인을 자동화하는 오토ML 도구가 이러한 혁신적인 변화를 견인한다.  이에 따라 데이터 과학자들은 10년 후 완전히 다른 기술과 도구를 갖게 될 가능성이 크다. 그러나 복잡한 데이터를 활용해 비즈니스 문제를 해결할 수 있도록 지원하는 전문 가이드라는 점은 여전할 것이다. 데이터 과학을 ‘민주화’ 하는 오토ML 최근까지도 머신러닝 알고리즘과 프로세스는 거의 전적으로 전통적인 데이터 과학자, 즉 전문 교육을 받고 고급 학위를 취득했거나 또는 대규모 기술 기업에서 일하는 사람들만 다룰 수 있는 영역이었다. 데이터 과학자들은 머신러닝 개발 스펙트럼의 모든 부분에서 매우 중요한 일들을 해왔다.  하지만 머지않아 데이터 과학자들은 더욱더 협력적이고 전략적인 역할로 변화할 전망이다. 오토ML과 같은 도구를 사용해 학문적인 이론 및 기술을 자동화함으로써, 기업이 데이터를 통해 비즈니스 문제를 해결할 수 있도록 솔루션을 ‘가이드’하는 데 집중할 수 있다는 뜻이다.  이는 오토ML이 머신러닝 모델 구축을 ‘민주화’하기 때문에 가능한 부분이다. 이미 시장에서는 스타트업부터 클라우드 하이퍼 스케일러까지 여러 업체가 개발자를 대상으로 전문 교육이나 경험 측면...

데이터 과학 데이터 과학자 오토ML 개발자 시민 데이터 과학자 머신러닝 애널리틱스 AWS 마이크로소프트 애저 데이터 사이킷런 텐서플로우 파이토치

2020.11.20

‘오토ML(AutoML)’은 개발자를 데이터 과학자로 바꿀 준비가 돼 있다. 반대 경우도 마찬가지다. 오토ML이 데이터 과학을 어떻게 더 나은 방향으로 변화시키는 걸까? 앞으로 10년 후에는, 현재 우리가 알고 있는 데이터 과학자가 없어질 것이다. 일자리가 사라질 걱정은 할 필요 없다. 데이터 과학자들도 걱정할 필요는 없다. 하는 일이 달라지는 것이기 때문이다. 오히려 미국 노동부(Bureau of Labor) 통계에 따르면 데이터 과학자의 역할은 2029년까지 평균보다 더 높은 속도로 확대될 전망이다.    설명하자면, 기술 발전으로 인해 데이터 과학자의 업무와 기업이 애널리틱스에 접근하는 방식에 큰 변화가 초래될 것으로 예상된다. 원시 데이터부터 모델까지 머신러닝 파이프라인을 자동화하는 오토ML 도구가 이러한 혁신적인 변화를 견인한다.  이에 따라 데이터 과학자들은 10년 후 완전히 다른 기술과 도구를 갖게 될 가능성이 크다. 그러나 복잡한 데이터를 활용해 비즈니스 문제를 해결할 수 있도록 지원하는 전문 가이드라는 점은 여전할 것이다. 데이터 과학을 ‘민주화’ 하는 오토ML 최근까지도 머신러닝 알고리즘과 프로세스는 거의 전적으로 전통적인 데이터 과학자, 즉 전문 교육을 받고 고급 학위를 취득했거나 또는 대규모 기술 기업에서 일하는 사람들만 다룰 수 있는 영역이었다. 데이터 과학자들은 머신러닝 개발 스펙트럼의 모든 부분에서 매우 중요한 일들을 해왔다.  하지만 머지않아 데이터 과학자들은 더욱더 협력적이고 전략적인 역할로 변화할 전망이다. 오토ML과 같은 도구를 사용해 학문적인 이론 및 기술을 자동화함으로써, 기업이 데이터를 통해 비즈니스 문제를 해결할 수 있도록 솔루션을 ‘가이드’하는 데 집중할 수 있다는 뜻이다.  이는 오토ML이 머신러닝 모델 구축을 ‘민주화’하기 때문에 가능한 부분이다. 이미 시장에서는 스타트업부터 클라우드 하이퍼 스케일러까지 여러 업체가 개발자를 대상으로 전문 교육이나 경험 측면...

2020.11.20

인텔, 시그옵트 이어 일주일 만에 AI 관련 스타트업 또 인수

4일(현지 시각) 인텔이 이스라엘 스타트업 '씨엔브이알지.아이오(Cnvrg.io)'를 인수한 것으로 전해졌다. 머신러닝 및 AI 비즈니스를 강화하고자 계속해서 관련 스타트업을 인수하는 모양새다. 인수가는 공개되지 않았다.    인텔 대변인 측은 테크크런치에 이번 인수를 인정하면서 "Cnvrg는 독립적인 인텔 회사가 될 것이며, 기존 및 미래 고객에게 계속 서비스를 제공할 것"이라고 밝혔다.  요차이 에툰과 레아 포코시 콜벤이 공동 창업한 Cnvrg.io는 데이터 과학자가 다양한 머신러닝 모델을 학습, 추적, 비교할 수 있도록 모델을 구축하고 실행시킬 수 있는 플랫폼을 제공한다.  데이터 과학자가 플랫폼을 직접 구축하거나 관리할  필요 없이 알고리즘을 고안하고 어떻게 작동하는지 측정하는 데 집중할 수 있도록 사용하기 쉬운 플랫폼을 제공한다는 게 골자다.  이 스타트업은 하나코 벤처 캐피털(Hanaco Venture Capital)과 예루살렘 벤처 파트너스(Jerusalem Venture Partners)를 포함한 투자자로부터 800만 달러를 모금 받았다. 또한 피치북(PitchBook)에 따르면 해당 업체는 최근 투자 라운드에서 약 1,700만 달러의 기업 가치를 평가받은 것으로 추정된다.  한편 인텔은 시그옵트(SigOpt)를 사들인 지 불과 일주일 만에 또 이번 인수를 발표했다. 지난 30일 인텔이 인수한 시그옵트는 머신러닝 모델링 및 시뮬리이션을 지원하는 AI 최적화 플랫폼 업체다. ciokr@idg.co.kr  

인텔 Cnvrg.io 인공지능 AI 머신러닝 데이터 과학자 시그옵트 머신러닝 모델

2020.11.04

4일(현지 시각) 인텔이 이스라엘 스타트업 '씨엔브이알지.아이오(Cnvrg.io)'를 인수한 것으로 전해졌다. 머신러닝 및 AI 비즈니스를 강화하고자 계속해서 관련 스타트업을 인수하는 모양새다. 인수가는 공개되지 않았다.    인텔 대변인 측은 테크크런치에 이번 인수를 인정하면서 "Cnvrg는 독립적인 인텔 회사가 될 것이며, 기존 및 미래 고객에게 계속 서비스를 제공할 것"이라고 밝혔다.  요차이 에툰과 레아 포코시 콜벤이 공동 창업한 Cnvrg.io는 데이터 과학자가 다양한 머신러닝 모델을 학습, 추적, 비교할 수 있도록 모델을 구축하고 실행시킬 수 있는 플랫폼을 제공한다.  데이터 과학자가 플랫폼을 직접 구축하거나 관리할  필요 없이 알고리즘을 고안하고 어떻게 작동하는지 측정하는 데 집중할 수 있도록 사용하기 쉬운 플랫폼을 제공한다는 게 골자다.  이 스타트업은 하나코 벤처 캐피털(Hanaco Venture Capital)과 예루살렘 벤처 파트너스(Jerusalem Venture Partners)를 포함한 투자자로부터 800만 달러를 모금 받았다. 또한 피치북(PitchBook)에 따르면 해당 업체는 최근 투자 라운드에서 약 1,700만 달러의 기업 가치를 평가받은 것으로 추정된다.  한편 인텔은 시그옵트(SigOpt)를 사들인 지 불과 일주일 만에 또 이번 인수를 발표했다. 지난 30일 인텔이 인수한 시그옵트는 머신러닝 모델링 및 시뮬리이션을 지원하는 AI 최적화 플랫폼 업체다. ciokr@idg.co.kr  

2020.11.04

전사 혁신 이끄는 동력 센터··· ‘AI CoE’에 주목하는 기업들

AI 도입을 가속화하거나 전사적 혁신을 도모하려는 기업이라면 AI 탁월성 센터(Coe ; centers of excellence)를 검토할 만한다. 인재를 집중시키고 플랫폼을 표준화하며 기업 전반에 걸쳐 성공의 경험을 촉진시킬 수 있는 조직이기 때문이다.  쉘(Shell)이 2013년 처음 AI CoE(AI Center of Excellence)를 개소했을 때만 해도 규모는 그리 크지 않았다. 또 AI보다는 예측 분석에 치중하고 있었다. 현재 180명의 데이터 사이언티스트 및 엔지니어 정직원들이 근무하고 있는 쉘의 DSCoE(Data Science Center of Excellence)의 책임자 댄 지본스 “사실상 나뿐이었다”라고 회고했다. 본래 해당 CoE의 목적은 분석 관련 프로젝트를 수행하는 사업부를 지원하는 것이었다. 그는 “현업 관련 프로젝트가 빠르게 증가했다. 이에 따라 일부 리더들은 조율의 필요성을 깨달았다. 당초 의도는 사업부 지원이었지만 나중에는 사업부들이 스스로 할 수 있도록 지원하고자 했다”라고 말했다. 하지만 AI는 심층적인 기술이 필요하다. 현업 부서의 데이터 인력들은 딥러닝이나 머신 비전, 자연어 처리 등에 대한 전문지식이 부족했다. 또한 사업부들이 역량을 키워나가면서 각기 다른 접근방식을 취하기 시작했다. 지본스는 “공통의 기준을 만들고 데이터에 액세스하는 공통의 플랫폼을 만들며 확보 프로세스를 개발해야 할 필요성이 커졌다”라고 말했다. 그 결과, 쉘 CoE의 역할이 확장됐다. 심층적이고 특화된 기술을 갖고 있는 사람들이 더 많이 참여하게 됐으며, 여러 기준과 정책을 수립하는 업무까지 담당하게 됐다.  현재, 쉘은 대부분의 AI 프로젝트에 마이크로소프트 애저를 활용하며 일부는 AWS에서 수행되고 있다고 지본스가 말했다. 또한 해당 기업은 데이터 분석 기업 데이터브릭스(Databricks) 및 C3와 긴밀하게 협력하고 있으며, 이 외에도 많은 파트너들과 협력하고 있다. 이 덕분에 해당 기업의 AI 솔루션 개...

AI CoE 탁월성 센터 우수 센터 딜로이트 GE 데이터 과학자 QTS 데이터 센터스 언스트앤영

2020.10.13

AI 도입을 가속화하거나 전사적 혁신을 도모하려는 기업이라면 AI 탁월성 센터(Coe ; centers of excellence)를 검토할 만한다. 인재를 집중시키고 플랫폼을 표준화하며 기업 전반에 걸쳐 성공의 경험을 촉진시킬 수 있는 조직이기 때문이다.  쉘(Shell)이 2013년 처음 AI CoE(AI Center of Excellence)를 개소했을 때만 해도 규모는 그리 크지 않았다. 또 AI보다는 예측 분석에 치중하고 있었다. 현재 180명의 데이터 사이언티스트 및 엔지니어 정직원들이 근무하고 있는 쉘의 DSCoE(Data Science Center of Excellence)의 책임자 댄 지본스 “사실상 나뿐이었다”라고 회고했다. 본래 해당 CoE의 목적은 분석 관련 프로젝트를 수행하는 사업부를 지원하는 것이었다. 그는 “현업 관련 프로젝트가 빠르게 증가했다. 이에 따라 일부 리더들은 조율의 필요성을 깨달았다. 당초 의도는 사업부 지원이었지만 나중에는 사업부들이 스스로 할 수 있도록 지원하고자 했다”라고 말했다. 하지만 AI는 심층적인 기술이 필요하다. 현업 부서의 데이터 인력들은 딥러닝이나 머신 비전, 자연어 처리 등에 대한 전문지식이 부족했다. 또한 사업부들이 역량을 키워나가면서 각기 다른 접근방식을 취하기 시작했다. 지본스는 “공통의 기준을 만들고 데이터에 액세스하는 공통의 플랫폼을 만들며 확보 프로세스를 개발해야 할 필요성이 커졌다”라고 말했다. 그 결과, 쉘 CoE의 역할이 확장됐다. 심층적이고 특화된 기술을 갖고 있는 사람들이 더 많이 참여하게 됐으며, 여러 기준과 정책을 수립하는 업무까지 담당하게 됐다.  현재, 쉘은 대부분의 AI 프로젝트에 마이크로소프트 애저를 활용하며 일부는 AWS에서 수행되고 있다고 지본스가 말했다. 또한 해당 기업은 데이터 분석 기업 데이터브릭스(Databricks) 및 C3와 긴밀하게 협력하고 있으며, 이 외에도 많은 파트너들과 협력하고 있다. 이 덕분에 해당 기업의 AI 솔루션 개...

2020.10.13

데이터 과학자의 놀이터이자 배움터··· ‘캐글’ 탐험 안내서

데이터 과학은 ‘과학’이라는 용어를 사용하지만 기업 현실에선 ‘기술’에 더 가깝다. 처음에는 정제되지 않은 데이터와 오래된 통계 예측 모델로 시작한다. 그러다가 머신러닝(ML)으로 좀더 잘 다뤄보려는 시도를 하게 된다. 아무도 작업 결과를 검증하거나 개선하려 들지 않는다. 새로운 모델이 오래된 모델보다 잘 들어맞으면 채택한 후 다음 문제로 넘어간다. 데이터가 불안정해지고 모델이 작동을 멈추면 새로운 데이터세트로 모델을 업데이트한다.  하지만 캐글(Kaggle)에서 데이터 과학을 하는 양상은 사뭇 다르다. 캐글은 온라인 머신러닝 환경 겸 커뮤니티이다. 개인이나 팀이 모델링을 시도하는 수백 또는 수천에 달하는 표준 데이터세트가 있고 각 경연마다 순위표가 있다.  상금과 등급 점수를 제공하는 대회도 많다. 사람들은 대회 종료 시까지 본인의 모델을 개량하여 점수 향상과 순위 상승을 꾀할 수 있다. 불과 몇 퍼센트 차이로 1위가 달라지는 경우가 많다. 캐글은 전문 데이터 과학자들이 남는 시간에 놀 수 있는 놀꺼리가 풍부한 공간이며, 데이터 과학자 지망자들이라면 좋은 머신러닝 모델 구축 방법을 배우기에 좋은 교실이기도 하다.    캐글? 좀더 서술해 표현하면, 캐글은 데이터 과학자들을 대상으로 머신러닝 시합, 데이터세트, 노트북, 훈련 가속기에 대한 접근 및 교육을 제공하는 온라인 커뮤니티이다. 앤서니 골드블룸 (CEO)과 벤 햄너(CTO)가 2010년 창립했으며, 2017년 구글에 인수됐다. 여러 캐글 시합(Kaggle competitions) 덕분에 머신러닝 기술의 활용 수준이 다각도로 발전할 수 있었다. 암흑 물질의 지도를 만드는 것도 있고 HIV/AIDS 연구도 있다. 캐글 시합 우승자들을 살펴보면 많은 XG부스트 모델과 몇몇 랜덤 포레스트 모델, 그리고 몇 개의 심층 신경망이 눈에 띌 것이다. 시합 캐글 시합에는 ‘시작’(Getting Started), ‘놀이터’(Playground), ‘본격’(Featured)...

캐글 데이터 과학자 데이터 세트 캐글 노트북 캐글 퍼블릭 API

2020.07.02

데이터 과학은 ‘과학’이라는 용어를 사용하지만 기업 현실에선 ‘기술’에 더 가깝다. 처음에는 정제되지 않은 데이터와 오래된 통계 예측 모델로 시작한다. 그러다가 머신러닝(ML)으로 좀더 잘 다뤄보려는 시도를 하게 된다. 아무도 작업 결과를 검증하거나 개선하려 들지 않는다. 새로운 모델이 오래된 모델보다 잘 들어맞으면 채택한 후 다음 문제로 넘어간다. 데이터가 불안정해지고 모델이 작동을 멈추면 새로운 데이터세트로 모델을 업데이트한다.  하지만 캐글(Kaggle)에서 데이터 과학을 하는 양상은 사뭇 다르다. 캐글은 온라인 머신러닝 환경 겸 커뮤니티이다. 개인이나 팀이 모델링을 시도하는 수백 또는 수천에 달하는 표준 데이터세트가 있고 각 경연마다 순위표가 있다.  상금과 등급 점수를 제공하는 대회도 많다. 사람들은 대회 종료 시까지 본인의 모델을 개량하여 점수 향상과 순위 상승을 꾀할 수 있다. 불과 몇 퍼센트 차이로 1위가 달라지는 경우가 많다. 캐글은 전문 데이터 과학자들이 남는 시간에 놀 수 있는 놀꺼리가 풍부한 공간이며, 데이터 과학자 지망자들이라면 좋은 머신러닝 모델 구축 방법을 배우기에 좋은 교실이기도 하다.    캐글? 좀더 서술해 표현하면, 캐글은 데이터 과학자들을 대상으로 머신러닝 시합, 데이터세트, 노트북, 훈련 가속기에 대한 접근 및 교육을 제공하는 온라인 커뮤니티이다. 앤서니 골드블룸 (CEO)과 벤 햄너(CTO)가 2010년 창립했으며, 2017년 구글에 인수됐다. 여러 캐글 시합(Kaggle competitions) 덕분에 머신러닝 기술의 활용 수준이 다각도로 발전할 수 있었다. 암흑 물질의 지도를 만드는 것도 있고 HIV/AIDS 연구도 있다. 캐글 시합 우승자들을 살펴보면 많은 XG부스트 모델과 몇몇 랜덤 포레스트 모델, 그리고 몇 개의 심층 신경망이 눈에 띌 것이다. 시합 캐글 시합에는 ‘시작’(Getting Started), ‘놀이터’(Playground), ‘본격’(Featured)...

2020.07.02

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.9