Offcanvas

��������� ������

‘이러려고 데이터 관리하나 자괴감’··· 11가지 어두운 비밀

어떤 이들은 데이터를 새로운 석유라 부르고, 누군가는 새로운 금이라고도 부른다. 철학자와 경제학자들은 비유의 적절성 대해 논쟁할 수 있겠지만 데이터 기반 의사 결정을 도모하는 기업에게 데이터 구성 및 분석이 필수적이라는 점은 의심의 여지가 없다. 일단은 견고한 데이터 관리 전략이 핵심이다. 데이터 거버넌스, 데이터 운영, 데이터 웨어하우징, 데이터 엔지니어링, 데이터 분석, 데이터 과학 등을 포괄하는 데이터 관리는 올바르게 수행될 경우 각종 비즈니스에서 경쟁 우위를 가져다줄 수 있다. 좋은 소식은 데이터 관리의 많은 측면이 잘 정립돼 있으며 수십 년 동안 발전해 온 원칙이 존재한다는 점이다. 예를 들어, 적용하기 어렵거나 이해하기에 간단하지 않을 수 있지만 과학자와 수학자들 모두 덕분에 기업은 이제 데이터를 분석하고 결론을 내리기 위한 다양한 프레임워크를 갖게 되었다. 분석 한계를 나타내는 오차 막대를 그리는 통계 모델도 있다. 그러나 데이터 과학과 이를 뒷받침하는 다양한 학문에 대한 연구에서 얻은 모든 장점에도 불구하고 우리는 머리를 긁적거릴 때가 있다. 기업들은 종종 현장의 한계에 부딪힌다. 때로는 너무 많은 데이터를 수집하고 구성하는 역설적인 문제도 있다. 일부는 철학적이며 우리의 추상적 역량을 시험한다. 그리고 처음에 개인 정보 보호 문제가 대두되고 있다. 다음은 수많은 기업에서 데이터 관리를 어려운 과제로 만드는 몇 가지 어두운 비밀들이다.   애물단지 비정형 데이터 기업 아카이브에 저장되어 있는 데이터의 대부분은 구조화되어 있지 않다. 은행의 콜센터 직원이 작성한 문자 메모를 검색하기 위한 인공 지능(AI) 사용을 원하는 경우가 있다. 이 문장에는 은행의 대출 및 서비스를 개선하는 데 도움이 될 수 있는 통찰이 담겨 있을 수 있다. 그러나 메모 데이터는 기록할 내용에 관해 서로 다른 생각을 가진 수백 명의 사람들이 작성한 것이다. 또한, 직원들은 서로 다른 작문 스타일과 능력을 가지고 있고, 일부는 전혀 쓰지 않았다. 또 어떤 ...

데이터 관리 데이터 과학 데이터 웨어하우징 데이터 거버넌스 데이터 엔지니어링 데이터 애널리틱스

7일 전

어떤 이들은 데이터를 새로운 석유라 부르고, 누군가는 새로운 금이라고도 부른다. 철학자와 경제학자들은 비유의 적절성 대해 논쟁할 수 있겠지만 데이터 기반 의사 결정을 도모하는 기업에게 데이터 구성 및 분석이 필수적이라는 점은 의심의 여지가 없다. 일단은 견고한 데이터 관리 전략이 핵심이다. 데이터 거버넌스, 데이터 운영, 데이터 웨어하우징, 데이터 엔지니어링, 데이터 분석, 데이터 과학 등을 포괄하는 데이터 관리는 올바르게 수행될 경우 각종 비즈니스에서 경쟁 우위를 가져다줄 수 있다. 좋은 소식은 데이터 관리의 많은 측면이 잘 정립돼 있으며 수십 년 동안 발전해 온 원칙이 존재한다는 점이다. 예를 들어, 적용하기 어렵거나 이해하기에 간단하지 않을 수 있지만 과학자와 수학자들 모두 덕분에 기업은 이제 데이터를 분석하고 결론을 내리기 위한 다양한 프레임워크를 갖게 되었다. 분석 한계를 나타내는 오차 막대를 그리는 통계 모델도 있다. 그러나 데이터 과학과 이를 뒷받침하는 다양한 학문에 대한 연구에서 얻은 모든 장점에도 불구하고 우리는 머리를 긁적거릴 때가 있다. 기업들은 종종 현장의 한계에 부딪힌다. 때로는 너무 많은 데이터를 수집하고 구성하는 역설적인 문제도 있다. 일부는 철학적이며 우리의 추상적 역량을 시험한다. 그리고 처음에 개인 정보 보호 문제가 대두되고 있다. 다음은 수많은 기업에서 데이터 관리를 어려운 과제로 만드는 몇 가지 어두운 비밀들이다.   애물단지 비정형 데이터 기업 아카이브에 저장되어 있는 데이터의 대부분은 구조화되어 있지 않다. 은행의 콜센터 직원이 작성한 문자 메모를 검색하기 위한 인공 지능(AI) 사용을 원하는 경우가 있다. 이 문장에는 은행의 대출 및 서비스를 개선하는 데 도움이 될 수 있는 통찰이 담겨 있을 수 있다. 그러나 메모 데이터는 기록할 내용에 관해 서로 다른 생각을 가진 수백 명의 사람들이 작성한 것이다. 또한, 직원들은 서로 다른 작문 스타일과 능력을 가지고 있고, 일부는 전혀 쓰지 않았다. 또 어떤 ...

7일 전

오픈소스 MPP 데이터 웨어하우스, ‘아파치 도리스’란? 

‘그’가 누구이고, 어떤 학교에 다녔는지 궁금한가? ‘아파치 도리스(Apache Doris)’는 아파치 인큐베이터(Apache Incubator)에서 개발한 오픈소스 MPP 분석 데이터 웨어하우스다. 지난주 아파치 소프트웨어 재단(Apache Software Foundation; ASF)은 도리스가 최상위 수준 프로젝트(Top-Level Project; TLP)로 승격했다고 발표했다.  MySQL 애널리틱스를 활용하는 이 SQL 기반 데이터 웨어하우스는 최근 버전 1.0 그리고 도리스를 다양한 애널리틱스 및 처리 기술과 연결하는 6개의 커넥터 릴리즈를 함께 출시했다(버전 1.0은 여덟 번째 릴리즈다). 특히 이는 데이터 과학 시나리오에서 자주 사용되는 온라인 분석 처리(OLAP) 워크로드를 지원하기 위해 개발됐다.  도리스는 중국의 인터넷 검색 대기업 바이두(Baidu)에서 태어났으며, 당시에는 ‘팔로(Palo)’라고 불렸다. 2017년 오픈소스화되고, 이어 2018년 아파치 인큐베이터에 기증되기 전까지 (바이두의) 광고 비즈니스를 위한 데이터 웨어하우징 시스템으로 사용됐다.    아파치 임팔라 및 구글 매사를 기반으로 하는 도리스 도리스는 구글 F1(Google F1)을 토대로 2012년 개발된 오픈소스 MPP SQL 쿼리 엔진 구글 매사(Google Mesa)와 아파치 임팔라(Apache Impala)의 기술 통합을 바탕으로 한다. 2014년경 확장성이 뛰어난 분석 데이터 웨어하우징 시스템으로 설계된 매사는 구글의 인터넷 광고 비즈니스와 관련된 중요한 측정 데이터를 저장하는 데 활용됐다.  바이두와 아파치 인큐베이터의 개발자에 따르면 이 데이터베이스는 고가용성, 안정성, 내결함성, 확장성은 물론 단순한 설계 아키텍처까지 제공한다. 아파치 소프트웨어 재단은 공식 성명에서 “단일 시스템(에서의 개발, 배포, 사용)과 많은 데이터 제공 요건을 충족하는 게 도리스의 주요 기능이다”라면서, “이 데이터 웨어하우수...

오픈소스 데이터 웨어하우스 아파치 도리스 아파치 소프트웨어 재단 아파치 인큐베이터 MPP 데이터 과학 바이두 오픈소스 데이터베이스

2022.06.24

‘그’가 누구이고, 어떤 학교에 다녔는지 궁금한가? ‘아파치 도리스(Apache Doris)’는 아파치 인큐베이터(Apache Incubator)에서 개발한 오픈소스 MPP 분석 데이터 웨어하우스다. 지난주 아파치 소프트웨어 재단(Apache Software Foundation; ASF)은 도리스가 최상위 수준 프로젝트(Top-Level Project; TLP)로 승격했다고 발표했다.  MySQL 애널리틱스를 활용하는 이 SQL 기반 데이터 웨어하우스는 최근 버전 1.0 그리고 도리스를 다양한 애널리틱스 및 처리 기술과 연결하는 6개의 커넥터 릴리즈를 함께 출시했다(버전 1.0은 여덟 번째 릴리즈다). 특히 이는 데이터 과학 시나리오에서 자주 사용되는 온라인 분석 처리(OLAP) 워크로드를 지원하기 위해 개발됐다.  도리스는 중국의 인터넷 검색 대기업 바이두(Baidu)에서 태어났으며, 당시에는 ‘팔로(Palo)’라고 불렸다. 2017년 오픈소스화되고, 이어 2018년 아파치 인큐베이터에 기증되기 전까지 (바이두의) 광고 비즈니스를 위한 데이터 웨어하우징 시스템으로 사용됐다.    아파치 임팔라 및 구글 매사를 기반으로 하는 도리스 도리스는 구글 F1(Google F1)을 토대로 2012년 개발된 오픈소스 MPP SQL 쿼리 엔진 구글 매사(Google Mesa)와 아파치 임팔라(Apache Impala)의 기술 통합을 바탕으로 한다. 2014년경 확장성이 뛰어난 분석 데이터 웨어하우징 시스템으로 설계된 매사는 구글의 인터넷 광고 비즈니스와 관련된 중요한 측정 데이터를 저장하는 데 활용됐다.  바이두와 아파치 인큐베이터의 개발자에 따르면 이 데이터베이스는 고가용성, 안정성, 내결함성, 확장성은 물론 단순한 설계 아키텍처까지 제공한다. 아파치 소프트웨어 재단은 공식 성명에서 “단일 시스템(에서의 개발, 배포, 사용)과 많은 데이터 제공 요건을 충족하는 게 도리스의 주요 기능이다”라면서, “이 데이터 웨어하우수...

2022.06.24

주피터부터 R스튜디오까지··· ‘데이터 과학’ 필수템 8선

기업들이 비즈니스 가치를 얻기 위해 ‘데이터 과학’에 점점 더 관심을 기울이면서 이를 지원하는 도구도 급증하고 있다. 여기서는 데이터 과학자가 주로 사용하는 도구를 살펴본다.  데이터 과학 열기가 식을 줄 모른다. 한때 데이터를 수집하고 분석하는 일은 연구소에 있는 소수의 과학자만 할 수 있다고 간주됐다. 하지만 이제는 모든 기업이 데이터 과학을 활용해 조직을 간소화하고 고객을 만족시키고 싶어 한다. 데이터 과학 도구가 이러한 수요를 충족시키기 위해 성장 중이다. 불과 몇 년 전만 해도 데이터 과학자는 명령줄 그리고 몇 안 되는 오픈소스 패키지를 사용했다. 이제는 데이터 과학의 많은 허드렛일(예: 데이터 클렌징 등)을 처리하는 전문 도구가 속속 개발되고 있다.  규모도 변하고 있다. 원래 데이터 과학은 과학자가 열심히 실험한 후 행하는 숫자 작업에 불과했다. 이제 데이터 과학은 워크플로우의 가장 중요한 부분이다. 오늘날 기업들은 현황을 신속하게 파악하기 위해 비즈니스 보고에 수학적 분석을 통합하고 대시보드를 구축한다. 아울러 속도도 빨라지고 있다. 한때 연간 또는 분기로 이뤄졌던 분석 작업은 이제 실시간으로 실행된다. 기업들은 관리자와 직원이 현명한 결정을 내릴 뿐만 아니라 데이터 과학이 제공하는 모든 것을 활용할 수 있도록 현재 무슨 일이 일어나고 있는지 파악하고 싶어 한다.  여기서는 끝없는 데이터 흐름 분석에 정확성과 과학을 더하는 도구들을 소개한다.    주피터 노트북(Jupyter Notebooks) 단어, 코드, 데이터 묶음은 ‘공통어(lingua franca)’가 됐다. 변하지 않는 분석과 콘텐츠로 채워진 정적 PDF는 영구적 기록을 생성하기 때문에 여전히 가치 있지만 데이터 과학자는 하부의 메커니즘을 이리저리 손보고 싶어 한다. 주피터 노트북을 사용하면 단순히 정보를 확인하는 것 이상의 일을 할 수 있다. 노트북은 매스매티카(Mathermatica; 계산용 소프트웨어)의 유연성을 차용...

데이터 과학 데이터 애널리틱스 애널리틱스 도구 주피터 노트북 R스튜디오 스위브 니터 IDE GPU

2022.05.10

기업들이 비즈니스 가치를 얻기 위해 ‘데이터 과학’에 점점 더 관심을 기울이면서 이를 지원하는 도구도 급증하고 있다. 여기서는 데이터 과학자가 주로 사용하는 도구를 살펴본다.  데이터 과학 열기가 식을 줄 모른다. 한때 데이터를 수집하고 분석하는 일은 연구소에 있는 소수의 과학자만 할 수 있다고 간주됐다. 하지만 이제는 모든 기업이 데이터 과학을 활용해 조직을 간소화하고 고객을 만족시키고 싶어 한다. 데이터 과학 도구가 이러한 수요를 충족시키기 위해 성장 중이다. 불과 몇 년 전만 해도 데이터 과학자는 명령줄 그리고 몇 안 되는 오픈소스 패키지를 사용했다. 이제는 데이터 과학의 많은 허드렛일(예: 데이터 클렌징 등)을 처리하는 전문 도구가 속속 개발되고 있다.  규모도 변하고 있다. 원래 데이터 과학은 과학자가 열심히 실험한 후 행하는 숫자 작업에 불과했다. 이제 데이터 과학은 워크플로우의 가장 중요한 부분이다. 오늘날 기업들은 현황을 신속하게 파악하기 위해 비즈니스 보고에 수학적 분석을 통합하고 대시보드를 구축한다. 아울러 속도도 빨라지고 있다. 한때 연간 또는 분기로 이뤄졌던 분석 작업은 이제 실시간으로 실행된다. 기업들은 관리자와 직원이 현명한 결정을 내릴 뿐만 아니라 데이터 과학이 제공하는 모든 것을 활용할 수 있도록 현재 무슨 일이 일어나고 있는지 파악하고 싶어 한다.  여기서는 끝없는 데이터 흐름 분석에 정확성과 과학을 더하는 도구들을 소개한다.    주피터 노트북(Jupyter Notebooks) 단어, 코드, 데이터 묶음은 ‘공통어(lingua franca)’가 됐다. 변하지 않는 분석과 콘텐츠로 채워진 정적 PDF는 영구적 기록을 생성하기 때문에 여전히 가치 있지만 데이터 과학자는 하부의 메커니즘을 이리저리 손보고 싶어 한다. 주피터 노트북을 사용하면 단순히 정보를 확인하는 것 이상의 일을 할 수 있다. 노트북은 매스매티카(Mathermatica; 계산용 소프트웨어)의 유연성을 차용...

2022.05.10

이제 데이터도 서비스로... 눈 여겨 볼 ‘DaaS’ 벤더 11곳

데이터 기반 의사결정이나 디지털 서비스를 보완하고자 하지만 수중에 충분한 데이터가 없을 수 있는 기업들의 선택 폭이 넓어지고 있다.  오늘날 대부분 비즈니스의 중심에는 ‘데이터 기반 의사결정’과 ‘디지털 서비스’가 있다. 따라서 기업들은 (이를 위해) 충분한 데이터를 확보해야 한다. 하지만 비즈니스에 도움이 될 수 있는 모든 데이터를 내부적인 수단으로만 쉽게 생성, 정리, 분석할 수 있는 건 아니다. 기업들이 사용할 수 있는 데이터를 (유료로) 제공하는 ‘서비스형 데이터(Data as a Service; DaaS)’ 업체들을 살펴봐야 할 이유다.  누가 ‘서비스형 데이터(DaaS)’를 필요로 할까? 데이터를 원한다면 누구든지 필요하다. 때때로 DaaS 업체의 데이터는 (기업들의) 내부 작업 또는 자체 비즈니스 운영에서 나온다. 때로는 DaaS 업체가 수집한 외부 소스(대부분 오픈소스)에서 나오기도 한다. 이는 기업들이 자체적으로 처리할 수 없는 데이터 자산을 활용할 수 있도록 지원한다.    DaaS 오퍼링은 지난 수십 년 동안 발전해 왔지만 최근 개발자들은 유연한 사용량 기반 가격 정책을 가진 클라우드 모델이 (벤더가) 수익을 창출하려는 데이터 소스와 기업들을 더 쉽게 연결하는 데 도움을 줄 수 있다는 사실을 깨달았다. 아울러 DaaS 업체들은 오류를 수정하거나 격차를 메워 기업들이 자체적으로 수집한 데이터 품질을 개선하고, 더 많이 필요하다면 더 많은 데이터를 제공할 수도 있게 됐다. 이러한 방식을 통해 DaaS 업체들은 자체 개발한 데이터웨어하우스를 선별된 다른 소스와 교차 수정하여 개선할 수 있다.  이 분야는 빠르게 성장하고 있다. 몇몇 DaaS 업체는 정보 관리, 데이터 분석, 보고서 작성, 의사결정 지원 등의 기능을 강조한다. 데이터가 너무 많으면 과잉 또는 과부족이라는 점에서 데이터 자체를 강조하는 업체도 있다. 많은 도구는 개발을 간소화하고 스마트하게 만드는 방식을 따르고 있다. 로우코드 및...

데이터 디지털 서비스 서비스형 데이터 데이터 자산 애널리틱스 데이터 과학

2022.04.18

데이터 기반 의사결정이나 디지털 서비스를 보완하고자 하지만 수중에 충분한 데이터가 없을 수 있는 기업들의 선택 폭이 넓어지고 있다.  오늘날 대부분 비즈니스의 중심에는 ‘데이터 기반 의사결정’과 ‘디지털 서비스’가 있다. 따라서 기업들은 (이를 위해) 충분한 데이터를 확보해야 한다. 하지만 비즈니스에 도움이 될 수 있는 모든 데이터를 내부적인 수단으로만 쉽게 생성, 정리, 분석할 수 있는 건 아니다. 기업들이 사용할 수 있는 데이터를 (유료로) 제공하는 ‘서비스형 데이터(Data as a Service; DaaS)’ 업체들을 살펴봐야 할 이유다.  누가 ‘서비스형 데이터(DaaS)’를 필요로 할까? 데이터를 원한다면 누구든지 필요하다. 때때로 DaaS 업체의 데이터는 (기업들의) 내부 작업 또는 자체 비즈니스 운영에서 나온다. 때로는 DaaS 업체가 수집한 외부 소스(대부분 오픈소스)에서 나오기도 한다. 이는 기업들이 자체적으로 처리할 수 없는 데이터 자산을 활용할 수 있도록 지원한다.    DaaS 오퍼링은 지난 수십 년 동안 발전해 왔지만 최근 개발자들은 유연한 사용량 기반 가격 정책을 가진 클라우드 모델이 (벤더가) 수익을 창출하려는 데이터 소스와 기업들을 더 쉽게 연결하는 데 도움을 줄 수 있다는 사실을 깨달았다. 아울러 DaaS 업체들은 오류를 수정하거나 격차를 메워 기업들이 자체적으로 수집한 데이터 품질을 개선하고, 더 많이 필요하다면 더 많은 데이터를 제공할 수도 있게 됐다. 이러한 방식을 통해 DaaS 업체들은 자체 개발한 데이터웨어하우스를 선별된 다른 소스와 교차 수정하여 개선할 수 있다.  이 분야는 빠르게 성장하고 있다. 몇몇 DaaS 업체는 정보 관리, 데이터 분석, 보고서 작성, 의사결정 지원 등의 기능을 강조한다. 데이터가 너무 많으면 과잉 또는 과부족이라는 점에서 데이터 자체를 강조하는 업체도 있다. 많은 도구는 개발을 간소화하고 스마트하게 만드는 방식을 따르고 있다. 로우코드 및...

2022.04.18

‘멀티클라우드 전환’의 이점과 과제는… 美 프라이스라인 사례

프라이스라인(Priceline)은 실시간 애널리틱스와 클라우드 네이티브 기술을 최대한 활용하기 위해 멀티클라우드 마이그레이션을 진행 중이다. 하지만 그 과정에서 문제가 없는 건 아니다. 미국에서 코로나19 확산이 수그러들자 여행 업계가 속도를 내고 있다. 온라인 여행 서비스 기업 ‘프라이스라인(Priceline)’의 클라우드 트랜스포메이션도 마찬가지다. 트래블로시티(Travelocity), 익스피디아(Expedia), 호퍼(Hopper) 등과 경쟁하는 이 회사는 구글 클라우드 플랫폼(GCP)을 중심으로 한 멀티클라우드 마이그레이션의 중간 단계를 지나가고 있다.    프라이스라인의 CTO 마틴 브로드벡은 “디지털 트랜스포메이션을 추진하고 있다. 올해 자사 제품 플랫폼을 구글 클라우드와 연동되는 쿠버네티스로 현대화하는 작업을 마무리할 예정이다”라고 말했다. 오픈소스 컨테이너 관리 시스템인 쿠버네티스는 (프라이스라인의) 하드웨어 및 소프트웨어 프로비저닝을 최소화할 수 있도록 효율적인 수평 확장을 제공한다. 이는 고객 트래픽에 대응하는 데 있어 엄청난 유연성을 필요로 하는 이 비즈니스의 중요한 요소라고 그는 설명했다.  브로드벡에 따르면 쿠버네티스를 통해 프라이스라인 개발자는 프로덕션 환경에서 기능을 테스트하고 배포할 수 있게 됐다. 하지만 클라우드 네이티브 방법론 및 기술로의 전환은 특히 개발자 생산성 극대화와 관련해 완전히 순조롭지는 않았다고 그는 전했다.  클라우드에서의 실시간 애널리틱스 프라이스라인 비즈니스의 핵심이라고 할 수 있는 독점적인 가격 책정 엔진은 실시간 데이터 인프라와 애널리틱스를 활용한다. 이를 위해 프라이스라인은 테라바이트 단위의 데이터를 몇 초 만에 분석할 수 있는 구글 빅쿼리(Google BigQuery)와 카프카(Kafka)를 쓴다. 아울러 데이터스택스(DataStax)의 고속 쿼리 엔진과 스타버스터(Startbust)의 데이터 메시용 실시간 애널리틱스 플랫폼도 사용한다.  클라우드에...

멀티클라우드 구글 클라우드 플랫폼 GCP AWS 프라이스라인 디지털 트랜스포메이션 컨테이너 쿠버네티스 클라우드 네이티브 개발자 개발자 생산성 애널리틱스 머신러닝 데이터 과학

2022.02.25

프라이스라인(Priceline)은 실시간 애널리틱스와 클라우드 네이티브 기술을 최대한 활용하기 위해 멀티클라우드 마이그레이션을 진행 중이다. 하지만 그 과정에서 문제가 없는 건 아니다. 미국에서 코로나19 확산이 수그러들자 여행 업계가 속도를 내고 있다. 온라인 여행 서비스 기업 ‘프라이스라인(Priceline)’의 클라우드 트랜스포메이션도 마찬가지다. 트래블로시티(Travelocity), 익스피디아(Expedia), 호퍼(Hopper) 등과 경쟁하는 이 회사는 구글 클라우드 플랫폼(GCP)을 중심으로 한 멀티클라우드 마이그레이션의 중간 단계를 지나가고 있다.    프라이스라인의 CTO 마틴 브로드벡은 “디지털 트랜스포메이션을 추진하고 있다. 올해 자사 제품 플랫폼을 구글 클라우드와 연동되는 쿠버네티스로 현대화하는 작업을 마무리할 예정이다”라고 말했다. 오픈소스 컨테이너 관리 시스템인 쿠버네티스는 (프라이스라인의) 하드웨어 및 소프트웨어 프로비저닝을 최소화할 수 있도록 효율적인 수평 확장을 제공한다. 이는 고객 트래픽에 대응하는 데 있어 엄청난 유연성을 필요로 하는 이 비즈니스의 중요한 요소라고 그는 설명했다.  브로드벡에 따르면 쿠버네티스를 통해 프라이스라인 개발자는 프로덕션 환경에서 기능을 테스트하고 배포할 수 있게 됐다. 하지만 클라우드 네이티브 방법론 및 기술로의 전환은 특히 개발자 생산성 극대화와 관련해 완전히 순조롭지는 않았다고 그는 전했다.  클라우드에서의 실시간 애널리틱스 프라이스라인 비즈니스의 핵심이라고 할 수 있는 독점적인 가격 책정 엔진은 실시간 데이터 인프라와 애널리틱스를 활용한다. 이를 위해 프라이스라인은 테라바이트 단위의 데이터를 몇 초 만에 분석할 수 있는 구글 빅쿼리(Google BigQuery)와 카프카(Kafka)를 쓴다. 아울러 데이터스택스(DataStax)의 고속 쿼리 엔진과 스타버스터(Startbust)의 데이터 메시용 실시간 애널리틱스 플랫폼도 사용한다.  클라우드에...

2022.02.25

‘에이스’ 데이터 과학자 되고 싶다면... 살펴볼 만한 자격증 12종

‘데이터 과학자’로 앞서 나가고 싶은가? 다음의 데이터 과학 자격증 중 하나를 취득하면 IT 분야의 가장 ‘핫’한 커리어에서 두각을 나타내는 데 도움이 될 것이다.  데이터 과학자는 IT에서 가장 ‘ 핫’한 직업이다. 기업들이 광범위한 데이터를 분석할 수 있는 데이터 전문가를 확보하려고 열심이기 때문이다. 수익성 있는 이 분야에 뛰어들고 싶거나, 경쟁자들 사이에서 돋보이고 싶다면 데이터 과학 자격증을 취득하는 게 좋다.  데이터 과학 자격증 취득은 희망하는 산업에서 찾기 힘든 스킬을 연마할 수 있다는 점에서 경쟁력을 갖추기에 좋은 방법이다. 아울러 보유하고 있는 데이터 과학 노하우를 입증할 수 있는 방법이기도 하다. 대학에서 자격증을 취득하거나, 경력을 쌓고 싶거나, 특정 벤더와 관련된 스킬을 연마하거나, 데이터 분석 지식을 입증하고 싶을 때 도움이 될 자격증 12종을 알파벳 순서로 정리했다.    공인 애널리스트 프로페셔널(Certified Analytics Professional; CAP) CAP는 벤더 중립적인 자격증이며, ‘복잡한 데이터를 가치 있는 인사이트와 액션으로 전환하는’ 역량을 검증한다. 기업들이 데이터를 이해하고, 논리적인 결론을 도출하며, 이러한 데이터 포인트가 중요한 이유를 주요 이해관계자에게 설명할 수 있는 데이터 과학자를 원하기 때문이다. 특정 기준을 충족해야 CAP 또는 어소시에이트 레벨의 aCAP 시험에 응시할 수 있다. 관련 분야의 석사 학위가 있다면 관련 경력 3년, 관련 분야의 학사 학위가 있다면 관련 경력 5년, 분석 관련 학위가 없다면 7년의 경력이 필요하다. aCAP 시험은 석사 학위 및 3년 미만의 데이터 또는 분석 관련 경력이 필요하다. • 비용: CAP 시험의 경우 INFORMS 회원은 495달러, 비회원은 695달러다. aCAP 시험의 경우 INFORMS 회원은 200달러, 비회원은 300달러다.  • 위치: 지정된 시험 센터에서 직접 • 유효 기간: ...

데이터 과학 빅데이터 자격증 인증

2022.02.22

‘데이터 과학자’로 앞서 나가고 싶은가? 다음의 데이터 과학 자격증 중 하나를 취득하면 IT 분야의 가장 ‘핫’한 커리어에서 두각을 나타내는 데 도움이 될 것이다.  데이터 과학자는 IT에서 가장 ‘ 핫’한 직업이다. 기업들이 광범위한 데이터를 분석할 수 있는 데이터 전문가를 확보하려고 열심이기 때문이다. 수익성 있는 이 분야에 뛰어들고 싶거나, 경쟁자들 사이에서 돋보이고 싶다면 데이터 과학 자격증을 취득하는 게 좋다.  데이터 과학 자격증 취득은 희망하는 산업에서 찾기 힘든 스킬을 연마할 수 있다는 점에서 경쟁력을 갖추기에 좋은 방법이다. 아울러 보유하고 있는 데이터 과학 노하우를 입증할 수 있는 방법이기도 하다. 대학에서 자격증을 취득하거나, 경력을 쌓고 싶거나, 특정 벤더와 관련된 스킬을 연마하거나, 데이터 분석 지식을 입증하고 싶을 때 도움이 될 자격증 12종을 알파벳 순서로 정리했다.    공인 애널리스트 프로페셔널(Certified Analytics Professional; CAP) CAP는 벤더 중립적인 자격증이며, ‘복잡한 데이터를 가치 있는 인사이트와 액션으로 전환하는’ 역량을 검증한다. 기업들이 데이터를 이해하고, 논리적인 결론을 도출하며, 이러한 데이터 포인트가 중요한 이유를 주요 이해관계자에게 설명할 수 있는 데이터 과학자를 원하기 때문이다. 특정 기준을 충족해야 CAP 또는 어소시에이트 레벨의 aCAP 시험에 응시할 수 있다. 관련 분야의 석사 학위가 있다면 관련 경력 3년, 관련 분야의 학사 학위가 있다면 관련 경력 5년, 분석 관련 학위가 없다면 7년의 경력이 필요하다. aCAP 시험은 석사 학위 및 3년 미만의 데이터 또는 분석 관련 경력이 필요하다. • 비용: CAP 시험의 경우 INFORMS 회원은 495달러, 비회원은 695달러다. aCAP 시험의 경우 INFORMS 회원은 200달러, 비회원은 300달러다.  • 위치: 지정된 시험 센터에서 직접 • 유효 기간: ...

2022.02.22

애널리틱스 전초기지, 디즈니의 ‘데이터 클린룸’ 살펴보기

월트 디즈니 컴퍼니(Walt Disney Co.) 엔터테인먼트 및 스포츠 비즈니스 부문의 광고 판매와 통합 마케팅을 담당하는 ‘디즈니 광고 판매(Disney Advertising Sales; 이하 디즈니 AS)’는 사용자 프라이버시를 보호하면서 광고주에게 방대한 양의 시청자 데이터를 제공하기 위해 데이터 거버넌스에 ‘데이터 클린룸’ 접근 방식을 취하고 있다. 아울러 고객들이(광고주) 광고 메시지에 적합한 사용자를 찾을 수 있도록 다년간 데이터 및 애널리틱스 분야에서 새로운 영역을 개척하고 있다.   디즈니플러스(월트 디즈니의 스트리밍 서비스)의 가히 폭발적인 성장은 엄청난 양의 데이터를 추가했다. 현재 디즈니 AS는 이 데이터를 기반으로 구축한 1,000개 이상의 사용자 세그먼트를 광고주에 제공하고 있다. 하지만 큰 힘에는 큰 책임이 따르는 법이다. 다시 말해, 디즈니는 사용자 데이터와 프라이버시를 안전하게 보호하기 위해 새로운 데이터 거버넌스 접근 방식을 찾아야 했다. 지난 2021년 10월 디즈니 AS는 하부(Habu), 인포섬(InfoSum), 스노우플레이크(Snowflake) 등과 함께 구축한 새로운 클린룸 데이터 솔루션을 공개했다. 회사에 따르면 데이터 클린룸은 파트너가 공동 분석을 위해 정의된 규제 하에 데이터를 한데 모으는 장소다. 디즈니 AS의 시청자 모델링 및 데이터 과학 담당 부사장 다나 맥그로는 이러한 디즈니와 고객과의 관계는 디즈니가 데이터로 하는 모든 일에 등대 역할을 한다고 말했다. 그는 “고객과 관계를 맺는 방식(예: 데이터 클린룸) 그리고 여기서 생성되는 콘텐츠가 (디즈니의) 광고 오퍼링을 매력적으로 만드는 이유”라면서, “데이터, 데이터 사용, 데이터 거버넌스를 고려할 때 ‘이것이 고객 경험을 향상시키는지가 중요하다”라고 설명했다. 안전하게 데이터를 공유할 수 있는 ‘데이터 클린룸’  맥그로는 “브랜드가 디즈니와 데이터를 전혀 교환하지 않고 ▲시청자 그리고 ▲디즈니를 통해 광고하고 싶은 대상에 관한 인사...

데이터 애널리틱스 데이터 과학 디지털 트랜스포메이션 디즈니 광고 마케팅 프라이버시 데이터 클린룸 스노우플레이크

2022.02.16

월트 디즈니 컴퍼니(Walt Disney Co.) 엔터테인먼트 및 스포츠 비즈니스 부문의 광고 판매와 통합 마케팅을 담당하는 ‘디즈니 광고 판매(Disney Advertising Sales; 이하 디즈니 AS)’는 사용자 프라이버시를 보호하면서 광고주에게 방대한 양의 시청자 데이터를 제공하기 위해 데이터 거버넌스에 ‘데이터 클린룸’ 접근 방식을 취하고 있다. 아울러 고객들이(광고주) 광고 메시지에 적합한 사용자를 찾을 수 있도록 다년간 데이터 및 애널리틱스 분야에서 새로운 영역을 개척하고 있다.   디즈니플러스(월트 디즈니의 스트리밍 서비스)의 가히 폭발적인 성장은 엄청난 양의 데이터를 추가했다. 현재 디즈니 AS는 이 데이터를 기반으로 구축한 1,000개 이상의 사용자 세그먼트를 광고주에 제공하고 있다. 하지만 큰 힘에는 큰 책임이 따르는 법이다. 다시 말해, 디즈니는 사용자 데이터와 프라이버시를 안전하게 보호하기 위해 새로운 데이터 거버넌스 접근 방식을 찾아야 했다. 지난 2021년 10월 디즈니 AS는 하부(Habu), 인포섬(InfoSum), 스노우플레이크(Snowflake) 등과 함께 구축한 새로운 클린룸 데이터 솔루션을 공개했다. 회사에 따르면 데이터 클린룸은 파트너가 공동 분석을 위해 정의된 규제 하에 데이터를 한데 모으는 장소다. 디즈니 AS의 시청자 모델링 및 데이터 과학 담당 부사장 다나 맥그로는 이러한 디즈니와 고객과의 관계는 디즈니가 데이터로 하는 모든 일에 등대 역할을 한다고 말했다. 그는 “고객과 관계를 맺는 방식(예: 데이터 클린룸) 그리고 여기서 생성되는 콘텐츠가 (디즈니의) 광고 오퍼링을 매력적으로 만드는 이유”라면서, “데이터, 데이터 사용, 데이터 거버넌스를 고려할 때 ‘이것이 고객 경험을 향상시키는지가 중요하다”라고 설명했다. 안전하게 데이터를 공유할 수 있는 ‘데이터 클린룸’  맥그로는 “브랜드가 디즈니와 데이터를 전혀 교환하지 않고 ▲시청자 그리고 ▲디즈니를 통해 광고하고 싶은 대상에 관한 인사...

2022.02.16

“전 세계 금융 기업 78%, AI 활용 위해 가속 컴퓨팅 사용” 엔비디아

엔비디아가 ‘금융 서비스의 AI 활용 현황’에 관한 설문조사를 발표했다. 회사에 따르면 이번 조사는 자본 시장, 소매 금융, 투자 기업에서 AI 도입의 증가세를 보여준다.    엔비디아의 조사에 의하면 AI는 월스트리트에서 거래하는 가장 큰 기업부터 사기 방지 기능을 제공하는 은행, 소비자에게 가장 적합한 상품을 추천하는 핀테크에 이르기까지 금융 서비스 산업 전반에 걸쳐 혁신을 주도하고 있는 것으로 나타났다. 금융 서비스 전문가 중 78%가 머신 러닝, 딥 러닝 또는 고성능 컴퓨팅을 통해 AI 지원 애플리케이션을 제공하기 위해 가속 컴퓨팅을 사용한다고 응답했다. 엔비디아의 ‘금융 서비스의 AI 활용 현황’ 보고서의 설문 결과는 금융 서비스에 종사하는 500명 이상의 경영진, 개발자, 데이터 과학자, 엔지니어 및 IT 팀의 응답을 바탕으로 작성됐다. 지난 2020년 전 세계적으로 700억 건 이상의 실시간 결제 거래가 처리된 상황에서, 금융기관들은 사기를 방지하고 비용을 절감할 수 있는 강력한 시스템이 필요하다. 이에 따라 결제·거래 관련 사기 부문이 전체 응답자의 AI 활용 사례 중 31%로 1위를 차지했고, 대화형 AI는 28%, 알고리즘 거래는 27%로 뒤를 이었다. AI 활용 사례에 투자하는 금융 기관의 비율은 해마다 급격히 증가한다. 보험 관련 AI의 보급률은 지난 2021년 3%에서 올해 12%로 4배 증가했다. 대화형 AI는 8%에서 28%로 전년 대비 3.5배 증가했다. 한편, 사기 탐지, 고객 분석(know-your-customer) 및 자금 세탁 방지를 위한 AI 적용 애플리케이션은 모두 이번 조사에서 최소 300%의 성장을 보였다. 현재 13건의 활용 사례 중 9건은 15% 이상의 금융서비스 회사가 활용하고 있지만, 지난해 보고서에서는 이를 넘어선 활용 사례는 단 한 건도 없었다. 금융서비스 전문가들은 AI가 보다 정확한 모델을 산출하고 경쟁 우위를 창출하며 고객 경험을 개선하는 주요 이점을 강조했다. 전반적으로 ...

엔비디아 인공지능 가속 컴퓨팅 대화형 AI 알고리즘 거래 사기 탐지 고객 분석 AI 애플리케이션 데이터 과학 설명 가능성

2022.01.28

엔비디아가 ‘금융 서비스의 AI 활용 현황’에 관한 설문조사를 발표했다. 회사에 따르면 이번 조사는 자본 시장, 소매 금융, 투자 기업에서 AI 도입의 증가세를 보여준다.    엔비디아의 조사에 의하면 AI는 월스트리트에서 거래하는 가장 큰 기업부터 사기 방지 기능을 제공하는 은행, 소비자에게 가장 적합한 상품을 추천하는 핀테크에 이르기까지 금융 서비스 산업 전반에 걸쳐 혁신을 주도하고 있는 것으로 나타났다. 금융 서비스 전문가 중 78%가 머신 러닝, 딥 러닝 또는 고성능 컴퓨팅을 통해 AI 지원 애플리케이션을 제공하기 위해 가속 컴퓨팅을 사용한다고 응답했다. 엔비디아의 ‘금융 서비스의 AI 활용 현황’ 보고서의 설문 결과는 금융 서비스에 종사하는 500명 이상의 경영진, 개발자, 데이터 과학자, 엔지니어 및 IT 팀의 응답을 바탕으로 작성됐다. 지난 2020년 전 세계적으로 700억 건 이상의 실시간 결제 거래가 처리된 상황에서, 금융기관들은 사기를 방지하고 비용을 절감할 수 있는 강력한 시스템이 필요하다. 이에 따라 결제·거래 관련 사기 부문이 전체 응답자의 AI 활용 사례 중 31%로 1위를 차지했고, 대화형 AI는 28%, 알고리즘 거래는 27%로 뒤를 이었다. AI 활용 사례에 투자하는 금융 기관의 비율은 해마다 급격히 증가한다. 보험 관련 AI의 보급률은 지난 2021년 3%에서 올해 12%로 4배 증가했다. 대화형 AI는 8%에서 28%로 전년 대비 3.5배 증가했다. 한편, 사기 탐지, 고객 분석(know-your-customer) 및 자금 세탁 방지를 위한 AI 적용 애플리케이션은 모두 이번 조사에서 최소 300%의 성장을 보였다. 현재 13건의 활용 사례 중 9건은 15% 이상의 금융서비스 회사가 활용하고 있지만, 지난해 보고서에서는 이를 넘어선 활용 사례는 단 한 건도 없었다. 금융서비스 전문가들은 AI가 보다 정확한 모델을 산출하고 경쟁 우위를 창출하며 고객 경험을 개선하는 주요 이점을 강조했다. 전반적으로 ...

2022.01.28

AI도 과하면 독, ‘딱 맞는 해법’은 따로 있다

AI 프로젝트를 성공시키려면 비즈니스 가치, 학습용 데이터, 문화적 준비가 필수다. 이 3가지가 모두 없다면 기존 솔루션이 더 적합할 수도 있다. 인공지능(AI) 도입이 증가하고 있다. 최근 발표된 맥킨지의 설문조사 결과에 따르면 55%의 기업이 적어도 1개 부서에서 인공지능을 사용하고 있으며, 27%는 이자 및 세전 수익의 최소 5%를 AI를 통해 비용 절감의 형태로 얻고 있는 것으로 나타났다. AI가 (관련된) 거의 모든 산업을 극적으로 변화시킬 것이기 때문에 벤더와 기업들이 가능한 모든 곳에 AI를 배포할 기회를 찾고 있다는 건 놀라운 일은 아니다. 하지만 모든 프로젝트가 AI의 이점을 누릴 수 있는 건 아니며, 적절하지 않은 곳에 AI를 도입하면 시간과 비용을 낭비할 뿐만 아니라 직원, 고객, 기업 리더가 고배를 마실 수 있다. 어떤 프로젝트가 AI에 적합한지를 판단하는 핵심 요소는 ▲비즈니스 가치, ▲학습용 데이터의 가용성, ▲변화에 따른 문화적 준비 수준이다. 인공지능 이니셔티브가 매몰 비용이 되기 전에, 제안된 AI 프로젝트에 이러한 요소가 부합하는지 확인하는 방법을 살펴본다.   가장 간단한 솔루션부터 시작하라 전 세계 90여 개국에 1만 8,000개 이상의 매장을 보유하고 있는 피자 체인점 도미노의 데이터 과학 및 AI 부문 관리자 잭 프라고소는 특히 데이터 과학자가 AI 우선 접근법을 선호한다고 말했다. 하지만 모든 곳에 AI를 적용할 순 없다고 그는 지적했다.  전통적인 산업이지만 도미노는 변화를 추진해왔다. 특히 팬데믹 기간에는 더욱더 그랬다. 현재 고객들은 13가지 디지털 방식으로 피자를 주문할 수 있으며, 2020년 도미노 매출의 70% 이상은 디지털 주문에서 나왔다. 이는 AI의 가능성을 입증할 수 있는 많은 기회를 열어줬다. 프라고소는 “도미노가 AI를 도입할 때의 핵심은 간단한 접근방식을 취하는 것이었다”라며, “단순한 솔루션이 더 빠르게 실행되고 더 나은 성과를 보여주기 때문에 이를 비즈니스 파트너...

인공지능 머신러닝 디지털 트랜스포메이션 도미노 피자 데이터세트 ML옵스 질로우 NLP 데이터 과학

2022.01.25

AI 프로젝트를 성공시키려면 비즈니스 가치, 학습용 데이터, 문화적 준비가 필수다. 이 3가지가 모두 없다면 기존 솔루션이 더 적합할 수도 있다. 인공지능(AI) 도입이 증가하고 있다. 최근 발표된 맥킨지의 설문조사 결과에 따르면 55%의 기업이 적어도 1개 부서에서 인공지능을 사용하고 있으며, 27%는 이자 및 세전 수익의 최소 5%를 AI를 통해 비용 절감의 형태로 얻고 있는 것으로 나타났다. AI가 (관련된) 거의 모든 산업을 극적으로 변화시킬 것이기 때문에 벤더와 기업들이 가능한 모든 곳에 AI를 배포할 기회를 찾고 있다는 건 놀라운 일은 아니다. 하지만 모든 프로젝트가 AI의 이점을 누릴 수 있는 건 아니며, 적절하지 않은 곳에 AI를 도입하면 시간과 비용을 낭비할 뿐만 아니라 직원, 고객, 기업 리더가 고배를 마실 수 있다. 어떤 프로젝트가 AI에 적합한지를 판단하는 핵심 요소는 ▲비즈니스 가치, ▲학습용 데이터의 가용성, ▲변화에 따른 문화적 준비 수준이다. 인공지능 이니셔티브가 매몰 비용이 되기 전에, 제안된 AI 프로젝트에 이러한 요소가 부합하는지 확인하는 방법을 살펴본다.   가장 간단한 솔루션부터 시작하라 전 세계 90여 개국에 1만 8,000개 이상의 매장을 보유하고 있는 피자 체인점 도미노의 데이터 과학 및 AI 부문 관리자 잭 프라고소는 특히 데이터 과학자가 AI 우선 접근법을 선호한다고 말했다. 하지만 모든 곳에 AI를 적용할 순 없다고 그는 지적했다.  전통적인 산업이지만 도미노는 변화를 추진해왔다. 특히 팬데믹 기간에는 더욱더 그랬다. 현재 고객들은 13가지 디지털 방식으로 피자를 주문할 수 있으며, 2020년 도미노 매출의 70% 이상은 디지털 주문에서 나왔다. 이는 AI의 가능성을 입증할 수 있는 많은 기회를 열어줬다. 프라고소는 “도미노가 AI를 도입할 때의 핵심은 간단한 접근방식을 취하는 것이었다”라며, “단순한 솔루션이 더 빠르게 실행되고 더 나은 성과를 보여주기 때문에 이를 비즈니스 파트너...

2022.01.25

2022년 IT 지출처··· ‘핫한’ 7가지 ‘지는’ 4가지

IT 리더들이 ‘기술’을 활용하여 혁신과 비즈니스 트랜스포메이션에 박차를 가할 방안을 모색하고 있다. 그렇다면 투자가 늘어나고 있는 기술은 무엇인지, 반면에 약화되거나 축소되고 있는 기술은 무엇인지 살펴본다.  팬데믹 기간 동안 가속화된 디지털 트랜스포메이션 물결을 타고 올해에도 기업들은 혁신을 촉진하고 비즈니스 운영을 트랜스포메이션하고자 기술을 적극적으로 활용할 전망이다. 이를 위해서는 기술 투자가 필요하다. 이를 아는 기업들은 새로운 기술 및 기존 기술 예산을 늘리고 있다. 액센츄어에 따르면 전체 디지털 지출은 2023년까지 총 IT 지출의 55%를 차지할 것으로 예상되며, 지난 2021년보다 약 10% 증가하는 수준이다.    액센츄어의 수석 전무이사 애슐리 스카이름은 이러한 지출이 4가지 핵심 영역에 집중될 것이라고 밝혔다. 첫 번째는 시장 출시 속도가 중요한 시장(예: AI, 블록체인, AR/VR 등)에서 가치를 입증하기 위해 새로운 사용 사례를 빠르게 시험하고 프로토타이핑하면서 기업들이 ‘재창조하고 혁신하는’ 영역이다. 두 번째 영역은 데이터 및 애널리틱스용 플랫폼 등 ‘새로운 역량 또는 수익원을 창출하는 혁신적인 투자’를 통해 확장하고 차별화하면서 비즈니스를 성장시키는 것이다. 세 번째는 ERP/CRM, 품질, 공급 계획 시스템 등 경쟁력 있는 비즈니스 역량 또는 프로세스 디지털화를 통해 가치사슬을 디지털화하는 것이다. 마지막은 비즈니스를 운영하고, 데이터센터 및 네트워크 등에서 보안 및 컴플라이언스를 유지하는 데 필요한 기술 역량이다.  여기서는 2022년 CIO와 IT 리더들이 투자하게 될 ‘뜨거운(Hot)’ IT 기술 7가지와 ‘차가운(Cold)’ IT 기술 4가지를 정리했다.   Hot: 클라우드 네이티브 관리형 서비스 KPMG의 수석 고문 마크 생크는 클라우드 네이티브 관리형 서비스를 활용하기 위한 투자가 이뤄질 것이라고 말했다. 그는 “예전엔 기업들이 클라우드 투자로 인한 벤더 락...

IT 투자 IT 리더 CIO IT 리더십 디지털 트랜스포메이션 클라우드 네이티브 사물인터넷 데이터 레이크 데이터 웨어하우스 프라이빗 클라우드 직원 인게이지먼트 애널리틱스 데이터 과학 고객 경험 보안

2022.01.10

IT 리더들이 ‘기술’을 활용하여 혁신과 비즈니스 트랜스포메이션에 박차를 가할 방안을 모색하고 있다. 그렇다면 투자가 늘어나고 있는 기술은 무엇인지, 반면에 약화되거나 축소되고 있는 기술은 무엇인지 살펴본다.  팬데믹 기간 동안 가속화된 디지털 트랜스포메이션 물결을 타고 올해에도 기업들은 혁신을 촉진하고 비즈니스 운영을 트랜스포메이션하고자 기술을 적극적으로 활용할 전망이다. 이를 위해서는 기술 투자가 필요하다. 이를 아는 기업들은 새로운 기술 및 기존 기술 예산을 늘리고 있다. 액센츄어에 따르면 전체 디지털 지출은 2023년까지 총 IT 지출의 55%를 차지할 것으로 예상되며, 지난 2021년보다 약 10% 증가하는 수준이다.    액센츄어의 수석 전무이사 애슐리 스카이름은 이러한 지출이 4가지 핵심 영역에 집중될 것이라고 밝혔다. 첫 번째는 시장 출시 속도가 중요한 시장(예: AI, 블록체인, AR/VR 등)에서 가치를 입증하기 위해 새로운 사용 사례를 빠르게 시험하고 프로토타이핑하면서 기업들이 ‘재창조하고 혁신하는’ 영역이다. 두 번째 영역은 데이터 및 애널리틱스용 플랫폼 등 ‘새로운 역량 또는 수익원을 창출하는 혁신적인 투자’를 통해 확장하고 차별화하면서 비즈니스를 성장시키는 것이다. 세 번째는 ERP/CRM, 품질, 공급 계획 시스템 등 경쟁력 있는 비즈니스 역량 또는 프로세스 디지털화를 통해 가치사슬을 디지털화하는 것이다. 마지막은 비즈니스를 운영하고, 데이터센터 및 네트워크 등에서 보안 및 컴플라이언스를 유지하는 데 필요한 기술 역량이다.  여기서는 2022년 CIO와 IT 리더들이 투자하게 될 ‘뜨거운(Hot)’ IT 기술 7가지와 ‘차가운(Cold)’ IT 기술 4가지를 정리했다.   Hot: 클라우드 네이티브 관리형 서비스 KPMG의 수석 고문 마크 생크는 클라우드 네이티브 관리형 서비스를 활용하기 위한 투자가 이뤄질 것이라고 말했다. 그는 “예전엔 기업들이 클라우드 투자로 인한 벤더 락...

2022.01.10

“데이터 파이프라인의 번거로움 해소”··· 구글, ‘예측 프레임워크’ 공개

구글의 ‘예측 프레임워크(Prediction Framework)’는 클라우드 펑션(Cloud Functions)부터 펍섭(Pub/Sub), 버텍스 오토ML(Vertex AutoML), 빅쿼리(BigQuery)까지 구글 클라우드 플랫폼 서비스를 결합하여 데이터 과학 예측 프로젝트 구현을 단순화해 시간을 절약할 수 있도록 지원한다.    지난 2021년 12월 29일(현지 시각) 공개된 블로그 게시물에 따르면 예측 프레임워크는 예측 솔루션의 기반과 커스터마이제이션을 제공하기 위해 설계됐다. 또한 구글 클라우드 플랫폼에서 호스팅할 수 있는 이 프레임워크는 데이터 추출, 데이터 준비, 필터링, 예측, 사후 처리 등 예측 프로젝트와 관련된 모든 단계를 보편화하고자 한다.  프레임워크 코드는 깃허브에서 확인할 수 있다. 예측 프레임워크는 데이터 처리에 구글 클라우드 펑션, 모델 호스팅에 버텍스 오토ML, 예측 최종 저장에 빅쿼리를 사용한다. 구글 클라우드 파이어스토어, 펍섭, 스케줄러도 파이프라인에서 활용된다. 사용자는 클라우드 프로젝트, 데이터 소스, (예측을 수행할) ML 모델, 조절 시스템용 스케줄러에 관한 환경 변수가 포함된 구성 파일을 준비해야 한다.  구글은 해당 프레임워크의 유용성을 언급하면서, 예측된 평생 가치를 활용해 고부가가치 고객을 확보하거나 잠재고객을 생성하는 등 모든 마케팅 시나리오에는 퍼스트파티 데이터 분석, 데이터 예측, 마케팅 플랫폼(예: 구글 애즈(Google Ads) 등)에서의 결과 활용이 필요하다고 설명했다.  아울러 이러한 마케팅 플랫폼을 정기적으로 제공하려면 보고서 중심의 비용 절감형 ETL 및 예측 파이프라인이 필요하며, 예측 프레임워크는 예측 프로세스의 백본 요소를 제공해 데이터 예측 프로젝트를 구현하고 가속화하는 데 도움을 준다고 회사 측은 덧붙였다. ciokr@idg.co.kr

구글 예측 애널리틱스 데이터 과학 구글 클라우드 플랫폼 마케팅

2022.01.06

구글의 ‘예측 프레임워크(Prediction Framework)’는 클라우드 펑션(Cloud Functions)부터 펍섭(Pub/Sub), 버텍스 오토ML(Vertex AutoML), 빅쿼리(BigQuery)까지 구글 클라우드 플랫폼 서비스를 결합하여 데이터 과학 예측 프로젝트 구현을 단순화해 시간을 절약할 수 있도록 지원한다.    지난 2021년 12월 29일(현지 시각) 공개된 블로그 게시물에 따르면 예측 프레임워크는 예측 솔루션의 기반과 커스터마이제이션을 제공하기 위해 설계됐다. 또한 구글 클라우드 플랫폼에서 호스팅할 수 있는 이 프레임워크는 데이터 추출, 데이터 준비, 필터링, 예측, 사후 처리 등 예측 프로젝트와 관련된 모든 단계를 보편화하고자 한다.  프레임워크 코드는 깃허브에서 확인할 수 있다. 예측 프레임워크는 데이터 처리에 구글 클라우드 펑션, 모델 호스팅에 버텍스 오토ML, 예측 최종 저장에 빅쿼리를 사용한다. 구글 클라우드 파이어스토어, 펍섭, 스케줄러도 파이프라인에서 활용된다. 사용자는 클라우드 프로젝트, 데이터 소스, (예측을 수행할) ML 모델, 조절 시스템용 스케줄러에 관한 환경 변수가 포함된 구성 파일을 준비해야 한다.  구글은 해당 프레임워크의 유용성을 언급하면서, 예측된 평생 가치를 활용해 고부가가치 고객을 확보하거나 잠재고객을 생성하는 등 모든 마케팅 시나리오에는 퍼스트파티 데이터 분석, 데이터 예측, 마케팅 플랫폼(예: 구글 애즈(Google Ads) 등)에서의 결과 활용이 필요하다고 설명했다.  아울러 이러한 마케팅 플랫폼을 정기적으로 제공하려면 보고서 중심의 비용 절감형 ETL 및 예측 파이프라인이 필요하며, 예측 프레임워크는 예측 프로세스의 백본 요소를 제공해 데이터 예측 프로젝트를 구현하고 가속화하는 데 도움을 준다고 회사 측은 덧붙였다. ciokr@idg.co.kr

2022.01.06

“상용화되는 모델은 13%에 그쳐”··· ‘NLP 모델’을 운영환경에 안전하게 투입하는 법

‘자연어 처리(Natural Language Processing; NLP)’ 모델을 프로덕션 환경에 투입하는 건 차를 구매하는 것과 비슷하다. 원하는 결과에 대한 매개변수를 설정하고, 몇 가지 접근 방식을 테스트 및 반복한다. 그다음 (비유하자면) 차를 몰고 나가는 순간 그 가치가 급락하기 시작한다. 자동차와 마찬가지로, NLP 또는 AI 기반 제품을 사용하면 많은 이점을 누릴 수 있지만 (적어도 계속해서 제대로 쓰려면) 유지관리를 멈춰서는 안 된다.  AI 모델을 만들어 내기도 어렵지만 프로덕션 환경에서 모델의 정확성을 확보하는 것 또한 어렵다. 모델의 정확성은 시장에 출시되는 순간 저하된다. 실제 운영 환경은 (모델이) 학습한 환경과 다르기 때문이다. 고속도로와 도로 주행 연습 장소가 다른 것과 같다. 이를 변수가 바뀌면 학습한 개념도 더 이상 정확하지 않을 수 있음을 의미하는 ‘개념 드리프트(concept drift)’라고 하며, 이는 AI 및 ML 분야에서 새로운 것은 아니지만 사용자들에게는 계속해서 문제가 되고 있다.    벤처비트(VentureBeat)에 따르면 최근 몇 년간 AI 및 NLP에 막대한 투자가 이뤄졌음에도 불구하고 실제 프로덕션 환경으로 전환되는 데이터 과학 프로젝트는 13%에 불과하다. 그 이유에는 개념 드리프트도 한몫한다.  그렇다면 제품을 프로젝트 단계에서 프로덕션 환경으로 안전하게 옮기려면 어떻게 해야 할까? 프로덕션 환경에서 (모델의) 정확성을 유지하기 위해서는 어떻게 해야 할까?  AI 모델을 프로덕션 환경에 투입하기 모델 거버넌스는 NLP 이니셔티브의 핵심 구성요소이자, 많은 제품이 프로젝트 단계에 머무르게 되는 이유이기도 하다. 이는 기업들이 특정 프로덕션 환경에서 모델의 활동, 액세스, 동작을 추적하는 방법을 다룬다. 위험을 완화하고, 문제를 해결하며, 컴플라이언스를 유지하려면 이를 모니터링해야 한다.  이 개념은 전 세계 AI 업계에 잘 알려진 문제이기...

인공지능 AI 자연어 처리 NLP 데이터 과학 개념 드리프트

2021.12.31

‘자연어 처리(Natural Language Processing; NLP)’ 모델을 프로덕션 환경에 투입하는 건 차를 구매하는 것과 비슷하다. 원하는 결과에 대한 매개변수를 설정하고, 몇 가지 접근 방식을 테스트 및 반복한다. 그다음 (비유하자면) 차를 몰고 나가는 순간 그 가치가 급락하기 시작한다. 자동차와 마찬가지로, NLP 또는 AI 기반 제품을 사용하면 많은 이점을 누릴 수 있지만 (적어도 계속해서 제대로 쓰려면) 유지관리를 멈춰서는 안 된다.  AI 모델을 만들어 내기도 어렵지만 프로덕션 환경에서 모델의 정확성을 확보하는 것 또한 어렵다. 모델의 정확성은 시장에 출시되는 순간 저하된다. 실제 운영 환경은 (모델이) 학습한 환경과 다르기 때문이다. 고속도로와 도로 주행 연습 장소가 다른 것과 같다. 이를 변수가 바뀌면 학습한 개념도 더 이상 정확하지 않을 수 있음을 의미하는 ‘개념 드리프트(concept drift)’라고 하며, 이는 AI 및 ML 분야에서 새로운 것은 아니지만 사용자들에게는 계속해서 문제가 되고 있다.    벤처비트(VentureBeat)에 따르면 최근 몇 년간 AI 및 NLP에 막대한 투자가 이뤄졌음에도 불구하고 실제 프로덕션 환경으로 전환되는 데이터 과학 프로젝트는 13%에 불과하다. 그 이유에는 개념 드리프트도 한몫한다.  그렇다면 제품을 프로젝트 단계에서 프로덕션 환경으로 안전하게 옮기려면 어떻게 해야 할까? 프로덕션 환경에서 (모델의) 정확성을 유지하기 위해서는 어떻게 해야 할까?  AI 모델을 프로덕션 환경에 투입하기 모델 거버넌스는 NLP 이니셔티브의 핵심 구성요소이자, 많은 제품이 프로젝트 단계에 머무르게 되는 이유이기도 하다. 이는 기업들이 특정 프로덕션 환경에서 모델의 활동, 액세스, 동작을 추적하는 방법을 다룬다. 위험을 완화하고, 문제를 해결하며, 컴플라이언스를 유지하려면 이를 모니터링해야 한다.  이 개념은 전 세계 AI 업계에 잘 알려진 문제이기...

2021.12.31

모델만 잘 만들면 끝?··· 데이터 과학을 위한 ‘CI/CD’가 필요하다 

데이터 과학 모델을 프로덕션 환경으로 옮기는 것은 애플리케이션 배포와 상당히 유사하다. 하지만 간과해서는 안 되는 중요한 차이점이 있다.  애자일 프로그래밍은 개발팀이 소프트웨어를 프로덕션 환경으로 릴리즈하고, 피드백을 수집하며, 기본 요건을 개선하는 데 가장 많이 사용하는 방법론이다. 하지만 애자일이 실제로 작동하려면 수정된 애플리케이션을 자동으로 빌드하고, 프로덕션 환경으로 릴리즈할 수 있는 프로세스가 필요하다. 이를 ‘CI/CD’라고 한다. ‘CI/CD’를 통해 소프트웨어 팀은 실제 사용자를 정기적으로 참여시키고, 피드백을 반복적으로 통합하여 초기 요건을 놓칠 위험 없이 복잡한 애플리케이션을 구축할 수 있다.   데이터 과학도 비슷한 문제에 직면해 있다. 데이터 과학팀이 초기 요건을 충족하지 못할 위험은 현재로선 덜하지만 데이터 과학을 프로덕션 환경에 자동으로 배포하는 것과 관련된 문제가 많은 데이터 과학 프로젝트를 서서히 중단시킬 수 있다.  첫째, IT가 프로덕션 시스템에 무엇이든 투입해야 하는 경우가 너무 많다. 둘째, (만약 있다고 한다면) 유효성 검사가 규정되지 않은 수작업인 경우가 일반적이다. 셋째, 프로덕션 데이터 과학 프로세스를 안정적으로 업데이트하기 어려운 까닭에 이는 완전히 새로운 프로젝트로 취급된다. 데이터 과학이 소프트웨어 개발에서 무엇을 배울 수 있을까? 여기서는 소프트웨어 개발에서의 CI/CD, 데이터 과학과 유사한 부분 그리고 데이터 과학자가 다르게 접근할 필요가 있는 부분을 살펴본다. 소프트웨어 개발에서의 CI/CD 소프트웨어 개발에서 반복 가능한 프로덕션 프로세스는 꽤 오래전에 등장했다. 오늘날 CI/CD는 사실상 ‘표준’이나 마찬가지다. 대규모 소프트웨어 개발은 통상 고도로 모듈화된 접근 방식을 적용한다. 개발팀은 코드 베이스 일부를 작업하고, 해당 모듈을 독립적으로 테스트한다(일반적으로 해당 모듈에 고도로 자동화된 테스트 케이스를 사용한다). CI/CD의 지속적인 통합 단계에서 코...

데이터 과학 CI/CD 소프트웨어 개발 애플리케이션 배포 애널리틱스

2021.11.25

데이터 과학 모델을 프로덕션 환경으로 옮기는 것은 애플리케이션 배포와 상당히 유사하다. 하지만 간과해서는 안 되는 중요한 차이점이 있다.  애자일 프로그래밍은 개발팀이 소프트웨어를 프로덕션 환경으로 릴리즈하고, 피드백을 수집하며, 기본 요건을 개선하는 데 가장 많이 사용하는 방법론이다. 하지만 애자일이 실제로 작동하려면 수정된 애플리케이션을 자동으로 빌드하고, 프로덕션 환경으로 릴리즈할 수 있는 프로세스가 필요하다. 이를 ‘CI/CD’라고 한다. ‘CI/CD’를 통해 소프트웨어 팀은 실제 사용자를 정기적으로 참여시키고, 피드백을 반복적으로 통합하여 초기 요건을 놓칠 위험 없이 복잡한 애플리케이션을 구축할 수 있다.   데이터 과학도 비슷한 문제에 직면해 있다. 데이터 과학팀이 초기 요건을 충족하지 못할 위험은 현재로선 덜하지만 데이터 과학을 프로덕션 환경에 자동으로 배포하는 것과 관련된 문제가 많은 데이터 과학 프로젝트를 서서히 중단시킬 수 있다.  첫째, IT가 프로덕션 시스템에 무엇이든 투입해야 하는 경우가 너무 많다. 둘째, (만약 있다고 한다면) 유효성 검사가 규정되지 않은 수작업인 경우가 일반적이다. 셋째, 프로덕션 데이터 과학 프로세스를 안정적으로 업데이트하기 어려운 까닭에 이는 완전히 새로운 프로젝트로 취급된다. 데이터 과학이 소프트웨어 개발에서 무엇을 배울 수 있을까? 여기서는 소프트웨어 개발에서의 CI/CD, 데이터 과학과 유사한 부분 그리고 데이터 과학자가 다르게 접근할 필요가 있는 부분을 살펴본다. 소프트웨어 개발에서의 CI/CD 소프트웨어 개발에서 반복 가능한 프로덕션 프로세스는 꽤 오래전에 등장했다. 오늘날 CI/CD는 사실상 ‘표준’이나 마찬가지다. 대규모 소프트웨어 개발은 통상 고도로 모듈화된 접근 방식을 적용한다. 개발팀은 코드 베이스 일부를 작업하고, 해당 모듈을 독립적으로 테스트한다(일반적으로 해당 모듈에 고도로 자동화된 테스트 케이스를 사용한다). CI/CD의 지속적인 통합 단계에서 코...

2021.11.25

칼럼ㅣ머신러닝의 첫 번째 규칙은 ML 없이 시작하는 것이다

‘머신러닝(ML)’을 하는 가장 좋은 방법은 때때로 머신러닝을 전혀 하지 않는 것이다. 실제로 아마존의 응용 과학자 유진 얀에 따르면 머신러닝의 첫 번째 규칙은 머신러닝 없이 시작하는 것이다.  이게 무슨 소리인가?  수개월에 걸친 고된 노력으로 공들여 만든 ML 모델을 소개하는 건 멋진 일이다. 그러나 이는 가장 효과적인 접근 방식이 아니다. 더 간단하고 접근하기 쉬운 방법이 있다.    지난 2016년 데이터 과학자 노아 로랑이 “데이터 과학자는 대부분 산수를 할 뿐이다”라고 언급한 건 지나친 단순화일 수 있다. 하지만 그의 말은 크게 틀리지 않으며, 아무리 데이터를 작동시키는 프로세스를 복잡하게 만들고 싶더라도 작게 시작하는 것이 좋다는 로랑과 얀의 주장은 확실히 옳다.  과도한 복잡성  데이터 과학자는 많은 급여를 받는다. 따라서 예측 애널리틱스와 같은 것을 복잡한 전문용어와 방대한 모델로 포장해 급여를 정당화하고 싶을 수 있다. 그래선 안 된다.  로랑의 주장은 오늘날에도 유효하다. 그는 “비즈니스 문제의 아주 작은 부분 집합만이 머신러닝으로 가장 잘 해결된다. 대부분은 단지 좋은 데이터와 그것이 무엇을 의미하는지 이해만 하면 된다”라고 밝혔다.  그러면서 로랑은 데이터를 가져오기 위한 SQL 쿼리, 해당 데이터에 관한 기본 연산(차이 및 백분위수 계산 등), 결과 그래프 작성, 설명 또는 권장사항 작성 등의 더 간단한 방법을 추천했다.  이것이 쉽다고 말하는 게 아니다. 데이터에서 인사이트를 얻으려고 할 때 머신러닝에서 시작할 필요가 없다는 말이다. 또 많은 양의 데이터가 반드시 필요한 것도 아니다. 엘리제블(Eligible)의 CEO 케이틀린 글리슨은 “작은 데이터부터 시작하는 게 중요하다. 나를 최고의 발견으로 이끈 것은 눈 깜짝할 사이에 생긴 이상 현상이었다”라면서, 때로는 분포를 그리는 것만으로도 충분히 명확한 패턴을 확인할 수 있다고 말했다.&nb...

머신러닝 데이터 과학자 데이터 과학 ML 휴리스틱 애널리틱스

2021.09.28

‘머신러닝(ML)’을 하는 가장 좋은 방법은 때때로 머신러닝을 전혀 하지 않는 것이다. 실제로 아마존의 응용 과학자 유진 얀에 따르면 머신러닝의 첫 번째 규칙은 머신러닝 없이 시작하는 것이다.  이게 무슨 소리인가?  수개월에 걸친 고된 노력으로 공들여 만든 ML 모델을 소개하는 건 멋진 일이다. 그러나 이는 가장 효과적인 접근 방식이 아니다. 더 간단하고 접근하기 쉬운 방법이 있다.    지난 2016년 데이터 과학자 노아 로랑이 “데이터 과학자는 대부분 산수를 할 뿐이다”라고 언급한 건 지나친 단순화일 수 있다. 하지만 그의 말은 크게 틀리지 않으며, 아무리 데이터를 작동시키는 프로세스를 복잡하게 만들고 싶더라도 작게 시작하는 것이 좋다는 로랑과 얀의 주장은 확실히 옳다.  과도한 복잡성  데이터 과학자는 많은 급여를 받는다. 따라서 예측 애널리틱스와 같은 것을 복잡한 전문용어와 방대한 모델로 포장해 급여를 정당화하고 싶을 수 있다. 그래선 안 된다.  로랑의 주장은 오늘날에도 유효하다. 그는 “비즈니스 문제의 아주 작은 부분 집합만이 머신러닝으로 가장 잘 해결된다. 대부분은 단지 좋은 데이터와 그것이 무엇을 의미하는지 이해만 하면 된다”라고 밝혔다.  그러면서 로랑은 데이터를 가져오기 위한 SQL 쿼리, 해당 데이터에 관한 기본 연산(차이 및 백분위수 계산 등), 결과 그래프 작성, 설명 또는 권장사항 작성 등의 더 간단한 방법을 추천했다.  이것이 쉽다고 말하는 게 아니다. 데이터에서 인사이트를 얻으려고 할 때 머신러닝에서 시작할 필요가 없다는 말이다. 또 많은 양의 데이터가 반드시 필요한 것도 아니다. 엘리제블(Eligible)의 CEO 케이틀린 글리슨은 “작은 데이터부터 시작하는 게 중요하다. 나를 최고의 발견으로 이끈 것은 눈 깜짝할 사이에 생긴 이상 현상이었다”라면서, 때로는 분포를 그리는 것만으로도 충분히 명확한 패턴을 확인할 수 있다고 말했다.&nb...

2021.09.28

칼럼ㅣ'ETL'은 빅데이터와의 경쟁에서 패배했다

‘ETL(Extract, Transform, Load)’은 빅 데이터와의 경쟁에서 패배했다. 솔루션은 전통적인 프로세스 통합 단계를 재정렬하는 것만큼이나 간단하다.  일반 컴퓨터 사용자에게 인터넷이 보급됐던 1989년으로 되돌아가보자. 당시의 데이터 프로세스는 순차적이고, 정적이었으며, 유연하지 못했다. 그러한 시대에서 통합은 혁명이었으며, ‘ETL(추출, 변환, 로드)’은 일반적인 비즈니스 범위를 벗어나는 최신 기술이었다.    다시 현재로 거슬러 올라오자. 오늘날 인터넷에서는 수십억 명의 사용자가 매 순간 상상할 수 없는 양의 데이터를 생성하고 있다. 이로 인해 새로운 시스템 환경이 탄생하고, 모든 것이 주문형(on-demand)으로 이뤄지고 있다.  그 시대의 많은 프로세스와 마찬가지로, 온프레미스 환경을 위한 전통적인 ETL은 더 이상 필요가 없다. 수년간의 진화에도 불구하고 기존 ETL 프로세스는 빅 데이터라는 광기와의 경쟁에서 패배했다.  가트너에 따르면 분석 인사이트의 20%만이 핵심 비즈니스 결과를 촉발한다. 예상한 대로 부정확하고 불충분한 데이터가 주요 원인이다.  전통적인 ETL의 단점 기존 ETL에는 다음과 같은 단점이 있다.  • 모든 변환의 비즈니스 요구사항이 고유하기 때문에 데이터 엔지니어는 커스텀 코드 프로그램 및 스크립트를 처리해야 한다. 따라서 특화되고 변환 불가능한 기술을 개발해야 하고, 코드 베이스 관리가 복잡해진다.   • ETL은 지속적인 간접비가 발생한다. 전담 데이터 엔지니어의 긴 재설계 사이클이 필요하다.   • ETL에서 데이터 과학자는 엔지니어가 변환하고 정제한 데이터 세트만 받을 수 있다. 이로 인해 프로세스가 경직될 뿐만 아니라 결과의 민첩성이 제한된다.   • 초기에 ETL의 목적은 주기적인 배치(batch) 처리 세션이었다. 이는 지속적이고 자동화된 데이터 스트리밍을 지원하지 않는다. 또한 실시간 데이...

ETL ELT 데이터 빅 데이터 데이터 과학 데이터 관리 데이터 레이크 데이터 웨어하우스

2021.09.15

‘ETL(Extract, Transform, Load)’은 빅 데이터와의 경쟁에서 패배했다. 솔루션은 전통적인 프로세스 통합 단계를 재정렬하는 것만큼이나 간단하다.  일반 컴퓨터 사용자에게 인터넷이 보급됐던 1989년으로 되돌아가보자. 당시의 데이터 프로세스는 순차적이고, 정적이었으며, 유연하지 못했다. 그러한 시대에서 통합은 혁명이었으며, ‘ETL(추출, 변환, 로드)’은 일반적인 비즈니스 범위를 벗어나는 최신 기술이었다.    다시 현재로 거슬러 올라오자. 오늘날 인터넷에서는 수십억 명의 사용자가 매 순간 상상할 수 없는 양의 데이터를 생성하고 있다. 이로 인해 새로운 시스템 환경이 탄생하고, 모든 것이 주문형(on-demand)으로 이뤄지고 있다.  그 시대의 많은 프로세스와 마찬가지로, 온프레미스 환경을 위한 전통적인 ETL은 더 이상 필요가 없다. 수년간의 진화에도 불구하고 기존 ETL 프로세스는 빅 데이터라는 광기와의 경쟁에서 패배했다.  가트너에 따르면 분석 인사이트의 20%만이 핵심 비즈니스 결과를 촉발한다. 예상한 대로 부정확하고 불충분한 데이터가 주요 원인이다.  전통적인 ETL의 단점 기존 ETL에는 다음과 같은 단점이 있다.  • 모든 변환의 비즈니스 요구사항이 고유하기 때문에 데이터 엔지니어는 커스텀 코드 프로그램 및 스크립트를 처리해야 한다. 따라서 특화되고 변환 불가능한 기술을 개발해야 하고, 코드 베이스 관리가 복잡해진다.   • ETL은 지속적인 간접비가 발생한다. 전담 데이터 엔지니어의 긴 재설계 사이클이 필요하다.   • ETL에서 데이터 과학자는 엔지니어가 변환하고 정제한 데이터 세트만 받을 수 있다. 이로 인해 프로세스가 경직될 뿐만 아니라 결과의 민첩성이 제한된다.   • 초기에 ETL의 목적은 주기적인 배치(batch) 처리 세션이었다. 이는 지속적이고 자동화된 데이터 스트리밍을 지원하지 않는다. 또한 실시간 데이...

2021.09.15

젯브레인, 데이터 과학용 IDE 프리뷰 공개

인텔리제이 아이디어(IntelliJ IDEA)와 코틀린(Kotlin) 개발사 젯브레인(JetBrains)이 데이터 과학 전용 IDE ‘데이터스펠(DataSpell)’을 조기 액세스 프로그램(EAP)으로 공개했다.    지난 9월 7일(현지 시각) 공개된 ‘데이터스펠’은 이곳(jetbrains.com)에서 액세스할 수 있다. 이는 탐색적 데이터 분석 및 머신러닝 모델 프로토타이핑을 지원하는 데이터 과학 전문가용 개발 환경이다. 코딩을 허용하면서 데이터의 우선순위를 지정하는 인터페이스가 특징이다.  젯브레인에 따르면 데이터스펠은 기존 주피터 노트북 경험을 개선하는 주피터 노트북 기본 지원을 제공한다. 예를 들면 사용자는 셀과 콘텐츠를 처리할 때 한 번의 키 입력으로 명령 모드와 편집기 모드 사이를 전환할 수 있다. 이 밖에 노트북에서 향상된 기능은 다음과 같다.  • 파이썬용 지능형 코딩 지원  • 즉시 사용할 수 있는 목차 • 폴딩 트레이스백 • 인터랙티브 테이블  셀 출력은 마크다운(Markdown) 및 자바스크립트(JavaScript)를 지원한다. 또 데이터스펠을 사용하면 로컬 주피터 노트북은 물론이고 원격 주피터, 주피터허브 또는 주피터랩 서버로 작업할 수 있다.  데이터 스펠은 파이썬 스크립트를 지원하여 코드 실행을 위한 PERL과 대화형 및 정적 데이터 시각화 작업을 위한 추가 도구도 제공한다. 이를테면 플로틀리(Plotly), 보케(Bokeh), 아이피위젯(ipywidgets), 알테어(Altair) 등의 인기 있는 파이썬 과학 라이브러리가 지원된다. 현재 R 언어는 기본 지원된다. 줄리아(Julia)와 같은 다른 언어는 향후 추가될 예정이라고 젯브레인은 밝혔다.  버전 제어를 위해 데이터스펠은 깃(Git) 프로젝트를 복제하고, 변경사항을 커밋 및 푸시하며, 여러 브랜치로 작업한다. 그 다음 변경 목록을 관리하고, 커밋 전에 업데이트를 준비할 수 있다. SQL 코드를 ...

젯브레인 인텔리제이 아이디어 코틀린 데이터스펠 데이터 과학 머신러닝

2021.09.09

인텔리제이 아이디어(IntelliJ IDEA)와 코틀린(Kotlin) 개발사 젯브레인(JetBrains)이 데이터 과학 전용 IDE ‘데이터스펠(DataSpell)’을 조기 액세스 프로그램(EAP)으로 공개했다.    지난 9월 7일(현지 시각) 공개된 ‘데이터스펠’은 이곳(jetbrains.com)에서 액세스할 수 있다. 이는 탐색적 데이터 분석 및 머신러닝 모델 프로토타이핑을 지원하는 데이터 과학 전문가용 개발 환경이다. 코딩을 허용하면서 데이터의 우선순위를 지정하는 인터페이스가 특징이다.  젯브레인에 따르면 데이터스펠은 기존 주피터 노트북 경험을 개선하는 주피터 노트북 기본 지원을 제공한다. 예를 들면 사용자는 셀과 콘텐츠를 처리할 때 한 번의 키 입력으로 명령 모드와 편집기 모드 사이를 전환할 수 있다. 이 밖에 노트북에서 향상된 기능은 다음과 같다.  • 파이썬용 지능형 코딩 지원  • 즉시 사용할 수 있는 목차 • 폴딩 트레이스백 • 인터랙티브 테이블  셀 출력은 마크다운(Markdown) 및 자바스크립트(JavaScript)를 지원한다. 또 데이터스펠을 사용하면 로컬 주피터 노트북은 물론이고 원격 주피터, 주피터허브 또는 주피터랩 서버로 작업할 수 있다.  데이터 스펠은 파이썬 스크립트를 지원하여 코드 실행을 위한 PERL과 대화형 및 정적 데이터 시각화 작업을 위한 추가 도구도 제공한다. 이를테면 플로틀리(Plotly), 보케(Bokeh), 아이피위젯(ipywidgets), 알테어(Altair) 등의 인기 있는 파이썬 과학 라이브러리가 지원된다. 현재 R 언어는 기본 지원된다. 줄리아(Julia)와 같은 다른 언어는 향후 추가될 예정이라고 젯브레인은 밝혔다.  버전 제어를 위해 데이터스펠은 깃(Git) 프로젝트를 복제하고, 변경사항을 커밋 및 푸시하며, 여러 브랜치로 작업한다. 그 다음 변경 목록을 관리하고, 커밋 전에 업데이트를 준비할 수 있다. SQL 코드를 ...

2021.09.09

심심이-기초과학연구원 데이터 사이언스 그룹, 업무 협약 체결

인공지능(AI) 챗봇 심심이가 기초과학연구원(IBS) 데이터 사이언스 그룹과 업무협약(MOU)을 체결했다고 밝혔다. 이번 데이터 사이언스 그룹과의 협약은 심심이의 AI 챗봇 윤리 검증 노력의 일환으로 이뤄졌다. 데이터 사이언스 그룹과의 협업을 통해 일상대화 챗봇과 사람의 상호작용 패턴을 면밀히 파악하는 것은 물론 온라인 혐오 표현 문제 해결에 적극 나선다는 취지다. 이와 더불어 사회에 공헌하기 위한 유기적인 협력 체계를 구축하는데 함께 하기로 약속했다. 또한 심심이는 데이터 사이언스 그룹과 함께 상호 관심 영역 데이터 수집 및 연계, 정제 그리고 기계학습 및 AI 기반 데이터 분석·도구 개발 노력을 경주할 것이라고 밝혔다. 뿐만 아니라 심심이는 과학기술정보통신부가 주관하는 AI 학습용 데이터 구축사업에 참여해 윤리 검증을 돕는 데이터셋 구축 사업을 수행하고 있다. 심심이는 ‘텍스트 윤리검증 데이터’ 과제 주관기관으로 각 분야 전문성을 갖춘 5개 기관과 컨소시엄을 구성했다. 그 결과 자유 공모 분야에 선정되어 7개월 간 19억 원을 지원받으며 과제를 수행 중이다. 심심이 컨소시엄은 대화형 AI가 사람과 대화하는 데 사용하는 대화 시나리오부터 서술형 텍스트에 이르기까지 다양한 텍스트 관련 윤리성을 검증하거나 비도덕적 텍스트의 구조를 밝히는데 주력할 계획이다. 심심이는 안드로이드, iOS 기반의 앱과 웹서비스 모두를 이용 가능한 것이 특징이며, 올해 기준 2,700만 명 이상의 패널이 작성한 약 1억 4,000만 쌍의 대화 시나리오 바탕과 지속적인 업데이트를 거치며 다양성과 재미는 물론 보다 생동감있는 대화가 가능한 일상대화 챗봇이다.  심심이 최정회 대표는 “AI 챗봇은 전 세계 여러 국가에서 윤리적인 문제에 부딪혀 왔는데 이에 따라 심심이는 지속가능한 인공지능을 위해서는 이러한 한계를 근본적으로 해결해야 한다는 점을 일찌감치 인식해왔다”라며, “기초과학연구원의 우수한 데이터 과학자들과 함께 윤리 문제를 효과적으로 해결할 수 있는 방안을 도...

심심이 데이터 과학 인공지능 챗봇

2021.08.26

인공지능(AI) 챗봇 심심이가 기초과학연구원(IBS) 데이터 사이언스 그룹과 업무협약(MOU)을 체결했다고 밝혔다. 이번 데이터 사이언스 그룹과의 협약은 심심이의 AI 챗봇 윤리 검증 노력의 일환으로 이뤄졌다. 데이터 사이언스 그룹과의 협업을 통해 일상대화 챗봇과 사람의 상호작용 패턴을 면밀히 파악하는 것은 물론 온라인 혐오 표현 문제 해결에 적극 나선다는 취지다. 이와 더불어 사회에 공헌하기 위한 유기적인 협력 체계를 구축하는데 함께 하기로 약속했다. 또한 심심이는 데이터 사이언스 그룹과 함께 상호 관심 영역 데이터 수집 및 연계, 정제 그리고 기계학습 및 AI 기반 데이터 분석·도구 개발 노력을 경주할 것이라고 밝혔다. 뿐만 아니라 심심이는 과학기술정보통신부가 주관하는 AI 학습용 데이터 구축사업에 참여해 윤리 검증을 돕는 데이터셋 구축 사업을 수행하고 있다. 심심이는 ‘텍스트 윤리검증 데이터’ 과제 주관기관으로 각 분야 전문성을 갖춘 5개 기관과 컨소시엄을 구성했다. 그 결과 자유 공모 분야에 선정되어 7개월 간 19억 원을 지원받으며 과제를 수행 중이다. 심심이 컨소시엄은 대화형 AI가 사람과 대화하는 데 사용하는 대화 시나리오부터 서술형 텍스트에 이르기까지 다양한 텍스트 관련 윤리성을 검증하거나 비도덕적 텍스트의 구조를 밝히는데 주력할 계획이다. 심심이는 안드로이드, iOS 기반의 앱과 웹서비스 모두를 이용 가능한 것이 특징이며, 올해 기준 2,700만 명 이상의 패널이 작성한 약 1억 4,000만 쌍의 대화 시나리오 바탕과 지속적인 업데이트를 거치며 다양성과 재미는 물론 보다 생동감있는 대화가 가능한 일상대화 챗봇이다.  심심이 최정회 대표는 “AI 챗봇은 전 세계 여러 국가에서 윤리적인 문제에 부딪혀 왔는데 이에 따라 심심이는 지속가능한 인공지능을 위해서는 이러한 한계를 근본적으로 해결해야 한다는 점을 일찌감치 인식해왔다”라며, “기초과학연구원의 우수한 데이터 과학자들과 함께 윤리 문제를 효과적으로 해결할 수 있는 방안을 도...

2021.08.26

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.5