Offcanvas

��������� ������

AI도 과하면 독, ‘딱 맞는 해법’은 따로 있다

AI 프로젝트를 성공시키려면 비즈니스 가치, 학습용 데이터, 문화적 준비가 필수다. 이 3가지가 모두 없다면 기존 솔루션이 더 적합할 수도 있다. 인공지능(AI) 도입이 증가하고 있다. 최근 발표된 맥킨지의 설문조사 결과에 따르면 55%의 기업이 적어도 1개 부서에서 인공지능을 사용하고 있으며, 27%는 이자 및 세전 수익의 최소 5%를 AI를 통해 비용 절감의 형태로 얻고 있는 것으로 나타났다. AI가 (관련된) 거의 모든 산업을 극적으로 변화시킬 것이기 때문에 벤더와 기업들이 가능한 모든 곳에 AI를 배포할 기회를 찾고 있다는 건 놀라운 일은 아니다. 하지만 모든 프로젝트가 AI의 이점을 누릴 수 있는 건 아니며, 적절하지 않은 곳에 AI를 도입하면 시간과 비용을 낭비할 뿐만 아니라 직원, 고객, 기업 리더가 고배를 마실 수 있다. 어떤 프로젝트가 AI에 적합한지를 판단하는 핵심 요소는 ▲비즈니스 가치, ▲학습용 데이터의 가용성, ▲변화에 따른 문화적 준비 수준이다. 인공지능 이니셔티브가 매몰 비용이 되기 전에, 제안된 AI 프로젝트에 이러한 요소가 부합하는지 확인하는 방법을 살펴본다.   가장 간단한 솔루션부터 시작하라 전 세계 90여 개국에 1만 8,000개 이상의 매장을 보유하고 있는 피자 체인점 도미노의 데이터 과학 및 AI 부문 관리자 잭 프라고소는 특히 데이터 과학자가 AI 우선 접근법을 선호한다고 말했다. 하지만 모든 곳에 AI를 적용할 순 없다고 그는 지적했다.  전통적인 산업이지만 도미노는 변화를 추진해왔다. 특히 팬데믹 기간에는 더욱더 그랬다. 현재 고객들은 13가지 디지털 방식으로 피자를 주문할 수 있으며, 2020년 도미노 매출의 70% 이상은 디지털 주문에서 나왔다. 이는 AI의 가능성을 입증할 수 있는 많은 기회를 열어줬다. 프라고소는 “도미노가 AI를 도입할 때의 핵심은 간단한 접근방식을 취하는 것이었다”라며, “단순한 솔루션이 더 빠르게 실행되고 더 나은 성과를 보여주기 때문에 이를 비즈니스 파트너...

인공지능 머신러닝 디지털 트랜스포메이션 도미노 피자 데이터세트 ML옵스 질로우 NLP 데이터 과학

2일 전

AI 프로젝트를 성공시키려면 비즈니스 가치, 학습용 데이터, 문화적 준비가 필수다. 이 3가지가 모두 없다면 기존 솔루션이 더 적합할 수도 있다. 인공지능(AI) 도입이 증가하고 있다. 최근 발표된 맥킨지의 설문조사 결과에 따르면 55%의 기업이 적어도 1개 부서에서 인공지능을 사용하고 있으며, 27%는 이자 및 세전 수익의 최소 5%를 AI를 통해 비용 절감의 형태로 얻고 있는 것으로 나타났다. AI가 (관련된) 거의 모든 산업을 극적으로 변화시킬 것이기 때문에 벤더와 기업들이 가능한 모든 곳에 AI를 배포할 기회를 찾고 있다는 건 놀라운 일은 아니다. 하지만 모든 프로젝트가 AI의 이점을 누릴 수 있는 건 아니며, 적절하지 않은 곳에 AI를 도입하면 시간과 비용을 낭비할 뿐만 아니라 직원, 고객, 기업 리더가 고배를 마실 수 있다. 어떤 프로젝트가 AI에 적합한지를 판단하는 핵심 요소는 ▲비즈니스 가치, ▲학습용 데이터의 가용성, ▲변화에 따른 문화적 준비 수준이다. 인공지능 이니셔티브가 매몰 비용이 되기 전에, 제안된 AI 프로젝트에 이러한 요소가 부합하는지 확인하는 방법을 살펴본다.   가장 간단한 솔루션부터 시작하라 전 세계 90여 개국에 1만 8,000개 이상의 매장을 보유하고 있는 피자 체인점 도미노의 데이터 과학 및 AI 부문 관리자 잭 프라고소는 특히 데이터 과학자가 AI 우선 접근법을 선호한다고 말했다. 하지만 모든 곳에 AI를 적용할 순 없다고 그는 지적했다.  전통적인 산업이지만 도미노는 변화를 추진해왔다. 특히 팬데믹 기간에는 더욱더 그랬다. 현재 고객들은 13가지 디지털 방식으로 피자를 주문할 수 있으며, 2020년 도미노 매출의 70% 이상은 디지털 주문에서 나왔다. 이는 AI의 가능성을 입증할 수 있는 많은 기회를 열어줬다. 프라고소는 “도미노가 AI를 도입할 때의 핵심은 간단한 접근방식을 취하는 것이었다”라며, “단순한 솔루션이 더 빠르게 실행되고 더 나은 성과를 보여주기 때문에 이를 비즈니스 파트너...

2일 전

2022년 IT 지출처··· ‘핫한’ 7가지 ‘지는’ 4가지

IT 리더들이 ‘기술’을 활용하여 혁신과 비즈니스 트랜스포메이션에 박차를 가할 방안을 모색하고 있다. 그렇다면 투자가 늘어나고 있는 기술은 무엇인지, 반면에 약화되거나 축소되고 있는 기술은 무엇인지 살펴본다.  팬데믹 기간 동안 가속화된 디지털 트랜스포메이션 물결을 타고 올해에도 기업들은 혁신을 촉진하고 비즈니스 운영을 트랜스포메이션하고자 기술을 적극적으로 활용할 전망이다. 이를 위해서는 기술 투자가 필요하다. 이를 아는 기업들은 새로운 기술 및 기존 기술 예산을 늘리고 있다. 액센츄어에 따르면 전체 디지털 지출은 2023년까지 총 IT 지출의 55%를 차지할 것으로 예상되며, 지난 2021년보다 약 10% 증가하는 수준이다.    액센츄어의 수석 전무이사 애슐리 스카이름은 이러한 지출이 4가지 핵심 영역에 집중될 것이라고 밝혔다. 첫 번째는 시장 출시 속도가 중요한 시장(예: AI, 블록체인, AR/VR 등)에서 가치를 입증하기 위해 새로운 사용 사례를 빠르게 시험하고 프로토타이핑하면서 기업들이 ‘재창조하고 혁신하는’ 영역이다. 두 번째 영역은 데이터 및 애널리틱스용 플랫폼 등 ‘새로운 역량 또는 수익원을 창출하는 혁신적인 투자’를 통해 확장하고 차별화하면서 비즈니스를 성장시키는 것이다. 세 번째는 ERP/CRM, 품질, 공급 계획 시스템 등 경쟁력 있는 비즈니스 역량 또는 프로세스 디지털화를 통해 가치사슬을 디지털화하는 것이다. 마지막은 비즈니스를 운영하고, 데이터센터 및 네트워크 등에서 보안 및 컴플라이언스를 유지하는 데 필요한 기술 역량이다.  여기서는 2022년 CIO와 IT 리더들이 투자하게 될 ‘뜨거운(Hot)’ IT 기술 7가지와 ‘차가운(Cold)’ IT 기술 4가지를 정리했다.   Hot: 클라우드 네이티브 관리형 서비스 KPMG의 수석 고문 마크 생크는 클라우드 네이티브 관리형 서비스를 활용하기 위한 투자가 이뤄질 것이라고 말했다. 그는 “예전엔 기업들이 클라우드 투자로 인한 벤더 락...

IT 투자 IT 리더 CIO IT 리더십 디지털 트랜스포메이션 클라우드 네이티브 사물인터넷 데이터 레이크 데이터 웨어하우스 프라이빗 클라우드 직원 인게이지먼트 애널리틱스 데이터 과학 고객 경험 보안

2022.01.10

IT 리더들이 ‘기술’을 활용하여 혁신과 비즈니스 트랜스포메이션에 박차를 가할 방안을 모색하고 있다. 그렇다면 투자가 늘어나고 있는 기술은 무엇인지, 반면에 약화되거나 축소되고 있는 기술은 무엇인지 살펴본다.  팬데믹 기간 동안 가속화된 디지털 트랜스포메이션 물결을 타고 올해에도 기업들은 혁신을 촉진하고 비즈니스 운영을 트랜스포메이션하고자 기술을 적극적으로 활용할 전망이다. 이를 위해서는 기술 투자가 필요하다. 이를 아는 기업들은 새로운 기술 및 기존 기술 예산을 늘리고 있다. 액센츄어에 따르면 전체 디지털 지출은 2023년까지 총 IT 지출의 55%를 차지할 것으로 예상되며, 지난 2021년보다 약 10% 증가하는 수준이다.    액센츄어의 수석 전무이사 애슐리 스카이름은 이러한 지출이 4가지 핵심 영역에 집중될 것이라고 밝혔다. 첫 번째는 시장 출시 속도가 중요한 시장(예: AI, 블록체인, AR/VR 등)에서 가치를 입증하기 위해 새로운 사용 사례를 빠르게 시험하고 프로토타이핑하면서 기업들이 ‘재창조하고 혁신하는’ 영역이다. 두 번째 영역은 데이터 및 애널리틱스용 플랫폼 등 ‘새로운 역량 또는 수익원을 창출하는 혁신적인 투자’를 통해 확장하고 차별화하면서 비즈니스를 성장시키는 것이다. 세 번째는 ERP/CRM, 품질, 공급 계획 시스템 등 경쟁력 있는 비즈니스 역량 또는 프로세스 디지털화를 통해 가치사슬을 디지털화하는 것이다. 마지막은 비즈니스를 운영하고, 데이터센터 및 네트워크 등에서 보안 및 컴플라이언스를 유지하는 데 필요한 기술 역량이다.  여기서는 2022년 CIO와 IT 리더들이 투자하게 될 ‘뜨거운(Hot)’ IT 기술 7가지와 ‘차가운(Cold)’ IT 기술 4가지를 정리했다.   Hot: 클라우드 네이티브 관리형 서비스 KPMG의 수석 고문 마크 생크는 클라우드 네이티브 관리형 서비스를 활용하기 위한 투자가 이뤄질 것이라고 말했다. 그는 “예전엔 기업들이 클라우드 투자로 인한 벤더 락...

2022.01.10

“데이터 파이프라인의 번거로움 해소”··· 구글, ‘예측 프레임워크’ 공개

구글의 ‘예측 프레임워크(Prediction Framework)’는 클라우드 펑션(Cloud Functions)부터 펍섭(Pub/Sub), 버텍스 오토ML(Vertex AutoML), 빅쿼리(BigQuery)까지 구글 클라우드 플랫폼 서비스를 결합하여 데이터 과학 예측 프로젝트 구현을 단순화해 시간을 절약할 수 있도록 지원한다.    지난 2021년 12월 29일(현지 시각) 공개된 블로그 게시물에 따르면 예측 프레임워크는 예측 솔루션의 기반과 커스터마이제이션을 제공하기 위해 설계됐다. 또한 구글 클라우드 플랫폼에서 호스팅할 수 있는 이 프레임워크는 데이터 추출, 데이터 준비, 필터링, 예측, 사후 처리 등 예측 프로젝트와 관련된 모든 단계를 보편화하고자 한다.  프레임워크 코드는 깃허브에서 확인할 수 있다. 예측 프레임워크는 데이터 처리에 구글 클라우드 펑션, 모델 호스팅에 버텍스 오토ML, 예측 최종 저장에 빅쿼리를 사용한다. 구글 클라우드 파이어스토어, 펍섭, 스케줄러도 파이프라인에서 활용된다. 사용자는 클라우드 프로젝트, 데이터 소스, (예측을 수행할) ML 모델, 조절 시스템용 스케줄러에 관한 환경 변수가 포함된 구성 파일을 준비해야 한다.  구글은 해당 프레임워크의 유용성을 언급하면서, 예측된 평생 가치를 활용해 고부가가치 고객을 확보하거나 잠재고객을 생성하는 등 모든 마케팅 시나리오에는 퍼스트파티 데이터 분석, 데이터 예측, 마케팅 플랫폼(예: 구글 애즈(Google Ads) 등)에서의 결과 활용이 필요하다고 설명했다.  아울러 이러한 마케팅 플랫폼을 정기적으로 제공하려면 보고서 중심의 비용 절감형 ETL 및 예측 파이프라인이 필요하며, 예측 프레임워크는 예측 프로세스의 백본 요소를 제공해 데이터 예측 프로젝트를 구현하고 가속화하는 데 도움을 준다고 회사 측은 덧붙였다. ciokr@idg.co.kr

구글 예측 애널리틱스 데이터 과학 구글 클라우드 플랫폼 마케팅

2022.01.06

구글의 ‘예측 프레임워크(Prediction Framework)’는 클라우드 펑션(Cloud Functions)부터 펍섭(Pub/Sub), 버텍스 오토ML(Vertex AutoML), 빅쿼리(BigQuery)까지 구글 클라우드 플랫폼 서비스를 결합하여 데이터 과학 예측 프로젝트 구현을 단순화해 시간을 절약할 수 있도록 지원한다.    지난 2021년 12월 29일(현지 시각) 공개된 블로그 게시물에 따르면 예측 프레임워크는 예측 솔루션의 기반과 커스터마이제이션을 제공하기 위해 설계됐다. 또한 구글 클라우드 플랫폼에서 호스팅할 수 있는 이 프레임워크는 데이터 추출, 데이터 준비, 필터링, 예측, 사후 처리 등 예측 프로젝트와 관련된 모든 단계를 보편화하고자 한다.  프레임워크 코드는 깃허브에서 확인할 수 있다. 예측 프레임워크는 데이터 처리에 구글 클라우드 펑션, 모델 호스팅에 버텍스 오토ML, 예측 최종 저장에 빅쿼리를 사용한다. 구글 클라우드 파이어스토어, 펍섭, 스케줄러도 파이프라인에서 활용된다. 사용자는 클라우드 프로젝트, 데이터 소스, (예측을 수행할) ML 모델, 조절 시스템용 스케줄러에 관한 환경 변수가 포함된 구성 파일을 준비해야 한다.  구글은 해당 프레임워크의 유용성을 언급하면서, 예측된 평생 가치를 활용해 고부가가치 고객을 확보하거나 잠재고객을 생성하는 등 모든 마케팅 시나리오에는 퍼스트파티 데이터 분석, 데이터 예측, 마케팅 플랫폼(예: 구글 애즈(Google Ads) 등)에서의 결과 활용이 필요하다고 설명했다.  아울러 이러한 마케팅 플랫폼을 정기적으로 제공하려면 보고서 중심의 비용 절감형 ETL 및 예측 파이프라인이 필요하며, 예측 프레임워크는 예측 프로세스의 백본 요소를 제공해 데이터 예측 프로젝트를 구현하고 가속화하는 데 도움을 준다고 회사 측은 덧붙였다. ciokr@idg.co.kr

2022.01.06

“상용화되는 모델은 13%에 그쳐”··· ‘NLP 모델’을 운영환경에 안전하게 투입하는 법

‘자연어 처리(Natural Language Processing; NLP)’ 모델을 프로덕션 환경에 투입하는 건 차를 구매하는 것과 비슷하다. 원하는 결과에 대한 매개변수를 설정하고, 몇 가지 접근 방식을 테스트 및 반복한다. 그다음 (비유하자면) 차를 몰고 나가는 순간 그 가치가 급락하기 시작한다. 자동차와 마찬가지로, NLP 또는 AI 기반 제품을 사용하면 많은 이점을 누릴 수 있지만 (적어도 계속해서 제대로 쓰려면) 유지관리를 멈춰서는 안 된다.  AI 모델을 만들어 내기도 어렵지만 프로덕션 환경에서 모델의 정확성을 확보하는 것 또한 어렵다. 모델의 정확성은 시장에 출시되는 순간 저하된다. 실제 운영 환경은 (모델이) 학습한 환경과 다르기 때문이다. 고속도로와 도로 주행 연습 장소가 다른 것과 같다. 이를 변수가 바뀌면 학습한 개념도 더 이상 정확하지 않을 수 있음을 의미하는 ‘개념 드리프트(concept drift)’라고 하며, 이는 AI 및 ML 분야에서 새로운 것은 아니지만 사용자들에게는 계속해서 문제가 되고 있다.    벤처비트(VentureBeat)에 따르면 최근 몇 년간 AI 및 NLP에 막대한 투자가 이뤄졌음에도 불구하고 실제 프로덕션 환경으로 전환되는 데이터 과학 프로젝트는 13%에 불과하다. 그 이유에는 개념 드리프트도 한몫한다.  그렇다면 제품을 프로젝트 단계에서 프로덕션 환경으로 안전하게 옮기려면 어떻게 해야 할까? 프로덕션 환경에서 (모델의) 정확성을 유지하기 위해서는 어떻게 해야 할까?  AI 모델을 프로덕션 환경에 투입하기 모델 거버넌스는 NLP 이니셔티브의 핵심 구성요소이자, 많은 제품이 프로젝트 단계에 머무르게 되는 이유이기도 하다. 이는 기업들이 특정 프로덕션 환경에서 모델의 활동, 액세스, 동작을 추적하는 방법을 다룬다. 위험을 완화하고, 문제를 해결하며, 컴플라이언스를 유지하려면 이를 모니터링해야 한다.  이 개념은 전 세계 AI 업계에 잘 알려진 문제이기...

인공지능 AI 자연어 처리 NLP 데이터 과학 개념 드리프트

2021.12.31

‘자연어 처리(Natural Language Processing; NLP)’ 모델을 프로덕션 환경에 투입하는 건 차를 구매하는 것과 비슷하다. 원하는 결과에 대한 매개변수를 설정하고, 몇 가지 접근 방식을 테스트 및 반복한다. 그다음 (비유하자면) 차를 몰고 나가는 순간 그 가치가 급락하기 시작한다. 자동차와 마찬가지로, NLP 또는 AI 기반 제품을 사용하면 많은 이점을 누릴 수 있지만 (적어도 계속해서 제대로 쓰려면) 유지관리를 멈춰서는 안 된다.  AI 모델을 만들어 내기도 어렵지만 프로덕션 환경에서 모델의 정확성을 확보하는 것 또한 어렵다. 모델의 정확성은 시장에 출시되는 순간 저하된다. 실제 운영 환경은 (모델이) 학습한 환경과 다르기 때문이다. 고속도로와 도로 주행 연습 장소가 다른 것과 같다. 이를 변수가 바뀌면 학습한 개념도 더 이상 정확하지 않을 수 있음을 의미하는 ‘개념 드리프트(concept drift)’라고 하며, 이는 AI 및 ML 분야에서 새로운 것은 아니지만 사용자들에게는 계속해서 문제가 되고 있다.    벤처비트(VentureBeat)에 따르면 최근 몇 년간 AI 및 NLP에 막대한 투자가 이뤄졌음에도 불구하고 실제 프로덕션 환경으로 전환되는 데이터 과학 프로젝트는 13%에 불과하다. 그 이유에는 개념 드리프트도 한몫한다.  그렇다면 제품을 프로젝트 단계에서 프로덕션 환경으로 안전하게 옮기려면 어떻게 해야 할까? 프로덕션 환경에서 (모델의) 정확성을 유지하기 위해서는 어떻게 해야 할까?  AI 모델을 프로덕션 환경에 투입하기 모델 거버넌스는 NLP 이니셔티브의 핵심 구성요소이자, 많은 제품이 프로젝트 단계에 머무르게 되는 이유이기도 하다. 이는 기업들이 특정 프로덕션 환경에서 모델의 활동, 액세스, 동작을 추적하는 방법을 다룬다. 위험을 완화하고, 문제를 해결하며, 컴플라이언스를 유지하려면 이를 모니터링해야 한다.  이 개념은 전 세계 AI 업계에 잘 알려진 문제이기...

2021.12.31

모델만 잘 만들면 끝?··· 데이터 과학을 위한 ‘CI/CD’가 필요하다 

데이터 과학 모델을 프로덕션 환경으로 옮기는 것은 애플리케이션 배포와 상당히 유사하다. 하지만 간과해서는 안 되는 중요한 차이점이 있다.  애자일 프로그래밍은 개발팀이 소프트웨어를 프로덕션 환경으로 릴리즈하고, 피드백을 수집하며, 기본 요건을 개선하는 데 가장 많이 사용하는 방법론이다. 하지만 애자일이 실제로 작동하려면 수정된 애플리케이션을 자동으로 빌드하고, 프로덕션 환경으로 릴리즈할 수 있는 프로세스가 필요하다. 이를 ‘CI/CD’라고 한다. ‘CI/CD’를 통해 소프트웨어 팀은 실제 사용자를 정기적으로 참여시키고, 피드백을 반복적으로 통합하여 초기 요건을 놓칠 위험 없이 복잡한 애플리케이션을 구축할 수 있다.   데이터 과학도 비슷한 문제에 직면해 있다. 데이터 과학팀이 초기 요건을 충족하지 못할 위험은 현재로선 덜하지만 데이터 과학을 프로덕션 환경에 자동으로 배포하는 것과 관련된 문제가 많은 데이터 과학 프로젝트를 서서히 중단시킬 수 있다.  첫째, IT가 프로덕션 시스템에 무엇이든 투입해야 하는 경우가 너무 많다. 둘째, (만약 있다고 한다면) 유효성 검사가 규정되지 않은 수작업인 경우가 일반적이다. 셋째, 프로덕션 데이터 과학 프로세스를 안정적으로 업데이트하기 어려운 까닭에 이는 완전히 새로운 프로젝트로 취급된다. 데이터 과학이 소프트웨어 개발에서 무엇을 배울 수 있을까? 여기서는 소프트웨어 개발에서의 CI/CD, 데이터 과학과 유사한 부분 그리고 데이터 과학자가 다르게 접근할 필요가 있는 부분을 살펴본다. 소프트웨어 개발에서의 CI/CD 소프트웨어 개발에서 반복 가능한 프로덕션 프로세스는 꽤 오래전에 등장했다. 오늘날 CI/CD는 사실상 ‘표준’이나 마찬가지다. 대규모 소프트웨어 개발은 통상 고도로 모듈화된 접근 방식을 적용한다. 개발팀은 코드 베이스 일부를 작업하고, 해당 모듈을 독립적으로 테스트한다(일반적으로 해당 모듈에 고도로 자동화된 테스트 케이스를 사용한다). CI/CD의 지속적인 통합 단계에서 코...

데이터 과학 CI/CD 소프트웨어 개발 애플리케이션 배포 애널리틱스

2021.11.25

데이터 과학 모델을 프로덕션 환경으로 옮기는 것은 애플리케이션 배포와 상당히 유사하다. 하지만 간과해서는 안 되는 중요한 차이점이 있다.  애자일 프로그래밍은 개발팀이 소프트웨어를 프로덕션 환경으로 릴리즈하고, 피드백을 수집하며, 기본 요건을 개선하는 데 가장 많이 사용하는 방법론이다. 하지만 애자일이 실제로 작동하려면 수정된 애플리케이션을 자동으로 빌드하고, 프로덕션 환경으로 릴리즈할 수 있는 프로세스가 필요하다. 이를 ‘CI/CD’라고 한다. ‘CI/CD’를 통해 소프트웨어 팀은 실제 사용자를 정기적으로 참여시키고, 피드백을 반복적으로 통합하여 초기 요건을 놓칠 위험 없이 복잡한 애플리케이션을 구축할 수 있다.   데이터 과학도 비슷한 문제에 직면해 있다. 데이터 과학팀이 초기 요건을 충족하지 못할 위험은 현재로선 덜하지만 데이터 과학을 프로덕션 환경에 자동으로 배포하는 것과 관련된 문제가 많은 데이터 과학 프로젝트를 서서히 중단시킬 수 있다.  첫째, IT가 프로덕션 시스템에 무엇이든 투입해야 하는 경우가 너무 많다. 둘째, (만약 있다고 한다면) 유효성 검사가 규정되지 않은 수작업인 경우가 일반적이다. 셋째, 프로덕션 데이터 과학 프로세스를 안정적으로 업데이트하기 어려운 까닭에 이는 완전히 새로운 프로젝트로 취급된다. 데이터 과학이 소프트웨어 개발에서 무엇을 배울 수 있을까? 여기서는 소프트웨어 개발에서의 CI/CD, 데이터 과학과 유사한 부분 그리고 데이터 과학자가 다르게 접근할 필요가 있는 부분을 살펴본다. 소프트웨어 개발에서의 CI/CD 소프트웨어 개발에서 반복 가능한 프로덕션 프로세스는 꽤 오래전에 등장했다. 오늘날 CI/CD는 사실상 ‘표준’이나 마찬가지다. 대규모 소프트웨어 개발은 통상 고도로 모듈화된 접근 방식을 적용한다. 개발팀은 코드 베이스 일부를 작업하고, 해당 모듈을 독립적으로 테스트한다(일반적으로 해당 모듈에 고도로 자동화된 테스트 케이스를 사용한다). CI/CD의 지속적인 통합 단계에서 코...

2021.11.25

칼럼ㅣ머신러닝의 첫 번째 규칙은 ML 없이 시작하는 것이다

‘머신러닝(ML)’을 하는 가장 좋은 방법은 때때로 머신러닝을 전혀 하지 않는 것이다. 실제로 아마존의 응용 과학자 유진 얀에 따르면 머신러닝의 첫 번째 규칙은 머신러닝 없이 시작하는 것이다.  이게 무슨 소리인가?  수개월에 걸친 고된 노력으로 공들여 만든 ML 모델을 소개하는 건 멋진 일이다. 그러나 이는 가장 효과적인 접근 방식이 아니다. 더 간단하고 접근하기 쉬운 방법이 있다.    지난 2016년 데이터 과학자 노아 로랑이 “데이터 과학자는 대부분 산수를 할 뿐이다”라고 언급한 건 지나친 단순화일 수 있다. 하지만 그의 말은 크게 틀리지 않으며, 아무리 데이터를 작동시키는 프로세스를 복잡하게 만들고 싶더라도 작게 시작하는 것이 좋다는 로랑과 얀의 주장은 확실히 옳다.  과도한 복잡성  데이터 과학자는 많은 급여를 받는다. 따라서 예측 애널리틱스와 같은 것을 복잡한 전문용어와 방대한 모델로 포장해 급여를 정당화하고 싶을 수 있다. 그래선 안 된다.  로랑의 주장은 오늘날에도 유효하다. 그는 “비즈니스 문제의 아주 작은 부분 집합만이 머신러닝으로 가장 잘 해결된다. 대부분은 단지 좋은 데이터와 그것이 무엇을 의미하는지 이해만 하면 된다”라고 밝혔다.  그러면서 로랑은 데이터를 가져오기 위한 SQL 쿼리, 해당 데이터에 관한 기본 연산(차이 및 백분위수 계산 등), 결과 그래프 작성, 설명 또는 권장사항 작성 등의 더 간단한 방법을 추천했다.  이것이 쉽다고 말하는 게 아니다. 데이터에서 인사이트를 얻으려고 할 때 머신러닝에서 시작할 필요가 없다는 말이다. 또 많은 양의 데이터가 반드시 필요한 것도 아니다. 엘리제블(Eligible)의 CEO 케이틀린 글리슨은 “작은 데이터부터 시작하는 게 중요하다. 나를 최고의 발견으로 이끈 것은 눈 깜짝할 사이에 생긴 이상 현상이었다”라면서, 때로는 분포를 그리는 것만으로도 충분히 명확한 패턴을 확인할 수 있다고 말했다.&nb...

머신러닝 데이터 과학자 데이터 과학 ML 휴리스틱 애널리틱스

2021.09.28

‘머신러닝(ML)’을 하는 가장 좋은 방법은 때때로 머신러닝을 전혀 하지 않는 것이다. 실제로 아마존의 응용 과학자 유진 얀에 따르면 머신러닝의 첫 번째 규칙은 머신러닝 없이 시작하는 것이다.  이게 무슨 소리인가?  수개월에 걸친 고된 노력으로 공들여 만든 ML 모델을 소개하는 건 멋진 일이다. 그러나 이는 가장 효과적인 접근 방식이 아니다. 더 간단하고 접근하기 쉬운 방법이 있다.    지난 2016년 데이터 과학자 노아 로랑이 “데이터 과학자는 대부분 산수를 할 뿐이다”라고 언급한 건 지나친 단순화일 수 있다. 하지만 그의 말은 크게 틀리지 않으며, 아무리 데이터를 작동시키는 프로세스를 복잡하게 만들고 싶더라도 작게 시작하는 것이 좋다는 로랑과 얀의 주장은 확실히 옳다.  과도한 복잡성  데이터 과학자는 많은 급여를 받는다. 따라서 예측 애널리틱스와 같은 것을 복잡한 전문용어와 방대한 모델로 포장해 급여를 정당화하고 싶을 수 있다. 그래선 안 된다.  로랑의 주장은 오늘날에도 유효하다. 그는 “비즈니스 문제의 아주 작은 부분 집합만이 머신러닝으로 가장 잘 해결된다. 대부분은 단지 좋은 데이터와 그것이 무엇을 의미하는지 이해만 하면 된다”라고 밝혔다.  그러면서 로랑은 데이터를 가져오기 위한 SQL 쿼리, 해당 데이터에 관한 기본 연산(차이 및 백분위수 계산 등), 결과 그래프 작성, 설명 또는 권장사항 작성 등의 더 간단한 방법을 추천했다.  이것이 쉽다고 말하는 게 아니다. 데이터에서 인사이트를 얻으려고 할 때 머신러닝에서 시작할 필요가 없다는 말이다. 또 많은 양의 데이터가 반드시 필요한 것도 아니다. 엘리제블(Eligible)의 CEO 케이틀린 글리슨은 “작은 데이터부터 시작하는 게 중요하다. 나를 최고의 발견으로 이끈 것은 눈 깜짝할 사이에 생긴 이상 현상이었다”라면서, 때로는 분포를 그리는 것만으로도 충분히 명확한 패턴을 확인할 수 있다고 말했다.&nb...

2021.09.28

칼럼ㅣ'ETL'은 빅데이터와의 경쟁에서 패배했다

‘ETL(Extract, Transform, Load)’은 빅 데이터와의 경쟁에서 패배했다. 솔루션은 전통적인 프로세스 통합 단계를 재정렬하는 것만큼이나 간단하다.  일반 컴퓨터 사용자에게 인터넷이 보급됐던 1989년으로 되돌아가보자. 당시의 데이터 프로세스는 순차적이고, 정적이었으며, 유연하지 못했다. 그러한 시대에서 통합은 혁명이었으며, ‘ETL(추출, 변환, 로드)’은 일반적인 비즈니스 범위를 벗어나는 최신 기술이었다.    다시 현재로 거슬러 올라오자. 오늘날 인터넷에서는 수십억 명의 사용자가 매 순간 상상할 수 없는 양의 데이터를 생성하고 있다. 이로 인해 새로운 시스템 환경이 탄생하고, 모든 것이 주문형(on-demand)으로 이뤄지고 있다.  그 시대의 많은 프로세스와 마찬가지로, 온프레미스 환경을 위한 전통적인 ETL은 더 이상 필요가 없다. 수년간의 진화에도 불구하고 기존 ETL 프로세스는 빅 데이터라는 광기와의 경쟁에서 패배했다.  가트너에 따르면 분석 인사이트의 20%만이 핵심 비즈니스 결과를 촉발한다. 예상한 대로 부정확하고 불충분한 데이터가 주요 원인이다.  전통적인 ETL의 단점 기존 ETL에는 다음과 같은 단점이 있다.  • 모든 변환의 비즈니스 요구사항이 고유하기 때문에 데이터 엔지니어는 커스텀 코드 프로그램 및 스크립트를 처리해야 한다. 따라서 특화되고 변환 불가능한 기술을 개발해야 하고, 코드 베이스 관리가 복잡해진다.   • ETL은 지속적인 간접비가 발생한다. 전담 데이터 엔지니어의 긴 재설계 사이클이 필요하다.   • ETL에서 데이터 과학자는 엔지니어가 변환하고 정제한 데이터 세트만 받을 수 있다. 이로 인해 프로세스가 경직될 뿐만 아니라 결과의 민첩성이 제한된다.   • 초기에 ETL의 목적은 주기적인 배치(batch) 처리 세션이었다. 이는 지속적이고 자동화된 데이터 스트리밍을 지원하지 않는다. 또한 실시간 데이...

ETL ELT 데이터 빅 데이터 데이터 과학 데이터 관리 데이터 레이크 데이터 웨어하우스

2021.09.15

‘ETL(Extract, Transform, Load)’은 빅 데이터와의 경쟁에서 패배했다. 솔루션은 전통적인 프로세스 통합 단계를 재정렬하는 것만큼이나 간단하다.  일반 컴퓨터 사용자에게 인터넷이 보급됐던 1989년으로 되돌아가보자. 당시의 데이터 프로세스는 순차적이고, 정적이었으며, 유연하지 못했다. 그러한 시대에서 통합은 혁명이었으며, ‘ETL(추출, 변환, 로드)’은 일반적인 비즈니스 범위를 벗어나는 최신 기술이었다.    다시 현재로 거슬러 올라오자. 오늘날 인터넷에서는 수십억 명의 사용자가 매 순간 상상할 수 없는 양의 데이터를 생성하고 있다. 이로 인해 새로운 시스템 환경이 탄생하고, 모든 것이 주문형(on-demand)으로 이뤄지고 있다.  그 시대의 많은 프로세스와 마찬가지로, 온프레미스 환경을 위한 전통적인 ETL은 더 이상 필요가 없다. 수년간의 진화에도 불구하고 기존 ETL 프로세스는 빅 데이터라는 광기와의 경쟁에서 패배했다.  가트너에 따르면 분석 인사이트의 20%만이 핵심 비즈니스 결과를 촉발한다. 예상한 대로 부정확하고 불충분한 데이터가 주요 원인이다.  전통적인 ETL의 단점 기존 ETL에는 다음과 같은 단점이 있다.  • 모든 변환의 비즈니스 요구사항이 고유하기 때문에 데이터 엔지니어는 커스텀 코드 프로그램 및 스크립트를 처리해야 한다. 따라서 특화되고 변환 불가능한 기술을 개발해야 하고, 코드 베이스 관리가 복잡해진다.   • ETL은 지속적인 간접비가 발생한다. 전담 데이터 엔지니어의 긴 재설계 사이클이 필요하다.   • ETL에서 데이터 과학자는 엔지니어가 변환하고 정제한 데이터 세트만 받을 수 있다. 이로 인해 프로세스가 경직될 뿐만 아니라 결과의 민첩성이 제한된다.   • 초기에 ETL의 목적은 주기적인 배치(batch) 처리 세션이었다. 이는 지속적이고 자동화된 데이터 스트리밍을 지원하지 않는다. 또한 실시간 데이...

2021.09.15

젯브레인, 데이터 과학용 IDE 프리뷰 공개

인텔리제이 아이디어(IntelliJ IDEA)와 코틀린(Kotlin) 개발사 젯브레인(JetBrains)이 데이터 과학 전용 IDE ‘데이터스펠(DataSpell)’을 조기 액세스 프로그램(EAP)으로 공개했다.    지난 9월 7일(현지 시각) 공개된 ‘데이터스펠’은 이곳(jetbrains.com)에서 액세스할 수 있다. 이는 탐색적 데이터 분석 및 머신러닝 모델 프로토타이핑을 지원하는 데이터 과학 전문가용 개발 환경이다. 코딩을 허용하면서 데이터의 우선순위를 지정하는 인터페이스가 특징이다.  젯브레인에 따르면 데이터스펠은 기존 주피터 노트북 경험을 개선하는 주피터 노트북 기본 지원을 제공한다. 예를 들면 사용자는 셀과 콘텐츠를 처리할 때 한 번의 키 입력으로 명령 모드와 편집기 모드 사이를 전환할 수 있다. 이 밖에 노트북에서 향상된 기능은 다음과 같다.  • 파이썬용 지능형 코딩 지원  • 즉시 사용할 수 있는 목차 • 폴딩 트레이스백 • 인터랙티브 테이블  셀 출력은 마크다운(Markdown) 및 자바스크립트(JavaScript)를 지원한다. 또 데이터스펠을 사용하면 로컬 주피터 노트북은 물론이고 원격 주피터, 주피터허브 또는 주피터랩 서버로 작업할 수 있다.  데이터 스펠은 파이썬 스크립트를 지원하여 코드 실행을 위한 PERL과 대화형 및 정적 데이터 시각화 작업을 위한 추가 도구도 제공한다. 이를테면 플로틀리(Plotly), 보케(Bokeh), 아이피위젯(ipywidgets), 알테어(Altair) 등의 인기 있는 파이썬 과학 라이브러리가 지원된다. 현재 R 언어는 기본 지원된다. 줄리아(Julia)와 같은 다른 언어는 향후 추가될 예정이라고 젯브레인은 밝혔다.  버전 제어를 위해 데이터스펠은 깃(Git) 프로젝트를 복제하고, 변경사항을 커밋 및 푸시하며, 여러 브랜치로 작업한다. 그 다음 변경 목록을 관리하고, 커밋 전에 업데이트를 준비할 수 있다. SQL 코드를 ...

젯브레인 인텔리제이 아이디어 코틀린 데이터스펠 데이터 과학 머신러닝

2021.09.09

인텔리제이 아이디어(IntelliJ IDEA)와 코틀린(Kotlin) 개발사 젯브레인(JetBrains)이 데이터 과학 전용 IDE ‘데이터스펠(DataSpell)’을 조기 액세스 프로그램(EAP)으로 공개했다.    지난 9월 7일(현지 시각) 공개된 ‘데이터스펠’은 이곳(jetbrains.com)에서 액세스할 수 있다. 이는 탐색적 데이터 분석 및 머신러닝 모델 프로토타이핑을 지원하는 데이터 과학 전문가용 개발 환경이다. 코딩을 허용하면서 데이터의 우선순위를 지정하는 인터페이스가 특징이다.  젯브레인에 따르면 데이터스펠은 기존 주피터 노트북 경험을 개선하는 주피터 노트북 기본 지원을 제공한다. 예를 들면 사용자는 셀과 콘텐츠를 처리할 때 한 번의 키 입력으로 명령 모드와 편집기 모드 사이를 전환할 수 있다. 이 밖에 노트북에서 향상된 기능은 다음과 같다.  • 파이썬용 지능형 코딩 지원  • 즉시 사용할 수 있는 목차 • 폴딩 트레이스백 • 인터랙티브 테이블  셀 출력은 마크다운(Markdown) 및 자바스크립트(JavaScript)를 지원한다. 또 데이터스펠을 사용하면 로컬 주피터 노트북은 물론이고 원격 주피터, 주피터허브 또는 주피터랩 서버로 작업할 수 있다.  데이터 스펠은 파이썬 스크립트를 지원하여 코드 실행을 위한 PERL과 대화형 및 정적 데이터 시각화 작업을 위한 추가 도구도 제공한다. 이를테면 플로틀리(Plotly), 보케(Bokeh), 아이피위젯(ipywidgets), 알테어(Altair) 등의 인기 있는 파이썬 과학 라이브러리가 지원된다. 현재 R 언어는 기본 지원된다. 줄리아(Julia)와 같은 다른 언어는 향후 추가될 예정이라고 젯브레인은 밝혔다.  버전 제어를 위해 데이터스펠은 깃(Git) 프로젝트를 복제하고, 변경사항을 커밋 및 푸시하며, 여러 브랜치로 작업한다. 그 다음 변경 목록을 관리하고, 커밋 전에 업데이트를 준비할 수 있다. SQL 코드를 ...

2021.09.09

심심이-기초과학연구원 데이터 사이언스 그룹, 업무 협약 체결

인공지능(AI) 챗봇 심심이가 기초과학연구원(IBS) 데이터 사이언스 그룹과 업무협약(MOU)을 체결했다고 밝혔다. 이번 데이터 사이언스 그룹과의 협약은 심심이의 AI 챗봇 윤리 검증 노력의 일환으로 이뤄졌다. 데이터 사이언스 그룹과의 협업을 통해 일상대화 챗봇과 사람의 상호작용 패턴을 면밀히 파악하는 것은 물론 온라인 혐오 표현 문제 해결에 적극 나선다는 취지다. 이와 더불어 사회에 공헌하기 위한 유기적인 협력 체계를 구축하는데 함께 하기로 약속했다. 또한 심심이는 데이터 사이언스 그룹과 함께 상호 관심 영역 데이터 수집 및 연계, 정제 그리고 기계학습 및 AI 기반 데이터 분석·도구 개발 노력을 경주할 것이라고 밝혔다. 뿐만 아니라 심심이는 과학기술정보통신부가 주관하는 AI 학습용 데이터 구축사업에 참여해 윤리 검증을 돕는 데이터셋 구축 사업을 수행하고 있다. 심심이는 ‘텍스트 윤리검증 데이터’ 과제 주관기관으로 각 분야 전문성을 갖춘 5개 기관과 컨소시엄을 구성했다. 그 결과 자유 공모 분야에 선정되어 7개월 간 19억 원을 지원받으며 과제를 수행 중이다. 심심이 컨소시엄은 대화형 AI가 사람과 대화하는 데 사용하는 대화 시나리오부터 서술형 텍스트에 이르기까지 다양한 텍스트 관련 윤리성을 검증하거나 비도덕적 텍스트의 구조를 밝히는데 주력할 계획이다. 심심이는 안드로이드, iOS 기반의 앱과 웹서비스 모두를 이용 가능한 것이 특징이며, 올해 기준 2,700만 명 이상의 패널이 작성한 약 1억 4,000만 쌍의 대화 시나리오 바탕과 지속적인 업데이트를 거치며 다양성과 재미는 물론 보다 생동감있는 대화가 가능한 일상대화 챗봇이다.  심심이 최정회 대표는 “AI 챗봇은 전 세계 여러 국가에서 윤리적인 문제에 부딪혀 왔는데 이에 따라 심심이는 지속가능한 인공지능을 위해서는 이러한 한계를 근본적으로 해결해야 한다는 점을 일찌감치 인식해왔다”라며, “기초과학연구원의 우수한 데이터 과학자들과 함께 윤리 문제를 효과적으로 해결할 수 있는 방안을 도...

심심이 데이터 과학 인공지능 챗봇

2021.08.26

인공지능(AI) 챗봇 심심이가 기초과학연구원(IBS) 데이터 사이언스 그룹과 업무협약(MOU)을 체결했다고 밝혔다. 이번 데이터 사이언스 그룹과의 협약은 심심이의 AI 챗봇 윤리 검증 노력의 일환으로 이뤄졌다. 데이터 사이언스 그룹과의 협업을 통해 일상대화 챗봇과 사람의 상호작용 패턴을 면밀히 파악하는 것은 물론 온라인 혐오 표현 문제 해결에 적극 나선다는 취지다. 이와 더불어 사회에 공헌하기 위한 유기적인 협력 체계를 구축하는데 함께 하기로 약속했다. 또한 심심이는 데이터 사이언스 그룹과 함께 상호 관심 영역 데이터 수집 및 연계, 정제 그리고 기계학습 및 AI 기반 데이터 분석·도구 개발 노력을 경주할 것이라고 밝혔다. 뿐만 아니라 심심이는 과학기술정보통신부가 주관하는 AI 학습용 데이터 구축사업에 참여해 윤리 검증을 돕는 데이터셋 구축 사업을 수행하고 있다. 심심이는 ‘텍스트 윤리검증 데이터’ 과제 주관기관으로 각 분야 전문성을 갖춘 5개 기관과 컨소시엄을 구성했다. 그 결과 자유 공모 분야에 선정되어 7개월 간 19억 원을 지원받으며 과제를 수행 중이다. 심심이 컨소시엄은 대화형 AI가 사람과 대화하는 데 사용하는 대화 시나리오부터 서술형 텍스트에 이르기까지 다양한 텍스트 관련 윤리성을 검증하거나 비도덕적 텍스트의 구조를 밝히는데 주력할 계획이다. 심심이는 안드로이드, iOS 기반의 앱과 웹서비스 모두를 이용 가능한 것이 특징이며, 올해 기준 2,700만 명 이상의 패널이 작성한 약 1억 4,000만 쌍의 대화 시나리오 바탕과 지속적인 업데이트를 거치며 다양성과 재미는 물론 보다 생동감있는 대화가 가능한 일상대화 챗봇이다.  심심이 최정회 대표는 “AI 챗봇은 전 세계 여러 국가에서 윤리적인 문제에 부딪혀 왔는데 이에 따라 심심이는 지속가능한 인공지능을 위해서는 이러한 한계를 근본적으로 해결해야 한다는 점을 일찌감치 인식해왔다”라며, “기초과학연구원의 우수한 데이터 과학자들과 함께 윤리 문제를 효과적으로 해결할 수 있는 방안을 도...

2021.08.26

'BA' 커리어 잘 쌓고 싶다면... 유능한 비즈니스 애널리스트의 특징 5가지

데이터 그리고 비즈니스 프로세스와의 상관관계에 관심 있다면 ‘비즈니스 애널리스트(Business Analyst; BA)’라는 직업이 적합할 수 있다. 비즈니스 분석은 매일 숫자를 파고들며 인사이트를 얻어야 하는 일이다. 따라서 성공하려면 데이터를 잘 알아야 한다. 하지만 숙련된 비즈니스 애널리스트들에 따르면 그것만으론 충분하지 않다.  여러 BA와 ‘유능한 비즈니스 애널리스트’의 특징이 무엇인지 이야기를 나눠봤다(BA와 함께 일하는 사람들 포함). 갈수록 수요가 높아지고 있는 이 직업이 실제로 어떠한지, 그리고 이쪽으로 경력을 개발하려면 어떤 우선순위를 설정해야 하는지 도움이 될 만한 내용을 소개한다.    1. 데이터를 안다 데이터는 비즈니스 애널리스트가 하는 일의 기반이다. 이를 활용해 비즈니스 애널리스트는 기업이 어떻게 성장하고 적응해야 하는지 데이터 중심적인 조언을 제공해야 한다. 즉 단순히 스프레드시트에 숫자만 던져 넣는다고 될 일이 아니다. 상세하게 검토해 인사이트를 얻기 전에 데이터 어디서 어떻게 수집됐는지 파악해야 한다는 의미다.  기술 리서치 및 자문회사 ISG의 수석 애널리스트 마르시오 타바크는 “비즈니스 애널리스트는 데이터가 어떻게 수집되고 무엇을 나타내는지 이해해야 한다”라면서, “데이터 수집 방식이 본질적인 편향을 유발할 수 있어서다. 예를 들면 인보이스는 기업의 공급에 따라 달라지기 때문에 수요 예측에 적절한 데이터세트가 아니다”라고 말했다.  ISG의 대표 고담 쿠마르는 “비즈니스 애널리스트는 데이터 엔지니어링을 알아야 한다. 데이터 엔지니어링이 여러 소스에서 데이터를 준비, 정렬, 분류, 수집하기 위한 데이터 기반 계층이기 때문”이라고 전했다.  이어서 “문제는 많은 데이터(대부분 구조화돼 있지 않음), 다양한 소스(데이터베이스, 파일 형식, 기술, 플랫폼 등), 프라이버시 및 보안 우려, 부서 간 충돌(누가 데이터를 소유할지 등)이다. 비즈니스 애널리스트는 비즈니스 ...

비즈니스 애널리스트 데이터 데이터 과학 애널리틱스 비즈니스 인텔리전스 비즈니스 애널리틱스 비즈니스 프로세스 관리

2021.08.20

데이터 그리고 비즈니스 프로세스와의 상관관계에 관심 있다면 ‘비즈니스 애널리스트(Business Analyst; BA)’라는 직업이 적합할 수 있다. 비즈니스 분석은 매일 숫자를 파고들며 인사이트를 얻어야 하는 일이다. 따라서 성공하려면 데이터를 잘 알아야 한다. 하지만 숙련된 비즈니스 애널리스트들에 따르면 그것만으론 충분하지 않다.  여러 BA와 ‘유능한 비즈니스 애널리스트’의 특징이 무엇인지 이야기를 나눠봤다(BA와 함께 일하는 사람들 포함). 갈수록 수요가 높아지고 있는 이 직업이 실제로 어떠한지, 그리고 이쪽으로 경력을 개발하려면 어떤 우선순위를 설정해야 하는지 도움이 될 만한 내용을 소개한다.    1. 데이터를 안다 데이터는 비즈니스 애널리스트가 하는 일의 기반이다. 이를 활용해 비즈니스 애널리스트는 기업이 어떻게 성장하고 적응해야 하는지 데이터 중심적인 조언을 제공해야 한다. 즉 단순히 스프레드시트에 숫자만 던져 넣는다고 될 일이 아니다. 상세하게 검토해 인사이트를 얻기 전에 데이터 어디서 어떻게 수집됐는지 파악해야 한다는 의미다.  기술 리서치 및 자문회사 ISG의 수석 애널리스트 마르시오 타바크는 “비즈니스 애널리스트는 데이터가 어떻게 수집되고 무엇을 나타내는지 이해해야 한다”라면서, “데이터 수집 방식이 본질적인 편향을 유발할 수 있어서다. 예를 들면 인보이스는 기업의 공급에 따라 달라지기 때문에 수요 예측에 적절한 데이터세트가 아니다”라고 말했다.  ISG의 대표 고담 쿠마르는 “비즈니스 애널리스트는 데이터 엔지니어링을 알아야 한다. 데이터 엔지니어링이 여러 소스에서 데이터를 준비, 정렬, 분류, 수집하기 위한 데이터 기반 계층이기 때문”이라고 전했다.  이어서 “문제는 많은 데이터(대부분 구조화돼 있지 않음), 다양한 소스(데이터베이스, 파일 형식, 기술, 플랫폼 등), 프라이버시 및 보안 우려, 부서 간 충돌(누가 데이터를 소유할지 등)이다. 비즈니스 애널리스트는 비즈니스 ...

2021.08.20

칼럼ㅣRPA와 데이터 과학이 만날 때

‘데이터 과학’은 ‘RPA(Robotic Process Automation)’를 지능적으로 만들 수 있다. 그리고 RPA는 데이터 과학 모델을 프로덕션 환경에 쉽게 배포하도록 만들 수 있다.  RPA 벤더들은 ‘완전 자동화 기업’이라는 지향점을 제시하지만 어쩌면 이는 다분히 근시안적인 관점일 수 있다. 현재 트렌드를 보면 RPA로 할 수 있는 일이 굉장히 많기 때문이다. 특히 데이터 과학과 결합됐을 때 더욱더 그렇다.    RPA 도구는 사람이 하는 일 가운데 반복적인 작업을 컴퓨터가 대신하도록 하면서 시작됐다. 여기서 ‘로봇’이라는 말이 핵심이다. 소프트웨어가 하나의 시스템에 들어있는 게 아니라 사람이 만지는 모든(또는 많은) 정보 시스템과 연결돼 있음을 은유적으로 나타나기 때문이다.  초창기 RPA 솔루션은 사람이 시스템과 상호작용하는 방식을 모방했다. 예를 들면 ‘지원(support)’ 관련 통화는 기술팀으로, ‘판매(sales)’ 관련 통화는 영업팀으로 자동 라우팅하거나 또는 링크드인(LinkedIn)과 같은 웹 사이트에서 정보를 스크랩해 필요할 때마다 CRM 시스템에 추가하는 식이었다.  그리고 RPA가 데이터 과학을 ‘처음’ 만났을 때 이는 업계를 변화시키는 결과를 가져왔다. 사람이 자동화를 개선할 새 기회를 찾게 하는 대신 ‘지능형’ 프로세스 자동화를 활용하게 됐기 때문이다.  이제는 머신러닝을 통해 실제 프로세스에서 패턴을 찾고 이를 프로세스 마이닝이라는 기술을 사용해 자동으로 개선할 수 있다. 이는 그동안 많은 RPA 도구가 내세웠던 ‘완전 자동화 기업’을 향한 발걸음이었다.  RPA와 데이터 과학의 두 번째 만남이 새로운 문을 열고 있다. 이번에는 데이터 과학이 사람의 업무 효율성을 높이는 데 도움을 줄 뿐만 아니라 이러한 작업의 일부를 더욱더 잘 실행하는 데도 도움을 주고 있다.  RPA와 데이터 과학이 다시 만나다 점점 더 많은 수의 자동화 프로세스가 데...

RPA 로봇 프로세스 자동화 자동화 데이터 과학 데이터 머신러닝 프로세스 마이닝

2021.08.19

‘데이터 과학’은 ‘RPA(Robotic Process Automation)’를 지능적으로 만들 수 있다. 그리고 RPA는 데이터 과학 모델을 프로덕션 환경에 쉽게 배포하도록 만들 수 있다.  RPA 벤더들은 ‘완전 자동화 기업’이라는 지향점을 제시하지만 어쩌면 이는 다분히 근시안적인 관점일 수 있다. 현재 트렌드를 보면 RPA로 할 수 있는 일이 굉장히 많기 때문이다. 특히 데이터 과학과 결합됐을 때 더욱더 그렇다.    RPA 도구는 사람이 하는 일 가운데 반복적인 작업을 컴퓨터가 대신하도록 하면서 시작됐다. 여기서 ‘로봇’이라는 말이 핵심이다. 소프트웨어가 하나의 시스템에 들어있는 게 아니라 사람이 만지는 모든(또는 많은) 정보 시스템과 연결돼 있음을 은유적으로 나타나기 때문이다.  초창기 RPA 솔루션은 사람이 시스템과 상호작용하는 방식을 모방했다. 예를 들면 ‘지원(support)’ 관련 통화는 기술팀으로, ‘판매(sales)’ 관련 통화는 영업팀으로 자동 라우팅하거나 또는 링크드인(LinkedIn)과 같은 웹 사이트에서 정보를 스크랩해 필요할 때마다 CRM 시스템에 추가하는 식이었다.  그리고 RPA가 데이터 과학을 ‘처음’ 만났을 때 이는 업계를 변화시키는 결과를 가져왔다. 사람이 자동화를 개선할 새 기회를 찾게 하는 대신 ‘지능형’ 프로세스 자동화를 활용하게 됐기 때문이다.  이제는 머신러닝을 통해 실제 프로세스에서 패턴을 찾고 이를 프로세스 마이닝이라는 기술을 사용해 자동으로 개선할 수 있다. 이는 그동안 많은 RPA 도구가 내세웠던 ‘완전 자동화 기업’을 향한 발걸음이었다.  RPA와 데이터 과학의 두 번째 만남이 새로운 문을 열고 있다. 이번에는 데이터 과학이 사람의 업무 효율성을 높이는 데 도움을 줄 뿐만 아니라 이러한 작업의 일부를 더욱더 잘 실행하는 데도 도움을 주고 있다.  RPA와 데이터 과학이 다시 만나다 점점 더 많은 수의 자동화 프로세스가 데...

2021.08.19

칼럼ㅣ결코 하찮지 않다!··· '데이터 랭글링' 작업이 가치 있는 이유

우수한 데이터 과학 산출물을 얻기 위해서는 고품질의 데이터가 필요하다. 데이터를 정제하고 준비하는 작업은 흥미롭진 않더라도 매우 중요한 이유다.  하버드 비즈니스 리뷰의 표현대로라면 데이터 과학자는 금세기 가장 섹시한 직업 중 하나다. 하지만 고된 수작업이 뒤따르는 직업이기도 하다. 아나콘다의 2021년 데이터 사이언스 현황 설문 조사에 따르면 응답자들은 작업 시간의 39%를 데이터 준비와 정제에 할애한다고 답했다. 모델 학습, 모델 선택, 모델 배포에 할애하는 시간보다 많았다.  데이터 과학자라기보단, 데이터 잡역부에 가까워 보인다.   그게 잘못됐다는 얘기가 아니다. 오히려 데이터 정제 작업은 중요하다는 이야기다. 지난 수년간 사람들은 (암 치료용 데이터 모델들을 구축하는 등) 데이터 과학의 매력적인 측면을 부풀려 말하곤 했다. 하지만 데이터 과학의 8할은 데이터 정제 및 준비 작업이라는 점은 간과해왔다. 데이터 과학의 이런 측면이 데이터 과학을 올바르게 수행하기 위한 근간이라는 점 또한 마찬가지다.  컨설턴트인 아론 주는 "그 어떠한 통계 분석 작업과 머신러닝 모델이라도 입력되는 데이터의 품질에 따라 성능의 우수함이 결정된다"라고 말했다. 누군가는 고된 작업을 도맡아야 한다 데이터 랭글링(데이터 준비 및 정제 작업을 의미)에 소요되는 시간은 점차 줄어드는 것처럼 보인다. 올해는 데이터 과학자들이 시간의 39%를 데이터 랭글링에 할애한다고 전했지만, 지난해 아나콘다의 설문에서는 45%였다. 불과 몇 년 전에는 80%에 육박하는 것으로 추정되기도 했다.  오픈 데이터 연구소의 컨설턴트 레이 도즈는 이러한 추정치가 사실상 틀린 것이라고 지적했다. 더욱이 (이런 수치는) 데이터 랭글링 작업의 중요성을 격하함으로써 랭글링의 가치를 잘못 이해하게 만든다고 그는 주장했다.  그는 "데이터 과학자들은 데이터를 변환하고, 탐색하며, 이해도를 높이는 데 시간을 할애해야 한다. 데이터는 그들이 작업...

데이터 랭글링 데이터 데이터 과학 정제 필터링

2021.08.03

우수한 데이터 과학 산출물을 얻기 위해서는 고품질의 데이터가 필요하다. 데이터를 정제하고 준비하는 작업은 흥미롭진 않더라도 매우 중요한 이유다.  하버드 비즈니스 리뷰의 표현대로라면 데이터 과학자는 금세기 가장 섹시한 직업 중 하나다. 하지만 고된 수작업이 뒤따르는 직업이기도 하다. 아나콘다의 2021년 데이터 사이언스 현황 설문 조사에 따르면 응답자들은 작업 시간의 39%를 데이터 준비와 정제에 할애한다고 답했다. 모델 학습, 모델 선택, 모델 배포에 할애하는 시간보다 많았다.  데이터 과학자라기보단, 데이터 잡역부에 가까워 보인다.   그게 잘못됐다는 얘기가 아니다. 오히려 데이터 정제 작업은 중요하다는 이야기다. 지난 수년간 사람들은 (암 치료용 데이터 모델들을 구축하는 등) 데이터 과학의 매력적인 측면을 부풀려 말하곤 했다. 하지만 데이터 과학의 8할은 데이터 정제 및 준비 작업이라는 점은 간과해왔다. 데이터 과학의 이런 측면이 데이터 과학을 올바르게 수행하기 위한 근간이라는 점 또한 마찬가지다.  컨설턴트인 아론 주는 "그 어떠한 통계 분석 작업과 머신러닝 모델이라도 입력되는 데이터의 품질에 따라 성능의 우수함이 결정된다"라고 말했다. 누군가는 고된 작업을 도맡아야 한다 데이터 랭글링(데이터 준비 및 정제 작업을 의미)에 소요되는 시간은 점차 줄어드는 것처럼 보인다. 올해는 데이터 과학자들이 시간의 39%를 데이터 랭글링에 할애한다고 전했지만, 지난해 아나콘다의 설문에서는 45%였다. 불과 몇 년 전에는 80%에 육박하는 것으로 추정되기도 했다.  오픈 데이터 연구소의 컨설턴트 레이 도즈는 이러한 추정치가 사실상 틀린 것이라고 지적했다. 더욱이 (이런 수치는) 데이터 랭글링 작업의 중요성을 격하함으로써 랭글링의 가치를 잘못 이해하게 만든다고 그는 주장했다.  그는 "데이터 과학자들은 데이터를 변환하고, 탐색하며, 이해도를 높이는 데 시간을 할애해야 한다. 데이터는 그들이 작업...

2021.08.03

"우회로에 주목한다"··· 세일즈포스의 'AI 인재' 확보 전략

‘인재 부족’은 AI 성공의 가장 큰 걸림돌이다. 생각하지도 못했던 인재를 발굴하고 업스킬링하는 방법을 모색하고 있다면 세일즈포스닷컴(Salesforce.com)의 다각적인 접근법에 주목할 필요가 있다.   인공지능, 머신러닝, 데이터 과학 관련 기술은 여전히 수요가 높다. 기업들이 AI의 잠재력을 최대한 활용하고 더 나은 의사결정을 내리기 위한 목적으로 심층 데이터 인사이트를 도출하고자 핵심 인력을 앞다퉈 충원하고 있기 때문이다.  AI가 미래의 핵심인 기업에게는 인재 부족이 특히 걱정거리다. CRM SaaS 업체 세일즈포스도 이러한 유형의 기업에 속한다. 이 회사의 ‘아인슈타인(Einstein)’ 플랫폼은 기업이 AI 도구를 구축할 수 있는 일반적인 방법 중 하나다. 대부분의 기업에서 이미 사용하고 있는 플랫폼에 내장된 AI는 이 새로운 기술을 활용하는 핵심 수단이다.    IBM의 ‘글로벌 AI 채택 인덱스 2021(Global AI Adoption Index 2021)’에 따르면 43%의 기업이 코로나 19 위기로 AI 구축을 가속화하고 있다고 밝혔으며, AI 도입을 가로막는 가장 큰 장벽은 인재 부족(39%)이었다.  AI 기반 아인슈타인 플랫폼 덕분에 2020년 전년 대비 24% 증가한 210억 달러의 매출을 올려 사상 최대 실적을 기록한 세일즈포스는 AI 및 데이터 과학 인재 발굴이 필수적이었다.   세일즈포스의 아인슈타인 제품 관리 수석 부사장 겸 총괄 책임자 마르코 카살라이나는 아인슈타인의 예측 분석 수행이 2019년 하루 10억 개에서 2020년 11월 기준 800억 개로 증가했는데, 이는 세일즈포스가 인재를 발굴하고 업스킬링하는 데 다각적인 접근을 취했기에 가능했던 일이라고 말했다.  의외의 장소에서 인재 발굴하기  세일즈포스의 AI 관련 플랫폼 및 서비스의 성장은 일반적인 기업 채용 채널을 활용하는 것으로 달성된 게 아니다. 대부분의 기업이 지역 대학이나 ...

세일즈포스 CRM SaaS 채용 인재 부족 인공지능 데이터 과학 트레일헤드 머신러닝 아인슈타인

2021.08.03

‘인재 부족’은 AI 성공의 가장 큰 걸림돌이다. 생각하지도 못했던 인재를 발굴하고 업스킬링하는 방법을 모색하고 있다면 세일즈포스닷컴(Salesforce.com)의 다각적인 접근법에 주목할 필요가 있다.   인공지능, 머신러닝, 데이터 과학 관련 기술은 여전히 수요가 높다. 기업들이 AI의 잠재력을 최대한 활용하고 더 나은 의사결정을 내리기 위한 목적으로 심층 데이터 인사이트를 도출하고자 핵심 인력을 앞다퉈 충원하고 있기 때문이다.  AI가 미래의 핵심인 기업에게는 인재 부족이 특히 걱정거리다. CRM SaaS 업체 세일즈포스도 이러한 유형의 기업에 속한다. 이 회사의 ‘아인슈타인(Einstein)’ 플랫폼은 기업이 AI 도구를 구축할 수 있는 일반적인 방법 중 하나다. 대부분의 기업에서 이미 사용하고 있는 플랫폼에 내장된 AI는 이 새로운 기술을 활용하는 핵심 수단이다.    IBM의 ‘글로벌 AI 채택 인덱스 2021(Global AI Adoption Index 2021)’에 따르면 43%의 기업이 코로나 19 위기로 AI 구축을 가속화하고 있다고 밝혔으며, AI 도입을 가로막는 가장 큰 장벽은 인재 부족(39%)이었다.  AI 기반 아인슈타인 플랫폼 덕분에 2020년 전년 대비 24% 증가한 210억 달러의 매출을 올려 사상 최대 실적을 기록한 세일즈포스는 AI 및 데이터 과학 인재 발굴이 필수적이었다.   세일즈포스의 아인슈타인 제품 관리 수석 부사장 겸 총괄 책임자 마르코 카살라이나는 아인슈타인의 예측 분석 수행이 2019년 하루 10억 개에서 2020년 11월 기준 800억 개로 증가했는데, 이는 세일즈포스가 인재를 발굴하고 업스킬링하는 데 다각적인 접근을 취했기에 가능했던 일이라고 말했다.  의외의 장소에서 인재 발굴하기  세일즈포스의 AI 관련 플랫폼 및 서비스의 성장은 일반적인 기업 채용 채널을 활용하는 것으로 달성된 게 아니다. 대부분의 기업이 지역 대학이나 ...

2021.08.03

김진철의 How-to-Big Dataㅣ에필로그 – 맺는 글

LHC 빅데이터의 미래 – FCC와 새로운 입자 물리학 실험들 LHC 실험은 2018년까지 13TeV, 190fb-1의 목표 성능에 대한 계획된 실험을 마치고 현재 가동을 잠시 중단한 상태다. 2027년 9월로 예정되어 있는 고광도 LHC(High-Luminosity LHC; HL-LHC) 실험을 위해 LHC 주 가속기와 ATLAS, CMS, ALICE, LHCb의 주요 검출기들의 성능을 높이기 위해서는 목표 성능을 낼 수 있도록 많은 부품과 장치들을 새롭게 제작, 교체해야 한다. 지금은 시운전, 테스트를 준비하며 LHC 주 가속기와 검출기들을 업그레이드하고 있다.   COVID-19 바이러스는 CERN의 LHC 실험에도 영향을 미쳐서 LHC 실험의 일정을 지연시켰다. 원래 HL-LHC 실험을 위한 검출기들의 1차 업그레이드를 완료하고 첫 빔 테스트와 시운전을 진행할 예정이었던 2021년 5월에서 4개월 지연된 2021년 9월에 첫 빔 테스트를 진행할 예정이다. 예상치 못했던 COVID-19 바이러스 사태때문에 앞으로 COVID-19 바이러스 확산 상태에 따라 LHC 실험 일정이 다시 변경될 가능성도 있지만, 현재까지의 상황을 보면 2022년 5월부터 원래 예정되었던 LHC 세 번째 실험(Run3)이 진행될 가능성이 높다. LHC 주 가속기가 업그레이드되어 양성자 빔이 14TeV의 목표 에너지와 3000fb-1의 반응 크로스 섹션(cross section)에 도달하면, LHC 실험 초반에 20 ~ 40PB 규모의 3차원 영상 이벤트 데이터를 쏟아냈던 ATLAS, CMS, ALICE, LHCb 네 개의 검출기들은 LHC 빔 충돌 지점(interaction point)에서 일어날 수 이벤트의 빈도가 LHC 건설 당시 100배이상 높아지게 되면서 이에 따라 각 검출기들이 생산해내는 이벤트 영상 데이터의 양도 크게 증가할 것으로 보인다.  HL-LHC 업그레이드에 따른 LHC 가속기와 주요 검출기들의 성능 향상도 LHC 빅데이터의 증가에 영향...

김진철 빅데이터 데이터 과학 입자 물리학 양자 컴퓨팅 인공지능 딥러닝 5G

2021.07.29

LHC 빅데이터의 미래 – FCC와 새로운 입자 물리학 실험들 LHC 실험은 2018년까지 13TeV, 190fb-1의 목표 성능에 대한 계획된 실험을 마치고 현재 가동을 잠시 중단한 상태다. 2027년 9월로 예정되어 있는 고광도 LHC(High-Luminosity LHC; HL-LHC) 실험을 위해 LHC 주 가속기와 ATLAS, CMS, ALICE, LHCb의 주요 검출기들의 성능을 높이기 위해서는 목표 성능을 낼 수 있도록 많은 부품과 장치들을 새롭게 제작, 교체해야 한다. 지금은 시운전, 테스트를 준비하며 LHC 주 가속기와 검출기들을 업그레이드하고 있다.   COVID-19 바이러스는 CERN의 LHC 실험에도 영향을 미쳐서 LHC 실험의 일정을 지연시켰다. 원래 HL-LHC 실험을 위한 검출기들의 1차 업그레이드를 완료하고 첫 빔 테스트와 시운전을 진행할 예정이었던 2021년 5월에서 4개월 지연된 2021년 9월에 첫 빔 테스트를 진행할 예정이다. 예상치 못했던 COVID-19 바이러스 사태때문에 앞으로 COVID-19 바이러스 확산 상태에 따라 LHC 실험 일정이 다시 변경될 가능성도 있지만, 현재까지의 상황을 보면 2022년 5월부터 원래 예정되었던 LHC 세 번째 실험(Run3)이 진행될 가능성이 높다. LHC 주 가속기가 업그레이드되어 양성자 빔이 14TeV의 목표 에너지와 3000fb-1의 반응 크로스 섹션(cross section)에 도달하면, LHC 실험 초반에 20 ~ 40PB 규모의 3차원 영상 이벤트 데이터를 쏟아냈던 ATLAS, CMS, ALICE, LHCb 네 개의 검출기들은 LHC 빔 충돌 지점(interaction point)에서 일어날 수 이벤트의 빈도가 LHC 건설 당시 100배이상 높아지게 되면서 이에 따라 각 검출기들이 생산해내는 이벤트 영상 데이터의 양도 크게 증가할 것으로 보인다.  HL-LHC 업그레이드에 따른 LHC 가속기와 주요 검출기들의 성능 향상도 LHC 빅데이터의 증가에 영향...

2021.07.29

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.5