Offcanvas

��������� ���������

‘데이터 랭글링’ 및 ‘탐구 데이터 분석’ 따라잡기

초보 데이터 사이언티스트는 데이터를 위한 적절한 모델만 찾아 적용하면 된다는 생각을 할 때가 있다. 애석하게도 이보다 더 데이터 사이언스의 현실과 동떨어진 것도 드물 것이다. 사실, 데이터 랭글링(Data Wrangling, 소위 말하는 데이터 정제 및 변경)과 탐구 데이터 분석(exploratory data analysis)은 데이터 사이언티스트가 소요하는 시간의 80%를 차지하는 경우가 많다. 데이터 랭글링과 탐구 데이터 분석의 개념은 쉽다. 단 제대로 하기가 어려울 수 있다. 정제되지 않거나 잘못 정제된 데이터는 쓰레기이며, GIGO 원리(garbage in, garbage out)는 모델링과 분석에도 적용된다. 데이터 랭글링이란? 데이터가 곧바로 사용 가능한 형태로 나오는 경우는 드물다. 오류와 누락으로 오염되는 경우가 많으며 원하는 구조를 가진 경우가 거의 없고 일반적으로 콘텍스트가 누락되어 있다. 데이터 랭글링은 데이터를 발견하고 정제하며 검증하고 사용 가능하도록 구조화한 후 콘텐츠의 질을 높이며(날씨와 경제 상황 등 공개 데이터로부터 얻은 정보 추가 등의 방식으로) 경우에 따라 데이터를 통합 및 변환하는 과정이다. 정확하게 말하면 데이터 랭글링 작업은 경우에 따라 달라질 수 있다. 데이터가 기구 또는 IoT 장치에서 제공되는 경우 데이터 전송이 프로세스의 주된 부분일 수 있다. 데이터를 머신러닝에 사용하는 경우 변환에 정규화와 표준화뿐 아니라 차원수 감소도 포함될 수 있다.  탐구 데이터 분석이 메모리와 저장 공간이 제한된 개인용 컴퓨터에서 수행되는 경우, 랭글링 프로세스에 데이터 하위 세트 추출이 포함될 수 있다. 데이터를 여러 개의 소스로부터 얻는 경우 측정값의 필드 이름과 단위를 매핑과 변환을 통해 통합해야 한다. 탐구 데이터 분석이란 무엇인가? 탐구 데이터 분석은 프린스턴 대학교(Princeton University)와 벨 연구소(Bell Labs) 소속인 존 투키와 긴밀히 연관되어 있다. 투키는 1961년에 탐구 데이터 ...

데이터 과학자 데이터 랭글링 탐구 데이터 분석 데이터 처리 애널리틱스 데이터 정제 데이터 모델링 ETL ELT 데이터 마이닝 데이터 스크래핑

2021.03.26

초보 데이터 사이언티스트는 데이터를 위한 적절한 모델만 찾아 적용하면 된다는 생각을 할 때가 있다. 애석하게도 이보다 더 데이터 사이언스의 현실과 동떨어진 것도 드물 것이다. 사실, 데이터 랭글링(Data Wrangling, 소위 말하는 데이터 정제 및 변경)과 탐구 데이터 분석(exploratory data analysis)은 데이터 사이언티스트가 소요하는 시간의 80%를 차지하는 경우가 많다. 데이터 랭글링과 탐구 데이터 분석의 개념은 쉽다. 단 제대로 하기가 어려울 수 있다. 정제되지 않거나 잘못 정제된 데이터는 쓰레기이며, GIGO 원리(garbage in, garbage out)는 모델링과 분석에도 적용된다. 데이터 랭글링이란? 데이터가 곧바로 사용 가능한 형태로 나오는 경우는 드물다. 오류와 누락으로 오염되는 경우가 많으며 원하는 구조를 가진 경우가 거의 없고 일반적으로 콘텍스트가 누락되어 있다. 데이터 랭글링은 데이터를 발견하고 정제하며 검증하고 사용 가능하도록 구조화한 후 콘텐츠의 질을 높이며(날씨와 경제 상황 등 공개 데이터로부터 얻은 정보 추가 등의 방식으로) 경우에 따라 데이터를 통합 및 변환하는 과정이다. 정확하게 말하면 데이터 랭글링 작업은 경우에 따라 달라질 수 있다. 데이터가 기구 또는 IoT 장치에서 제공되는 경우 데이터 전송이 프로세스의 주된 부분일 수 있다. 데이터를 머신러닝에 사용하는 경우 변환에 정규화와 표준화뿐 아니라 차원수 감소도 포함될 수 있다.  탐구 데이터 분석이 메모리와 저장 공간이 제한된 개인용 컴퓨터에서 수행되는 경우, 랭글링 프로세스에 데이터 하위 세트 추출이 포함될 수 있다. 데이터를 여러 개의 소스로부터 얻는 경우 측정값의 필드 이름과 단위를 매핑과 변환을 통해 통합해야 한다. 탐구 데이터 분석이란 무엇인가? 탐구 데이터 분석은 프린스턴 대학교(Princeton University)와 벨 연구소(Bell Labs) 소속인 존 투키와 긴밀히 연관되어 있다. 투키는 1961년에 탐구 데이터 ...

2021.03.26

퀘스트소프트웨어, 데이터 모델링 SW ‘이알윈’ 인수

퀘스트소프트웨어가 데이터 모델링 소프트웨어 업체인 ‘이알윈(erwin)’을 인수한다고 발표했다.  이알윈의 솔루션은 퀘스트의 토드(TOAD) 데이터 툴 세트를 강화해 중요 데이터 이니셔티브와 최신 애플리케이션 배포를 추진하는 동시에 규정 컴플라이언스를 보장하는 새로운 기능을 추가한다고 업체 측은 설명했다.  회사에 따르면 이알윈의 제품은 엔터프라이즈 데이터를 관리해야 하는 IT 부서의 요구 사항과 데이터를 활용하는 비즈니스 사용자 사이에서의 점점 더 중요해지는 교차 지점을 다룬다. 이알윈 제품의 핵심 기능은 ▲데이터 모델링 ▲메타데이터 관리 및 데이터 인텔리전스 ▲비즈니스 프로세스 모델링 등이다.  퀘스트와 이알윈의 제품은 고객이 데이터를 관리하는 인프라스트럭처를 제공함으로써 비즈니스에 대한 핵심 자산으로서 엔터프라이즈 데이터를 활용하도록 지원할 예정이다. 퀘스트소프트웨어코리아 장재호 대표는 “이알윈 인수를 통해 데이터 모델링, 데이터 거버넌스 및 비즈니스 프로세스 모델링 툴을 퀘스트의 데이터 관리 포트폴리오에 포함시켜 최고의 엔터프라이즈 데이터 관리 솔루션 기업으로 자리매김할 것”이라고 말했다. ciokr@idg.co.kr

퀘스트소프트웨어 데이터 모델링 이알윈

2021.01.20

퀘스트소프트웨어가 데이터 모델링 소프트웨어 업체인 ‘이알윈(erwin)’을 인수한다고 발표했다.  이알윈의 솔루션은 퀘스트의 토드(TOAD) 데이터 툴 세트를 강화해 중요 데이터 이니셔티브와 최신 애플리케이션 배포를 추진하는 동시에 규정 컴플라이언스를 보장하는 새로운 기능을 추가한다고 업체 측은 설명했다.  회사에 따르면 이알윈의 제품은 엔터프라이즈 데이터를 관리해야 하는 IT 부서의 요구 사항과 데이터를 활용하는 비즈니스 사용자 사이에서의 점점 더 중요해지는 교차 지점을 다룬다. 이알윈 제품의 핵심 기능은 ▲데이터 모델링 ▲메타데이터 관리 및 데이터 인텔리전스 ▲비즈니스 프로세스 모델링 등이다.  퀘스트와 이알윈의 제품은 고객이 데이터를 관리하는 인프라스트럭처를 제공함으로써 비즈니스에 대한 핵심 자산으로서 엔터프라이즈 데이터를 활용하도록 지원할 예정이다. 퀘스트소프트웨어코리아 장재호 대표는 “이알윈 인수를 통해 데이터 모델링, 데이터 거버넌스 및 비즈니스 프로세스 모델링 툴을 퀘스트의 데이터 관리 포트폴리오에 포함시켜 최고의 엔터프라이즈 데이터 관리 솔루션 기업으로 자리매김할 것”이라고 말했다. ciokr@idg.co.kr

2021.01.20

구글, 데이터 모델링 플랫폼 기업 '데이터폼' 인수

구글이 영국의 스타트업 데이터폼(Dataform)을 인수했다. 정확한 인수 가격은 공개되지 않았다. 영국 런던에서 3년 전 데이터폼을 공동 창립한 기욤 헨리 후온(Guillaume-Henri Huon)이 블로그를 통해 이러한 내용을 공개했다. 데이터폼은 앞으로 구글 클라우드를 통해 데이터폼 웹(Datafom Web)을 계속 제공하며, 2020년 12월 8일(현지 시각)부터 모든 신규 사용자에게 무료로 제공된다. 유료로 사용하던 기존 고객도 이제 무료로 사용할 수 있다.   다양한 원시 데이터를 신뢰할 수 있는 데이터 세트로 변환할 수 있다고 소개하는 데이터폼의 홈페이지(위). 빅쿼리 데이터 웨어하우스에서 데이터폼을 활용하면, 빠르고 간편하게 데이터를 변환할 수 있다(아래). (자료 : Google) 데이터폼 웹은 빅쿼리(BiqQuery) 지원에 중점을 두고 개발 및 운영에 중점을 둘 계획이다. 빅쿼리는 구글의 빅데이터 플랫폼으로 페타 바이트급의 데이터 저장과 분석을 제공하는, 완전 관리형 클라우드 서비스다. 기욤 후온은 "3년 전 우리는 데이터 분석가가 단일 통합 워크 플로를 사용하여, 웨어 하우스의 전체 데이터 흐름을 관리 할 수 있도록 지원한다는 사명으로 데이터폼을 시작했다. 그동안 원시 데이터를 가져와서 변환한 후 전달하는 데 필요한 도구를 제공하는 데 집중했다"라고 밝혔다. 그의 말처럼 데이터폼은 그동안 기업에서 생성 및 관리되는 다양한 데이터를, 더 저렴하고 더 빠르게 활용할 수 있는, 데이터 양식 빌드 도구를 개발해왔다. 기업에서 데이터는 의사 결정을 내리고 업무 프로세스를 관리하는 중요한 자원이다. 문제는 이러한 데이터를 유용한 자원으로 변환 또는 가공하기가 쉽지 않다는 것이다. 원시 데이터로부터 원하는 형태의 정보로 가공하기 위해서는, 데이터 관리 및 분석 전문가가 필요하다. 또한 많은 비용과 시간이 있어야 하는 경우가 적지 않다. 데이터폼은 이러한 원시 데이터를 저렴하고 효율적으로, 신뢰할 수 있는 문서로 만들어 진 최신 데...

구글 데이터폼 빅쿼리 데이터 모델링 데이터 워크플로우 원시 데이터

2020.12.10

구글이 영국의 스타트업 데이터폼(Dataform)을 인수했다. 정확한 인수 가격은 공개되지 않았다. 영국 런던에서 3년 전 데이터폼을 공동 창립한 기욤 헨리 후온(Guillaume-Henri Huon)이 블로그를 통해 이러한 내용을 공개했다. 데이터폼은 앞으로 구글 클라우드를 통해 데이터폼 웹(Datafom Web)을 계속 제공하며, 2020년 12월 8일(현지 시각)부터 모든 신규 사용자에게 무료로 제공된다. 유료로 사용하던 기존 고객도 이제 무료로 사용할 수 있다.   다양한 원시 데이터를 신뢰할 수 있는 데이터 세트로 변환할 수 있다고 소개하는 데이터폼의 홈페이지(위). 빅쿼리 데이터 웨어하우스에서 데이터폼을 활용하면, 빠르고 간편하게 데이터를 변환할 수 있다(아래). (자료 : Google) 데이터폼 웹은 빅쿼리(BiqQuery) 지원에 중점을 두고 개발 및 운영에 중점을 둘 계획이다. 빅쿼리는 구글의 빅데이터 플랫폼으로 페타 바이트급의 데이터 저장과 분석을 제공하는, 완전 관리형 클라우드 서비스다. 기욤 후온은 "3년 전 우리는 데이터 분석가가 단일 통합 워크 플로를 사용하여, 웨어 하우스의 전체 데이터 흐름을 관리 할 수 있도록 지원한다는 사명으로 데이터폼을 시작했다. 그동안 원시 데이터를 가져와서 변환한 후 전달하는 데 필요한 도구를 제공하는 데 집중했다"라고 밝혔다. 그의 말처럼 데이터폼은 그동안 기업에서 생성 및 관리되는 다양한 데이터를, 더 저렴하고 더 빠르게 활용할 수 있는, 데이터 양식 빌드 도구를 개발해왔다. 기업에서 데이터는 의사 결정을 내리고 업무 프로세스를 관리하는 중요한 자원이다. 문제는 이러한 데이터를 유용한 자원으로 변환 또는 가공하기가 쉽지 않다는 것이다. 원시 데이터로부터 원하는 형태의 정보로 가공하기 위해서는, 데이터 관리 및 분석 전문가가 필요하다. 또한 많은 비용과 시간이 있어야 하는 경우가 적지 않다. 데이터폼은 이러한 원시 데이터를 저렴하고 효율적으로, 신뢰할 수 있는 문서로 만들어 진 최신 데...

2020.12.10

네가 있어 웃는다··· '데이터 준비 도구' 따라잡기

기업 내 데이터를 활용함에 있어 걸림돌로 손꼽히는 과정이 ‘데이터 준비’(Data preparation)다. 올바른 데이터 준비 도구를 선택하면 이 어려운 난관을 돌파하는데 큰 도움이 된다.    데이터 분석(애널리틱스)의 혜택을 실현시키기 위해 가장 먼저 할 일은 데이터를 제대로 준비하는 것이다. 그렇지만 가트너의 최근 조사 결과에 따르면, 데이터 준비가 중대한 ‘장애물’인 기업과 기관이 많다. 70%의 시간을 데이터 준비 활동에 쏟고 있는 것으로 조사됐다.  가트너가 발행한 ‘데이터 준비 도구에 대한 시장 가이드(Market Guide for Data Preparation Tools)’의 책임 저자인 가트너 데이터 & 분석 팀의 에티샴 자이디 시니어 디렉터 애널리스트는 “과거나 지금이나 적합한 인재를 활용해 시기 적절하게 데이터를 찾고, 여기에 접근하고, 정제(클리닝)하고, 변환하고, 공유하는 작업이 주요 장애물 중 하나다”라고 말했다. 즉 애널리틱스로 비즈니스를 트랜스포메이션하기 원하는 기업이 먼저 해결해야 할 문제는 AI에 대해 정통해지는 것보다 데이터 파이프라인에 대해 정통해지는 것이다. 히타치 반타라(Hitachi Vantara)의 조나단 마틴 최고 마케팅 책임자(CMO)는 “가장 힘든 부분이 데이터 준비이다. 데이터가 위치한 장소를 어떻게 파악할까? 포트폴리오를 구축할 수 있을까? 자동화된 방식으로 모든 데이터 소스를 함께 연결하고, 관리 및 통제된 방식으로 데이터를 적합한 장소, 사람, 머신에 제때 전달할 수 있는 파이프라인을 만들 수 있을까? 이런 부분들을 해결해야 한다”라고 설명했다. 다음은 데이터 준비가 오늘날 애널리틱스 있어 중대한 도전과제인 이유, 이런 문제를 해결할 수 있게끔 발전한 각종 데이터 준비 도구들, 데이터 준비 도구를 선택할 때 고려해야 할 사항들을 정리한 내용이다. 데이터 준비라는 도전과제 데이터 준비를 까다로운 도전과제로 만드는 여러 요소와 요인들이 있다.  첫째...

데이터 거버넌스 애널리틱스 데이터 모델링 데이터 통합 데이터 변환 데이터 연결 데이터 준비 도구 데이터 프레퍼레이션 디노도

2019.11.07

기업 내 데이터를 활용함에 있어 걸림돌로 손꼽히는 과정이 ‘데이터 준비’(Data preparation)다. 올바른 데이터 준비 도구를 선택하면 이 어려운 난관을 돌파하는데 큰 도움이 된다.    데이터 분석(애널리틱스)의 혜택을 실현시키기 위해 가장 먼저 할 일은 데이터를 제대로 준비하는 것이다. 그렇지만 가트너의 최근 조사 결과에 따르면, 데이터 준비가 중대한 ‘장애물’인 기업과 기관이 많다. 70%의 시간을 데이터 준비 활동에 쏟고 있는 것으로 조사됐다.  가트너가 발행한 ‘데이터 준비 도구에 대한 시장 가이드(Market Guide for Data Preparation Tools)’의 책임 저자인 가트너 데이터 & 분석 팀의 에티샴 자이디 시니어 디렉터 애널리스트는 “과거나 지금이나 적합한 인재를 활용해 시기 적절하게 데이터를 찾고, 여기에 접근하고, 정제(클리닝)하고, 변환하고, 공유하는 작업이 주요 장애물 중 하나다”라고 말했다. 즉 애널리틱스로 비즈니스를 트랜스포메이션하기 원하는 기업이 먼저 해결해야 할 문제는 AI에 대해 정통해지는 것보다 데이터 파이프라인에 대해 정통해지는 것이다. 히타치 반타라(Hitachi Vantara)의 조나단 마틴 최고 마케팅 책임자(CMO)는 “가장 힘든 부분이 데이터 준비이다. 데이터가 위치한 장소를 어떻게 파악할까? 포트폴리오를 구축할 수 있을까? 자동화된 방식으로 모든 데이터 소스를 함께 연결하고, 관리 및 통제된 방식으로 데이터를 적합한 장소, 사람, 머신에 제때 전달할 수 있는 파이프라인을 만들 수 있을까? 이런 부분들을 해결해야 한다”라고 설명했다. 다음은 데이터 준비가 오늘날 애널리틱스 있어 중대한 도전과제인 이유, 이런 문제를 해결할 수 있게끔 발전한 각종 데이터 준비 도구들, 데이터 준비 도구를 선택할 때 고려해야 할 사항들을 정리한 내용이다. 데이터 준비라는 도전과제 데이터 준비를 까다로운 도전과제로 만드는 여러 요소와 요인들이 있다.  첫째...

2019.11.07

“CA, 전세계 데이터 모델링 툴 시장 리더” IDC 발표

한국 CA 테크놀로지스(www.ca.com/kr)는 ‘CA ERwin 데이터 모델러(CA ERwin Data Modeler)’가 시장조사기관 IDC의 ‘전세계 모델링 및 아키텍처 툴 2012-2016 전망 및 2011 벤더 점유율 보고서’에서 리더로 선정됐다고 밝혔다. 1억700만 달러에 달하는 전세계 데이터 모델링 툴 시장에서 CA ERwin은 32.4% 점유율을 기록했으며 이는 2위 업체보다 15% 이상 많은 수치다. IDC는 보고서에서 CA 테크놀로지스가 포괄적이고 성공적인 ERwin 제품을 제공해 데이터 모델링 시장에서 오랜 기간 부동의 1위 자리를 유지하고 있다고 분석했다. CA ERwin 데이터 모델러는 경쟁이 치열하고 규제가 심한 상황에서 ▲데이터 재사용성 향상 ▲시스템 품질 최적화 ▲수익실현시간 단축 ▲적절한 정보 거버넌스 제공 등 IT 부서가 원하는 목표를 달성할 수 있도록 돕는다. 전략적 데이터 자산에 대한 통합 뷰를 통해 기업의 데이터 품질 향상과 비용절감 효과를 제공하는 한편, 직관적인 그래픽 인터페이스를 사용해 기업 데이터 관리를 위한 데이터 모델링 협업 환경을 구축해 준다. 한국 CA 테크놀로지스 데이터관리(DM) 사업부 유준철 이사는 “오늘날 복잡한 IT 환경으로 인해 비즈니스 사용자와 IT 개발자가 효과적으로 협업하고 전체 데이터 환경을 이해하는 일이 그 어느 때보다 중요해 졌다”라며 “CA ERwin의 인기와 성공 요인은 풍부한 기능과 뛰어난 성능, 사용 편의성에 있다”고 말했다. ciokr@idg.co.kr

IDC CA 데이터 모델링

2013.02.28

한국 CA 테크놀로지스(www.ca.com/kr)는 ‘CA ERwin 데이터 모델러(CA ERwin Data Modeler)’가 시장조사기관 IDC의 ‘전세계 모델링 및 아키텍처 툴 2012-2016 전망 및 2011 벤더 점유율 보고서’에서 리더로 선정됐다고 밝혔다. 1억700만 달러에 달하는 전세계 데이터 모델링 툴 시장에서 CA ERwin은 32.4% 점유율을 기록했으며 이는 2위 업체보다 15% 이상 많은 수치다. IDC는 보고서에서 CA 테크놀로지스가 포괄적이고 성공적인 ERwin 제품을 제공해 데이터 모델링 시장에서 오랜 기간 부동의 1위 자리를 유지하고 있다고 분석했다. CA ERwin 데이터 모델러는 경쟁이 치열하고 규제가 심한 상황에서 ▲데이터 재사용성 향상 ▲시스템 품질 최적화 ▲수익실현시간 단축 ▲적절한 정보 거버넌스 제공 등 IT 부서가 원하는 목표를 달성할 수 있도록 돕는다. 전략적 데이터 자산에 대한 통합 뷰를 통해 기업의 데이터 품질 향상과 비용절감 효과를 제공하는 한편, 직관적인 그래픽 인터페이스를 사용해 기업 데이터 관리를 위한 데이터 모델링 협업 환경을 구축해 준다. 한국 CA 테크놀로지스 데이터관리(DM) 사업부 유준철 이사는 “오늘날 복잡한 IT 환경으로 인해 비즈니스 사용자와 IT 개발자가 효과적으로 협업하고 전체 데이터 환경을 이해하는 일이 그 어느 때보다 중요해 졌다”라며 “CA ERwin의 인기와 성공 요인은 풍부한 기능과 뛰어난 성능, 사용 편의성에 있다”고 말했다. ciokr@idg.co.kr

2013.02.28

IDG 설문조사

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.4.0.6