Offcanvas

��������� ������

데이터 과학자의 놀이터이자 배움터··· ‘캐글’ 탐험 안내서

데이터 과학은 ‘과학’이라는 용어를 사용하지만 기업 현실에선 ‘기술’에 더 가깝다. 처음에는 정제되지 않은 데이터와 오래된 통계 예측 모델로 시작한다. 그러다가 머신러닝(ML)으로 좀더 잘 다뤄보려는 시도를 하게 된다. 아무도 작업 결과를 검증하거나 개선하려 들지 않는다. 새로운 모델이 오래된 모델보다 잘 들어맞으면 채택한 후 다음 문제로 넘어간다. 데이터가 불안정해지고 모델이 작동을 멈추면 새로운 데이터세트로 모델을 업데이트한다.  하지만 캐글(Kaggle)에서 데이터 과학을 하는 양상은 사뭇 다르다. 캐글은 온라인 머신러닝 환경 겸 커뮤니티이다. 개인이나 팀이 모델링을 시도하는 수백 또는 수천에 달하는 표준 데이터세트가 있고 각 경연마다 순위표가 있다.  상금과 등급 점수를 제공하는 대회도 많다. 사람들은 대회 종료 시까지 본인의 모델을 개량하여 점수 향상과 순위 상승을 꾀할 수 있다. 불과 몇 퍼센트 차이로 1위가 달라지는 경우가 많다. 캐글은 전문 데이터 과학자들이 남는 시간에 놀 수 있는 놀꺼리가 풍부한 공간이며, 데이터 과학자 지망자들이라면 좋은 머신러닝 모델 구축 방법을 배우기에 좋은 교실이기도 하다.    캐글? 좀더 서술해 표현하면, 캐글은 데이터 과학자들을 대상으로 머신러닝 시합, 데이터세트, 노트북, 훈련 가속기에 대한 접근 및 교육을 제공하는 온라인 커뮤니티이다. 앤서니 골드블룸 (CEO)과 벤 햄너(CTO)가 2010년 창립했으며, 2017년 구글에 인수됐다. 여러 캐글 시합(Kaggle competitions) 덕분에 머신러닝 기술의 활용 수준이 다각도로 발전할 수 있었다. 암흑 물질의 지도를 만드는 것도 있고 HIV/AIDS 연구도 있다. 캐글 시합 우승자들을 살펴보면 많은 XG부스트 모델과 몇몇 랜덤 포레스트 모델, 그리고 몇 개의 심층 신경망이 눈에 띌 것이다. 시합 캐글 시합에는 ‘시작’(Getting Started), ‘놀이터’(Playground), ‘본격’(Featured)...

캐글 데이터 과학자 데이터 세트 캐글 노트북 캐글 퍼블릭 API

2020.07.02

데이터 과학은 ‘과학’이라는 용어를 사용하지만 기업 현실에선 ‘기술’에 더 가깝다. 처음에는 정제되지 않은 데이터와 오래된 통계 예측 모델로 시작한다. 그러다가 머신러닝(ML)으로 좀더 잘 다뤄보려는 시도를 하게 된다. 아무도 작업 결과를 검증하거나 개선하려 들지 않는다. 새로운 모델이 오래된 모델보다 잘 들어맞으면 채택한 후 다음 문제로 넘어간다. 데이터가 불안정해지고 모델이 작동을 멈추면 새로운 데이터세트로 모델을 업데이트한다.  하지만 캐글(Kaggle)에서 데이터 과학을 하는 양상은 사뭇 다르다. 캐글은 온라인 머신러닝 환경 겸 커뮤니티이다. 개인이나 팀이 모델링을 시도하는 수백 또는 수천에 달하는 표준 데이터세트가 있고 각 경연마다 순위표가 있다.  상금과 등급 점수를 제공하는 대회도 많다. 사람들은 대회 종료 시까지 본인의 모델을 개량하여 점수 향상과 순위 상승을 꾀할 수 있다. 불과 몇 퍼센트 차이로 1위가 달라지는 경우가 많다. 캐글은 전문 데이터 과학자들이 남는 시간에 놀 수 있는 놀꺼리가 풍부한 공간이며, 데이터 과학자 지망자들이라면 좋은 머신러닝 모델 구축 방법을 배우기에 좋은 교실이기도 하다.    캐글? 좀더 서술해 표현하면, 캐글은 데이터 과학자들을 대상으로 머신러닝 시합, 데이터세트, 노트북, 훈련 가속기에 대한 접근 및 교육을 제공하는 온라인 커뮤니티이다. 앤서니 골드블룸 (CEO)과 벤 햄너(CTO)가 2010년 창립했으며, 2017년 구글에 인수됐다. 여러 캐글 시합(Kaggle competitions) 덕분에 머신러닝 기술의 활용 수준이 다각도로 발전할 수 있었다. 암흑 물질의 지도를 만드는 것도 있고 HIV/AIDS 연구도 있다. 캐글 시합 우승자들을 살펴보면 많은 XG부스트 모델과 몇몇 랜덤 포레스트 모델, 그리고 몇 개의 심층 신경망이 눈에 띌 것이다. 시합 캐글 시합에는 ‘시작’(Getting Started), ‘놀이터’(Playground), ‘본격’(Featured)...

2020.07.02

데이터 준비에서 HW 선택까지··· '머신러닝 트레이닝' 안내서

머신러닝(ML)을 제대로 활용하기 위한 기본 전제는 모델을 적절히 훈련시키는 것이다. 데이터로부터 신뢰할 만한 결과를 도출해내는데 참고할 만한 12가지 조언을 정리했다.    ML은 오늘날 가장 실용적인 AI 응용 기술이라고 말할 수 있다. ML시스템은 명시적인 프로그래밍 없이, 데이터에 알고리즘을 적용해 인사이트를 도출한다. 즉, 데이터를 활용해 질문에 답을 찾아낼 수 있다. 오늘날 많은 기업들이 고객 구매 패턴에서 유지보수 및 관리에 대한 예측까지 다양한 문제에 ML을 적용해 활용하고 있다. 그러나 ML 시스템이 질문에 제대로 대답하기 위해서는 데이터와 결과에 대한 트레이닝이 실시되어야 한다. 여기에는 이유가 있다. ML 시스템은 질문에 대답을 할 때 사용할 데이터와 같은 종류의 데이터를 ‘체험’하는 방법을 통해 데이터에서 예측을 할 수 있는 능력을 키울 수 있기 때문이다. 이를테면 구성요소에 장애가 발생할지 여부를 예측하는 경우, 먼저 기능을 하는 구성요소와 장애가 발생한 구성요소 모두에서 센서 판독 데이터를 수집 공급하는 방법으로 ML 시스템을 트레이닝해야 한다. 지루한 단계이지만, ML을 정확히 구현하는데 아주 중요한 단계이다. 이 단계가 잘못되면, 시스템이 원하는 결과를 만들어내지 못한다. ML을 트레이닝 하면서 자주 저지르는 실수들이 있다. 또 ML 시스템을 배포하기 훨씬 전에 내려야 할 결정들이 있다. 이를 나중에 다루려 할 경우 대가를 치를 수 있다. 머신러닝을 훈련시킬 때 알아야 할 사항들을 정리했다.  데이터 품질 확보 일단 데이터가 제대로 준비해야 ML 시스템 트레이닝을 시작할 수 있다. 인텔 AI 제품 그룹의 세일즈 강화 디렉터인 에릭 가드너는 “데이터를 올바르게 준비하는데 많은 시간이 소요되지만, 이 부분이 간과되는 경우가 많다. 현대적인 데이터 인프라 구축, 수집 및 생성할 데이터 파악, 클린업에 많은 시간이 소요될 수 있다”라고 말했다. 여기에는 중복 데이터, 손상 데이터, 누락 데이터 문제...

훈련 데이터 세트 트레이닝 데이터 품질 편향 데이터 포이즈닝 전이 학습 합성 데이터

2020.05.08

머신러닝(ML)을 제대로 활용하기 위한 기본 전제는 모델을 적절히 훈련시키는 것이다. 데이터로부터 신뢰할 만한 결과를 도출해내는데 참고할 만한 12가지 조언을 정리했다.    ML은 오늘날 가장 실용적인 AI 응용 기술이라고 말할 수 있다. ML시스템은 명시적인 프로그래밍 없이, 데이터에 알고리즘을 적용해 인사이트를 도출한다. 즉, 데이터를 활용해 질문에 답을 찾아낼 수 있다. 오늘날 많은 기업들이 고객 구매 패턴에서 유지보수 및 관리에 대한 예측까지 다양한 문제에 ML을 적용해 활용하고 있다. 그러나 ML 시스템이 질문에 제대로 대답하기 위해서는 데이터와 결과에 대한 트레이닝이 실시되어야 한다. 여기에는 이유가 있다. ML 시스템은 질문에 대답을 할 때 사용할 데이터와 같은 종류의 데이터를 ‘체험’하는 방법을 통해 데이터에서 예측을 할 수 있는 능력을 키울 수 있기 때문이다. 이를테면 구성요소에 장애가 발생할지 여부를 예측하는 경우, 먼저 기능을 하는 구성요소와 장애가 발생한 구성요소 모두에서 센서 판독 데이터를 수집 공급하는 방법으로 ML 시스템을 트레이닝해야 한다. 지루한 단계이지만, ML을 정확히 구현하는데 아주 중요한 단계이다. 이 단계가 잘못되면, 시스템이 원하는 결과를 만들어내지 못한다. ML을 트레이닝 하면서 자주 저지르는 실수들이 있다. 또 ML 시스템을 배포하기 훨씬 전에 내려야 할 결정들이 있다. 이를 나중에 다루려 할 경우 대가를 치를 수 있다. 머신러닝을 훈련시킬 때 알아야 할 사항들을 정리했다.  데이터 품질 확보 일단 데이터가 제대로 준비해야 ML 시스템 트레이닝을 시작할 수 있다. 인텔 AI 제품 그룹의 세일즈 강화 디렉터인 에릭 가드너는 “데이터를 올바르게 준비하는데 많은 시간이 소요되지만, 이 부분이 간과되는 경우가 많다. 현대적인 데이터 인프라 구축, 수집 및 생성할 데이터 파악, 클린업에 많은 시간이 소요될 수 있다”라고 말했다. 여기에는 중복 데이터, 손상 데이터, 누락 데이터 문제...

2020.05.08

멀티코어·AI 시대를 위한 신기술 ‘DDR5’가 온다

멀티코어 프로세서의 시대에 메모리가 속도 향상의 발목을 잡고 있는 형국이다. DDR5에 거는 기대가 큰 이유다.    DDR5 메모리 규격이 발표를 앞두고 있지만, 여전히 세부 정보 일부는 베일에 가려져 있다. 메모리 표준 개발을 담당하는 조직인 JEDEC이 명확한 정보를 공개하지 않고 있는 가운데, SK하이닉스가 최근 확실한 정보를 일부 공개했다.  DDR4 규격은 2014년 등장했다. 1,600Mhz 속도에서 시작하여 최대 3,200Mhz를 구현하지만 2,00MHz대 초반의 제품이 대부분이다. 최고 등급의 프로세서가 8코어 수준이었던 당시에만 해도 충분히 빠른 속도였다.  그러나 인텔 28코어 칩을 공급하고 48코어 프로세서를 약속하는 한편, AMD가 64코어 프로세서를 출하하는 현 시점에서는 더 빠른 메모리가 요구되고 있다. 암페어(Ampere)는 80코어 서버용 프로세서를 홍보하고 있고 마블은 선더X3라는 이름의 96코어 ARM 프로세서를 보유하고 있기도 하다.  특히 AI 및 머신러닝이 확산되면서 데이터 세트가 점점 커짐에 따라 고속 메모리의 필요성이 대두되고 있다. DDR5SMS 3,200MHz에서 시작해 최대 8,400MHz 속도를 구현할 수 있다. 하이닉스는 모든 DDR5 메모리가 최소 4,800MHz에서 실행되도록 계획하고 있다고 밝혔다. 이는 DDR5 메모리가 DDR4보다 약 50% 더 큰 빠를 것이라는 의미다. DDR5는 이 밖에도 DDR4의 1.2V보다 낮은 1.1V 전압을 요구한다.  ‘SBR’(Same Bank Refresh’라는 기술을 통한 성능 향상도 있다. DDR4에서는 DIMM의 16개 메모리 뱅크 중 하나만 새로 갱신하더라도 모든 메모리 뱅크를 동시에 새로 갱신해야 하므로 다른 뱅크의 내용이 필요한 경우 CPU를 대기 상태로 두게 된다. 반면 SBR 기능은 메모리 뱅크가 독립적으로 갱신되기 때문에 다른 뱅크는 시스템에 계속 액세스 할 수 있도록 허용한다.&nbs...

삼성 AI 데이터 세트 머신러닝 DDR5 멀티 코어 하이닉스

2020.04.14

멀티코어 프로세서의 시대에 메모리가 속도 향상의 발목을 잡고 있는 형국이다. DDR5에 거는 기대가 큰 이유다.    DDR5 메모리 규격이 발표를 앞두고 있지만, 여전히 세부 정보 일부는 베일에 가려져 있다. 메모리 표준 개발을 담당하는 조직인 JEDEC이 명확한 정보를 공개하지 않고 있는 가운데, SK하이닉스가 최근 확실한 정보를 일부 공개했다.  DDR4 규격은 2014년 등장했다. 1,600Mhz 속도에서 시작하여 최대 3,200Mhz를 구현하지만 2,00MHz대 초반의 제품이 대부분이다. 최고 등급의 프로세서가 8코어 수준이었던 당시에만 해도 충분히 빠른 속도였다.  그러나 인텔 28코어 칩을 공급하고 48코어 프로세서를 약속하는 한편, AMD가 64코어 프로세서를 출하하는 현 시점에서는 더 빠른 메모리가 요구되고 있다. 암페어(Ampere)는 80코어 서버용 프로세서를 홍보하고 있고 마블은 선더X3라는 이름의 96코어 ARM 프로세서를 보유하고 있기도 하다.  특히 AI 및 머신러닝이 확산되면서 데이터 세트가 점점 커짐에 따라 고속 메모리의 필요성이 대두되고 있다. DDR5SMS 3,200MHz에서 시작해 최대 8,400MHz 속도를 구현할 수 있다. 하이닉스는 모든 DDR5 메모리가 최소 4,800MHz에서 실행되도록 계획하고 있다고 밝혔다. 이는 DDR5 메모리가 DDR4보다 약 50% 더 큰 빠를 것이라는 의미다. DDR5는 이 밖에도 DDR4의 1.2V보다 낮은 1.1V 전압을 요구한다.  ‘SBR’(Same Bank Refresh’라는 기술을 통한 성능 향상도 있다. DDR4에서는 DIMM의 16개 메모리 뱅크 중 하나만 새로 갱신하더라도 모든 메모리 뱅크를 동시에 새로 갱신해야 하므로 다른 뱅크의 내용이 필요한 경우 CPU를 대기 상태로 두게 된다. 반면 SBR 기능은 메모리 뱅크가 독립적으로 갱신되기 때문에 다른 뱅크는 시스템에 계속 액세스 할 수 있도록 허용한다.&nbs...

2020.04.14

그래프 데이터베이스란 무엇인가? 어떻게 활용하나?

그래프 데이터베이스란 무엇이고, 현재 관심을 기울여야 할까? 그래프 데이터베이스의 가능성은 오픈소스 공급업체가 실제 사례로 엔터프라이즈 지원을 시작하면서 주류로 필터링하기 시작했다. 그렇다면, 여기에 관심을 가져야 하는 이유는 무엇인가? 지난 4월 파나마 페이퍼(Panama Papers) 유출 사건 기사를 읽은 독자라면, 그래프 데이터베이스(Graph Database)에 대해 들어봤을 것이다. 그래프 데이터베이스 기술은 언론인이 수많은 데이터 세트를 조사하고, 신속하게 개인과 기관, 조세 피난처를 연결할 수 있도록 도와줬다. 다양한 산업의 대기업들이 그래프 데이터베이스를 사용하는 사례가 느는 추세다. 예를 들어, 세계적인 대형 금융기관 가운데 상당수는 복잡한 데이터의 연결, 상관관계와 패턴이 데이터만큼 중요하다는 점을 인식하기 시작했다. 그래프 데이터베이스는 이런 상관관계를 찾아 활용할 수 있는 방법을 제공한다. 시맨틱(semantic) 웹 회사인 온투텍스트(Ontotext)의 매니징 컨설턴트 자레드 맥기니스는 “그래프는 항상 이치에 맞았다. 더 나아가 이론적으로는 더 우수하다. 하지만 관계형 데이터베이스가 너무 우수해 항상 따라잡아야 하는 처지였다. 그러던 것이 ‘티핑포인트’에 도달했다. 이제 더 이상 난해하지 않다. 충분히 성숙해졌다. 기업 환경에서 효과가 있음을 보여주는 사례들이 많다”고 말했다. 그래프 데이터베이스란? 그래프 데이터베이스는 그래프 이론에 토대를 둔 일종의 NoSQL 데이터베이스다. 객체나 노드로 불리는 데이터 포인트를 플롯하고, 그래프에서 이들을 연결하는 컴퓨터 과학 학문의 방법론이다. 기존 관계형 데이터베이스는 데이터를 열과 행으로 저장하고, NoSQL 데이터베이스는 많은 비정형 데이터를 저장한다. 그런데 그래프 데이터베이스는 여기에서 한 걸음 더 나아간다. 데이터 포인트를 연결, 데이터 네트워크를 구축한다. 오픈소스 소프트웨...

구글 네오테크놀로지 소셜 그래프 그래프 데이터베이스 ICIJ 국제탐사보도언론인협회 조세회피 Neo4j JSON 데이터 세트 분석 아마존 웹 서비스 NoSQL AWS 데이터베이스 빅데이터 페이스북 시맥틱 웹

2017.12.11

그래프 데이터베이스란 무엇이고, 현재 관심을 기울여야 할까? 그래프 데이터베이스의 가능성은 오픈소스 공급업체가 실제 사례로 엔터프라이즈 지원을 시작하면서 주류로 필터링하기 시작했다. 그렇다면, 여기에 관심을 가져야 하는 이유는 무엇인가? 지난 4월 파나마 페이퍼(Panama Papers) 유출 사건 기사를 읽은 독자라면, 그래프 데이터베이스(Graph Database)에 대해 들어봤을 것이다. 그래프 데이터베이스 기술은 언론인이 수많은 데이터 세트를 조사하고, 신속하게 개인과 기관, 조세 피난처를 연결할 수 있도록 도와줬다. 다양한 산업의 대기업들이 그래프 데이터베이스를 사용하는 사례가 느는 추세다. 예를 들어, 세계적인 대형 금융기관 가운데 상당수는 복잡한 데이터의 연결, 상관관계와 패턴이 데이터만큼 중요하다는 점을 인식하기 시작했다. 그래프 데이터베이스는 이런 상관관계를 찾아 활용할 수 있는 방법을 제공한다. 시맨틱(semantic) 웹 회사인 온투텍스트(Ontotext)의 매니징 컨설턴트 자레드 맥기니스는 “그래프는 항상 이치에 맞았다. 더 나아가 이론적으로는 더 우수하다. 하지만 관계형 데이터베이스가 너무 우수해 항상 따라잡아야 하는 처지였다. 그러던 것이 ‘티핑포인트’에 도달했다. 이제 더 이상 난해하지 않다. 충분히 성숙해졌다. 기업 환경에서 효과가 있음을 보여주는 사례들이 많다”고 말했다. 그래프 데이터베이스란? 그래프 데이터베이스는 그래프 이론에 토대를 둔 일종의 NoSQL 데이터베이스다. 객체나 노드로 불리는 데이터 포인트를 플롯하고, 그래프에서 이들을 연결하는 컴퓨터 과학 학문의 방법론이다. 기존 관계형 데이터베이스는 데이터를 열과 행으로 저장하고, NoSQL 데이터베이스는 많은 비정형 데이터를 저장한다. 그런데 그래프 데이터베이스는 여기에서 한 걸음 더 나아간다. 데이터 포인트를 연결, 데이터 네트워크를 구축한다. 오픈소스 소프트웨...

2017.12.11

기고 | IoT로 시작된 변화, 비즈니스 모델 변혁으로 이어지려면?

우리는 현재 일반적인 방향은 쉽게 예측할 수 있지만, 구체적인 경로는 예측할 수 없는 새로운 기술적 발전의 문턱에 서 있다. 사물인터넷(IoT)이 대표적인 예다. 미래를 예측하는 것은 차창에 물방울이 흘러내리는 형태를 예측하는 것과 같다. 물방울이 흘러내리는 일반적인 방향을 예측하지 못하는 사람은 없다. 중력 때문에 아래로 흘러내리기 때문이다. 하지만 물방울이 흘러내리는 정확한 경로를 알 방법은 없다. 다른 물방울과 접촉하는 방식, 유리의 미세한 불완전성에 반응하는 형태를 예측하기란 불가능에 가깝기 때문이다. 우리는 현재 일반적인 방향은 쉽게 예측할 수 있지만, 구체적인 경로는 예측할 수 없는 새로운 기술적 발전의 문턱에 서 있다. 여기서 구체적인 경로란 바로 '사물인터넷(IoT)'이다. 이 시점에서 CIO의 밤잠을 설치게 할 질문 하나를 던져 보겠다. 조직 내에서 IoT를 어떻게 통합할까? IoT에서 쏟아지는 방대한 데이터의 잠재력은 CIO에게 축복이기도 하지만, 골칫덩어리기도 하다. 동전의 한 면은 고객과 공급망, 생산 관리 측면의 품질 높은 인사이트이다. 모두 IoT가 실현해 주는 것들이다. 그러나 또 다른 면도 있다. 경쟁자가 먼저 IoT의 잠재력을 실현하면 어떤 일이 일어날까? 한 가지는 확실하다. IoT 통합이 CIO의 최우선 아젠다가 돼야 한다. 아니 모든 C레벨 경영진의 최우선 아젠다다. 기술 분야가 아닌 전체 조직이 IoT라는 보물상자를 열 책임이 있기 때문이다. 물론 극복해야 할 기술적 도전과제가 엄청나게 클 것이다. 끝없이 데이터가 유입되기 때문에 끝없이 데이터를 저장하고 분석해야 한다. 데이터 호수가 정말 방대하다. 기대에 부응하는 수준으로 데이터를 안전하게 만들고, 품질을 확보해야 한다. 어려운 과제다. 그러나 스토리지 기술, 머신러닝, 사이버보안 기술이 발전하면서 성과를 일궈내고 있다 따라서 C레벨 경영진의 대화는 다음과 같은 주제에 초점을 맞춰야 한다. "이런 도전과제들을 극복...

CIO 수확기 트랙터 존 디어 농기계 디지털 변혁 데이터 호수 사물인터넷 데이터 세트 예측 기계학습 CTO 비즈니스 모델 미래 IoT 통합

2017.01.31

우리는 현재 일반적인 방향은 쉽게 예측할 수 있지만, 구체적인 경로는 예측할 수 없는 새로운 기술적 발전의 문턱에 서 있다. 사물인터넷(IoT)이 대표적인 예다. 미래를 예측하는 것은 차창에 물방울이 흘러내리는 형태를 예측하는 것과 같다. 물방울이 흘러내리는 일반적인 방향을 예측하지 못하는 사람은 없다. 중력 때문에 아래로 흘러내리기 때문이다. 하지만 물방울이 흘러내리는 정확한 경로를 알 방법은 없다. 다른 물방울과 접촉하는 방식, 유리의 미세한 불완전성에 반응하는 형태를 예측하기란 불가능에 가깝기 때문이다. 우리는 현재 일반적인 방향은 쉽게 예측할 수 있지만, 구체적인 경로는 예측할 수 없는 새로운 기술적 발전의 문턱에 서 있다. 여기서 구체적인 경로란 바로 '사물인터넷(IoT)'이다. 이 시점에서 CIO의 밤잠을 설치게 할 질문 하나를 던져 보겠다. 조직 내에서 IoT를 어떻게 통합할까? IoT에서 쏟아지는 방대한 데이터의 잠재력은 CIO에게 축복이기도 하지만, 골칫덩어리기도 하다. 동전의 한 면은 고객과 공급망, 생산 관리 측면의 품질 높은 인사이트이다. 모두 IoT가 실현해 주는 것들이다. 그러나 또 다른 면도 있다. 경쟁자가 먼저 IoT의 잠재력을 실현하면 어떤 일이 일어날까? 한 가지는 확실하다. IoT 통합이 CIO의 최우선 아젠다가 돼야 한다. 아니 모든 C레벨 경영진의 최우선 아젠다다. 기술 분야가 아닌 전체 조직이 IoT라는 보물상자를 열 책임이 있기 때문이다. 물론 극복해야 할 기술적 도전과제가 엄청나게 클 것이다. 끝없이 데이터가 유입되기 때문에 끝없이 데이터를 저장하고 분석해야 한다. 데이터 호수가 정말 방대하다. 기대에 부응하는 수준으로 데이터를 안전하게 만들고, 품질을 확보해야 한다. 어려운 과제다. 그러나 스토리지 기술, 머신러닝, 사이버보안 기술이 발전하면서 성과를 일궈내고 있다 따라서 C레벨 경영진의 대화는 다음과 같은 주제에 초점을 맞춰야 한다. "이런 도전과제들을 극복...

2017.01.31

머신러닝 프로젝트를 망치는 '6가지 흔한 실수'

머신러닝이 확산되면서 이를 둘러싼 시행착오도 늘어나고 있다. 여기 기업이 흔히 저지르는 머신러닝 실수들을 정리했다.   머신러닝은 더 이상 공상 과학 영화 속 이야기가 아니다. 시리나 알렉사 같은 음성인식부터 페이스북 자동 태그, 아마존 상품 추천에 이르기까지, 머신러닝은 우리 일상에 밀접히 닿아 있는 각종 기술의 이면에 자리하고 있다. 아울러 네트워크 효율성을 증대시키기 위해 머신러닝 알고리즘을 이용하려는 기업들도 늘고 있으며, 개중에는 위협 탐지와 광역 네트워크 최적화를 위해 머신러닝을 활용하고 있는 기업들도 있다. 그러나 여느 기술들이 그렇듯, 머신러닝 역시 잘못 이용하면 오히려 네트워크를 초토화 시킬 수도 있다. 성급하게 이 기술을 도입하기에 앞서, 머신러닝과 관련한 오해 및 실수를 미리 파악해야 할 이유다. 불상사를 피한다면 불필요한 시행착오도, C-레벨 경영자들이 머신러닝 기술에 고개를 돌리게 되는 일도 막을 수 있을 것이다. 주니퍼 네트웍스의 보안 지능 소프트웨어 엔지니어 로만 시나예브가 머신러닝과 관련한 6가지 흔한 실수를 소개했다. 중요한 변수를 간과 인간의 관점에서 보면 너무나 별 것 아닌 것까지도 컴퓨터는 변수로 넣고 계산을 한다. 때문에 최대한 다양한 변수와 잠재적 결과를 고려해 머신러닝 알고리즘을 배치해야 할 필요가 있다. ‘차량’ 이미지를 트럭과 승용차의 두 카테고리로 분류하는 모델을 예로 들어보자. 이 알고리즘에 트럭 사진은 전부 다 밤에 찍힌 사진만을 보여주고, 승용차 사진은 낮에 찍힌 사진들만을 보여준다면 어떻게 될까? 이 알고리즘 모델은 차종에 관계 없이 밤에 찍힌 차량은 전부 트럭으로 인식하게 된다. 주요 변수와 결과를 최대한 구체적으로 계산에 넣을수록 머신러닝 솔루션이 원치 않거나 예상치 못한 행동을 하는 것을 방지할 수 있다. ‘데이터 숙제’를 소홀히 하는 것 효율적인 통계 모델을 만들기 위해서는 분석 대상이 되는 데이...

알고리즘 데이터 세트 머신러닝 테이 로만 시나예브 데이터 트레이닝 앙상블 학습

2016.11.08

머신러닝이 확산되면서 이를 둘러싼 시행착오도 늘어나고 있다. 여기 기업이 흔히 저지르는 머신러닝 실수들을 정리했다.   머신러닝은 더 이상 공상 과학 영화 속 이야기가 아니다. 시리나 알렉사 같은 음성인식부터 페이스북 자동 태그, 아마존 상품 추천에 이르기까지, 머신러닝은 우리 일상에 밀접히 닿아 있는 각종 기술의 이면에 자리하고 있다. 아울러 네트워크 효율성을 증대시키기 위해 머신러닝 알고리즘을 이용하려는 기업들도 늘고 있으며, 개중에는 위협 탐지와 광역 네트워크 최적화를 위해 머신러닝을 활용하고 있는 기업들도 있다. 그러나 여느 기술들이 그렇듯, 머신러닝 역시 잘못 이용하면 오히려 네트워크를 초토화 시킬 수도 있다. 성급하게 이 기술을 도입하기에 앞서, 머신러닝과 관련한 오해 및 실수를 미리 파악해야 할 이유다. 불상사를 피한다면 불필요한 시행착오도, C-레벨 경영자들이 머신러닝 기술에 고개를 돌리게 되는 일도 막을 수 있을 것이다. 주니퍼 네트웍스의 보안 지능 소프트웨어 엔지니어 로만 시나예브가 머신러닝과 관련한 6가지 흔한 실수를 소개했다. 중요한 변수를 간과 인간의 관점에서 보면 너무나 별 것 아닌 것까지도 컴퓨터는 변수로 넣고 계산을 한다. 때문에 최대한 다양한 변수와 잠재적 결과를 고려해 머신러닝 알고리즘을 배치해야 할 필요가 있다. ‘차량’ 이미지를 트럭과 승용차의 두 카테고리로 분류하는 모델을 예로 들어보자. 이 알고리즘에 트럭 사진은 전부 다 밤에 찍힌 사진만을 보여주고, 승용차 사진은 낮에 찍힌 사진들만을 보여준다면 어떻게 될까? 이 알고리즘 모델은 차종에 관계 없이 밤에 찍힌 차량은 전부 트럭으로 인식하게 된다. 주요 변수와 결과를 최대한 구체적으로 계산에 넣을수록 머신러닝 솔루션이 원치 않거나 예상치 못한 행동을 하는 것을 방지할 수 있다. ‘데이터 숙제’를 소홀히 하는 것 효율적인 통계 모델을 만들기 위해서는 분석 대상이 되는 데이...

2016.11.08

기고 | 빅 데이터에 대한 고민과 실질적인 해답들

‘크다'는 것은 정확히 어떤 의미인가? 이는 관점에 따라 달라지는 개념이 아닐까? ‘빅(Big)’이라는 단어는 상당한 모호함을 내포하고 있다. 최근 빅 데이터(Big Data)의 개념은 많은 이들에게 관심의 대상으로 자리 잡고 있다. 하지만 이와 관련한 시장의 담론은 종종 두리뭉실한 마케팅 수식어들로 가득한 모습을 보여주고 있다. 이제 빅 데이터는, 좀더 분명한 태도로 자신의 가치를 증명하는 과제를 수행해야 할 것이다. 사실 빅 데이터는 새로운 개념이 아니다. 그런데도 오늘날 빅 데이터에 이와 같이 큰 관심이 쏠리는 이유는 우리가 태블릿과 스마트폰, 그리고 그 속의 여러 앱들을 통해 수집하는 정보의 규모가 과거 그 어느 때보다 커진 데 있다. 또한 우리는 다양한 정형, 비정형 데이터를 수집하고 있다. 대용량의 이미지와 비디오 파일을 포함한 교류 GPS 자료, 증권 시장 정보, 소셜 미디어 포스트는 모두 한 곳의 데이터베이스에 저장되며, 또 그와 동시에 즉각적인 분석을 요구한다. 데이터 세트 처리 속도 우리가 이 데이터 세트에서 정보를 추출하는 과정에 좀 더 익숙해진다면, 빅 데이터는 머지 않아 새로운 표준으로 자리 잡게 될 것이다. 하지만 그 전까지는 각 정보 사이의 연관성을 증명하면서 적절한 데이터 세트 처리 속도를 담보해야 한다는 커다란 과제가 빅 데이터를 괴롭히고 자극할 것이다. 빅 데이터의 ‘빅'이란 형용사는 이것이 포괄하는 데이터 세트의 규모, 또는 데이터의 증가와 변화의 속도를 의미할 수도 있을 것이고, 이것이 구성하는 관계와 구조의 복잡성을 나타낼 수도 있을 것이다. 특히 이 중 변화율이나 속도를 확인하는 문제는 우리에게 빅 데이터를 둘러싼 과제들에 대한 어떠한 시각을 제시해준다. 즉 무어의 법칙을 따라 발전하는 CPU의 성능과 비교하면, 데이터 스토리지 시스템 트랜잭션 성능의 발전은 상대적으로 정체 상태를 겪고 있으며 그로 인해 CPU의 데이터 처리 역량이 충...

스토리지 낸드 플래시 데이터 세트 스케일 아웃

2012.10.09

‘크다'는 것은 정확히 어떤 의미인가? 이는 관점에 따라 달라지는 개념이 아닐까? ‘빅(Big)’이라는 단어는 상당한 모호함을 내포하고 있다. 최근 빅 데이터(Big Data)의 개념은 많은 이들에게 관심의 대상으로 자리 잡고 있다. 하지만 이와 관련한 시장의 담론은 종종 두리뭉실한 마케팅 수식어들로 가득한 모습을 보여주고 있다. 이제 빅 데이터는, 좀더 분명한 태도로 자신의 가치를 증명하는 과제를 수행해야 할 것이다. 사실 빅 데이터는 새로운 개념이 아니다. 그런데도 오늘날 빅 데이터에 이와 같이 큰 관심이 쏠리는 이유는 우리가 태블릿과 스마트폰, 그리고 그 속의 여러 앱들을 통해 수집하는 정보의 규모가 과거 그 어느 때보다 커진 데 있다. 또한 우리는 다양한 정형, 비정형 데이터를 수집하고 있다. 대용량의 이미지와 비디오 파일을 포함한 교류 GPS 자료, 증권 시장 정보, 소셜 미디어 포스트는 모두 한 곳의 데이터베이스에 저장되며, 또 그와 동시에 즉각적인 분석을 요구한다. 데이터 세트 처리 속도 우리가 이 데이터 세트에서 정보를 추출하는 과정에 좀 더 익숙해진다면, 빅 데이터는 머지 않아 새로운 표준으로 자리 잡게 될 것이다. 하지만 그 전까지는 각 정보 사이의 연관성을 증명하면서 적절한 데이터 세트 처리 속도를 담보해야 한다는 커다란 과제가 빅 데이터를 괴롭히고 자극할 것이다. 빅 데이터의 ‘빅'이란 형용사는 이것이 포괄하는 데이터 세트의 규모, 또는 데이터의 증가와 변화의 속도를 의미할 수도 있을 것이고, 이것이 구성하는 관계와 구조의 복잡성을 나타낼 수도 있을 것이다. 특히 이 중 변화율이나 속도를 확인하는 문제는 우리에게 빅 데이터를 둘러싼 과제들에 대한 어떠한 시각을 제시해준다. 즉 무어의 법칙을 따라 발전하는 CPU의 성능과 비교하면, 데이터 스토리지 시스템 트랜잭션 성능의 발전은 상대적으로 정체 상태를 겪고 있으며 그로 인해 CPU의 데이터 처리 역량이 충...

2012.10.09

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.4.0.31