Offcanvas

AI / 빅데이터 | 애널리틱스

블로그 | 머신러닝과 결합하면 좋은 마법같은 도구 ‘엑셀’

2023.03.02 Matt Asay  |  InfoWorld
머신러닝과 엑셀을 결합하면 데이터 과학자 인력이 부족한 상황에서 데이터를 보다 쉽게 얻을 수 있다.
 
ⓒ Getty Images Bank 

가끔은 이미 가지고 있는 것 중에 최고의 IT 솔루션을 발견할 수 있다. 예를 들어 클라우드 인프라는 사설 데이터센터보다 훨씬 더 많은 유연성과 선택권을 제공하곤 한다. 물론 누군가는 사설 데이터센터가 더 좋다고 주장하는 경우도 있다. 

핵심은 ‘유행어 중심 아키텍처’에 빠지지 않는 것이다. 인포월드에서도 이전 칼럼을 통해 “기업이 컨테이너 기술을 다뤄봤다고 경력을 만들고자 컨테이너화할 필요가 없는 워크로드를 현대화하는 데 2배나 많은 비용을 지출하는 경우가 많다”라고 지적한 바 있다. 

문제는 컨테이너도, 클라우드 혹은 다른 최신 기술도 아니다. 오히려 문제는 제대로 된 해결책을 구상하지도 않고, 다짜고짜 업계 유행어를 문제 해결 도구로 생각하는 것이다. 

기업 다수가 이미 온갖 비즈니스 과제에 만병통치약처럼 머신러닝을 적용하고 있다. 하지만 ML/AI는 신중하게 고려할 영역이다. 데이터 과학자를 고용하여 마법 같은 인사이트를 데이터에서 발견하기를 바라는 대신, 회사에서 이미 고용한 인재를 더 잘 활용할 수 있는 방법을 찾아보자. 요즘처럼 ML/AI 인재가 부족한 시기에는 그런 방식이 더 나은 접근일 수 있다. 이때 전 세계에서 인기 있는 데이터 도구인 엑셀을 잘만 활용하면, 머신러닝 모델을 위한 데이터를 준비할 수 있다. 믿기 어렵겠지만 엑셀로 충분히 가능하다.


챗GPT(ChatGPT)의 흥행 너머를 보라
최근 인공지능의 발전으로 수백만 명의 사람이 콘텐츠를 만들 기회를 얻고 있다. 머신러닝을 통하여 코드 생성부터 예술 작품 생성까지 만들 수 있다. 2022년 11월에 공개된 챗GPT는 전 세계의 헤드라인을 장식했으며 이를 비즈니스 애플리케이션과 결합하려는 노력이 이어지고 있다. 동시에 챗GPT를 악용하는 사레가 늘어나고 에세이 및 시험 부정행위에 대한 두려움 등이 생기고 있다. 


그런 와중에 구글은 사용자가 대화형 언어로 데이터를 조작하는 스프레드시트용 GPT(GPT for Sheets)라는 크롬 확장 프로그램을 출시했다. 마이크로소프트는 챗GPT를 자사의 모든 제품에 통합할 것이며 빙에 먼저 사용할 것이라고 말했다. 마이크로소프트는 최근 챗GPT의 개발사인 오픈AI에 100억 달러를 투자했다. 그러나 챗GPT 애플리케이션만큼 흥미로우면서 (때로는 실망스러울 수 있지만) 이미 사용할 수 있는 훨씬 더 평범하고 실용적인 접근 방식이 있다.
 

엑셀 전문가, 머신러닝(ML) 엔진을 가동하라
필자는 이전에 민주당이 머신러닝 업체 아키오(Akkio)과 어떻게 2022년 선거에서 노코드 도구와 AI를 활용하고 돈을 벌었는지 쓴 적이 있다. 아키오는 사용자가 일반적인 대화 언어를 사용하여 데이터를 변환할 수 있는 새로운 머신러닝 플랫폼인 챗 데이터 프렙(Chat Data Prep)을 출시했다. 이런 플랫폼 뒷단에는 자연어 처리가 있지만, 그 안의 원리를 이해하면 엑셀(Excel)를 새롭게 활용하며 AI의 혜택을 경험할 수 있다. 


전 세계적으로 약 7억 5,000만 명 사용자가 엑셀을 사용한다. 마이크로소프트 CEO 사티아 나델라는 엑셀을 회사의 가장 중요한 소비자 제품으로 선언했다. 엑셀을 머신러닝 기반 도구로 전환하면 일반 기업 직원이 머신러닝을 더 쉽게 활용할 수 있다. 

아키오(Akkio)의 공동 설립자인 조나단 레일리는 인터뷰에서 “우리는 노코드 기반 머신러닝 플랫폼에서도 사용자가 가진 데이터를 기반으로 AI를 이용할 수 있도록 기술을 만드는 방법을 찾고 있었다. 그러는 와중에 그런 방법을 머신러닝을 통해 찾을 수 있다는 것을 깨달았다. 재무 기획 담당자가 데이터를 가져오고 내보내고 조작하는 데 시간을 너무 많이 쓰는 것을 원하는 조직은 없다. 그들은 데이터 과정이 아니라 데이터 분석 결과에 집중하고 싶어 한다”라고 말했다.

아키오(Akkio)의 새로운 기능을 이용하면 사용자는 간단하게 대화 형태로 스프레드시트 데이터를 변경할 수 있다. 이 플랫폼은 AI 및 대규모 언어 모델을 활용하여 사용자의 요청을 해석하고 데이터에 필요한 변경을 수행한다. 그 과정은 의외로 쉬우며 아키오의 온라인 데모에서 직접 확인할 수 있다.

일반 사람들이 이용할 수 있는 데이터 파워
이런 기술은 왜 중요할까? 엄청난 연봉의 데이터 과학자를 고용해 비슷한 작업을 할 수 있겠지만 사실 그들은 데이터 변환, 즉 데이터 랭글링(Wrangling)에 시간을 대부분 쓴다. 데이터 랭글링이란 머신러닝 모델에서 데이터를 사용하도록 준비하는 것으로 데이터 세트의 내용을 변경하지 않고 데이터를 한 형식, 표준 또는 구조에서 다른 형식으로 변환하는 기술 프로세스이다. 데이터 준비는 매우 중요한 작업이지만 청소 작업과 비슷하다. 혁신은 비즈니스 및 분석 프로세스의 효율성을 높이고 기업이 더 나은 데이터 기반 의사 결정을 내릴 수 있도록 한다. 

그러나 사용자가 파이썬(Python)이나 널리 사용되는 쿼리 언어 SQL에 익숙하지 않다면 이런 과정을 진행하기는 어렵고 시간도 많이 걸린다. 대표적으로 데이터 정리(데이터 형식 변환 및 불필요한 문자 삭제)를 포함한 여러 단계를 거쳐야 한다. 다음은 SQL 또는 파이썬 개발자가 머신러닝 모델에서 어떻게 여러 데이터 세트를 조합하고 변환하는지 보여주는 예시다.

출생 연도를 ‘나이’로 변환
Year_Birth에서 현재 연도를 뺀다.

고객이 등록한 날짜(‘Dt_Customer’)를 ‘Enrollment_Length’(등록_기간)로 변환
위의 것과 유사하지만 날짜 기능에서 연도 부분을 추출하는 기능이 추가되었다.

통화 (‘Income’)(소득)을 숫자 (‘Income_M $’)로 변환
여기에는 다음 4단계가 포함된다.
  1. ‘, $.’ 문자를 제거하여 데이터를 정리한다.
  2. null 값을 0으로 바꾼다.
  3. 문자열을 정수로 변환한다.
  4. 숫자를 백만 달러 형식으로 축소하면 데이터 분포를 시각화하는 데 도움이 된다.
이렇게 복잡한 과정이 계속 이뤄진다.

엑셀(Excel) 사용자 10억 명 중 4분의 3은 이러한 기본적인 프로그래밍을 잘 하지 못할 것이다. 그러나 평범한 영어로 간단한 요청을 입력할 수 있는 사람은 많다. 챗 데이터 프렙(Chat Data Prep)은 데이터 변환의 무거운 짐을 덜어준다. 결과 미리보기도 제공하므로 출력이 원하는 것인지 확인할 수 있다. 아키오는 “챗 데이터 프렙이 분석 과정에서 필요한 데이터를 준비 시간을 10배 단축할 수 있다”라고 주장한다. 챗 데이터 프렙을 사용하면 간단한 대화 명령으로 날짜 형식을 다시 지정하고, 시간 기반 산술 연산을 수행하며 지저분한 데이터 필드를 수정할 수도 있다.

데이터 분석을 보다 접근하기 쉽고 효율적이며 정확하게 만드는 과정에서 AI를 이용할 수 있다. AI는 점점 더 조용히, 배후에서 많은 것을 가능하게 만드는 다소 평범하지만 마법 같은 역할을 할 것이다. 챗GPT는 화제에 오르겠지만 엑셀 사용자는 기업 내에서 머신러닝 전환이라는 중요한 작업을 맡을 수 있다.
ciokr@idg.co.kr
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.