2020.02.14

"고립돼 작업하는 문제 해결"··· 오라클, 데이터 과학 플랫폼 공개

Thor Olavsrud | CIO
오라클이 데이터 과학 플랫폼 영역에 진출했다. 데이터베이스 기업 오라클은 그간 개별 데이터 과학자에 중점을 두었던 기존 솔루션과 달리 협업에 특화한 클라우드 기반 데이터 과학 플랫폼을 12일 공개했다. 

오라클 클라우드 데이터 사이언스 플랫폼(Oracle Cloud Data Science Platform, OCDSP)은 오라클이 2018년 인수한 데이터사이언스닷컴(DataScience.com)을 기반으로 구축됐다. 이 플랫폼은 팀 단위의 협업을 효과적으로 수행하는 데 필요한 기능을 지원하는 것이 특징이다. 
 
ⓒGetty Images

이 플랫폼의 핵심 솔루션은 오라클 클라우드 인프라스트럭처 데이터 사이언스(Oracle Cloud Infrastructure Data Science, OCIDS)다. 파이썬, 텐서플로우, 케라스, 주피터 등 다양한 오픈소스 도구를 사용해 오라클 클라우드 상에서 머신러닝 모델을 설계, 학습, 관리할 수 있다. 

오라클 데이터 및 AI서비스 제품 개발 부문 수석부사장 그렉 파블릭은 “네이티브 클라우드 서비스 중 기업 내 협력에 초점을 맞췄다는 점에서 동급 최초라고 할 수 있다. 데이터 과학자들의 협업 및 거버넌스를 위한 환경을 제공하는 데 특화된 솔루션이다”라고 밝혔다.

데이터 과학 프로젝트 간소화
‘오라클 클라우드 인프라스트럭처 데이터 사이언스’는 데이터 과학 워크플로우 자동화를 특징으로 얼터릭스(Alteryx), KNIME 어낼리틱스 플랫폼(KNIME Analytics Platform), 라피드마이너(RapidMiner) 등의 다른 플랫폼들과 경쟁하고자 한다.  

해당 솔루션은 AutoML 자동화 알고리즘 선택과 튜닝 기능을 제공한다. AutoML 자동화 알고리즘은 특정 사용례에 가장 적합한 알고리즘을 선택할 수 있도록 해준다. 튜닝을 통해서는 알고리즘 입력 값을 선택하거나, 모델을 미세조정할 수 있다고 파블릭은 설명했다. 방대한 양의 데이터세트로부터 예측형 특징을 자동으로 식별해 피처 엔지니어링을 단순화하는 기능도 있다. 

종합적인 평가 매트릭스와 시각화 기능들을 포함하는 모델 평가 기능도 지원한다. 시간에 따라 새로운 데이터나 모델 순위와 관련해 성능을 평가할 수 있다.

데이터 과학 팀이 규제를 준수하고, 설계한 알고리즘의 결과를 신뢰할 수 있도록 모델 설명 기능도 자동화돼 있다. 예측 결과를 도출하는 데 사용되는 요소의 상대적인 가중치와 관련 평가 요소들의 중요성을 설명해준다. 

파블릭은 “오라클 랩스(Oracle Labs)에서 모델의 ‘설명가능성’을 위해 개발한 기능을 더욱 향상시켰다. 해당 모델이 왜 그런 예측을 도출하는 지 파악할 수 있으며, 이는 특히 규제 상황에서 중요하다. 다음과 같은 질문에 대답할 수 있어야 하기 때문이다. 이를테면, 그 기업이 이런 결정을 내린 이유는 무엇인가? 이 모델이 그 기업에게 이렇게 하라고 한 이유는 무엇인가? 등이다”라고 말했다. 

팀 간의 협업 지원
오라클은 최근의 소프트웨어 개발 프로세스에서 영감을 얻어 여러 협업 지원 기능을 추가했다. 프로젝트 공유 기능, 모델 카탈로그, 팀 기반 보안 정책, 재현성 및 감사성이다. 

파블릭은 데이터 과학 프로젝트에서 흔하게 나타나는 문제가 바로 개인이 고립돼 일하는 것이라고 지적하면서, “이 경우 일정 수준의 책임, 보안, 소프트웨어 개발 시 얻게 되는 베스트 프랙티스 등에 대한 감각을 잃게 된다. 개인의 업무에 집중하면서도 긴밀하게 협업할 수 있는 솔루션을 찾고자 했다”라고 밝혔다. 

프로젝트 공유 기능을 통해 팀들은 버전 관리 시스템으로 데이터와 노트북 세션을 공유할 수 있다. 모델 카탈로그 기능으로 이미 설계된 모델을 비롯해 이를 수정 및 활용하는 데 필요한 아티팩트를 공유할 수 있다. 

‘오라클 클라우드 인프라스트럭처 아이덴티티 및 액세스 관리 솔루션(Oracle Cloud Infrastructure Identity and Access Management)’과 통합돼 모델, 코드, 데이터에 대한 액세스 관리도 제공한다. 또한 해당 플랫폼을 통해 관련 모든 자산을 추적할 수 있기 때문에 팀원의 부재 시에도 모든 모델이 재현되고, 심사될 수 있다.

그 외의 데이터 및 머신러닝 서비스
‘오라클 클라우드 데이터 사이언스 플랫폼은 ‘오라클 클라우드 인프라스트럭처 데이터 사이언스’ 외에도 다음과 같은 6가지의 서비스를 포함하고 있다. 

파블릭은 “노트북으로 파이썬 학습을 진행 중이라면, 관리 모드로 들어가지 않고도 클라우드 컴퓨팅 자원을 사용해 스케일 아웃할 수 있다. 기능 자체에서 모델 학습 및 모델 실험 프로세스의 일부로 클라우드의 탄력적인 기능을 활용할 수 있다”라고 전했다.

· 오라클 자율운영 데이터베이스(Oracle Autonomous Database)의 새로운 머신러닝 역량: 오라클 자율운영 데이터베이스에 파이썬과 자동화된 머신러닝 기능을 추가했다. 향후 오라클 클라우드 인프라스트럭처 데이터 사이언스가 통합된다면, 여러 오픈소스와 데이터베이스 내 확장 가능한 알고리즘을 사용해 모델을 개발할 수 있다. 

· 오라클 클라우드 인프라스트럭처 데이터 카탈로그(Oracle Cloud Infrastructure Data Catalog): 오라클 클라우드 상에서 데이터를 발견하고, 정리한다. 또한 데이터를 활용하고 추적할 수 있다. 비즈니스 용어집 역시 내장돼 있다. 

· 오라클 빅데이터 서비스(Oracle Big Data Service): 간소화된 방법으로 관리할 수 있는 클라우데라 하둡 기능을 제공한다. 또한 스파크를 위한 머신러닝 기능도 포함하고 있다.

· 오라클 클라우드 SQL(Oracle Cloud SQL): HDFS, Hive, Kafka, NoSQL, Object Storage 상에서 SQL 쿼리를 제공한다.

· 오라클 클라우드 인프라스트럭처 데이터 플로우(Oracle Cloud Infrastructure Data Flow): 완전 관리형 빅데이터 서비스로, 특정 인프라를 구축하거나 관리하지 않고 아파치 스파크를 실행할 수 있다. 

· 데이터 과학자를 위한 오라클 클라우드 인프라스트럭처 가상머신(Oracle Cloud Infrastructure Virtual Machines for Data Science): 하루에 30달러의 금액으로 사전 구성된 GPU 기반의 환경을 제공한다. ciokr@idg.co.kr



2020.02.14

"고립돼 작업하는 문제 해결"··· 오라클, 데이터 과학 플랫폼 공개

Thor Olavsrud | CIO
오라클이 데이터 과학 플랫폼 영역에 진출했다. 데이터베이스 기업 오라클은 그간 개별 데이터 과학자에 중점을 두었던 기존 솔루션과 달리 협업에 특화한 클라우드 기반 데이터 과학 플랫폼을 12일 공개했다. 

오라클 클라우드 데이터 사이언스 플랫폼(Oracle Cloud Data Science Platform, OCDSP)은 오라클이 2018년 인수한 데이터사이언스닷컴(DataScience.com)을 기반으로 구축됐다. 이 플랫폼은 팀 단위의 협업을 효과적으로 수행하는 데 필요한 기능을 지원하는 것이 특징이다. 
 
ⓒGetty Images

이 플랫폼의 핵심 솔루션은 오라클 클라우드 인프라스트럭처 데이터 사이언스(Oracle Cloud Infrastructure Data Science, OCIDS)다. 파이썬, 텐서플로우, 케라스, 주피터 등 다양한 오픈소스 도구를 사용해 오라클 클라우드 상에서 머신러닝 모델을 설계, 학습, 관리할 수 있다. 

오라클 데이터 및 AI서비스 제품 개발 부문 수석부사장 그렉 파블릭은 “네이티브 클라우드 서비스 중 기업 내 협력에 초점을 맞췄다는 점에서 동급 최초라고 할 수 있다. 데이터 과학자들의 협업 및 거버넌스를 위한 환경을 제공하는 데 특화된 솔루션이다”라고 밝혔다.

데이터 과학 프로젝트 간소화
‘오라클 클라우드 인프라스트럭처 데이터 사이언스’는 데이터 과학 워크플로우 자동화를 특징으로 얼터릭스(Alteryx), KNIME 어낼리틱스 플랫폼(KNIME Analytics Platform), 라피드마이너(RapidMiner) 등의 다른 플랫폼들과 경쟁하고자 한다.  

해당 솔루션은 AutoML 자동화 알고리즘 선택과 튜닝 기능을 제공한다. AutoML 자동화 알고리즘은 특정 사용례에 가장 적합한 알고리즘을 선택할 수 있도록 해준다. 튜닝을 통해서는 알고리즘 입력 값을 선택하거나, 모델을 미세조정할 수 있다고 파블릭은 설명했다. 방대한 양의 데이터세트로부터 예측형 특징을 자동으로 식별해 피처 엔지니어링을 단순화하는 기능도 있다. 

종합적인 평가 매트릭스와 시각화 기능들을 포함하는 모델 평가 기능도 지원한다. 시간에 따라 새로운 데이터나 모델 순위와 관련해 성능을 평가할 수 있다.

데이터 과학 팀이 규제를 준수하고, 설계한 알고리즘의 결과를 신뢰할 수 있도록 모델 설명 기능도 자동화돼 있다. 예측 결과를 도출하는 데 사용되는 요소의 상대적인 가중치와 관련 평가 요소들의 중요성을 설명해준다. 

파블릭은 “오라클 랩스(Oracle Labs)에서 모델의 ‘설명가능성’을 위해 개발한 기능을 더욱 향상시켰다. 해당 모델이 왜 그런 예측을 도출하는 지 파악할 수 있으며, 이는 특히 규제 상황에서 중요하다. 다음과 같은 질문에 대답할 수 있어야 하기 때문이다. 이를테면, 그 기업이 이런 결정을 내린 이유는 무엇인가? 이 모델이 그 기업에게 이렇게 하라고 한 이유는 무엇인가? 등이다”라고 말했다. 

팀 간의 협업 지원
오라클은 최근의 소프트웨어 개발 프로세스에서 영감을 얻어 여러 협업 지원 기능을 추가했다. 프로젝트 공유 기능, 모델 카탈로그, 팀 기반 보안 정책, 재현성 및 감사성이다. 

파블릭은 데이터 과학 프로젝트에서 흔하게 나타나는 문제가 바로 개인이 고립돼 일하는 것이라고 지적하면서, “이 경우 일정 수준의 책임, 보안, 소프트웨어 개발 시 얻게 되는 베스트 프랙티스 등에 대한 감각을 잃게 된다. 개인의 업무에 집중하면서도 긴밀하게 협업할 수 있는 솔루션을 찾고자 했다”라고 밝혔다. 

프로젝트 공유 기능을 통해 팀들은 버전 관리 시스템으로 데이터와 노트북 세션을 공유할 수 있다. 모델 카탈로그 기능으로 이미 설계된 모델을 비롯해 이를 수정 및 활용하는 데 필요한 아티팩트를 공유할 수 있다. 

‘오라클 클라우드 인프라스트럭처 아이덴티티 및 액세스 관리 솔루션(Oracle Cloud Infrastructure Identity and Access Management)’과 통합돼 모델, 코드, 데이터에 대한 액세스 관리도 제공한다. 또한 해당 플랫폼을 통해 관련 모든 자산을 추적할 수 있기 때문에 팀원의 부재 시에도 모든 모델이 재현되고, 심사될 수 있다.

그 외의 데이터 및 머신러닝 서비스
‘오라클 클라우드 데이터 사이언스 플랫폼은 ‘오라클 클라우드 인프라스트럭처 데이터 사이언스’ 외에도 다음과 같은 6가지의 서비스를 포함하고 있다. 

파블릭은 “노트북으로 파이썬 학습을 진행 중이라면, 관리 모드로 들어가지 않고도 클라우드 컴퓨팅 자원을 사용해 스케일 아웃할 수 있다. 기능 자체에서 모델 학습 및 모델 실험 프로세스의 일부로 클라우드의 탄력적인 기능을 활용할 수 있다”라고 전했다.

· 오라클 자율운영 데이터베이스(Oracle Autonomous Database)의 새로운 머신러닝 역량: 오라클 자율운영 데이터베이스에 파이썬과 자동화된 머신러닝 기능을 추가했다. 향후 오라클 클라우드 인프라스트럭처 데이터 사이언스가 통합된다면, 여러 오픈소스와 데이터베이스 내 확장 가능한 알고리즘을 사용해 모델을 개발할 수 있다. 

· 오라클 클라우드 인프라스트럭처 데이터 카탈로그(Oracle Cloud Infrastructure Data Catalog): 오라클 클라우드 상에서 데이터를 발견하고, 정리한다. 또한 데이터를 활용하고 추적할 수 있다. 비즈니스 용어집 역시 내장돼 있다. 

· 오라클 빅데이터 서비스(Oracle Big Data Service): 간소화된 방법으로 관리할 수 있는 클라우데라 하둡 기능을 제공한다. 또한 스파크를 위한 머신러닝 기능도 포함하고 있다.

· 오라클 클라우드 SQL(Oracle Cloud SQL): HDFS, Hive, Kafka, NoSQL, Object Storage 상에서 SQL 쿼리를 제공한다.

· 오라클 클라우드 인프라스트럭처 데이터 플로우(Oracle Cloud Infrastructure Data Flow): 완전 관리형 빅데이터 서비스로, 특정 인프라를 구축하거나 관리하지 않고 아파치 스파크를 실행할 수 있다. 

· 데이터 과학자를 위한 오라클 클라우드 인프라스트럭처 가상머신(Oracle Cloud Infrastructure Virtual Machines for Data Science): 하루에 30달러의 금액으로 사전 구성된 GPU 기반의 환경을 제공한다. ciokr@idg.co.kr

X