Offcanvas

개발자 / 머신러닝|딥러닝

MS, ‘ML닷넷 2.0’ 출시··· “텍스트 분류 개선”

2022.11.24 Paul Krill  |  InfoWorld
마이크로소프트가 닷넷용 오픈소스 크로스-플랫폼 머신러닝 프레임워크의 새 버전 ‘ML닷넷 2.0(ML.NET 2.0)’을 출시했다. 텍스트 분류를 위한 모델 빌드가 개선되고, 문장 유사성 API가 도입됐으며, 더 많은 오토ML(AutoML) 기능이 추가됐다. 
 

아울러 ML닷넷 2.0와 함께 닷넷 애플리케이션용 머신러닝 모델을 빌드하기 위한 시각적 개발자 도구 ‘ML닷넷 모델 빌더(MLNET Model Builder)’도 공개됐다. 해당 모델 빌더는 ML닷넷 텍스트 분류 API(ML.NET Text Classification API)를 기반으로 하는 텍스트 분류 시나리오를 제공한다. 

개발팀에 따르면 지난 6월 프리뷰로 릴리즈됐던 텍스트 분류 API를 통해 개발자는 원시 텍스트 데이터를 분류하도록 사용자 정의 모델을 학습시킬 수 있다. 텍스트 분류 API는 오픈소스 ML닷넷 머신러닝 프레임워크를 기반으로 사용자 정의 텍스트 분류 모델의 학습을 간소화하는 API다. 

텍스트 분류 API는 마이크로소프트 리서치(Microsoft Research)의 사전 학습된 TorchSharp NAS-BERT 모델과 개발자의 자체 데이터를 활용하여 모델을 미세 조정한다. 모델 빌더 시나리오는 CPU 또는 CUDA 호환 CPU에서 로컬 학습을 지원한다. 

이 밖에 ML닷넷 2.0의 새로운 기능 및 개선 사항은 다음과 같다. 
 
• 사전 구성된 자동화 머신러닝 파이프라인을 쓰는 이진 분류, 멀티클래스 분류, 회귀 모델을 통해 머신러닝을 더욱더 쉽게 시작할 수 있다. 

• 오토ML 피처라이저(AutoML Featurizer)를 사용하여 데이터 전처리를 자동화할 수 있다. 

• 개발자는 학습 과정의 일부로 쓸 트레이너를 선택할 수 있다. 또 최적의 하이퍼파라미터를 찾는 데 사용되는 튜닝 알고리즘을 선택할 수 있다. 

• 트레이너를 선택하고 최적화할 평가 지표를 선택할 수 있는 고급 오토ML 학습 옵션이 제공된다.
 
• 동일한 기본 TorchSharp NAS-BERT 모델을 사용하는 문장 유사성 API(Sentence Similarity API)는 2개 구문의 유사성을 나타내는 숫자 값을 계산한다. 

이어 개발팀은 향후 딥러닝 커버리지 확장, 고전적인 머신러닝 작업(예: 회귀 및 분류 등)에 라이트BGM(LightBGM) 프레임워크 사용 확대 등을 계획 중이라고 밝혔다. 또한 오토ML API를 개선하여 새로운 시나리오와 사용자 정의를 지원하고, 머신러닝 워크플로우를 단순화할 예정이라고 덧붙였다. ciokr@idg.co.kr
 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.