Offcanvas

AI / 신기술|미래

"머신러닝 번역, 원문보다 어휘 다양성 떨어져"

2021.02.04 박예신  |  CIO KR
머신러닝의 번역본이 원문에 비해 어휘의 다양성이 떨어진다는 연구 결과가 발표됐다. 

미 메릴랜드 대학과 네덜란드 틸버그 대학 연구진은 지난달 30일 제출한 논문에서, 머신러닝의 번역본 속 어휘의 양상과 원문에 양적인 차이가 두드러졌다고 설명했다. 
 
ⓒGetty Images Bank


연구진은 머신러닝의 번역본에 나타난 사용 어휘의 형태, 동의어 사용 양상 등을 9개의 지표를 바탕으로 원문과 비교 분석한 결과 어휘적 다양성이 원문보다 뒤떨어진다고 밝혔다. 

이는 머신러닝과 인간 번역의 지향점이 다르기 때문이라고 연구진은 진단했다. 인간 번역사들은 원어를 일반화, 압축, 요약하는 과정에서 고유한 단어나 표현을 선택하지만, 머신러닝은 일관성과 간결함에 초점을 맞춰 번역하기 때문이라는 설명이다. 

이런 결과는 머신러닝의 여러 아키텍처에서 일관적으로 나타났다. 트랜스포머, 신경기계번역, 장단기 메모리 네트워크, 구문 기반 통계적 기계번역 등 여러 머신러닝 아키텍처에 영어, 프랑스어, 스페인어 원문을 입력해 번역 양상을 살핀 결과라는 게 연구진의 설명이다. 

연구진은 “간결성과 일관성의 측면에서는 번역본의 어휘적 다양성이 줄어드는 것이 바람직할 수 있다”라면서도 “스페인어나 프랑스어처럼 형태론적으로 풍부한 언어를 번역할 때는 문제가 발생할 수 있다”라고 지적했다. 

이어 “오늘날 머신러닝 시스템이 널리 사용되고 있는 상황 속에서, 머신러닝의 번역 알고리즘이 언어에 미칠 수 있는 잠재적 영향력을 주의 깊게 들여다볼 때가 됐다”라고 덧붙였다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.