Offcanvas

AI / 로봇|자동화 / 머신러닝|딥러닝

'DeepL이 할 수 있는 것' 전성기 맞은 기계번역의 가능성과 한계

2023.04.12 Andrea Modersohn, Jasmin Nesbigall  |  COMPUTERWOCHE
기계 번역(Machine Translation)이 신기술은 아니다. 이미 1960년대부터 논의되어 온 주제이다. 초기에는 주로 연구 분야에서 다루어지다가 구글 번역이 등장해 종종 의도치 않게 재미있는 결과를 만들어 내면서 미디어에서도 관심을 두게 됐다. 그리고 2016년에 신경망 기계 번역을 적용할 수 있는 획기적인 발전이 이루어졌고, 대상 언어와 서비스 등 여러 요소가 빠르게 발전했다.
 
ⓒ Getty Images Bank

오늘날 기계 번역은 개인 생활과 비즈니스 활동 모두에 없어서는 안 될 부분이 됐다. 사용자는 무료로 제공되는 기계 번역 시스템에 어떤 텍스트라도, 심지어 오피스 파일 형식을 입력하고 몇 초 안에 결과를 받을 수 있다. 기계 번역은 국제적인 프로세스를 간소화하고 콘텐츠를 전 세계에 빠르게 배포하기 위해 다양한 비즈니스 시스템에 통합되고 있다. 또한 점점 더 많은 기업이 신속한 정보 검색을 위해 사내 인트라넷에 관련 툴을 연결하는 등 기계 번역 솔루션을 활용하고 있다.
 

기계 번역의 함정

"영어라면, DeepL이면 충분합니다. 다시 읽어보면 맞을 것입니다." 이 광고 문구를 본 적이 있을 것이다. 시간과 비용을 고려해야 하는 기업은 이제 공식적인 업무 커뮤니케이션에도 이런 번역 툴을 사용한다. 하지만 현재까지 프레젠테이션과 문서, 기술이나 제품 관련 텍스트를 오류 없이 일관성 있게 번역하는 데 성공한 기계 번역 시스템은 아직 없다는 것을 잊지 말아야 한다.

따라서 이들 툴을 도구를 사용하는 데는 몇 가지 위험이 따른다. 많은 사용자가 잘 알고 있는 영어도 마찬가지지만, 특히 모르는 언어, 즉 확인할 수 없는 언어로 작성된 텍스트에는 더욱 위험하다. 심각한 오역이 발생할 수 있으며, 최악의 경우 회사 이미지가 손상될 수 있다. 애플리케이션과 프로덕션에서 발생하는 오류의 확실한 원인이 되기도 한다. DeepL이 제공하는 흥미로운 가능성 때문에 사용자가 이런 오류를 알지 못할 때가 많다. 기계 번역의 주요 함정은 다음과 같다.
 
  • 작고, 때로는 미묘한 실수. 생략된 부정사나 잘못된 참조, 번역되지 않거나 판타지 용어로 전달되는 알 수 없는 단어. 이런 실수는 흔히 바로 드러나지 않지만, 문맥과 의미가 달라지게 만든다.
 
  • 때때로 문장의 일부가 생략되거나 텍스트가 마음대로 추가되는데, 특히 완전히 생소한 외국어에서는 눈에 띄지 않는 경우가 있다.
 
  • 원본의 텍스트에서는 바로 알아볼 수 없는 강제 줄바꿈. 하지만 기계 번역 시스템에서는 문맥이 바뀐다. 기계 번역 시스템은 텍스트의 각 부분을 의미 있는 방식으로 번역하려고 시도한다.
 
  • 데이터 보호 규칙의 의도치 않은 무시. 사용자는 무료로 제공되는 기계 번역 시스템에 모든 것을 무심코 입력한다. 하지만 이렇게 입력된 텍스트는 재교육과 학습에 사용될 수 있도록 저장된다. 구내식당의 메뉴에 관한 것이라면 문제가 되지 않겠지만, 내부 정보, 연구 결과, 특허 출원 등의 경우에는 심각해질 수 있다. 
 
  • 기업에 특화된 정확한 번역을 위해서는 적절하게 훈련된 시스템이 필요하다. 이를 위해서는 많은 양의 깨끗한 학습 자료와 노력이 필요하며, 비용 대비 편익의 비율이 적절해야 한다. 무료로 제공되는 기계 번역은 빠르고 저렴하게 결과를 얻을 수 있지만, 회사의 특성이나 개별적인 스타일 사양을 반영할 수는 없다.
 
  • 텍스트에 특정 기술 용어가 많이 포함될수록 일반 기계 번역 시스템에는 적합하지 않다. 물론, 일부 시스템에서는 용어집 형태로 용어 명세를 구현할 수 있지만, 용어를 준비해야 하고, 무엇보다도 처음부터 구체적인 명세가 필요하다. 대부분 시스템은 단순히 "학습된 대로" 번역하기 때문에 기업의 기대에 부응하지 못할 수도 있다.
 
  • 재현성 부족. 무료 기계 번역 시스템은 지속적으로 학습하기 때문에 오늘과 내일의 번역이 다르다. 따라서 6개월 후 개정으로 인해 다시 번역이 필요할 때 기업의 문서가 다르게 출력될 수 있다.
 
  • 언어별 차이. 기계 번역 시스템은 일부 언어에 대해서는 좋은 결과를 제공하지만, 어떤 언어에는 거의 사용할 수 없다. 학습 말뭉치의 크기(사용 가능한 학습 데이터의 양)와 언어의 복잡성에 따라 기계 번역 솔루션 업체마다 다른 결과를 생성할 수 있다.
 
  • 기계 번역은 원본 텍스트에 모호한 부분이 있으면, 입력 텍스트에 대해 통계적으로 가장 가능성이 높은 번역을 제공한다. 즉, 추측한다. 영어로 성 중립적인 단어인 Teacher의 경우, 독일어 번역을 위해서는 남성형 Lehrer와 여성형 Lehrerin을 구분해야 한다. 초등학교라면 Lehrerin로, 중고등학교는 Lehrer를 선택하는 것이 보통인데, 이런 식의 성 편향이나 전통적인 역할 모델, 차별은 다양성과 개방성을 중시하는 기업에서는 상당한 문제 요소가 된다.
 

주요 기계 번역 솔루션의 특징

애플리케이션과 기능을 비교하면 장르를 정의하는 기계 번역 시스템이 몇 가지 있는데, 무엇보다도 게임 체인저인 DeepL가 가장 먼저 떠오른다. DeepL은 다른 어떤 기계 번역 시스템과도 달리 시장을 뒤집어 놓았으며, 비교 평가 대부분에서 1위를 차지했다. DeepL은 빠르게 학습하며 기본 버전을 무료로 사용할 수 있다. 현재 2개의 영어와 2개의 포르투갈어(각각 영국과 미국, 포르투갈과 브라질용)를 포함하여 29개 언어를 지원하며, 유럽에 서버를 둔 독일 업체이다. 데이터 보안은 유료 구독 방식인 프로 버전에서만 보장된다.

시스트랜(Systran)은 40년 동안 지속적으로 발전해 온 솔루션으로, '전문가를 위한 번역 툴'로 자리매김하고 있다. 시스트랜은 중계 언어인 영어를 제외한 다양한 언어를 지원하며, 사용자는 개별적으로 학습을 시키거나 특정 주제 텍스트로 학습된 영역 특화 기계 번역을 이용할 수 있다. 시스트랜과 비슷한 솔루션으로는 칸탄MT, 글로벌리즈, 텍스트셔틀, 틸드 등이 있다. 

기존 번역 업계에서 등장한 기계 번역 시스템도 있다. 이들 시스템은 주요 CAT(Computer-Aided Translation) 툴에 직접 통합해 전 세계의 번역가가 바로 사용할 수 있는 것이 특징이다. 하지만, 기계 번역이 백그라운드에서 은밀하게 실행되면서도 전통적인 번역으로 분류되어 판매될 수 있다는 위험이 있다.
 

성공적인 기계 번역을 위한 조건

기계 번역은 언어 서비스 업체에도 도입되었는데, 특히 대량의 텍스트를 빠르고 저렴하게 번역할 때 유용하다. 기계 번역이 제 역할을 성공적으로 수행하는 데는 다음의 세 가지 결정적인 요소가 작용한다.

기계 번역 + 사후 편집. 사람의 번역에 필적하는 결과를 얻으려면 숙련된 사후 편집자가 필요하다. 주로 기계 사전 번역을 확인하고 체계적으로 사후 편집하는 원어민 번역가와 언어학자를 말한다. 이들은 문맥에 익숙해야 하며 시간 및 비용 측면을 염두에 둬야 한다. 텍스트 유형과 언어에 따라 수정해야 할 부분이 달라지기 때문이다. 경험에 따르면 최소 25%, 보통은 입력된 결과물의 최대 3분의 2까지 조정하거나 수정하는 것으로 나타났다. 비전문가에게는 좋아 보이는 텍스트라도 상당한 사후 편집 작업이 필요하다.

용어 관리. 학습된 알고리즘과 달리 일반적으로 사용 가능한 기계 번역은 기업이 사용하는 용어를 전혀 알지 못한다. 따라서 학습한 어휘와 문맥에 따라 문장마다 일관되지 않은 텍스트를 출력한다. 고객, 비즈니스 파트너 및 동료와의 일관되고 정확한 커뮤니케이션을 위해서는 기업의 특정 언어를 매핑하고 명확한 지침을 제공하는 용어 데이터베이스 형태의 상위 인스턴스가 필요하다.

번역 메모리. 텍스트가 이미 번역됐거나 유사한 번역이 있는 경우, 다시 번역할 필요 없이 문맥을 확인하고 수정하기만 하면 된다. 번역은 번역 메모리 시스템(Translation Memory Systems, TMS)에 저장되며 새로운 텍스트와 비교된다. 단어가 세 개만 다른 비슷한 문장도 TMS에서 가져와서 수정할 수 있다. 오래된 브로셔와 같은 기존 텍스트가 완전히 다르게 보이지 않도록 하려면 모든 텍스트 구절에 대해 번역 메모리와 기계 번역 시스템에 대한 쿼리 간의 생산적인 상호 작용이 필요하다.

기계 번역을 전문적으로 사용하기 위해서는 이 세 가지 요소를 모두 사용하는 것이 이상적이며, 특히 서로 시너지 효과를 낼 수 있다. 하지만 이런 발전에도 불구하고 인간 번역가는 여전히 필요하다. 현재까지 오류가 없는 기계 번역 시스템은 없으며, 출판 편집자는 여전히 중요한 역할을 담당하고 있다. 비즈니스 환경에서 좋은 번역을 위해서는 언어뿐만 아니라 기술적, 경제적 노하우도 필요하다.

이런 발전은 전문 번역가에게는 의미심장한 변화가 아닐 수 없다. 이제 기계 번역 시스템은 번역가에게 경쟁과 위험이 아니라 생산성 향상 요소이자 새로운 활동 분야로 인식되어야 한다. 또한 무료 시스템은 전문적인 커뮤니케이션에서 금방 한계를 드러낼 것이다. 기업은 숙련된 기계 번역 솔루션과 언어 서비스 제공업체를 이용해야 한다. 비즈니스 커뮤니케이션에서는 엉뚱한 곳에서 비용을 절감해서는 안 되며 언어 혼동과 불일치, 오해 및 심각한 애플리케이션 오류를 방지해야 한다. 의심스러운 번역은 몇 배의 비용으로 돌아올 수 있기 때문이다.
editor@itworld.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.