Offcanvas

AI / 애플리케이션

이파피루스, AI OCR ‘텍스트센스 2.0’ 출시… "표 문서 인식 기능 대폭 강화"

2022.10.04 편집부  |  CIO KR
이파피루스(https://epapyrus.com)가 표 문서 인식 기능을 대폭 강화한 인공지능 문자인식(AI OCR) 솔루션 ‘텍스트센스 2.0(TextSense 2.0)’을 출시했다고 4일 밝혔다.
 

설명에 따르면 ‘텍스트센스’는 흐리거나 오염·손상된 문서도 정확하게 읽어내는 솔루션이다. 이번 업그레이드의 핵심은 ‘표 인식 기능’으로, 인식 대상 문서 내에 있는 표를 자동으로 찾아 텍스트 데이터로 추출한다. 표 구조와 내용 그대로 엑셀 파일(.xlsx)로 다운로드할 수도 있다.

이파피루스 최고운영책임자(COO) 김정아 부사장은 “기존 OCR은 표 안에 있는 구조에 대한 정보 없이 텍스트만 인식하는 것이 고작이었고, 표에 병합된 셀이 하나라도 들어 있으면 텍스트 순서가 흐트러져 사람이 일일이 후처리를 해야 했다”며, “‘텍스트센스 2.0’은 표의 행과 열 순서 파악은 물론, 병합된 셀 구조까지 분석해 원본 표 형태 그대로 정확하게 읽어내므로 이러한 후작업을 대폭 줄여준다”라고 말했다.

원하는 데이터만 빠르게 뽑아낼 수 있는 ‘키워드 검출 기능’도 추가됐다. 일반 줄글 문서 속에서 특정 키워드를 포함한 줄을 모두 찾아 주거나, 표 안에서 원하는 단어가 있는 행 또는 열만 찾아내 준다. 예를 들어 인적 사항을 수집한 표에서 ‘010-’으로 시작하는 전화번호가 있는 열만 찾아 데이터로 추출할 수 있다. 

문서 내에서 가로, 세로 위치를 지정해 해당 위치에 있는 텍스트만 읽어내는 것도 가능하다. 사업자등록증, 통장사본 등 일정 양식을 가지고 있는 문서에서 사업자등록번호, 예금주 등 특정 정보만 필요로 할 때 특히 유용한 기능이다. 전체 문서를 OCR하는 기존 방식보다 시간 또한 대폭 줄일 수 있다고 업체 측은 설명했다. 

‘텍스트센스 2.0’은 이파피루스 데모 페이지(https://demo.epapyrus.com/textsense)에서 체험할 수 있다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.