지능형 데이터 전문 기업 (주)누리아이디티(대표 배성진)는 5월 15일 인공지능(AI) 모델을 기반으로 크고 복잡한 대형 고문서의 텍스트를 자동 인식하는 ‘대형 문서 OCR’과 ‘영역 인식 OCR’ 2종의 프로그램을 신규 출시했다고 발표했다.
‘대형 문서 OCR’은 두루마리 문서처럼 길이가 길거나 크기가 큰 대형 고문서의 수록 문자를 한 번에 자동 인식하여 텍스트를 출력해 주는 프로그램이다. 이러한 대형 문서들은 수작업으로 일일이 입력하거나 부분을 나눠서 촬영한 이미지들을 OCR 하고 합치는 방식으로 디지털 텍스트를 확보해 왔는데, 이러한 번거로운 과정을 단번에 해소할 수 있게 되었다.
이미지 확대
두루마리 형태의 대형 고문서의 800여 글자를 ‘대형 문서 OCR’ 프로그램으로 한 번에 자동인식한 화면
닫기이미지 확대 보기
두루마리 형태의 대형 고문서의 800여 글자를 ‘대형 문서 OCR’ 프로그램으로 한 번에 자동인식한 화면
‘영역 인식 OCR’은 다단 구조 등 구성이 복잡하고 서체도 다양하게 쓰인 문서를 이미지 입력 화면에서 영역을 분할해 문자를 인식하는 프로그램이다. 그러한 문서에 대해 사용자는 필용한 부분만 또는 문서 전체의 텍스트를 효과적으로 추출할 수 있다.
누리IDT가 기존에 서비스 중인 ‘고문헌 AI 시스템’의 사용자들로부터 절대적인 요청을 받고 1년 동안 개발해 추가 서비스하게 된 이 두 종의 새로운 OCR 프로그램으로 그간 크기와 복잡성 때문에 유보되고 있던 대형 고문서 원문의 디지털 텍스트 전환이 급속히 앞당겨지게 되었다.
이와 함께 누리IDT는 고문헌 한문을 현대 한국어로 옮겨 주는 ‘고문헌 자동 번역’ AI 모델도 개발해 공개했다. 이 인공지능(AI) 모델은 전통 고문헌의 옛 한문을 텍스트로 입력하면 원문 1,000자까지 1초 이내에 한글로 자동 번역해 준다. 이 자동 번역 프로그램을 이용하면 대부분 원문 형태에 머물러 있는 수많은 고문헌 콘텐츠를 한문을 모르는 일반인도 손쉽게 이해하고 활용할 수가 있다.
그 동안 누리IDT는 고문헌 원문을 자동 인식한 후 자동 번역에 이르는 자동 처리 시스템 구축을 목표로 관련 솔루션을 개발해 왔다. 이번에 ‘대형 문서 OCR’, ‘영역 인식 OCR’과 ‘고문헌 자동 번역’ 모델을 신규 서비스하면서 누리IDT의 배성진 대표는 “2년 전 ‘고문헌 한자 OCR’을 처음 출시한 이후 마침내 고문헌 토털 솔루션의 최종 단계에 도달하게 되었다. 이번에 새롭게 공개하는 신종 서비스가 고문헌 콘텐츠의 활용에 적극 사용되기를 바란다. 앞으로도 당사는 출시 서비스의 성능 향상에 노력하는 한편으로, 휴대폰으로 고문헌 원문을 사진 찍고 그 자리에서 번역 결과까지 확인할 수 있는 원스톱 서비스 개발을 목표로 하겠다.”고 포부를 밝혔다.
대형 문서를 포함한 고문헌 OCR에서 자동 표점, 자동 번역을 망라한 누리 IDT의 고문헌 토털 서비스는 ‘누리IDT 고문헌 AI 시스템’ 웹페이지에서 간단한 회원 가입을 거쳐 누구나 사용해 볼 수 있다.
온라인뉴스팀
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지
결혼시즌을 맞이해 여기저기서 결혼소식이 들려온다. 그런데 축의금 봉투에 넣는 금액이 항상 고민이다. 최근 한 여론조사에 의하면 직장동료의 축의금으로 10만원이 가장 적절하다는 의견이 가장 높았다. 그러면 교류가 많지 않고 친하지 않은 직장동료에게 여러분은 얼마를 부조할 것인가요?