◎시스템공학연 박종규연구원팀 개발/키보드 사용않고 스캐너로 입력/그림·도표따로 처리… 편집도 가능/신문사 데이터베이스·전자신문에 활용 기대
신문기사의 내용을 컴퓨터가 읽고 이를 즉시 문자코드로 바꿔 저장할수 있는 「신문자동인식시스템」이 국내에서는 처음으로 개발됐다.
한국과학기술연구원부설 시스템공학연구소 박진규·유인철연구원팀이 과학기술처 특정연구개발과제로 3년간의 연구끝에 개발한 이 「신문자동인식시스템」은 신문기사 내용을 일일이 키보드로 쳐 넣지않아도 컴퓨터가 빠른시간안에 방대한 양의 정보를 정확하게 입력처리해 앞으로 PC와 팩시밀리를 연결한 PC/FAX,신문기사 데이터베이스 구축및 전자신문서비스등에 널리 활용될수있을 것으로 보인다.
종전까지 각종 데이터베이스의 신문기사정보 입력방법은 키보드에 의한 문자입력방법과 스캐너라는 영상인식기기에 의한 이미지 형태의 저장법등 두가지가 있었다.그러나 키보드 입력법은 일일이 손으로 글자를 치는데 많은 인력과 시간을 요하고 그림과 같은 자료는 입력할수없어 효율성이 떨어지는 단점이 있었다.또 스캐너에 의한 이미지 저장법은 비교적 빠른 속도로 그림이나 사진을 포함한 자료까지도 입력할수있으나 방대한 양의 메모리(기억용량)가 필요하고 편집이나 정보검색은 할수가 없는 어려움을 안고 있었다.
하지만 이번에 개발된 「신문자동인식시스템」은 일단 스캐너를 사용하기는 하되 신문기사내용중 문자영역과 그림이나 도표영역을 분리,문자영역은 문자코드로 바꿔 저장케하고 이미지영역은 이미지형태 그대로 저장케 해줌으로써 처리시간도 단축하고 편집·통신까지도 가능한 특색을 갖고 있다.
「신문자동인식시스템」의 구성을보면 인치당 3백개의 점이 찍히는(3백DPI) 해상도를 가진 스캐너와 3백86PC,C언어로 구현되는 소프트웨어로 구성돼 있다.시스템의 흐름은 ▲먼저 신문을 스캐너를 통해 입력시키고 ▲문자열 영역과 비문자열 영역을 분리시키는 문서구조 해석과정을 거친다음 ▲문자를 한자 한자 추출해내고 이를 다섯가지 한글유형과 영어 숫자 부호등 비한글 유형으로 분류하며 ▲한글은 자소를 분리한후 자소별로 인식하고 비한글은 문자별로 인식하는 과정을 거친다.
연구팀은 이같은 시스템을 실제로 신문(가로쓰기)은 물론 가로쓰기를 채택한 잡지·논문·서적등에 적용해본결과 A4용지 크기의 문서를 35초에서 1백초내에 처리할수있었으며 문자인식률도 초당 4∼5자의 인식속도로 한글의 경우 97∼98%,비한글의 경우 초당 15자정도의 인식속도로 98∼99%의 인식률을 얻었다고 밝혔다.또 기억용량도 일반적인 이미지형태 저장으로 1메가바이트이상을 차지하던것을 몇백 바이트수준으로 줄일수있었다는것.
연구팀은 이번 연구결과로 다중 글자체,다중 크기의 한글 영자 숫자 부호혼용문서를 자동인식할수있는 전처리 알고리즘및 인식대상문자의 유형별분류,한글자소분리,문자인식 기술등이 확보됐다고 보고 이의 제품화를 추진할 계획이다.이에는 물론 처리속도 단축을 위한 하드웨어처리,1백%완벽하지는 못한 문자인식률의 보완등 제품화기술이 뒤따라야한다.
이와관련,박진규씨는 『신문은 글자끼리 서로 붙어있거나 뒷면의 인쇄자국이 반대편에 나타나는등 노이즈가 많아 다른 문서보다 인식기술개발이 훨씬 어렵다』면서 『하지만 현재 여러가지 잡음제거기술과 전자사전 개발에 의한 후처리기술이 활발히 개발되고 있으므로 조만간 인식률을 한층 높인 제품을 개발할수 있을것』이라고 밝혔다.<신연숙기자>
신문기사의 내용을 컴퓨터가 읽고 이를 즉시 문자코드로 바꿔 저장할수 있는 「신문자동인식시스템」이 국내에서는 처음으로 개발됐다.
한국과학기술연구원부설 시스템공학연구소 박진규·유인철연구원팀이 과학기술처 특정연구개발과제로 3년간의 연구끝에 개발한 이 「신문자동인식시스템」은 신문기사 내용을 일일이 키보드로 쳐 넣지않아도 컴퓨터가 빠른시간안에 방대한 양의 정보를 정확하게 입력처리해 앞으로 PC와 팩시밀리를 연결한 PC/FAX,신문기사 데이터베이스 구축및 전자신문서비스등에 널리 활용될수있을 것으로 보인다.
종전까지 각종 데이터베이스의 신문기사정보 입력방법은 키보드에 의한 문자입력방법과 스캐너라는 영상인식기기에 의한 이미지 형태의 저장법등 두가지가 있었다.그러나 키보드 입력법은 일일이 손으로 글자를 치는데 많은 인력과 시간을 요하고 그림과 같은 자료는 입력할수없어 효율성이 떨어지는 단점이 있었다.또 스캐너에 의한 이미지 저장법은 비교적 빠른 속도로 그림이나 사진을 포함한 자료까지도 입력할수있으나 방대한 양의 메모리(기억용량)가 필요하고 편집이나 정보검색은 할수가 없는 어려움을 안고 있었다.
하지만 이번에 개발된 「신문자동인식시스템」은 일단 스캐너를 사용하기는 하되 신문기사내용중 문자영역과 그림이나 도표영역을 분리,문자영역은 문자코드로 바꿔 저장케하고 이미지영역은 이미지형태 그대로 저장케 해줌으로써 처리시간도 단축하고 편집·통신까지도 가능한 특색을 갖고 있다.
「신문자동인식시스템」의 구성을보면 인치당 3백개의 점이 찍히는(3백DPI) 해상도를 가진 스캐너와 3백86PC,C언어로 구현되는 소프트웨어로 구성돼 있다.시스템의 흐름은 ▲먼저 신문을 스캐너를 통해 입력시키고 ▲문자열 영역과 비문자열 영역을 분리시키는 문서구조 해석과정을 거친다음 ▲문자를 한자 한자 추출해내고 이를 다섯가지 한글유형과 영어 숫자 부호등 비한글 유형으로 분류하며 ▲한글은 자소를 분리한후 자소별로 인식하고 비한글은 문자별로 인식하는 과정을 거친다.
연구팀은 이같은 시스템을 실제로 신문(가로쓰기)은 물론 가로쓰기를 채택한 잡지·논문·서적등에 적용해본결과 A4용지 크기의 문서를 35초에서 1백초내에 처리할수있었으며 문자인식률도 초당 4∼5자의 인식속도로 한글의 경우 97∼98%,비한글의 경우 초당 15자정도의 인식속도로 98∼99%의 인식률을 얻었다고 밝혔다.또 기억용량도 일반적인 이미지형태 저장으로 1메가바이트이상을 차지하던것을 몇백 바이트수준으로 줄일수있었다는것.
연구팀은 이번 연구결과로 다중 글자체,다중 크기의 한글 영자 숫자 부호혼용문서를 자동인식할수있는 전처리 알고리즘및 인식대상문자의 유형별분류,한글자소분리,문자인식 기술등이 확보됐다고 보고 이의 제품화를 추진할 계획이다.이에는 물론 처리속도 단축을 위한 하드웨어처리,1백%완벽하지는 못한 문자인식률의 보완등 제품화기술이 뒤따라야한다.
이와관련,박진규씨는 『신문은 글자끼리 서로 붙어있거나 뒷면의 인쇄자국이 반대편에 나타나는등 노이즈가 많아 다른 문서보다 인식기술개발이 훨씬 어렵다』면서 『하지만 현재 여러가지 잡음제거기술과 전자사전 개발에 의한 후처리기술이 활발히 개발되고 있으므로 조만간 인식률을 한층 높인 제품을 개발할수 있을것』이라고 밝혔다.<신연숙기자>
1992-09-08 11면
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지



![thumbnail - “서방님이 두 명?”…명절마다 되풀이되는 ‘호칭 전쟁’ [돋보기]](https://img.seoul.co.kr/img/upload/2026/02/16/SSC_20260216151017_N2.png.webp)






















