안동환 문화부 차장
주력인 D램은 데이터를 저장하는 메모리 반도체다. D램 매출 비중은 스마트폰이 PC를 앞선 지 오래됐고, 현재 인공지능(AI), 빅데이터, 사물인터넷(IoT) 등 4차산업 분야에서 폭발적 수요를 보인다. 정신이 번쩍 드는 건 D램을 싹쓸이하는 국가가 한국이 아닌 미국과 중국이라는 현실이다. SK그룹 인사의 얘기다.
지난 1월 말 문화체육관광부가 문재인 대통령에게 제출한 50여쪽의 업무보고에는 딱 한 문장으로 기술된 연구개발 계획이 포함됐다. ‘국어거대자료(말뭉치) 구축 사업’, 이 한 줄짜리 보고가 일으킨 파급력은 적지 않다. 국립국어원은 ‘잃어버린 10년’을 반추했고, 한국어 처리 기술 기반의 국내 인공지능 스타트업들은 큰 기대를 품고 있다.
국어거대자료로 불리는 ‘말뭉치’(Corpus)는 컴퓨터가 우리 언어를 이해할 수 있게 전산화한 말과 글의 집합체다. 신문·잡지 기사, 소설부터 SNS에 쓴 글 같은 웹 말뭉치까지 전부 활용 가능한 언어 자원이다.
아마존이 글로벌 AI 스피커 시장점유율 1위가 된 건 ‘알렉사’라는 뛰어난 자연어(영어) 처리 기술과 미국 ‘ANC’가 1990년부터 구축해 온 2000억 단어 이상의 방대한 ‘영어 말뭉치’의 존재 때문이다. 인공지능은 학습된 말뭉치 양이 많을수록 똑똑해진다. 말뭉치가 ‘인공지능의 씨앗’으로 불리는 이유다.
우리도 일찌감치 국가 말뭉치 구축 프로젝트에 나섰다. 1998년부터 150억원을 투입해 국립국어원이 진행했던 ‘21세기 세종계획’이 그것이다. 예산 지원이 중단된 2007년까지 2억 어절을 구축했다. 당시 일본 정부가 우리 연구자들을 초청해 말뭉치 구축 방안을 청취할 정도로 한국은 아시아에서 선두 주자였다.
세종계획 중단 후 한국어 말뭉치 규모는 정체됐지만 중국, 일본은 지속적인 투자로 각각 100억 단어가 넘는 대규모 언어 자원을 확보했다(김한샘 연세대 언어정보연구원 교수의 ‘말뭉치 구축의 세계 동향과 한국어 말뭉치’). 그 ‘잃어버린 10년’이 AI 대전환기를 맞는 현재 한국어 인공지능의 ‘치명적 공백기’로 평가된다.
국립국어원이 10년 만에 말뭉치 구축 사업을 되살려 냈지만 확정된 예산은 올해 11억원에 불과하다. 대통령에게 보고한 구축 목표는 5년간 현대어 154억 7000만 어절이다. 말뭉치 구축이 재가동된 건 고무적이지만 올해 예산으로 구축 가능한 분량은 3100만 어절이다. 이 예산과 속도로 앞질러 간 국가들을 따라잡긴 벅차다.
말뭉치 구축은 기초 연구다. 그 자체로는 상업적 가치가 크지 않고, 초기 구축 비용이 커 대학과 민간 기업에 의존하기엔 한계가 있다. 국가 말뭉치 구축을 지속적으로 확대 발전시켜야 할 이유다. 정부가 지난해부터 ‘한국형 알파고’ 개발을 부르짖으며 5년간 1조원 예산 투입을 운운하지만 말뭉치 데이터가 빈약하면 한국어 인공지능은 그리 똑똑하지 않을 게다.
우리 집도 AI 스피커를 쓴 지 1년이 흘렀다. 출시 초기보다 기능이 추가되고 업그레이드됐다. 하지만 명령을 엉뚱하게 알아듣거나 씹는 등 ‘말귀’는 어둡다. “레베카 ‘상어가족’ 틀어줘”라고 외치는 7살 딸은 종종 으름장을 놓는다. “너 말 안 들으면 갖다 버릴 거야!”
ipsofacto@seoul.co.kr
2018-04-20 30면