뷰페이지

[이경우의 언파만파] 인공지능과 말뭉치

[이경우의 언파만파] 인공지능과 말뭉치

이경우 기자
입력 2020-08-30 20:42
업데이트 2020-08-31 02:24
  • 글씨 크기 조절
  • 프린트
  • 공유하기
  • 댓글
    14
이미지 확대
이경우 어문부 전문기자
이경우 어문부 전문기자
2016년 미국 대통령 선거에서 대부분 언론과 전문가들은 힐러리 클린턴의 당선을 예측했다. 많은 이들의 예상을 뒤엎고 도널드 트럼프 현 미국 대통령이 당선됐다. 정확한 예측도 있었는데, 바로 인공지능(AI)이었다. 그즈음 인공지능은 발전을 거듭해 스스로 학습하는 기술을 갖추게 됐다. 알려준 것만 아는 게 아니라 스스로 다른 것들도 익혔다. 이른바 ‘딥러닝’이다. 사람의 뇌가 생각하고 배우는 과정을 모방한 기술이었다. 인공지능 알파고가 이세돌 9단에게 이기는 데도 딥러닝이 있었다.

딥러닝 기술을 장착한 인공지능에 ‘빅데이터’는 활짝 날게 하는 바람이 됐다. 빅데이터는 말 그대로 아주 거대한 양의 데이터다. 사전적 의미로는 기존 데이터베이스로는 수집하거나 저장, 분석 등을 하기가 어려울 만큼 방대한 양의 데이터를 가리킨다. 여기에는 문서나 이메일은 물론 음성, 영상, 이미지, 각종 소셜미디어의 게시물과 댓글까지 포함된다. 구글의 인공지능은 구글과 각종 소셜미디어 등에서 오가는 빅데이터를 이용해 선거 결과를 예측한 것이다.

번역 엔진도 빅데이터를 이용한다. 인공지능에 원문과 번역문을 학습시켜 언어 사이의 번역 규칙들을 파악하게 한다. 이때 질 좋은 언어 데이터가 많아야 정확도가 높아지는 건 당연하다. 뿐만 아니라 챗봇이나 인공지능 비서 등의 효율도 높아지려면 언어 데이터가 많아야 한다. ‘언어 빅데이터’가 있어야 하는 것이다.

언어 빅데이터는 달리 말하면 ‘말뭉치’라고 한다. 우리나라는 1998년부터 10년간 ‘21세기 세종계획’이란 이름으로 말뭉치 구축 사업을 벌였다. 이 기간에 약 2억 어절의 말뭉치를 구축했다. 이 당시에는 세계에서 가장 앞서는 성과였다. 하지만 아쉽게도 이후 10년간 이 사업은 중단됐다. 그사이 미국은 2000억 어절 이상, 중국은 300억 어절, 일본은 150억 어절 정도의 말뭉치를 구축했다.

2018년부터 다시 우리도 5년간 155억 어절을 목표로 말뭉치를 구축하고 있다. 이 결과의 일부가 지난주 공개됐다. 국립국어원이 ‘모두의 말뭉치’(https://corpus.korean.go.kr)에 공개한 자료에는 13종 18억 어절이 들어 있다. 최근 10년간의 신문 기사, 서적 2만 188종이 담겼다. 여기에 음성 대화, 메신저 대화, 방송 자료까지 들어 있다. 컴퓨터의 한국어 이해에 쓰이는 형태와 구문, 의미 등 언어 단위별로 분석한 자료도 1100만 어절이다. 저작권 문제가 모두 해결된 것이어서 누구나 파일을 내려받아 이용할 수 있다. 지속적인 뒷받침과 관리가 필요하다.

어문부 전문기자 wlee@seoul.co.kr
2020-08-31 27면

많이 본 뉴스

국민연금 개혁 당신의 선택은?
국민연금 개혁 논의가 이어지고 있습니다. 국회 연금개혁특별위원회 산하 공론화위원회는 현재의 보험료율(9%), 소득대체율(40%)을 개선하는 2가지 안을 냈는데요. 당신의 생각은?
보험료율 13%, 소득대체율 50%로 각각 인상(소득보장안)
보험료율 12%로 인상, 소득대체율 40%로 유지(재정안정안)
광고삭제
위로