전체전체메뉴닫기

서울신문
공식 SNS 채널
구독 & 좋아요!!

서울신문 페이스북서울신문 유튜브
서울신문 카카오스토리서울신문 인스타그램서울신문 트위터서울신문 네이버채널

광고안보이기
전체메뉴 열기/닫기검색
서울신문 ci
암호화폐 범죄를 쫓다

[이경우의 언파만파] 인공지능과 말뭉치

페이스북 공유 트위터 공유 카카오톡 공유 카카오스토리 공유 네이버밴드 공유 네이버블로그 공유 구분선 댓글
입력 :ㅣ 수정 : 2020-08-31 02:24 이경우의 언파만파 섹션 목록 확대 축소 인쇄
이경우 어문부 전문기자
클릭하시면 원본 보기가 가능합니다.

▲ 이경우 어문부 전문기자

2016년 미국 대통령 선거에서 대부분 언론과 전문가들은 힐러리 클린턴의 당선을 예측했다. 많은 이들의 예상을 뒤엎고 도널드 트럼프 현 미국 대통령이 당선됐다. 정확한 예측도 있었는데, 바로 인공지능(AI)이었다. 그즈음 인공지능은 발전을 거듭해 스스로 학습하는 기술을 갖추게 됐다. 알려준 것만 아는 게 아니라 스스로 다른 것들도 익혔다. 이른바 ‘딥러닝’이다. 사람의 뇌가 생각하고 배우는 과정을 모방한 기술이었다. 인공지능 알파고가 이세돌 9단에게 이기는 데도 딥러닝이 있었다.

딥러닝 기술을 장착한 인공지능에 ‘빅데이터’는 활짝 날게 하는 바람이 됐다. 빅데이터는 말 그대로 아주 거대한 양의 데이터다. 사전적 의미로는 기존 데이터베이스로는 수집하거나 저장, 분석 등을 하기가 어려울 만큼 방대한 양의 데이터를 가리킨다. 여기에는 문서나 이메일은 물론 음성, 영상, 이미지, 각종 소셜미디어의 게시물과 댓글까지 포함된다. 구글의 인공지능은 구글과 각종 소셜미디어 등에서 오가는 빅데이터를 이용해 선거 결과를 예측한 것이다.

번역 엔진도 빅데이터를 이용한다. 인공지능에 원문과 번역문을 학습시켜 언어 사이의 번역 규칙들을 파악하게 한다. 이때 질 좋은 언어 데이터가 많아야 정확도가 높아지는 건 당연하다. 뿐만 아니라 챗봇이나 인공지능 비서 등의 효율도 높아지려면 언어 데이터가 많아야 한다. ‘언어 빅데이터’가 있어야 하는 것이다.

언어 빅데이터는 달리 말하면 ‘말뭉치’라고 한다. 우리나라는 1998년부터 10년간 ‘21세기 세종계획’이란 이름으로 말뭉치 구축 사업을 벌였다. 이 기간에 약 2억 어절의 말뭉치를 구축했다. 이 당시에는 세계에서 가장 앞서는 성과였다. 하지만 아쉽게도 이후 10년간 이 사업은 중단됐다. 그사이 미국은 2000억 어절 이상, 중국은 300억 어절, 일본은 150억 어절 정도의 말뭉치를 구축했다.

2018년부터 다시 우리도 5년간 155억 어절을 목표로 말뭉치를 구축하고 있다. 이 결과의 일부가 지난주 공개됐다. 국립국어원이 ‘모두의 말뭉치’(https://corpus.korean.go.kr)에 공개한 자료에는 13종 18억 어절이 들어 있다. 최근 10년간의 신문 기사, 서적 2만 188종이 담겼다. 여기에 음성 대화, 메신저 대화, 방송 자료까지 들어 있다. 컴퓨터의 한국어 이해에 쓰이는 형태와 구문, 의미 등 언어 단위별로 분석한 자료도 1100만 어절이다. 저작권 문제가 모두 해결된 것이어서 누구나 파일을 내려받아 이용할 수 있다. 지속적인 뒷받침과 관리가 필요하다.

어문부 전문기자 wlee@seoul.co.kr
2020-08-31 27면
페이스북 공유 트위터 공유 카카오톡 공유 카카오스토리 공유 네이버밴드 공유 네이버블로그 공유 구분선 댓글

서울신문 공식 SNS 채널
구독 & 좋아요!!
서울신문 페이스북서울신문 유튜브서울신문 카카오스토리서울신문 인스타그램서울신문 트위터
  • 주소 : 서울시 중구 세종대로 124 (태평로1가) l 인터넷신문등록번호 : 서울 아03681 등록일자 : 2015.04.20 l 발행·편집인 : 고광헌
  • Copyright ⓒ 서울신문사 All rights reserved. l Tel (02)2000-9000