서울신문의 창간 배경은 무엇인가요?

서울신문은 1904년 7월 18일에 창간된 구한말의 대표적 민족지 대한매일신보가 기원으로, 한국에서 현재 발행되고 있는 신문 중에서는 가장 오랜 역사를 자랑합니다.

서울신문 신춘문예 당선자에는 누가 있나요?

서울신문은 소설가 - 한강·편혜영·임철우·하성란, 시인 - 나태주·이근배·박세미, 문학평론가 하응백·유성호 등 걸출한 인물들을 배출했습니다.

서울신문 구독 신청은 어디에서 할 수 있나요?

https://company.seoul.co.kr/readers/readers.php에서 온라인 신청이 가능하며, 전화문의(080-233-4967)도 가능합니다.

서울신문의 주요 행사는 어떤 것이 있나요?

매년 진행하는 대표적인 행사로는 ‘봄날음악회’, ‘서울신문 하프마라톤’, ‘마약퇴치기원걷기대회’ 등이 있습니다.

서울신문의 위치는 어디인가요?

본사는 ‘서울특별시 서초구 양재대로 2길 22-16’에 위치하고, 광화문 사옥은 ‘서울특별시 중구 세종대로 124’에 위치합니다.

[이경우의 언파만파] 인공지능과 말뭉치

이경우 기자

입력 2020-08-30 20:42

수정 2020-08-31 02:24

글씨 크기 조절
글자크기 설정

닫기

글자크기 설정 시 다른 기사의 본문도 동일하게 적용 됩니다.
- 가
- 가
- 가
- 가
- 가
프린트
공유하기
공유

닫기
- 페이스북
- 네이버블로그
- 엑스
- 카카오톡
- 밴드
https://www.seoul.co.kr/news/editOpinion/opinion/unpamanpa/2020/08/31/20200831027013
URL 복사
댓글
0

이미지 확대

2016년 미국 대통령 선거에서 대부분 언론과 전문가들은 힐러리 클린턴의 당선을 예측했다. 많은 이들의 예상을 뒤엎고 도널드 트럼프 현 미국 대통령이 당선됐다. 정확한 예측도 있었는데, 바로 인공지능(AI)이었다. 그즈음 인공지능은 발전을 거듭해 스스로 학습하는 기술을 갖추게 됐다. 알려준 것만 아는 게 아니라 스스로 다른 것들도 익혔다. 이른바 ‘딥러닝’이다. 사람의 뇌가 생각하고 배우는 과정을 모방한 기술이었다. 인공지능 알파고가 이세돌 9단에게 이기는 데도 딥러닝이 있었다.

딥러닝 기술을 장착한 인공지능에 ‘빅데이터’는 활짝 날게 하는 바람이 됐다. 빅데이터는 말 그대로 아주 거대한 양의 데이터다. 사전적 의미로는 기존 데이터베이스로는 수집하거나 저장, 분석 등을 하기가 어려울 만큼 방대한 양의 데이터를 가리킨다. 여기에는 문서나 이메일은 물론 음성, 영상, 이미지, 각종 소셜미디어의 게시물과 댓글까지 포함된다. 구글의 인공지능은 구글과 각종 소셜미디어 등에서 오가는 빅데이터를 이용해 선거 결과를 예측한 것이다.

번역 엔진도 빅데이터를 이용한다. 인공지능에 원문과 번역문을 학습시켜 언어 사이의 번역 규칙들을 파악하게 한다. 이때 질 좋은 언어 데이터가 많아야 정확도가 높아지는 건 당연하다. 뿐만 아니라 챗봇이나 인공지능 비서 등의 효율도 높아지려면 언어 데이터가 많아야 한다. ‘언어 빅데이터’가 있어야 하는 것이다.

언어 빅데이터는 달리 말하면 ‘말뭉치’라고 한다. 우리나라는 1998년부터 10년간 ‘21세기 세종계획’이란 이름으로 말뭉치 구축 사업을 벌였다. 이 기간에 약 2억 어절의 말뭉치를 구축했다. 이 당시에는 세계에서 가장 앞서는 성과였다. 하지만 아쉽게도 이후 10년간 이 사업은 중단됐다. 그사이 미국은 2000억 어절 이상, 중국은 300억 어절, 일본은 150억 어절 정도의 말뭉치를 구축했다.

2018년부터 다시 우리도 5년간 155억 어절을 목표로 말뭉치를 구축하고 있다. 이 결과의 일부가 지난주 공개됐다. 국립국어원이 ‘모두의 말뭉치’(https://corpus.korean.go.kr)에 공개한 자료에는 13종 18억 어절이 들어 있다. 최근 10년간의 신문 기사, 서적 2만 188종이 담겼다. 여기에 음성 대화, 메신저 대화, 방송 자료까지 들어 있다. 컴퓨터의 한국어 이해에 쓰이는 형태와 구문, 의미 등 언어 단위별로 분석한 자료도 1100만 어절이다. 저작권 문제가 모두 해결된 것이어서 누구나 파일을 내려받아 이용할 수 있다. 지속적인 뒷받침과 관리가 필요하다.

어문부 전문기자 wlee@seoul.co.kr

2020-08-31 27면