국립국어원, 인공지능 한국어 학습용 자료 공개

국립국어원, 인공지능 한국어 학습용 자료 공개

이경우 기자
입력 2020-08-27 12:38
업데이트 2020-08-27 12:52
  • 글씨 크기 조절
  • 프린트
  • 공유하기
  • 댓글
    14

일상 대화, 웹, 신문, 서적 등 한국어 빅데이터 13종 18억 어절

‘모두의 말뭉치’ 첫 화면. 국립국어원 제공
‘모두의 말뭉치’ 첫 화면. 국립국어원 제공
25일 13종 18억 어절 분량의 말뭉치가 국립국어원 ‘모두의 말뭉치’(https://corpus.korean.go.kr)에 공개됐다.

국립국어원은 이번에 공개한 자료는 2018~19년 구축한 것으로, ‘모두의 말뭉치’ 사이트에서 온라인 약정서를 작성하고 승인을 받으면 누구나 이용할 수 있다고 밝혔다.

이에 앞서 문화체육관광부와 국어원은 1998년부터 2007년까지 ‘21세기 세종계획’을 추진하며 약 2억 어절의 자료를 공개한 바 있다.

‘모두의 말뭉치’에는 최근 10년간의 신문 기사와 서적 2만 188종, 일상생활의 음성 대화와 메신저 대화, 방송 자료, 대본 등이 들어 있다. 또한 컴퓨터가 한국어를 더 잘 이해할 수 있도록 형태, 구문, 의미, 개체 등 언어 단위별로 분석한 자료 1100만 어절도 담겨 있다. 한국어 사용자의 직관과 판단 정보를 분석한 문법성 판단과 어휘 관계 자료 40만건도 포함돼 있다.

이번 자료에서는 일상 대화, 메신저, 웹 문서 등 구어체의 비중을 높였는데, 특히 표준어뿐만 아니라 다양한 지역별, 연령별 대화 자료들도 포함됐다. 인공지능(AI) 스피커, 챗봇 등의 대화형 서비스가 늘어나는 추세를 반영한 것이다.

이에 따라 한국어 인공지능 서비스를 개발하는 중소기업과 새싹기업(스타트업·벤처기업)들이 한국어 처리 기술 개발에 쉽게 접근할 수 있게 됐다. 대기업이나 관련 연구기관 등도 다양한 서비스를 개발하는 데 도움을 받을 수 있다.

이번에 공개한 말뭉치는 한국어 빅데이터라고 할 수 있는데, 국어원은 10월 초 말뭉치 활용을 주제로 전문가 토론회를 개최한다.

이경우 전문기자 wlee@seoul.co.kr
많이 본 뉴스
종부세 완화, 당신의 생각은?
정치권을 중심으로 종합부동산세 완화와 관련한 논쟁이 뜨겁습니다. 1가구 1주택·실거주자에 대한 종부세를 폐지해야 한다는 의견도 있습니다. 종부세 완화에 대한 당신의 생각은?
완화해야 한다
완화할 필요가 없다
모르겠다
광고삭제
위로