뷰페이지

[단독] 공공기관 여론조사 + 빅데이터 기계 학습 ‘신개념’

[단독] 공공기관 여론조사 + 빅데이터 기계 학습 ‘신개념’

이영준 기자
이영준 기자
입력 2017-12-04 22:42
업데이트 2017-12-10 23:44
  • 글씨 크기 조절
  • 프린트
  • 공유하기
  • 댓글
    14

[신뢰사회로 가는 길] 향후 조사 어떻게 하나

서울신문과 서울대 폴랩(pollab)의 한규섭 언론정보학과 교수팀은 빅데이터 분석을 통해 33개 공공기관에 대한 신뢰지수를 도출하고 있다. 서울신문은 조만간 33개 공공기관 설문조사 결과를 통해 나타난 조사 결과와 언론 보도 빅데이터 분석 결과를 비교 분석할 계획이다.

4일 서울대 폴랩에 따르면 언론 보도 빅데이터 분석은 해당 공공기관과 관련한 언론 보도를 수집한 뒤 ‘기계 학습’(Machine Learning) 방식을 적용해 이뤄졌다. 올해 1월 1일부터 10월 31일까지 네이버와 검색제휴 협약을 맺은 모든 언론사의 기사 21만 4000여건이 분석 대상이 됐다. 기관별로는 최대 6만 3595건(경찰청), 최소 391건(국무조정실) 수집됐다. 한 교수팀은 수집된 기사 일부를 무작위로 추출해 기사의 논조를 평가했다. 이어 그 평가 기록을 컴퓨터 알고리즘을 통해 학습시켜 다른 기사의 논조를 분석하도록 했다.

교수팀은 기사 제목에 등장하는 단어들이 긍정적인 논조의 기사에 등장하는지, 부정적인 논조의 기사에 등장하는지 그 확률을 계산해 분류하는 베이지언 분류 기법도 적용해 분석했다. 한 교수는 “기존 빅데이터 분석은 주로 단어의 의미망(클라우드)이라든지 특정 단어의 출현 빈도를 위주로 이뤄졌는데, 여기서 한 걸음 더 나아가 기계학습 방식을 적용해 모든 기사의 논조를 긍·부정으로 평가하고 이를 지수화했다”고 설명했다.

교수팀은 또 LDA(Latent Dirichlet Allocation·텍스트에 존재하는 일정한 패턴을 식별하여 주제를 찾는 기법) 토픽 모델링(Topic Modeling·주제별 분류) 기법을 활용해 방대한 기사를 추가로 분석했다. 컴퓨터 알고리즘을 통해 기사에 등장하는 단어들의 분포를 파악해 해당 기사의 주제가 무엇인지를 추정하고 기사를 주제별로 분류하는 방식이다. 이 기법을 활용하면 각 기관들에 대한 언론 보도가 주로 어떤 주제로 구성돼 있었는지를 파악할 수 있다. 또 해당 기관이 긍정 혹은 부정적인 평가를 받은 이유가 어떤 주제 때문인지도 추정할 수 있다. 예를 들어 헌법재판소와 관련된 기사에서 가장 많이 언급된 주제가 ‘탄핵’이라면 탄핵이 헌재의 신뢰도를 형성하는 데 주요한 역할을 했다는 의미다.

특별기획팀 kisukpark@seoul.co.kr

▲수행기관: 서울신문·서울대 폴랩(Pollab) 한규섭 언론정보학과 교수팀 ▲조사기관: 리얼미터 ▲일시: 2017년 11월 16∼20일(5일간) ▲대상: 전국 19세 이상 성인 남녀 ▲조사방법: 구조화된 설문지를 이용한 스마트폰 앱 방식 ▲표본: 1703명 ▲피조사자 선정방법: 무선(100%) 임의 스마트폰 알림(RDSP·Random Digit Smartphone-Pushing) ▲응답률: 2.2% ▲오차 보정방법: 2017년 10월 말 행정안전부 발표 주민등록인구 기준 성, 연령, 권역별 가중치 부여 ▲표본오차: 95% 신뢰 수준, ±1.2% 포인트.
2017-12-05 2면

많이 본 뉴스

국민연금 개혁 당신의 선택은?
국민연금 개혁 논의가 이어지고 있습니다. 국회 연금개혁특별위원회 산하 공론화위원회는 현재의 보험료율(9%), 소득대체율(40%)을 개선하는 2가지 안을 냈는데요. 당신의 생각은?
보험료율 13%, 소득대체율 50%로 각각 인상(소득보장안)
보험료율 12%로 인상, 소득대체율 40%로 유지(재정안정안)
광고삭제
위로