뷰페이지

“단순 검색량은 의미 없어… 통계 정제하는 키워드가 예측 핵심”

“단순 검색량은 의미 없어… 통계 정제하는 키워드가 예측 핵심”

홍인기 기자
홍인기 기자
입력 2016-11-11 18:16
업데이트 2016-11-11 18:29
  • 글씨 크기 조절
  • 프린트
  • 공유하기
  • 댓글
    14

빅데이터로 美대선 맞힌 우종필 교수

“이제 선거 결과에 대한 정확한 예측은 구글 등 웹사이트에서 수집한 데이터를 어떻게 가공하느냐가 결정할 겁니다.”

이미지 확대
우종필 세종대 경영학과 교수
우종필 세종대 경영학과 교수
지난 7월부터 빅데이터 분석을 통해 도널드 트럼프의 미국 대선 승리를 줄곧 예측해 온 우종필 세종대 경영학과 교수는 11일 구글이 무료로 제공하는 빅데이터를 통해 정확한 결과를 도출할 수 있었다고 밝혔다.

우 교수팀은 대선 직전인 지난 3일 트럼프가 275~285명의 선거인단을, 힐러리 클린턴은 253~263명을 확보할 것이라고 예상했다. 실제 결과(트럼프 290명, 클린턴 232명)와 비교해 약간의 차이는 있지만 여론조사 결과를 바탕으로 클린턴의 당선 가능성을 90% 이상으로 본 미국 유력 언론사들의 잘못된 예측과는 현격한 차이를 보인다.

우 교수는 “구글 트렌드, 페이스북, 트위터, 인스타그램, 유튜브 등 웹상에서 수집한 빅데이터를 기본 자료로 썼다. 특히 구글 트렌드를 적극 활용했다”고 밝혔다. 우 교수팀은 구글 트렌드를 무대로 날짜·장소·연관검색어별로 구분해 데이터를 수집했다. ‘보트(투표) 트럼프’, ‘보트 클린턴’을 핵심으로 삼았다. 우 교수는 “이 두 키워드가 핵심이지만 상황에 따라 그 밖의 여러 연관검색어를 동원해 빅데이터 여론을 분석했다”면서 “나머지 연관검색어들은 예측의 성패와 직결된 키워드들이라 공개하기 어렵다”고 말했다. 우 교수팀은 이렇게 추출한 자료를 기반으로 다른 웹사이트의 텍스트 데이터, 검색어 등 비정형 데이터에 가중치를 매겨 트럼프와 클린턴에 대한 관심도를 분석했다.

물론 변화 추이를 나타내는 기본 자료는 사실 의미 없는 숫자에 불과하다. 여기서 정확한 예측에 결정적 역할을 하는 작업이 이른바 ‘데이터 노가다’(오랜 시간에 걸쳐 의미 있는 수치만 추출하는 작업)라고 불리는 ‘마이닝’(mining)이다. 이 작업을 거친 뒤에야 비로소 통계로 활용할 수 있는 자료가 도출된다. 후보자에 대한 긍정적인 관심도에는 가중치를 부여하고 부정적인 관심도는 배제하며, 날짜와 시간대별로 정치·사회적 상황을 고려한 변수를 계산하고, 무의미한 검색은 제외해야 한다.

우 교수는 “단순히 검색량이 많다고 해서 그것이 해당 후보자에 대한 지지를 의미한다고 보기는 어렵다”며 “대선 과정에서 클린턴의 건강 이상설, 트럼프의 성추행 의혹 등 부정적인 이슈로 인해 검색량이 증가하는 등의 특이 요인은 제외해야 한다”고 설명했다.

주요 언론사들이 ‘클린턴이 사실상 압승했다’고 보도한 1·2·3차 TV토론에서도 우 교수팀의 분석 결과는 트럼프 우세로 나타났다. TV토론 당시 빅데이터 변화 추이를 시간대별로 살펴보면 1차 토론 시작 때만 해도 클린턴이 앞섰지만 당일 오후 10시 5분부터 트럼프가 치고 나가 이후 토론이 종료될 때까지 유지됐다. 2차에서는 트럼프가 처음부터 앞섰으며, 3차가 진행되는 내내 후보자의 관심 및 지지도는 트럼프가 압도적이었다. 대개 자신이 지지하는 후보가 토론을 잘했다고 답하는 여론조사 응답 행태를 감안하면 결국 진짜 표심은 여론조사에 답하는 입이 아니라 웹을 검색하는 손가락에 담겨 있는 셈이다.

우 교수팀의 빅데이터 분석은 지난 6월의 브렉시트(영국의 유럽연합 탈퇴)도 정확히 예측했다. 브렉시트 두 달 전인 4월부터 우 교수팀이 이번 미 대선과 유사한 알고리즘을 활용해 분석한 결과 영국의 유럽연합 탈퇴 가능성이 잔류 가능성보다 줄곧 우세했다. 우 교수는 “잔류가 우세했던 여론조사 결과와 달리 빅데이터 분석에서는 지난 4월 30일 이후 한 번도 잔류가 탈퇴를 이긴 적이 없었다”고 말했다.

홍인기 기자 ikik@seoul.co.kr
2016-11-12 9면

많이 본 뉴스

국민연금 개혁 당신의 선택은?
국민연금 개혁 논의가 이어지고 있습니다. 국회 연금개혁특별위원회 산하 공론화위원회는 현재의 보험료율(9%), 소득대체율(40%)을 개선하는 2가지 안을 냈는데요. 당신의 생각은?
보험료율 13%, 소득대체율 50%로 각각 인상(소득보장안)
보험료율 12%로 인상, 소득대체율 40%로 유지(재정안정안)
광고삭제
위로