추형석 소프트웨어정책연구소 선임연구원
첫 번째 이유는 알파고가 컴퓨터 한 대를 활용해 커제와 대결했다는 점이다. 이세돌 9단과의 대결에서는 슈퍼컴퓨터급의 장비를 활용했는데 1년여의 기간에 전력 소비를 큰 폭으로 줄인 것이다. 두 번째는 바둑기사들의 기보를 전혀 학습하지 않았다는 점이다. 이런 접근은 역설적으로 대규모 데이터를 학습하여 패턴을 예측하는 현대 인공지능 개념을 뒤엎는 것이다.
구글 딥마인드는 지난 10월 우리에게 남긴 여운에 대한 해답을 주는 논문을 세계적인 학술지 네이처에 발표했다.
논문에서 소개된 ‘알파고 제로’는 바둑기사의 기보 없이 스스로 대결하며 학습했다고 밝혔다. 비결은 강화학습이다. 강화학습은 행위에 대한 보상을 통해 전략을 강화하는 방법으로, 게임 인공지능 분야에 주로 활용됐다. 알파고 제로의 강화학습 알고리즘은 지난 이세돌 9단과 대결했던 버전보다 상당 부분 개선됐다.
지난 버전의 알파고는 두 가지 형태의 인공신경망을 활용했다. 이 두 가지는 전문 바둑기사의 기보를 학습해 착수 선호도를 결정하는 정책망과 현재 바둑판의 승률을 근사하는 가치망이다. 알파고 제로에서는 이 두 가지를 하나의 신경망으로 통합해 성능을 개선한 것이다. 또 기존 알파고는 바둑판을 48가지 특징으로 분류하여 학습을 진행했으나 알파고 제로는 바둑돌의 위치만을 토대로 학습했다. 즉 알파고 제로는 백지 상태에서 바둑의 규칙만을 토대로 학습했다고 볼 수 있다.
한편 알파고 제로는 학습을 위해 4개의 TPU(Tensorflow Processing Unit)를 활용했다. TPU는 구글이 고안한 학습 전용 하드웨어로 기존 연산처리장치보다 최대 80배 정도 전력 효율이 높다. 학습기반 인공지능은 일반적으로 계산량이 매우 많다. 현재 인공지능 컴퓨팅 인프라로 GPU가 각광받는 이유도 같은 가격의 CPU 대비 계산 성능이 월등히 뛰어나기 때문이다. 문제는 GPU의 전력 소모가 크다는 점이다. TPU는 GPU와 같이 인공지능 학습에 뛰어난 성능을 보이면서도 전력을 적게 소모한다는 점에 주목할 필요가 있다.
딥마인드의 알파고 제로는 현대 인공지능의 변혁을 알리는 신호탄이 될 것이다. 데이터를 스스로 생산하며 학습한다는 패러다임을 제시했기 때문이다.
사람처럼 행동하는 인공지능은 현재 시점에서는 요원한 일이지만, 알파고 제로가 증명한 기술 발전의 속도는 우리들이 생각하는 것보다 훨씬 더 빠를지도 모른다.
2017-11-14 29면