제프 베이조스 아마존 최고경영자(CEO). 서울신문DB
아마존은 지난 달 알렉사에 귓속말로 명령해도 알아듣고 대답하는 속삭임 모드를 선보인 데 이어 이번에는 뉴스 앵커처럼 음성 톤의 높낮이와 호흡을 조절하며 글을 읽는 기능을 추가할 예정이다. 더버지는 “아마존이 새롭게 선보이는 기능은 사람으로 착각을 불러일으킬 정도는 아니지만, 뉴스 앵커들처럼 문장을 읽는 방식을 기대할 수 있는 수준”이라고 설명했다.
아마존은 이를 위해 신경망 문자음성변환(NTTS·Neural Text To Speech) 기술을 개발했다고 밝혔다. 좀 더 빠르게 음성표현을 생성하기 위해 ‘머신러닝’을 사용하는 차세대 음성합성 기술이다. 머신러닝은 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자 하는 기술 및 기법을 말한다. 기존의 음성합성 기술은 사람의 목소리를 녹음한 뒤 이를 일정 단위로 쪼개 데이터베이스화해 필요한 음운, 음소, 단어에 맞게 조립했다.
트레버 우드 아마존 AI부문 책임자는 “기존의 음성합성 기술 역시 훌륭했지만 NTTS 등 차세대 기술은 AI에 기반한 기계가 정말 사람처럼 자연스러운 말투와 목소리를 낼 수 있도록 돕는다”고 말했다. 구글의 AI 바둑 프로그램 ‘알파고’를 개발한 회사인 딥마인드는 지난 달 새로운 형태의 음성합성 기술이 탑재된 ‘구글 어시스턴트’를 발표하며 기술력으로 알렉사를 제쳤다.
최훈진 기자 chogiza@seoul.co.kr