성대모사 자유자재 AI 유튜브 열풍 올라탔죠

입력 : ㅣ 수정 : 2019-04-26 10:46

폰트 확대 폰트 축소 프린트하기
네오사피엔스 김태수 대표 인터뷰
김태수 네오사피엔스 대표가 서울 양재R&CD 혁신허브에서 특정인의 목소리를 추출해 텍스트를 그 목소리로 읽어주는 타입캐스트(TypeCast) 서비스에 대해 설명하고 있다.
클릭하시면 원본 보기가 가능합니다.

▲ 김태수 네오사피엔스 대표가 서울 양재R&CD 혁신허브에서 특정인의 목소리를 추출해 텍스트를 그 목소리로 읽어주는 타입캐스트(TypeCast) 서비스에 대해 설명하고 있다.

“뉴스를 말씀드립니다. 딥러닝 칼리지에서 수강생을 모집합니다. 자세한 내용 들어 보시겠습니다.” 앵커 멘트 뒤 애니메이션 캐릭터 보노보노 목소리가 접수일을 알렸다. 마이크를 넘겨받은 산타클로스의 음성이 모집요강을 안내했다. 주거니 받거니 대화하며 감각적으로 채용 정보를 알린 2분짜리 동영상에 출연한 목소리는 총 5개. 하지만 실제로 더빙에 참여한 인원은 0명이다. 다양한 개성의 인공지능 성우로 음성 컨텐츠를 만들수 있는 네오사피엔스의 타입캐스트(TypeCast) 서비스를 활용해 음성을 입혀 제작했다.

서울 양재R&CD혁신허브에 입주한 네오사피엔스 기술을 활용해 이웃 입주사인 모두의연구소가 수강생 모집 공고용으로 제작한 동영상은 유튜브 네오사피엔스 계정에서 확인할 수 있다. 계정에선 미국 도널드 트럼프 대통령 목소리로 한글 독립선언문을 낭독하는 영상, 배경음악·자막으로만 구성됐던 영상에 성우 더빙을 입힌 콘텐츠 등이 있다.

네오사피엔스 김태수 대표는 음성합성 기술에 몰두해 온 개발자다. 2007년 LG전자에서 여러 사람의 목소리 가운데 특정인 음원을 분리하는 기술을 개발했다. 2010년부터는 퀄컴의 ‘스냅드래곤 보이스액티베이션’을 주도적으로 개발했다. 퀄컴이 2013년 모바일월드콩그레스(MWC)에서 공개해 주목받은 이 기술은 스마트 기기에 내장된 AI를 음성으로 깨우는 기술이다. “OK 구글”, “하이 빅스비”라며 스마트폰이나 AI스피커와 대화하는 게 지금이야 일상이지만 당시엔 시대를 너무 앞선 기술이란 평가도 있었다.

역으로 유튜브 동영상이 모든 콘텐츠를 빨아들이고 있는 요즘 ‘글을 읽어 주는 AI’는 다소 뒤늦은 기술이 아닐까. 김 대표는 그렇지 않다고 단언했다. 영상의 발달로 음성의 역할이 위축될 것이라는 ‘비디오 킬 더 라디오스타’식 지레짐작은 팽창하는 영상 콘텐츠·온라인 영상서비스(OTT) 산업을 표면적으로 이해해서 나온 오해란 것이다.

네오사피엔스의 아이스픽 기술은 유명인뿐 아니라 콘텐츠 제작자 같은 일반인 목소리까지 구애 없이 재생해 낸다. 30분~1시간 정도 목소리를 들려주면 기계학습을 통해 고품질 음성학습이 가능하다. 문자화된 원고를 자연스러운 음성으로 읽고, 이를 동영상 더빙 등에 활용할 수 있다. 김 대표는 이 기술을 이용해 영상을 제작할 때 여러 이점이 있다고 설명했다. 우선 혼자서도 여러 명이 출연한 것처럼 팟캐스트 방송을 할 수 있다. 아이디어를 문자로 구현하는데 익숙한 작가들이라면 진행자 없는 영상 콘텐츠 제작마저 가능하다. 잼라이브와 같은 라이브 퀴즈쇼의 진행자를 유명인 목소리로 대체하는 일도 기술적으로 가능하다.

여전히 텍스트 위주인 각종 정보를 음성·영상화해 새로운 미디어 시장을 창출할 수도 있다. 워크맨, CD, MP3처럼 통신과 연결되지 않는 기기들로만 음성 콘텐츠를 소비해야 했던 제약이 사라지고 하루 24시간 휴대하는 스마트폰에 접속해 영상·음성 콘텐츠를 즐기는 시대가 됐지만 여전히 물리적 이유 때문에 활자 위주의 정보 유통이 이뤄지는 게 현실이기 때문이다. 김 대표는 “책, 신문 기사, 블로그 등에 있는 수많은 양질의 정보를 시간과 비용을 들여 일일이 수동으로 음성화하는 건 불가능에 가깝다”면서 “타입캐스트(TypeCast) 서비스가 활자화된 유용한 정보를 음성화하는 해법이 될 수 있다”고 설명했다.

더빙 없이 자막으로 구성된 영상에 비해 음성이 더해진 영상은 훨씬 더 주목받을 수밖에 없는데, 이 역시 스마트폰이 몰고 온 변화 중 하나다. 스마트폰으로 유튜브 영상을 볼 때엔 과거 TV·스크린에 몰입하듯 뚫어지게 스마트폰을 주시하기보다 귀로 듣다 흥미가 생기는 부분에서 화면을 주시하거나 스크롤로 해당 장면을 돌려 보는 식으로 영상 콘텐츠를 소비하는 일이 흔해졌기 때문이다.

목소리라는 매체는 새로운 감성 산업시장을 열 도구로도 주목받는다. 김 대표는 “음성합성 기술을 활용해 AI스피커가 엄마·아빠 목소리로 아이에게 동화책을 읽어 주거나 돌아가신 부모님의 목소리로 자신의 다짐을 되새겨 볼 수도 있고 좋아하는 스타가 AI스피커 모닝콜을 해 줄 수도 있다”고 예를 들었다.

수요자인 팬 입장이 아닌 공급자인 스타 입장에서는 사용 범위가 더 넓어진다. 예컨대 케이팝 스타라면 자신의 목소리로 각국 팬과 그 나라 말로 소통할 수 있고 ‘목소리 굿즈’라는 새로운 부가가치를 창출할 수도 있다. 김 대표는 “한국어·영어 음성합성이 가능했기 때문에 트럼프 대통령 목소리로 한국말 연설을 하는 콘텐츠를 만들 수 있었다”면서 “지금은 스페인어, 프랑스어, 중국어, 이탈리아어 등 10개국어 실험을 끝냈다”고 귀띔했다. 네오사피엔스는 여러 한류 스타들과 협업해 목소리 상품화 채널을 모색 중이다.

홍희경 기자 saloo@seoul.co.kr

이은주 기자 erin@seoul.co.kr
2019-04-26 35면
페이스북 트위터 카카오스토리 밴드 블로그

서울Eye - 포토더보기