뷰페이지

“챗GPT 보고 있나” AI 포문 연 구글, 이번엔 문자+사진을 동영상으로

“챗GPT 보고 있나” AI 포문 연 구글, 이번엔 문자+사진을 동영상으로

김민석 기자
김민석 기자
입력 2023-02-06 16:14
업데이트 2023-02-06 16:14
  • 글씨 크기 조절
  • 프린트
  • 공유하기
  • 댓글
    14

먹이 주는 원숭이, 춤추는 곰으로
이스라엘 히브리대와 개발팀 짜
‘확산’ 모델 동영상 생성 AI는 최초
연내 20개 공개하겠다더니 속속 공개

오픈AI의 인공지능(AI) 챗봇 ‘챗GPT’의 등장으로 흔들리고 있는 ‘AI 패권’을 지키려는 구글이 감춰 뒀던 AI 기술을 잇달아 공개하고 있다. 최근 텍스트 설명을 음악으로 만들어 주는 ‘뮤직LM’을 논문을 통해 공개하더니, 이번엔 최근 화두가 되고 있는 ‘생성’ AI의 새로운 형태인 ‘확산(Diffusion)’ 모델을 소개했다.

지난 2일(현지시간) 구글리서치와 이스라엘의 예루살렘히브리대 개발팀은 사진이나 동영상과 텍스트 설명에서 동영상을 만들어 내는 ‘드리믹스’를 공개했다. 깃허브 페이지와 논문 형태로 공개된 드리믹스는 텍스트 설명으로 동영상을 만들 수 있고, 기존 동영상에 요소를 추가, 변경, 제거해 새로운 동영상을 만들어낼 수 있다. 사진을 동영상으로 만들어낼 수도 있다. 예를 들면, 장난감 소방관을 찍은 사진 여러 장을 올리고 ‘장난감 소방관이 아령을 들고 있다’고 쓰면 AI는 사진 속 장난감 소방관이 한 손으로 아령을 반복해서 들어올리는 모습을 고화질 동영상으로 보여준다. 깃허브에 올라간 영상에선 같은 방법으로 영상 속 먹이를 먹는 원숭이가 춤추는 곰으로 바뀌었다.
이미지 확대
깃허브에 올라온 구글리서치와 이스라엘 예루살렘히브리대 개발팀의 논문 첫 페이지. 깃허브
깃허브에 올라온 구글리서치와 이스라엘 예루살렘히브리대 개발팀의 논문 첫 페이지.
깃허브
드리믹스에 적용된 확산 AI 모델은 생성 모델과 검증 모델의 끊임없는 대립을 통해 콘텐츠를 생성하는 ‘생성적 대립 신경망(GAN)’ 모델과 달리, 콘텐츠를 해체하고 복구하는 방식으로 구성된다. 개발팀은 AI가 원본 동영상의 시공간 정보를 입력한 텍스트 설명에 맞춰 재합성한다고 설명했다. 개발팀에 따르면 텍스트 기반으로 동영상을 만드는 확산 모델은 세계 최초다. 기존 확산 모델 중엔 이미지를 생성하는 AI인 ‘스테이블 디퓨전’이 있다.

지난해 11월 말 오픈AI가 챗GPT를 공개한 뒤 세계적으로 폭발적인 반응이 일어나자, 구글은 발등에 불이 떨어진 듯 움직임이 빨라졌다. 순다르 파차이 구글 최고경영자(CEO)는 회사에 적색 경보(코드레드)를 발령하고 창업자인 래리 페이지와 세르게이 브린을 불러들여 대응책 마련을 위해 머리를 맞댔다. AI 기술로 세계 최고임에도 수익화 방안과 윤리적 문제 등을 고심하던 중 챗GPT가 등장해 검색 광고 시장을 위협하기 때문이다.

구글은 지난달엔 논문을 통해 ‘뮤직LM’을 공개했고, 지난 2일 실적발표에 뒤이은 콘퍼런스콜에서는 올해 안으로 20개의 AI 서비스를 공개하겠다고 밝혔다. 지난 4일엔 오픈AI 창업 멤버들이 설립한 앤스로픽에 4억 달러(약 5000억원)를 투자했다고 밝히기도 했다. 앤스로픽은 지난달 챗GPT에 대응할 챗봇인 ‘클로드’ 테스트 버전을 공개했다.

김민석 기자

많이 본 뉴스

  • 4.10 총선
저출생 왜 점점 심해질까?
저출생 문제가 시간이 갈수록 심화하고 있습니다. ‘인구 소멸’이라는 우려까지 나옵니다. 저출생이 심화하는 이유가 무엇이라고 생각하시나요.
자녀 양육 경제적 부담과 지원 부족
취업·고용 불안정 등 소득 불안
집값 등 과도한 주거 비용
출산·육아 등 여성의 경력단절
기타
광고삭제
위로