EMO (Emotive Portrait Alive) é uma nova IA generativa pesquisada pelo Instituto de Computação Inteligente (IIC) do Alibaba com a capacidade de transformar "magicamente" qualquer imagem em fala e canto realistas.
Em outras palavras, a IA do Alibaba pode transformar uma imagem de referência estática e áudio de voz em um vídeo que pode falar e cantar com expressões naturais.
As IAs anteriores apenas transformavam a boca e parte do rosto, enquanto o EMO pode criar expressões faciais, expressões naturais da boca, sincronização precisa dos lábios, mover sobrancelhas, franzir os olhos ou até mesmo balançar ao som da música.
O Alibaba lançou alguns vídeos mostrando como as imagens podem ser transformadas em vídeos e cantar músicas importadas instantaneamente. O EMO oferece suporte a inglês, chinês e muitos outros idiomas.
O Alibaba revelou que, para que o EMO pudesse criar expressões faciais realistas, ele foi treinado com uma grande quantidade de dados de imagem, áudio e vídeo por meio de seu próprio modelo de difusão chamado Audio2Video.
Para abordar o grande desafio atual de realismo e expressividade na geração de vídeo a partir de imagens e sons, a equipe de pesquisa se concentrou na relação e nas nuances entre sinais de áudio e movimentos faciais, ignorando a ligação intermediária do modelo 3D ou pontos de referência faciais, realizando transições de quadros perfeitamente e preservando a consistência no vídeo.
O Alibaba não revelou quando lançará essa IA ao público, mas publicou os dados do EMO no Github e artigos de pesquisa postados no ArXiv.