A Microsoft apresentou esta semana o VASA-1, uma ferramenta de Inteligência Artificial (IA) capaz de criar vídeos de rostos humanos utilizando fotografias como base e que permite também sincronizar expressões faciais quando o utilizador carrega uma faixa de áudio.
A gigante de Redmond mostrou vários exemplos do VASA-1, no seu site oficial, e os resultados impressionaram os entusiastas da Inteligência Artificial.
O Visual Affective Skills Audio da Microsoft, ou simplesmente VASA-1, é o modelo topo de gama da empresa, com curadoria especial de expressões faciais humanas. A ferramenta pode gerar uma vasta gama de sentimentos e emoções através da dinâmica facial, e envolve movimentos dos músculos faciais, lábios, nariz, inclinação da cabeça e muitos outros factores.
Actualmente, o VASA-1 pode gerar vídeos com uma resolução máxima de 512×512 pixels a 40 fps. A empresa afirma que a ferramenta foi concebida para criar vídeos o mais aproximados possível da vida real.
De acordo com o site Tudo Celular, é importante referir que a Microsoft apresentou o VASA-1 apenas como uma demonstração de investigação. A empresa esclareceu que não tem planos para lançar um produto ou qualquer API relacionada com o VASA-1. Além disso, a Microsoft não lançará o produto publicamente, citando as vastas possibilidades de uso indevido desta tecnologia.
O conceito do VASA-1 é semelhante ao do Sora da OpenAI. Ambas as ferramentas geram vídeos de aspecto realista utilizando IA. Enquanto o VASA-1 se concentra nas expressões humanas, o Sora pode criar vídeos complexos com fundos e artefactos contextuais.
No entanto, nenhuma das ferramentas foi ainda lançada no domínio público. Os anúncios oficiais da Microsoft e da OpenAI destacam as capacidades e as potenciais aplicações do VASA-1 e do Sora em CGI e em avatares humanos realistas gerados por IA.
A Google está também a trabalhar no seu gerador de vídeo com IA, o VideoPoet. Embora as amostras iniciais deste não sejam tão boas como as do VASA-1 ou do Sora, mostram que até a Google está a tentar acompanhar o movimento dos geradores de vídeo com IA.