Vídeos creados a partir de una imagen única y un archivo de voz

Arturo IA febrero 29, 2024

0 1 2 minutos de lectura

Videos creados a partir de una imagen unica y un

Introducción

El gigante tecnológico chino Alibaba ha desarrollado una innovadora inteligencia artificial (IA) generativa llamada Emote Portrait Alive (EMO), que crea vídeos de retratos en movimiento ultrarrealistas a partir de una imagen y un archivo de voz. Esta tecnología sorprende por la precisión en la sincronización de labios y expresiones, adaptándose al tono de voz de manera natural y fluida.

Características de EMO

EMO es una IA generativa que transforma imágenes y archivos de voz en vídeos de retratos realistas y expresivos. Estos retratos en movimiento destacan por la excelencia en la sincronización de los labios y la adaptación de las expresiones faciales según el tono de voz y las emociones que transmite. En la página del proyecto en Github, es posible ver varios ejemplos sorprendentes de esta tecnología en acción.

Desarrollo y ejemplos

El equipo detrás de EMO, compuesto por Linrui Tian, Qi Wang, Bang Zhang y Liefeng Bo, provenientes del Instituto de Inteligencia Computacional del Grupo Alibaba, ha compartido diversos ejemplos de vídeos generados. Entre ellos se incluye a Audrey Hepburn cantando «Perfect» de Ed Sheeran, y una referencia a la IA Sora, donde se presenta a una mujer hablando con la voz de Mira Murati.

Limitaciones y disponibilidad

Actualmente, EMO es una herramienta de investigación y aún no está disponible para el público en general. Sin embargo, el equipo ha proporcionado varios ejemplos de su potencial, incluyendo la generación de vídeos con distintas emociones para una misma imagen, como enfado, alegría o reflexión.

Aplicaciones y consideraciones éticas

EMO es capaz de generar vídeos de retratos en movimiento con duraciones variadas, basándose en la longitud del archivo de audio proporcionado. Los investigadores aseguran que la consistencia del personaje se mantiene a lo largo de todo el vídeo. Esto plantea un gran potencial en múltiples áreas, pero también abre el debate acerca de la protección de los derechos de imagen y voz en un mundo cada vez más dominado por la IA y sus posibilidades.

En resumen

La IA generativa EMO, desarrollada por Alibaba, ha demostrado ser capaz de crear vídeos de retratos en movimiento ultrarrealistas a partir de una imagen y un archivo de voz. A pesar de no estar disponible al público en general, sus ejemplos muestran el enorme potencial que puede tener en numerosas aplicaciones, mientras plantea preocupaciones éticas y legales sobre la protección de la imagen y la voz de las personas.