Videos creados a partir de una imagen única y un archivo de voz
Introducción
La inteligencia artificial continúa sorprendiéndonos con sus avances en el ámbito de la generación de imágenes y vídeos. El más reciente ejemplo es la IA llamada Emote Portrait Alive (EMO), creada por investigadores chinos del Grupo Alibaba. EMO es capaz de generar vídeos de retratos con expresiones faciales y sincronización labial a partir de una imagen y un archivo de voz. A diferencia de otras IA similares, EMO no es obra de gigantes tecnológicos como Google u OpenAI.
¿Qué hace a EMO tan especial?
Lo realmente impresionante de EMO es su capacidad para generar expresiones faciales y sincronización labial de alta calidad, que se ajustan al tono de voz del audio proporcionado. El resultado es un vídeo de retrato extremadamente realista y convincente, creado a partir de una simple imagen y un archivo de voz.
Ejemplos de EMO en acción
La página del proyecto en GitHub ofrece varios ejemplos de EMO en acción. Entre los más destacados se encuentra un vídeo en el que Audrey Hepburn canta «Perfect» de Ed Sheeran, con una sincronización labial y expresiones faciales sorprendentemente realistas. Otro ejemplo muestra a la mujer del vídeo de Sora hablando con la voz de Mira Murati, demostrando cómo EMO puede adaptarse a distintas voces y contextos.
El equipo detrás de EMO
Los responsables de desarrollar EMO son Linrui Tian, Qi Wang, Bang Zhang y Liefeng Bo, todos ellos miembros del Instituto de Inteligencia Computacional del Grupo Alibaba. Por el momento, la herramienta está siendo utilizada exclusivamente con fines de investigación y no está disponible para el público general. Sin embargo, los investigadores han compartido diversos ejemplos para ilustrar las posibilidades que ofrece EMO.
Características y aplicaciones de EMO
EMO puede generar vídeos de retrato de diferentes duraciones, dependiendo de la longitud del archivo de audio proporcionado. Los investigadores aseguran que la consistencia en la apariencia y expresiones del personaje se mantiene a lo largo de toda la duración del vídeo. Al observar los ejemplos proporcionados, es fácil imaginar el potencial que EMO puede tener para diversos agentes en el ámbito de la tecnología.
Reflexiones sobre el impacto de EMO
El desarrollo de EMO plantea cuestiones sobre la protección de los derechos de imagen y de voz de las personas. Las habilidades de esta inteligencia artificial nos hacen reflexionar acerca de la importancia y la singularidad de la voz humana y cómo puede ser utilizada para generar efectos sorprendentes y realistas en videos generados por IA.
Enlaces relacionados
Para más información sobre herramientas que utilizan inteligencia artificial en la creación de imágenes y vídeos, visita Xataka – 19 páginas y servicios para crear imágenes desde cero utilizando inteligencia artificial.