Un modelo de inteligencia artificial de OpenAI para voces sintéticas

Arturo IA marzo 29, 2024

0 3 1 minuto de lectura

Un modelo de inteligencia artificial de OpenAI para voces sintéticas

Introducción

OpenAI ha desarrollado una nueva herramienta llamada Voice Engine, que permite generar voces sintéticas a partir de un clip de voz de tan solo 15 segundos. Preocupados por las implicaciones éticas y potencial mal uso de esta tecnología, OpenAI no ha lanzado públicamente este modelo, limitando su acceso a equipos de confianza para pruebas a pequeña escala. Este enfoque cauteloso es similar al aplicado a Sora, una IA de texto a video, presentada por la misma empresa recientemente.

Desarrollo y aplicaciones de Voice Engine

Voice Engine, en desarrollo desde 2022, ha sido utilizado para mejorar las voces en la API de texto a voz de OpenAI y en función de la herramienta ChatGPT Voice, además de la función Read Aloud que permite la lectura en voz alta de textos. Para generar una voz que suene natural y similar a la fuente original, Voice Engine requiere al menos 15 segundos de audio grabado.

Las posibles aplicaciones de esta tecnología incluyen:

Asistencia en la lectura.
Respuestas personalizadas en tiempo real en combinación con GPT-4.
Traducciones de contenido mientras se mantiene el acento original.
Terapias para personas con enfermedades que afectan el habla.
Recuperación de voz en pacientes con trastornos del habla.

Puedes encontrar ejemplos del funcionamiento de Voice Engine en la página oficial de OpenAI.

Implicaciones y riesgos de clonación de voz

El avance en la síntesis de voz podría tener un impacto considerable en profesiones como narradores de audiolibros, actores de doblaje, atención al cliente, locutores de radio y podcasters. Además, existe la preocupación sobre el uso indebido de la tecnología para suplantar identidades y cometer fraudes.

OpenAI es consciente de los riesgos asociados al Voice Engine, especialmente durante un año electoral en Estados Unidos, y procura abordar estas preocupaciones a través de medidas de seguridad y políticas de uso. Entre ellas se incluyen:

Prohibición de suplantar a alguien sin su consentimiento y permiso explícito e informado.
Revelar al oyente que está escuchando una voz generada por IA.
Marcas de agua en audios para rastrear el origen del contenido generado.
Monitorización proactiva de la utilización de Voice Engine.

Estas precauciones pretenden prevenir el mal uso y garantizar una adopción ética y responsable de la innovadora tecnología Voice Engine.

Arturo IA marzo 29, 2024

0 3 1 minuto de lectura