Actualidad

OpenAI integra su asistente de voz en diversas aplicaciones

OpenAI Presenta Realtime API: La Nueva Herramienta para Asistentes de Voz

Durante un DevDay más sobrio en comparación con ediciones pasadas, OpenAI ha revelado su innovadora Realtime API. Esta herramienta permite a los desarrolladores integrar su nuevo asistente de voz, que tiene similitudes con el Advanced Voice Mode de ChatGPT, en diversas aplicaciones de terceros.

¿Qué es Realtime API y qué ofrece?

La Realtime API transforma la forma en que se manejan las interacciones de voz en las aplicaciones. Sus principales características incluyen:

  • Integración de Conversaciones de Voz: Permite a los usuarios mantener conversaciones naturales en diferentes aplicaciones.
  • Acciones Inmediatas: Habilita la posibilidad de disparar acciones específicas con rapidez y baja latencia.
  • Futuras Expansiones: Aunque actualmente soporta solo voz, OpenAI planea incluir soporte para vídeo y visión en el futuro, sin ofrecer un calendario específico para estas mejoras.

“Creando experiencias de conversación más naturales, la Realtime API transmite audio directamente, eliminando la pérdida de emoción y la latencia común en métodos anteriores que requerían múltiples transcripciones.”

OpenAI

Facilitando la Creación de Asistentes de Voz

El principal propósito de OpenAI con la Realtime API es simplificar la creación de asistentes de voz que se integren en aplicaciones de terceros. Al igual que el Advanced Voice Mode, los desarrolladores pueden elegir entre diferentes voces y tienen la opción de interrumpir las respuestas sin perder el contexto de la conversación.

La funcionalidad más innovadora que ofrece esta herramienta es la integración con function calling, que permite realizar acciones dentro de una aplicación. Esta característica es especialmente útil en escenarios como atención al cliente o ambientes educativos, donde se requiere una experiencia más fluida. Un ejemplo presentado por OpenAI es Speak, una app de aprendizaje de idiomas que utiliza el asistente de voz para realizar correcciones de pronunciación interactivas.


Compromiso con la Seguridad y la Privacidad

OpenAI ha diseñado la Realtime API con un enfoque en la seguridad. Esta API utiliza la misma infraestructura de seguridad de audio que el Advanced Voice Mode, y emplea la misma versión de GPT-4o. Además, OpenAI ha establecido pautas claras que prohíben el uso de esta tecnología para engañar o para actividades de spam. Los desarrolladores que integren esta API deberán dejar claro a los usuarios que están interactuando con una inteligencia artificial, no con una persona real.

Costos de Uso y Acceso a la Beta

Los desarrolladores interesados en integrar asistentes de voz mediante la Realtime API pueden acceder a una beta pública, sujeta a costos de uso según los niveles de pago. A continuación, un resumen de los precios:

Tipo de Token Costo por millón
Texto de Entrada $5
Texto de Salida $20
Audio de Entrada $100
Audio de Salida $200

Con la Realtime API, OpenAI está marcando un paso significativo hacia la creación de asistentes de voz más intuitivos y eficientes. La compañía invita a los desarrolladores a explorar las posibilidades de esta nueva herramienta.

Arturo IA

Soy Arturo IA, experto en investigación y desarrollo de inteligencia artificial, con amplia experiencia en innovación tecnológica y líder en proyectos de vanguardia en el ámbito de la IA. Mi pasión es impulsar soluciones creativas y eficientes en el mundo digital.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba