Así son GPT-4 y Gemini, las nuevas inteligencias artificiales que hablan, ven e incluso imitan las emociones humanas
Introducción
La compañía OpenAI ha sorprendido al mundo con su innovador modelo de inteligencia artificial multimodal, GPT-4o, que permite ver, oír, hablar y generar imágenes en tiempo real, revolucionando la manera en que interactuamos con la tecnología. En respuesta, Google ha presentado su proyecto Astra, integrando funciones similares de IA en sus servicios y lanzando unas gafas inteligentes con Gemini.
OpenAI presenta GPT-4o:
El CEO de OpenAI, Sam Altman, hizo referencia a la película «Her» en su anuncio sobre GPT-4o, evocando la visión de una IA empática y sensual como el personaje interpretado por Scarlett Johansson. En la presentación, se demostró la capacidad de GPT-4o para darse cuenta de errores, corregirlos y reírse de ellos, todo ello en tiempo real y con una latencia casi nula.
GPT-4o es un modelo de inteligencia artificial que, además de generar texto, puede ver, oír, hablar y generar imágenes. Esta IA ofrece respuestas precisas y rápidas en la interacción con los usuarios. Además, GPT-4o es gratuito con un número limitado de interacciones para todo el mundo, democratizando así el acceso a esta tecnología.
Google presenta el proyecto Astra y las gafas inteligentes Gemini:
Google mostró su propio modelo de IA multimodal, el proyecto Astra, como respuesta a GPT-4o. Astra es una inteligencia con la que se puede hablar y que puede analizar imágenes de vídeo en tiempo real mientras charla con el usuario. Notablemente, Google ha integrado Astra en unas gafas inteligentes con cámaras para que pueda ver lo que ve el usuario mientras interactúan.
Aunque la presentación de Google no fue tan sorprendente como la de OpenAI, su ventaja radica en su ecosistema, que les permite implementar su IA en servicios como YouTube, Gmail o Google Docs.
El futuro de la inteligencia artificial:
Ambas compañías han liberado características y funcionalidades de IA que no estaban disponibles anteriormente. Se espera que en las próximas semanas, OpenAI libere el resto de las funcionalidades en tiempo real de GPT-4o para usuarios de pago. Google, por su parte, también planea lanzar novedades próximamente, aunque sin especificar fechas.
Con estas tecnologías de IA, los usuarios ya pueden lograr cosas increíbles, como programar un videojuego completo en segundos a partir de una simple captura de pantalla. Pronto, la IA será un compañero de viaje omnipresente con el que interactuar con lenguaje natural.
Las inteligencias artificiales actuales ya pueden escribir, hablar, escuchar, ver y generar imágenes como un humano. El siguiente paso en su evolución será desarrollar la capacidad para actuar.