¿Por qué la ‘Inteligencia Artificial Multimodal’ es actualmente la tendencia más popular en tecnología?
Introducción: La era de la inteligencia artificial multimodal
Esta semana, OpenAI y Google han exhibido sus últimos avances en tecnología de inteligencia artificial (IA). La tendencia actual en el mundo de la IA es la de crear modelos multimodales, capaces de procesar y entender datos de distintos formatos, como voz, imágenes y texto. Los gigantes tecnológicos apuestan por este tipo de IA para integrarse de manera más efectiva en nuestra vida cotidiana, dejando atrás la moda de los chatbots.
OpenAI presenta GPT-4 Omni
OpenAI dio a conocer el lunes su nueva creación, llamada GPT-4 Omni. Este modelo de IA se basa en un enfoque omnicanal que le permite procesar tanto video como audio. La demostración mostró cómo ChatGPT podía entender un problema matemático al visualizar una ecuación a través de la cámara de un celular, y luego guiar al usuario para resolverlo mediante instrucciones verbales. La compañía afirma que esta tecnología ya se encuentra disponible para usuarios Premium.
Google anuncia el Proyecto Astra
Google, por su parte, presentó el Proyecto Astra, cuya función esencial es similar a la de GPT-4 Omni. Aunque durante las pruebas el Proyecto Astra mostró una velocidad de respuesta más lenta y un timbre de voz más robótico, la compañía ha informado que se encuentra todavía en etapas tempranas de desarrollo.
Funciones y aplicaciones de la IA multimodal
Un aspecto destacable del GPT-4 Omni es que este único modelo de IA puede procesar de manera nativa audio, video y texto. Anteriormente, OpenAI requería de modelos separados para traducir voz y video a texto, de modo que GPT-4 pudiera comprender estos diferentes medios. Es probable que Google aún utilice múltiples modelos de IA, ya que sus tiempos de respuesta son más lentos en comparación con OpenAI.
La IA multimodal no solo ha sido aplicada en el ámbito de chatbots y asistentes virtuales, sino que también ha sido adoptada en dispositivos portátiles como Humane AI Pin, Rabbit R1 y Meta Ray-Ban. Estos dispositivos buscan reducir nuestra dependencia de los teléfonos inteligentes, al tiempo que implementan las funciones de procesamiento y comprensión de IA multimodal.
El futuro de la IA multimodal
La IA multimodal es un campo en constante evolución y se espera que siga creciendo en los próximos meses y años. Su integración en diferentes productos y servicios puede hacer que la IA sea aún más útil y personal, al permitirle «ver» y «escuchar» el mundo por sí misma, en lugar de depender de transcripciones de texto. En resumen, la IA multimodal es la próxima gran carrera en el desarrollo de IA, y OpenAI parece llevar la delantera.