Grok, la inteligencia artificial de Elon Musk y X, ya identifica imágenes
Grok-1.5V, la IA multimodal de xAI, ya está disponible para desarrolladores
El modelo multimodal de primera generación, Grok-1.5V, ha sido lanzado por xAI, la empresa de Elon Musk. Esta versión de inteligencia artificial es capaz de procesar imágenes y responder a preguntas relacionadas con ellas. Con esta implementación en Grok, se espera que pronto esté disponible para el público en general.
Características y capacidades de Grok-1.5V
Según la documentación, Grok-1.5V puede comprender documentos, diagramas científicos, cuadros, capturas de pantalla y fotografías. En pruebas de rendimiento, la inteligencia artificial de xAI supera a GPT-4V en tareas específicas como lectura de texto, interpretación de diagramas, resolución de problemas matemáticos y comprensión del mundo real.
xAI afirma estar especialmente entusiasmado con las capacidades de Grok para comprender el mundo físico. La empresa dice que Grok supera a sus pares en el nuevo benchmark RealWorldQA, diseñado para evaluar la comprensión espacial del mundo real en modelos multimodales.
Ejemplos de aplicaciones prácticas de Grok-1.5V
Grok-1.5V es capaz de identificar características tales como tamaño y orientación de objetos, analizar y comparar espacios, y reconocer texto en imágenes para responder preguntas. Algunos ejemplos prácticos de Grok-1.5V incluyen:
- Analizar un diagrama de flujo en una pizarra y convertirlo en código fuente de Python, incluidos comentarios.
- Reconocer una tabla con valores nutricionales y responder preguntas específicas sobre calorías.
- Identificar un bosquejo y escribir un cuento relacionado, explicar un meme o analizar una fotografía.
¿Qué son los modelos multimodales de IA y cómo funcionan?
Un modelo multimodal de IA es un sistema que procesa e integra información de diferentes fuentes como texto, imágenes, audio, video o datos sensoriales. Esto les permite tener una comprensión más completa y contextualizada del mundo que los rodea. A diferencia de los sistemas de IA tradicionales que se enfocan en un solo tipo de datos, los modelos multimodales pueden combinar y analizar información de diversas modalidades para efectuar tareas más complejas, como responder preguntas basadas en imágenes y texto.
Crear modelos multimodales de IA requiere grandes cantidades de datos de alta calidad y un entrenamiento computacionalmente intensivo, lo que implica el acceso a hardware potente.
Próximos pasos y disponibilidad
Grok-1.5V ya ha sido puesto a disposición de los desarrolladores por xAI. Aunque la compañía no ha revelado cuándo estará disponible para el resto de usuarios, sí se sabe que para utilizarlo será necesario disponer de una suscripción Prémium de X (Twitter).