Grok-1.5V estará disponible “pronto” para los probadores y usuarios de su chatbot
La red social X, conocida anteriormente como Twitter, ha modificado su modelo de inteligencia artificial (IA) generativa Grok, y ahora tiene la capacidad de procesar información visual, como documentos, capturas de pantalla, diagramas y fotografías.
La firma tecnológica presentó su chatbot en noviembre del año pasado, cuando estaba primero en pruebas para los suscriptores de Premium+. Entonces, comentó que Grok era capaz de de ofrecer respuestas a los usuarios en tiempo real con un sentido del humor no apto para todos.
Meses más tarde, a finales de marzo, anunció la actualización del modelo de Inteligencia Artificial que potencia su chatbot, Grok-1.5, que llegaba con mejoras en su capacidad de rendimiento y en tareas relacionadas con la codificación y las matemáticas.
X ha presentado ahora la nueva marca de su modelo, Grok-1.5V, que ahora es multimodal, ya que, además de tener “sólidas capacidades de texto”, puede procesar información visual, como documentos, cuadros, diagramas, capturas de pantalla, gráficos y fotografías.
Con ello, ha matizado que Grok-1.5v “supera a sus pares” en su nuevo punto de referencia RealWorldQA, una evaluación del procesamiento de imágenes que mide la comprensión espacial del mundo real y cuya versión inicial consta de más de 700 imágenes, con una pregunta y una respuesta “fácilmente verificables” para cada una.
Este conjunto de datos, además, consta de imágenes anónimas de vehículos y otras objetos del mundo real. Está disponible para su descarga y se espera que se expanda a medida que mejoren los modelos multimodales de la firma.
X ha indicado que Grok-1.5V estará disponible “pronto” para los probadores y usuarios de su chatbot. Además, ha comentado que en los próximos meses irá avanzando mejoras “significativas” de procesamiento en diferentes modalidades, como imágenes, audio y vídeo.