Hoy: 22 de noviembre de 2024
Google ha presentado Gemini 1.5, la última evolución de su innovador modelo de inteligencia artificial (AI). Con esta actualización, Google introduce una nueva arquitectura que promete realizar tareas complejas de manera más rápida y eficiente, al tiempo que mejora significativamente sus capacidades de comprensión y razonamiento.
Una de las características destacadas de Gemini 1.5 es su arquitectura basada en Mixture-of-Experts (MoE), que divide el modelo en redes neuronales más pequeñas, actuando como “expertos” que se activan selectivamente según el tipo de información que se ingresa. Este enfoque permite a Gemini 1.5 aprender tareas complejas de manera más ágil, manteniendo altos estándares de calidad y eficiencia durante el proceso de entrenamiento.
Según explican desde Google en su blog oficial, la nueva versión del modelo, Gemini 1.5 Pro, será lanzada primero en una variante de tamaño mediano. Esta versión está diseñada para escalar en una amplia gama de tareas y ofrece un rendimiento comparable al de Gemini 1.0 Ultra (Gemini Advanced), el modelo más grande de Google hasta la fecha.
Entre las innovaciones de Gemini 1.5 Pro se encuentra la capacidad de comprender contextos más extensos. La ventana de contexto estándar se establece en 128.000 tokens, aunque un grupo selecto de desarrolladores y clientes empresariales tendrán la oportunidad de probar una ventana contextual de hasta un millón de tokens a través de AI Studio y Vertex AI. Este avance tiene como objetivo mejorar la latencia y la experiencia del usuario, así como reducir los requisitos computacionales antes de su implementación generalizada.
Con una ventana de contexto de un millón de tokens, Gemini 1.5 Pro puede procesar grandes volúmenes de información de una sola vez, incluyendo una hora de vídeo, once horas de audio, bases de código con más de 30.000 líneas o más de 700.000 palabras.
Estas mejoras se traducen en capacidades mejoradas de compresión y razonamiento del modelo. Gemini 1.5 puede analizar, clasificar y resumir grandes cantidades de contenido dentro de un mensaje específico, así como abordar tareas de resolución de problemas en bloques de código más extensos, según señalan desde Google.