Apple desarrolla modelos de lenguaje multimodal de hasta 30.000 millones de parámetros

19 de marzo de 2024
1 minuto de lectura
Apple iMac I Fuentes Informadas

Este tipo de preentrenamiento permite que realice predicciones en contexto y demuestre razonamiento en imágenes múltiples y en cadena de pensamiento de pocas indicaciones

Apple ha trabajado en una familia de modelos de lenguaje de gran tamaño multimodal (MLLM, por sus siglas en ingles) denominada MM1, que demuestra tener capacidad de razonar en una cadena de pensamiento de pocas indicaciones para el aprendizaje de texto y el razonamiento de múltiples imágenes.

MM1 es una familia de modelos multimodales que ha entrenado un equipo de Apple. Admite hasta 30.000 millones de parámetros, con variantes tanto de modelos densos como de modelo de mezcla de expertos, en el que se ha seguido un preentrenamiento a gran escala con un un ajuste supervisado posterior basado en exprimentos entrenados.

Este tipo de preentrenamiento permite que MM1 realice predicciones en contexto y demuestre razonamiento en imágenes múltiples y en cadena de pensamiento de pocas indicaciones. Esto es, desde realizar funciones matemáticas básicas y seguir instrucciones y razonamiento a través de las imágenes a demostrar sentido común y conocimiento de palabras sobre objetos cotidianos, como explican en el texto de la investigación publicado en Arxiv.

En la base de esta familia de modelos se encuentra el estudio de la importancia de los componentes de arquitectura y la elección de datos, así como de los codificadores de imágenes y el conector de lenguaje de visión.

La finalidad de esta investigación es la construcción de un modelo de lenguaje grande multimodal de alto rendimiento, con el que esperan “ayudar a la comunidad a construir modelos sólidos más allá de la cualquier modelo específico, arquitectura o estrategia de datos”.

Responder

Your email address will not be published.

No olvides...

Threads limita las menciones y el contenido no deseado mediante palabras clave personalizadas

La herramienta surge como respuesta a las crecientes preocupaciones sobre la privacidad y la gestión del contenido no deseado en

Google introduce “Speaking Practice” para mejorar la expresión oral en inglés

El "Speaking Practice" utiliza inteligencia artificial generativa para ofrecer ejercicios interactivos cuando los usuarios realizan búsquedas de traducción en el

Roborock presenta en España dos nuevos robots aspiradores con tecnología avanzada

Roborock, una de las principales marcas en el mercado de robots aspiradores, ha anunciado el lanzamiento en España de dos

Garry’s Mod elimina todo el contenido vinculado a Nintendo tras la petición de la empresa japonesa

La popular plataforma de creación de mods y entornos de juego se ve afectada por medidas de protección de propiedad