La inteligencia artificial sigue avanzando a pasos agigantados, y Meta no se queda atrás. Chameleon es la nueva IA multimodal que ha sido presentada tras ChatGPT-4o de OpenAI y Project Astra de Google. Si te interesa conocer más sobre esta Chameleon la IA multimodal de Meta, ¡sigue leyendo!
¿Qué es Chameleon, la nueva IA de Meta?
Chameleon es una familia de modelos mixtos de fusión temprana basados en tokens, desarrollada por el equipo de investigación FAIR (The Fundamental AI Research) de Meta. Estos modelos son capaces de entender y generar imágenes y textos en cualquier secuencia arbitraria. La arquitectura de Chameleon utiliza representaciones basadas en tokens tanto para imágenes como para textos, permitiendo una integración sin problemas entre ambas modalidades.
Esta IA ha sido diseñada desde su inicio para ser un modelo mixto y emplea una arquitectura uniforme entrenada desde cero en una mezcla intercalada de todas las modalidades, es decir, imágenes, textos y código. Gracias a esta aproximación de fusión temprana, Chameleon puede razonar y generar documentos completos multimodales, superando las limitaciones de los modelos anteriores que trataban cada modalidad por separado.
Características de Chameleon
Entre las características principales de Chameleon, presenta las siguientes:
- Fusión temprana de modalidades: proyecta todas las modalidades en un espacio representacional compartido desde el inicio, permitiendo un razonamiento y generación sin interrupciones entre imágenes y texto.
- Arquitectura uniforme: utiliza una arquitectura de transformer entrenada desde cero en una mezcla intercalada de datos multimodales.
- Alto rendimiento: demuestra capacidades generales amplias, incluyendo un rendimiento superior en tareas de subtitulación de imágenes y generación de texto, además de una generación de imágenes no trivial.
- Estabilidad de entrenamiento: implementa innovaciones arquitectónicas como la normalización de consulta-clave y revisiones en la colocación de las capas de normalización para asegurar un entrenamiento estable.
- Evaluaciones exhaustivas: ha sido evaluado en una amplia gama de tareas, mostrando un rendimiento comparable o superior a modelos mucho más grandes.
Newly published work from FAIR, Chameleon: Mixed-Modal Early-Fusion Foundation Models.
This research presents a family of early-fusion token-based mixed-modal models capable of understanding & generating images & text in any arbitrary sequence.
Paper ➡️ https://t.co/JQZHig977O pic.twitter.com/GBzwJokRcj
— AI at Meta (@AIatMeta) May 17, 2024
¿Para qué sirve Chameleon y diferencias con otros modelos?
Chameleon tiene una variedad de aplicaciones en el ámbito de la inteligencia artificial y el procesamiento multimodal. Aquí algunas de sus principales utilidades:
- Generación de imágenes y textos: puede generar secuencias intercaladas de imágenes y textos, permitiendo la creación de documentos completos multimodales.
- Respuesta a preguntas visuales: Chameleon destaca en tareas como responder preguntas basadas en contenido visual y subtitulación de imágenes.
- Razonamiento multimodal: Ofrece nuevas capacidades en términos de razonamiento y generación multimodal de larga duración, siendo competitivo con modelos como Gemini-Pro y GPT-4.
En comparación con otros modelos, Chameleon se distingue por su capacidad de integrar sin problemas imágenes y textos desde el inicio, a diferencia de otros modelos que fusionan las modalidades en etapas posteriores. Además, su rendimiento en benchmarks de tareas multimodales es superior, a la vez que mantiene una competitividad en tareas de texto puro.
Chameleon representa un avance en el campo de la inteligencia artificial multimodal, estableciendo un nuevo estándar para los modelos de fusión temprana. Su capacidad para generar y razonar sobre documentos que combinan imágenes y texto abre nuevas posibilidades en aplicaciones prácticas.
Y es que, si hace pocas semanas OpenAI y Google nos sorprendían con sus respectivas IA multimodal, Meta no ha querido ser menos con la presentación de Chameleon.
¿Quién crees que ganará la batalla por ser la compañía dominante en inteligencia artificial? ¡Te leemos en comentarios!
Fuente de la noticia: https://arxiv.org/pdf/2405.09818v1