Meta ha lanzado Spirit LM, un modelo de lenguaje multimodal que permite el uso intercalado de texto y voz. Este nuevo desarrollo, diseñado para la interacción entre ambos tipos de entrada y salida, está basado en el modelo de texto LLaMA 2 y entrenado con grandes volúmenes de datos textuales y de voz. ¿Quieres saber más sobre cómo funciona Spirit LM? ¡Sigue leyendo!
¿Qué es Spirit LM?
Para entenderlo mejor, imagina que estás hablando con un asistente de voz que no solo comprende lo que dices, sino que además puede responderte tanto con voz como con texto. Spirit LM (que significa Interleaved Spoken and Written Language Model) es un sistema que puede hacer justo eso: procesar texto y voz al mismo tiempo y generar respuestas en cualquiera de los dos formatos.
¿Pero cómo lo hace? Este modelo entrena utilizando datos de texto y de voz a la vez, mezclando ambas modalidades de forma que puede aprender y responder sin problemas en cualquiera de ellas. Así, por ejemplo, podrías dictar una pregunta por voz y obtener una respuesta escrita, o al revés, escribir una pregunta y escuchar la respuesta en voz alta.
¿Cuáles son sus características principales del nuevo modelo de Meta?
Spirit LM tiene varias características que lo hacen destacar. Vamos a ver las más importantes:
- Intercalación de texto y voz: esto significa que, a diferencia de otros modelos que solo manejan texto o solo voz, Spirit LM combina los dos en una única secuencia de datos. Imagina que le dictas un comando de voz al sistema y este te responde con una frase escrita o, incluso mejor, con un texto que luego convierte en voz.
- Dos versiones diferentes:
- La versión Base usa unidades fonéticas (que son sonidos individuales del habla) para procesar la voz y generar respuestas coherentes en ambos formatos.
- La versión Expressive añade algo más: la capacidad de expresar emociones a través de la voz, como tonos alegres o tristes, para hacer las respuestas más naturales y humanas.
- Aprende rápido: una de las cosas más interesantes de Spirit LM es que puede aprender nuevas tareas con solo unos pocos ejemplos. Esto es ideal para entrenarlo en tareas como síntesis de voz (convertir texto en voz) o reconocimiento de voz (convertir voz en texto).
¿Es gratis Spirit LM?
Hasta aquí todo suena genial, ¿verdad? Pues aquí viene lo mejor: Spirit LM es de código abierto, lo que significa que cualquiera puede acceder al código y utilizarlo… pero con una pequeña limitación. Aunque es gratuito, solo está disponible para fines de investigación y no se puede usar con fines comerciales. Esto es algo que así se ha anunciado VentureBeat.
¿Cuándo estará disponible Spirit LM?
te alegrará saber que ya está disponible. Meta ha lanzado Spirit LM en 2024, junto con toda la documentación necesaria para que investigadores y curiosos de la tecnología puedan empezar a experimentar con él. Meta ha lanzado el código fuente en GitHub, permitiendo a la comunidad explorar, implementar y mejorar el modelo según sus necesidades. Puedes acceder a los detalles del proyecto en el repositorio oficial.
¿Qué podemos esperar de Spirit LM?
Con Spirit LM, Meta ha dado un paso importante hacia la integración de texto y voz en un único modelo de inteligencia artificial. Esta tecnología amplía las posibilidades de interacción entre humanos y máquinas, proporcionando respuestas más naturales y fluidas en cualquiera de las dos modalidades. Su capacidad de combinar texto y voz en una sola herramienta lo hace especialmente útil para aplicaciones que requieren un manejo avanzado de ambos formatos.