La inteligencia artificial aplicada al audio sigue avanzando y SAM Audio es uno de los desarrollos más novedosos presentados por Meta en este ámbito. Este modelo permite separar sonidos concretos dentro de grabaciones complejas utilizando prompts de texto, referencias visuales o fragmentos temporales. A continuación, repasamos qué es SAM Audio, cómo funciona, cómo se puede probar y qué se sabe actualmente sobre su disponibilidad.
¿Qué es SAM Audio?
SAM Audio es el Segment Anything Model Audio, un modelo de inteligencia artificial diseñado para aislar sonidos específicos dentro de fuentes de audio o vídeo. A diferencia de otros sistemas centrados únicamente en música o voz, SAM Audio trabaja con sonidos generales, música y habla dentro de un único modelo.
El planteamiento de Meta con SAM Audio es ofrecer un sistema flexible que funcione sin entrenamientos específicos por categoría, permitiendo identificar sonidos descritos de forma natural por el usuario, incluso en escenarios complejos con múltiples fuentes sonoras superpuestas.
Cómo funciona SAM Audio
El funcionamiento de SAM Audio se basa en el uso de distintos tipos de prompts que guían al modelo durante el proceso de separación:
- Prompts de texto, donde se describe el sonido que se quiere aislar.
- Prompts visuales, que permiten seleccionar una zona del vídeo asociada al sonido.
- Prompts temporales, señalando el punto o tramo donde aparece el audio objetivo.
- Prompts multimodales, que combinan texto, imagen y tiempo.
Separación de sonidos generales, música y voz
Uno de los aspectos más destacados de SAM Audio es su capacidad para operar en distintos contextos sin cambiar de modelo:
- Sonidos generales: tráfico, ambientes urbanos, animales o ruidos domésticos.
- Música: separación de instrumentos y voces dentro de una mezcla.
- Habla: aislamiento de voces y hablantes en entornos con ruido de fondo.
Evaluación y entrenamiento del modelo
Meta ha desarrollado un dataset de evaluación abierto para la separación de audio mediante prompts, algo poco habitual hasta ahora. Este conjunto de datos incluye audio real y sintético y se acompaña de un sistema de evaluación alineado con valoraciones humanas.
Según los resultados publicados por Meta, SAM Audio obtiene mejores métricas que otros modelos de referencia en tareas de separación de sonido, tanto en audio puro como en escenarios audiovisuales, lo que refuerza su enfoque multimodal.
¿SAM Audio es gratis?
SAM Audio se puede probar de forma gratuita a través del Segment Anything Playground de Meta, una plataforma online que permite subir audio o vídeo y experimentar con la separación de sonidos directamente desde el navegador.
Además, Meta ha publicado recursos técnicos asociados al proyecto y ha liberado el dataset de evaluación como software de código abierto (OSS). Sin embargo, no existe por ahora una confirmación oficial clara sobre la licencia completa del modelo ni sobre su uso comercial. Aunque distintos medios describen a SAM Audio como un proyecto de código abierto.
Cómo usar el playground de SAM Audio paso a paso
El playground de SAM Audio permite probar el modelo sin necesidad de instalar software adicional. El flujo de uso es sencillo y está claramente definido en la interfaz:
- Subir audio o vídeo
Al acceder al playground, basta con pulsar en Upload para añadir un archivo propio de audio o vídeo. También es posible usar ejemplos predefinidos desde la opción Browse audio or videos. - Aislar el sonido
Una vez cargado el archivo, el sistema permite seleccionar el sonido que se quiere aislar utilizando las capacidades de SAM Audio. El modelo analiza la mezcla y separa el audio objetivo del resto. - Aplicar efectos o ajustes
Tras la separación, el playground ofrece opciones para trabajar con el sonido aislado, como aplicar efectos o exportar el resultado final.
En la parte izquierda de la interfaz se muestra el flujo completo (Add audio or video → Isolate sound → Add effects) y el modelo activo, que es SAM Audio. Esta interfaz confirma el acceso gratuito para pruebas, enfocado a demostración y experimentación.

Te dejamos el acceso aquí.
Posibles usos de SAM Audio
SAM Audio es una propuesta técnica de Meta orientada a la separación flexible de sonido mediante prompts. Su capacidad para trabajar con sonidos generales, música y voz dentro de un único modelo, junto con su disponibilidad en el playground oficial, lo convierten en un desarrollo relevante dentro del procesamiento de audio con inteligencia artificial. Aun así, quedan aspectos importantes por aclarar, como su licencia definitiva y su posible uso comercial.


