SynthID Text: Google DeepMind y Hugging Face lanzan una herramienta para marcar con marca de agua el texto generado por IA

Índice de contenidos

¿Te resulta complicado distinguir si un texto ha sido escrito por una persona o generado por IA? Y es que, saber identificar el origen de un texto es clave. Y para hacer esta tarea más sencilla, Google DeepMind y Hugging Face han lanzado una herramienta llamada SynthID Text.

Esta tecnología permite aplicar marcas de agua invisibles en textos creados por IA y también en imágenes, audio y vídeo, permitiendo su detección sin comprometer la calidad del contenido. ¿Quieres saber cómo funciona? Pues bien, sigue leyendo, que te lo explicamos.

¿Qué es SynthID Text?

Imagina que tienes una marca de agua en una foto, pero en este caso está en un texto generado por un modelo de IA. SynthID Text hace precisamente esto: inserta un identificador digital invisible en textos generados automáticamente que no afecta su calidad y no se percibe al leerlo. Esta marca permite que se detecte si el texto fue creado por un modelo de lenguaje, lo cual es especialmente útil en plataformas donde es importante saber si el contenido es humano o no.

SynthID Text, lanzado por Google DeepMind y Hugging Face, forma parte del Responsible GenAI Toolkit de Google, un conjunto de herramientas para un uso ético y responsable de la IA. Gracias a SynthID Text, se puede asegurar que cualquier texto, imagen o audio generado por un LLM (modelo de lenguaje de gran escala) esté etiquetado de forma única y reconocible, promoviendo una mayor transparencia en el uso de estas tecnologías.

synthid text google deepmind y hugging face — Imagen creada con IA

¿Cómo funciona SynthID Text?

La magia de SynthID Text se basa en un proceso llamado «Tournament sampling» o muestreo por torneo, que ajusta sutilmente la forma en que los modelos de lenguaje eligen palabras al generar un texto. Usando una función pseudoaleatoria llamada g-function, se introduce una «firma» única en los textos generados. Esta firma no es visible al leer el texto, pero sí puede ser detectada con el clasificador correspondiente.

Por ejemplo, supón que tienes un modelo de IA que genera respuestas en función de una solicitud. Con SynthID Text, cada respuesta generada podría incluir una marca que te permite identificarla como creada por ese modelo específico. Lo interesante es que esta marca de agua se integra de forma natural en el texto usando el método model.generate() de cualquier LLM, sin necesidad de modificar el propio modelo.

Además de los textos, SynthID también incorpora marcas de agua en música, imágenes y vídeos generados por IA, permitiendo su identificación a través de técnicas imperceptibles para el usuario pero reconocibles por el sistema. Por ejemplo, en audio, el modelo Lyria de Google utiliza SynthID para marcar cada onda sonora de forma inaudible. En imágenes y vídeos, esta marca de agua se aplica directamente en los píxeles y fotogramas, manteniéndose detectable incluso después de modificaciones como recortar, agregar filtros o comprimir el archivo.

¿Cómo configurar una marca de agua con SynthID Text?

Configurar esta marca de agua es relativamente sencillo si tienes conocimientos básicos de programación en Python y estás familiarizado con la biblioteca Transformers. Se define un objeto llamado SynthIDTextWatermarkingConfig con una serie de parámetros que hacen posible la generación y detección de la marca de agua. Aquí te explicamos cómo funciona cada uno:

Claves: son listas de números enteros que se utilizan para puntuar las palabras del vocabulario del modelo. Los expertos de SynthID recomiendan usar entre 20 y 30 números aleatorios para lograr un equilibrio entre la calidad del texto y la visibilidad de la marca de agua.
Longitud de n-gramas: este parámetro determina la robustez y detectabilidad de la marca de agua. La recomendación inicial es establecer un valor de 5, aunque puede ajustarse según la necesidad de robustez o sutileza en la marca.

Con estos parámetros configurados, basta con pasar el objeto SynthIDTextWatermarkingConfig como parámetro a la función model.generate() para que el texto generado lleve incorporada la marca de agua.

¿Dónde puedo acceder a SynthID para empezar a utilizarlo?

Actualmente, SynthID está disponible para los clientes de Vertex AI que utilizan modelos avanzados de conversión de texto a imagen, como Imagen 3 e Imagen 2 de Google, y que buscan generar imágenes de alta calidad en distintos estilos artísticos. Además, la herramienta ImageFX de Google incorpora también esta tecnología de marca de agua en sus imágenes de salida. Para los creadores de video, SynthID se ha integrado en Veo, el modelo de generación de video más potente de Google, que actualmente está disponible para ciertos creadores en la herramienta VideoFX.

Para aquellos interesados en probar SynthID Text y el resto de herramientas en versión beta, pueden consultar la documentación de Google Responsible GenAI Toolkit en la plataforma de Hugging Face o en la página de Google DeepMind, donde se encuentra más información sobre la implementación de esta tecnología en productos propios o de terceros.

¿Es gratis SynthID?

SynthID está disponible actualmente como una herramienta integrada en servicios premium como Vertex AI y la plataforma de Hugging Face, y no es gratuita. Sin embargo, los programadores interesados en experimentar con esta tecnología pueden acceder al kit de herramientas y sus recursos abiertos en Hugging Face, aunque el acceso a funcionalidades avanzadas requiere suscripciones específicas de los servicios de Google. Esta estructura permite a las empresas implementar SynthID según sus necesidades de detección y seguridad, optimizando así la identificación de contenido generado por IA.

¿Tiene algunas limitaciones?

SynthID Text tiene ciertos aspectos a tener en cuenta.

Transformaciones menores en el texto: si el texto se modifica levemente, como al cortar frases o reemplazar algunas palabras, la marca de agua sigue siendo detectable. Pero si el texto se reescribe totalmente o se traduce a otro idioma, la firma puede debilitarse o desaparecer.
Textos con respuestas factuales: cuando un modelo de IA responde con datos específicos o hechos concretos, la posibilidad de introducir la marca de agua sin afectar la precisión disminuye. Esto puede reducir su eficacia en ciertos contextos donde el contenido es muy específico.
Uso indebido intencional: aunque SynthID Text complica el uso malintencionado de contenido generado por IA, no es una solución completa contra aquellos que buscan activamente evitar la detección. Sin embargo, combinada con otros métodos de seguridad, puede aumentar la protección contra el mal uso de textos generados por IA.

Conclusión

SynthID Text es un avance importante para identificar el origen de los textos generados por IA. Esta herramienta, que combina la tecnología de Google DeepMind y Hugging Face, facilita que los desarrolladores y empresas identifiquen contenido de IA sin afectar la calidad del texto. A medida que esta tecnología evoluciona, puede integrarse con otros métodos de seguridad y detección para una cobertura más completa.

¿Qué te parece esta tecnología? ¿Crees que ayudará a combatir el mal uso de textos generados por IA? Deja tu opinión y te leemos.

SynthID Text: Google DeepMind y Hugging Face lanzan una herramienta para marcar con marca de agua el texto generado por IA

¿Qué es SynthID Text?

¿Cómo funciona SynthID Text?

¿Cómo configurar una marca de agua con SynthID Text?

¿Dónde puedo acceder a SynthID para empezar a utilizarlo?

¿Es gratis SynthID?

¿Tiene algunas limitaciones?

Conclusión

Sobre el autor

Lucas Aguilera

Deja un comentario Cancelar respuesta

¿Qué es SynthID Text?

¿Cómo funciona SynthID Text?

¿Cómo configurar una marca de agua con SynthID Text?

¿Dónde puedo acceder a SynthID para empezar a utilizarlo?

¿Es gratis SynthID?

¿Tiene algunas limitaciones?

Conclusión

Sobre el autor

Lucas Aguilera

Entradas relacionadas

Deja un comentario Cancelar respuesta