Meta ha lanzado recientemente NotebookLlama, una herramienta de código abierto que facilita la conversión de documentos PDF en podcasts mediante inteligencia artificial. Este recurso está disponible en GitHub y se presenta como una serie de notebooks interactivos que guían paso a paso en el flujo de trabajo, desde el procesamiento del PDF hasta la generación de audio. NotebookLlama es ideal para creadores de contenido o para generar tutoriales y guías en audio. ¡Te hablamos sobre ello!
¿Qué es NotebookLlama?
NotebookLlama es una serie de notebooks desarrollada por Meta y diseñada para que los usuarios puedan generar podcasts en formato conversacional a partir de documentos PDF. Cada notebook representa un paso específico del flujo de trabajo, desde el procesamiento y limpieza del texto hasta la dramatización y conversión final a audio. Al estar en GitHub, los usuarios pueden clonar el repositorio y acceder al código completo, lo que les permite personalizar el proceso según sus necesidades.
De PDF a podcast con NotebookLlama
El proceso de NotebookLlama se compone de cuatro pasos principales:
- Preprocesamiento del PDF: En este primer paso, se utiliza el modelo Llama-3.2-1B-Instruct para convertir el PDF en un archivo de texto (.txt) limpio. La tarea de este modelo es eliminar caracteres innecesarios, pero sin modificar el contenido esencial. El prompt utilizado es “Crear PDF mientras se preserva el contexto”, lo que asegura que el texto mantenga su integridad.
- Creación del guion para el podcast: en el segundo paso, se usa el modelo Llama-3.1-70B-Instruct para transformar el texto preprocesado en un guion de podcast. Este modelo es recomendado por su creatividad, generando un guión interesante y adecuado para la narración. El prompt utilizado aquí es “Haz de este texto un guion de podcast”, ayudando al modelo a crear un texto apto para ser narrado.
- Dramatización del guion: para hacer el contenido más atractivo, el tercer paso utiliza el modelo Llama-3.1-8B-Instruct. Este modelo toma el guion y lo enriquece con dramatización, incluyendo pausas estratégicas y ajustes en el tono de cada interlocutor. El prompt para esta etapa es “Haz este guion más dramático”, lo cual da lugar a un podcast con un formato de conversación más dinámico y atractivo.
- Generación del audio: finalmente, el guión dramatizado se convierte en audio utilizando dos modelos de Text-to-Speech (TTS): parler-tts-mini-v1 y bark/suno. Estos modelos son responsables de darle voz y personalidad al podcast, generando un archivo de audio (.mp3) que simula una conversación natural y fluida.
Requisitos técnicos y configuración en GitHub
Para ejecutar NotebookLlama, se necesita un servidor con GPU o acceso a una API que permita manejar los modelos Llama de Meta, especialmente si se quiere utilizar el modelo de 70B, que requiere una mayor capacidad de procesamiento. Todo el código y las instrucciones se encuentran en el repositorio de GitHub de Meta Llama.
Además, es necesario autenticar en Hugging Face para descargar los modelos de Llama. Una vez configurado el entorno, los usuarios pueden comenzar a explorar cada notebook de forma individual.
Futuras usos y mejoras de NotebookLlama
NotebookLlama no solo permite la conversión de PDFs a podcasts, sino que también abre nuevas posibilidades para los creadores de contenido. Entre las mejoras futuras que Meta sugiere se incluyen:
- Soporte para más fuentes de contenido: en el futuro, NotebookLlama podría admitir otros tipos de contenido, como páginas web, archivos de audio y vídeos de YouTube, ampliando aún más su utilidad.
- Colaboración y personalización avanzada: al ser de código abierto, la comunidad puede contribuir con mejoras, desde experimentación con modelos de TTS hasta la creación de prompts más complejos.
- Modelos adicionales: meta sugiere probar el modelo de 405B para la creación de guiones de mayor calidad y explorar técnicas de prompting avanzadas para optimizar los resultados.
Al estar disponible en GitHub y con un enfoque en la experimentación, esta herramienta busca evolucionar gracias a las contribuciones de la comunidad.
Si tus conocimientos en materia de desarrollo y programación son más básicos, no te preocupes te traemos otras herramientas para convertir texto a audio más sencillas: