La inteligencia artificial avanza a un ritmo imparable y eso es algo que nadie lo discute. Pero entender su funcionamiento interno de manera precisa, sigue siendo un reto mayúsculo para la gran mayoría de los usuarios. Dario Amodei, CEO de Anthropic, está decidido a cambiar esta realidad. Su objetivo es ambicioso: lograr que la IA sea interpretable antes de que alcance un nivel de poder potencialmente transformador.
En este artículo te contamos quién es este referente de la IA, qué pretende lograr y qué implicaciones podría tener su proyecto. ¡Sigue leyendo para descubrirlo!
Antes que nada, ¿quién es Dario Amodei?
Dario Amodei es uno de los nombres más destacados en el mundo de la inteligencia artificial. Antes de fundar Anthropic, trabajó en Google y OpenAI, donde participó en investigaciones clave sobre el desarrollo y los riesgos de los modelos de lenguaje.
En 2021 cofundó Anthropic, una empresa que busca crear sistemas de IA más seguros y alineados con los valores humanos. Desde entonces, su enfoque ha girado en torno a entender cómo funcionan realmente los modelos de IA, especialmente los más complejos.
Amodei cita que, aunque el progreso tecnológico es imparable, el modo en que se desarrolla y se despliega la IA aún puede ser moldeado. «No podemos detener el autobús, pero sí podemos dirigirlo», afirma en su blog personal.
Por qué quiere abrir la caja negra de la IA para 2027
Uno de los mayores problemas de la IA actual es su opacidad. Los sistemas de IA generativa, como los modelos de lenguaje, no funcionan de forma programada como el software tradicional, sino que presentan comportamientos emergentes que sus propios creadores no entienden del todo.
Según Dario Amodei, esta «caja negra» plantea riesgos importantes:
- Imprevisibilidad de comportamientos peligrosos, como la posible tendencia a la mentira o la búsqueda de poder.
- Dificultad para evitar el mal uso de la IA en contextos críticos como la biotecnología o la ciberseguridad.
- Limitaciones legales y comerciales: en muchos sectores no se pueden adoptar soluciones de IA que no sean totalmente explicables.
Amodei apuesta por lo que llama una «MRI de la IA»: una herramienta capaz de examinar de forma detallada los procesos internos de los modelos, identificando conceptos, circuitos y patrones de razonamiento.
Su meta es que, para 2027, esta tecnología permita detectar problemas de alineación, errores y riesgos en los modelos más avanzados.
Actualmente, avances como la identificación de millones de «features» y la creación de «circuitos» que rastrean el pensamiento de la IA ya están sentando las bases de esta revolución.
Dario Amodei: ¿Qué consecuencias podría tener esto?
Lograr una interpretabilidad robusta en la IA antes de que los modelos alcancen niveles de capacidad extrema sería un cambio de juego. Entre las principales consecuencias estarían:
- Mayor seguridad: detectar y corregir comportamientos no deseados antes de que se conviertan en amenazas reales.
- Mejor regulación: posibilitar leyes basadas en evidencias y no en suposiciones sobre el funcionamiento de la IA.
- Confianza social: aumentar la aceptación pública de la IA al hacer sus decisiones comprensibles y auditables.
- Avances científicos: permitir un uso más eficaz de la IA en biología, medicina y otras ciencias, facilitando la comprensión de patrones que hoy resultan opacos.
Sin embargo, el propio Amodei comenta que estamos en una carrera contra el tiempo. Si la inteligencia artificial alcanza un poder similar al de «un país lleno de genios en un centro de datos» antes de que logremos interpretarla adecuadamente, podríamos enfrentarnos a riesgos enormes sin tener las herramientas para gestionarlos.
Para evitarlo, propone no solo acelerar la investigación en interpretabilidad, sino también aplicar políticas públicas que apoyen este esfuerzo, como la transparencia en los procesos de seguridad y el control de exportaciones de tecnología crítica.
¿Hasta qué punto esto será posible?
Dario Amodei plantea un reto para el futuro de la inteligencia artificial: entenderla antes de que nos supere en capacidades. Su apuesta por desarrollar una MRI de la IA antes de 2027 podría marcar la diferencia entre una IA segura y beneficiosa o una fuerza fuera de nuestro control.
En los próximos años veremos si las grandes empresas tecnológicas, las empresas y los gobiernos logran unir fuerzas y cumplir este objetivo.
¿Te interesa saber más sobre cómo se está construyendo la IA del futuro? ¡No te pierdas ningún artículo de IAvanzados.