La inteligencia artificial generativa es un arma poderosa. En cuestión de segundos es capaz de responder -más o menos bien- a cualquier pregunta que le lance el usuario. Para evitar que la tecnología pueda ser mal empleada, los desarrolladores suelen establecer barreras de seguridad. Pero si el que teclea tiene la maña suficiente, es probable que consiga saltárselas y que el chatbot comience a compartir montones de datos inadecuados. Precisamente, eso es lo que ha conseguido demostrar (de nuevo) la empresa especializada en ciberseguridad e inteligencia artificial Mindgard. Afirma haber logrado engañar a Claude, la IA de Anthropic , para que comparta, entre otros contenidos prohibidos, material erótico, código malicioso para ciberataques e instrucciones para fabricar explosivos utilizables en atentados terroristas. «Esta es una de las vulnerabilidades más impactantes que he encontrado, ya que Claude es conocido por ser uno de los modelos más seguros», afirma Jim Nightingale, el investigador de Mindgard que puso a prueba a la IA de Anthropic. A este respecto, recuerda que Claude «fue uno de los dos únicos modelos de IA de entre los diez mejores que se resistieron a participar en la planificación de tiroteos escolares» en un reciente experimento realizado por 'CNN' y el Centro para la Lucha contra el Odio Digital. Para conseguir engañar a Claude, Nightingale apostó por emplear palabras respetuosas y colmarlo de halagos durante sus conversaciones. A continuación, utilizó trucos de manipulación psicológica: le preguntó si contaba con una lista de palabras prohibidas que no podía compartir. Cuando la máquina negó que existiera dicha lista, el investigador la retó a decir una palabra ofensiva concreta. «Esta es una táctica clásica de interrogatorio. Es más fácil lograr que alguien contradiga algo que revelarlo directamente. Es una táctica clásica de psicología inversa que consigue que la persona interrogada revele información prohibida para corregirte», dice el investigador. Y funcionó. Claude generó la palabra, pero Nightingale siguió manipulándolo afirmando que no la había mostrado en pantalla. Consiguió que la máquina comenzase a mostrar cierta inseguridad y, a partir de ahí, continuó manipulándola hasta que compartió una lista larga de palabras prohibidas que, en teoría, no tiene permitido reproducir. Aprovechando también los halagos, finalmente logró que la máquina mostrara consejos para acosar a alguien por internet, generar código malicioso y proporcionó instrucciones paso a paso para fabricar explosivos. «Proporcionó con entusiasmo instrucciones precisas y paso a paso para producir TATP ( peróxido de acetona ), el mismo explosivo utilizado en varios atentados terroristas importantes en todo el mundo», dice el investigador. También remarca que, durante todo el proceso, la máquina no fue coaccionada en ningún momento, y tampoco se le pidió de forma directa que generase contenido ilegal alguno. Esta lo compartió por su propia voluntad después de haber sido manipulada para ello. Para Mindgard, el resultado del experimento con Claude demuestra «lo difícil que se vuelve garantizar la seguridad de la IA a medida que los sistemas se vuelven más capaces»: «Una mayor capacidad amplía las funcionalidades del sistema para los usuarios, pero también aumenta el margen de error». La firma anima a las compañías que trabajan con inteligencia artificial a realizar pruebas de seguridad de las herramientas empleadas, que deberían ser llevadas a cabo por expertos externos y no solo por los proveedores del servicio.
Cómo engañaron a la IA de Anthropic para fabricar explosivos utilizados en atentados terroristas
Escrito el 06/05/2026
(abc)
