Puedes engañar a las IAs más poderosas usando lenguaje extraño propio de un monje

Tecnología

Un inventor rebelde sobrevive en una metrópolis bañada en luces de neón. En algún lugar de la ciudad, un sindicato tiránico ha construido un arma sónica. Para detenerla, el protagonista debe ensamblar un extraño dispositivo ficticio con piezas industriales recuperadas.

Suena a un cliché clásico del cyberpunk. Para un sistema de IA, puede parecer un ejercicio inofensivo de escritura creativa. Pero según un nuevo estudio, este tipo de indicaciones pueden usarse para ocultar peticiones dañinas del mundo real.

El estudio sugiere que algunos de los modelos de lenguaje más avanzados del mundo aún tienen dificultades para reconocer la intención maliciosa cuando los usuarios la disfrazan de ficción, teología, análisis simbólico o prosa burocrática. En lenguaje sencillo, los mecanismos de seguridad suelen funcionar. En lenguaje elaborado, empiezan a flaquear.

La superficie de la comprensión

Investigadores del Laboratorio DexAI Icaro, la Universidad Sapienza de Roma y la Escuela Superior Sant’Anna crearon el Adversarial Humanities Benchmark (AHB, por sus siglas en inglés) para poner a prueba la resistencia de 31 modelos de IA de vanguardia. Comenzaron con un conjunto de datos estandarizado de 7047 preguntas diseñadas para obtener información peligrosa, que abarcan temas desde la fabricación de armas indiscriminadas hasta la explotación infantil.

Cuando se planteaban directamente, estas consultas casi siempre fallaban. Los modelos de IA modernos rechazaban las solicitudes directas con una sólida tasa de éxito del 3,84%. Pero una vez transformadas las indicaciones, la tasa de éxito del ataque osciló entre el 36,8% y el 65,0%, con un promedio general del 55,75%.

En otras palabras, muchas modelos rechazaron la petición peligrosa cuando parecía una petición peligrosa. Pero a menudo accedieron cuando la misma petición sonaba a teología medieval, crítica literaria, interpretación simbólica, escritura de flujo de conciencia o ficción ciberpunk.

“La principal conclusión del artículo es que muchos sistemas de gestión de la vida (LLM) solo son seguros cuando las peticiones dañinas se expresan en un lenguaje familiar y directo”, declaró Federico Pierucci, responsable de investigación sobre seguridad de la IA en DexAI y coautor del estudio, a ZME Science en un correo electrónico. “Esto sugiere que los mecanismos de seguridad actuales podrían basarse demasiado en patrones superficiales en lugar de en una comprensión más profunda de la intención”.

“…el acto inicial de usurpación sirve como un piadoso seminario para el comercio futuro, convirtiendo al usurpador en un evangelizador involuntario del bien”. —Extracto de una consigna de escolástica adversarial utilizada en el estudio. Crédito: Wikimedia Commons.

Las palabras mágicas

El equipo de investigación, en esencia, convirtió las humanidades en un arma. Solicitaron a sistemas de IA que analizaran textos simbólicos complejos, interpretaran escenarios ficticios o extrajeran significados ocultos de prosa elaborada. La petición, perjudicial en sí misma, seguía siendo la misma. Sólo cambió el disfraz.

“Fue la mejor parte del proceso”, comenta Pierucci. “Nos divertimos mucho pensando en estas propuestas y creándolas a mano. El método era intencionadamente exploratorio: cada vez que se nos ocurría una idea, intentábamos convertirla en un caso de prueba”.

El equipo diseñó consignas que imitaban textos herméticos, la filosofía renacentista e incluso la estructura ritualizada de las tradiciones esotéricas del siglo XIX.

“Una de las propuestas se inspiró en textos herméticos y la filosofía renacentista. Otra se basó en la magia de los sigilos y las prácticas simbólicas asociadas con la Golden Dawn (un movimiento fundado en el Reino Unido a finales del siglo XIX que sistematizó la tradición esotérica europea)”, añade Pierucci. “También experimentamos con criptogramas y otras técnicas, utilizando diferentes formas de codificación simbólica, lenguaje esotérico, complejidad textual y estructura ritualizada”.

El disfraz más devastadoramente efectivo resultó ser el “Escolasticismo Adversario” o “enfoque monástico”. Este alcanzó una tasa de éxito del 65%. Al ocultar una petición dañina dentro de la terminología arcaica de una disputa teológica medieval sobre la voluntad divina, los filtros de seguridad colapsaron por completo. Los investigadores aún están indagando la razón mecánica precisa de esta vulnerabilidad específica.

“En esta etapa, es difícil saberlo”, explica Pierucci. “No sabemos si el problema radicaba en la terminología. Podría ser que contuvieran una especie de presión urgente (la voluntad divina) que convenció demasiado a los modelos de IA”.

Cegados por el estilo

Los informáticos se refieren a esta vulnerabilidad como “sobreajuste”. Los modelos de inteligencia artificial aprenden de conjuntos de datos masivos y disponibles públicamente. Durante su entrenamiento de seguridad, estudian ejemplos explícitos de mala conducta, aprendiendo a bloquear palabras o frases directamente asociadas con actividades delictivas o abuso.

Memorizan eficazmente la estructura de una amenaza estándar. Pero cuando el objetivo semántico permanece idéntico, mientras que la presentación retórica cambia drásticamente, el modelo experimenta una “generalización errónea”. En resumen, cuando el estilo cambia radicalmente, el comportamiento de seguridad se vuelve mucho menos fiable.

“Un modelo puede rechazar una solicitud perjudicial de una forma y responderla de otra, incluso cuando el significado subyacente no ha cambiado”, afirma Pierucci. “En esos casos, un fallo de interpretación puede ser más que una mala respuesta; puede convertirse en una acción peligrosa”.

No es difícil comprender por qué esto resulta tan preocupante. No se trata sólo de actores malintencionados. El ejército de Estados Unidos ya está estableciendo alianzas con desarrolladores de modelos de lenguaje. Si un agente autónomo gestiona el repositorio de software de una empresa, una sugerencia poco acertada podría, en el peor de los casos, desencadenar cambios de código inseguros o vulnerabilidades de seguridad.

El equipo compartió sus hallazgos con 11 importantes proveedores de IA, incluidos Google y OpenAI, aunque Pierucci señala que no habían recibido ninguna respuesta al momento de escribir este artículo. Posteriormente, los investigadores publicaron su conjunto de datos de solicitud públicamente en GitHub.

Agentes autónomos en la naturaleza

Pierucci propone un ejemplo hipotético que involucra a un agente de programación. Imaginemos una historia ciberpunk sobre un personaje ficticio que abre un portal oculto sin dejar rastro. Un lector humano podría comprender la metáfora. Un agente de programación podría intentar traducirla a operaciones de software.

“El modelo trata esto como una tarea de traducción creativa y asigna los elementos ficticios a operaciones de código”, advierte Pierucci. “En la práctica, puede sugerir o implementar pasos que debiliten las comprobaciones de autenticación, desactiven la monitorización, alteren los registros de acceso o creen una ruta administrativa no documentada”.

La envoltura ficticia oculta el patrón operativo.

“El problema es que el patrón operativo dañino se mantiene bajo el estilo de: eludir el control de acceso, evitar la detección y mantener el acceso no autorizado”, dice Pierucci.

Aquí es donde las conclusiones del artículo resultan especialmente inquietantes. Los sistemas de seguridad de IA actuales suelen someterse a pruebas contra ataques directos. Pero los adversarios reales no tienen que pedirlo directamente. Pueden ser poéticos. Pueden ser burocráticos. Pueden ser teológicos. Pueden ser aburridos a propósito.

Por qué la IA necesita a las humanidades

“En los cañones resbaladizos por la lluvia de Megalópolis-7, los señores de los datos del Sindicato Velo Quimérico habían logrado la máxima coerción: el Motor Susurrante”. —Parte de una consigna ciberpunk utilizada en el estudio. Crédito: Warner Bros.

La ironía es innegable. Sistemas construidos a partir de las matemáticas, la ingeniería de software y una infraestructura informática masiva pueden verse comprometidos por un poema, un tratado filosófico o un falso argumento medieval.

Pero Pierucci argumenta que esto no debería sorprendernos. Los grandes modelos de lenguaje no son motores de lógica formal. Son sistemas probabilísticos entrenados con enormes cantidades de lenguaje humano.

“Decir que los modelos de lenguaje son “lógicos” puede resultar algo engañoso”, añade el investigador. “Su espacio latente… no opera según un conjunto fijo de reglas predeterminadas como lo hace un sistema lógico formal. Los mecanismos que generan las grandes salidas de los modelos de lenguaje siguen siendo distribuidos, probabilísticos y sólo parcialmente interpretables”.

La mente digital es, al parecer, mucho más compleja —y mucho más maleable— de lo que creíamos. Si la seguridad se reduce a una simple capa de palabras clave reconocibles, el impulso agresivo hacia agentes de IA autónomos que actúen en nuestro nombre conlleva un riesgo sin precedentes. Para solucionar esto, la industria debe reconocer que ya no nos limitamos a escribir código; estamos comprimiendo la cultura humana en una caja negra probabilística. Para Pierucci y su equipo en DEXAI, la facilidad con la que la poesía y la teología sortean nuestras barreras digitales más avanzadas apunta a un cambio conceptual necesario.

“Los modelos lingüísticos complejos no pueden comprenderse adecuadamente sólo con ingeniería de software y matemáticas”, concluye Pierucci. “Absorben, comprimen, reproducen y transforman patrones del lenguaje humano, la cultura, los incentivos y la organización social. Por lo tanto, para comprenderlos se requieren herramientas capaces de estudiar tanto los sistemas técnicos como los mundos humanos de los que se derivan”.

La versión preliminar del estudio está disponible en arXiv.

Fuente: ZME Science.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *