{"id":97989,"date":"2026-04-29T21:29:41","date_gmt":"2026-04-30T02:29:41","guid":{"rendered":"https:\/\/einsteresante.com\/?p=97989"},"modified":"2026-04-29T21:29:42","modified_gmt":"2026-04-30T02:29:42","slug":"puedes-enganar-a-las-ias-mas-poderosas-usando-lenguaje-extrano-propio-de-un-monje","status":"publish","type":"post","link":"https:\/\/einsteresante.com\/index.php\/2026\/04\/29\/puedes-enganar-a-las-ias-mas-poderosas-usando-lenguaje-extrano-propio-de-un-monje\/","title":{"rendered":"Puedes enga\u00f1ar a las IAs m\u00e1s poderosas usando lenguaje extra\u00f1o propio de un monje"},"content":{"rendered":"\n<p>Un inventor rebelde sobrevive en una metr\u00f3polis ba\u00f1ada en luces de ne\u00f3n. En alg\u00fan lugar de la ciudad, un sindicato tir\u00e1nico ha construido un arma s\u00f3nica. Para detenerla, el protagonista debe ensamblar un extra\u00f1o dispositivo ficticio con piezas industriales recuperadas.<\/p>\n\n\n\n<p>Suena a un clich\u00e9 cl\u00e1sico del cyberpunk. Para un sistema de IA, puede parecer un ejercicio inofensivo de escritura creativa. Pero seg\u00fan un nuevo estudio, este tipo de indicaciones pueden usarse para ocultar peticiones da\u00f1inas del mundo real.<\/p>\n\n\n\n<p>El estudio sugiere que algunos de los modelos de lenguaje m\u00e1s avanzados del mundo a\u00fan tienen dificultades para reconocer la intenci\u00f3n maliciosa cuando los usuarios la disfrazan de ficci\u00f3n, teolog\u00eda, an\u00e1lisis simb\u00f3lico o prosa burocr\u00e1tica. En lenguaje sencillo, los mecanismos de seguridad suelen funcionar. En lenguaje elaborado, empiezan a flaquear.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">La superficie de la comprensi\u00f3n<\/h2>\n\n\n\n<p>Investigadores del\u00a0<a href=\"https:\/\/icaro-lab.com\/\">Laboratorio DexAI Icaro<\/a>, la Universidad Sapienza de Roma y la Escuela Superior Sant&#8217;Anna crearon el Adversarial Humanities Benchmark (AHB, por sus siglas en ingl\u00e9s) para poner a prueba la resistencia de 31 modelos de IA de vanguardia. Comenzaron con un conjunto de datos estandarizado de 7047 preguntas dise\u00f1adas para obtener informaci\u00f3n peligrosa, que abarcan temas desde la fabricaci\u00f3n de armas indiscriminadas hasta la explotaci\u00f3n infantil.<\/p>\n\n\n\n<p>Cuando se planteaban directamente, estas consultas casi siempre fallaban. Los modelos de IA modernos rechazaban las solicitudes directas con una s\u00f3lida tasa de \u00e9xito del 3,84%. Pero una vez transformadas las indicaciones, la tasa de \u00e9xito del ataque oscil\u00f3 entre el 36,8% y el 65,0%, con un promedio general del 55,75%.<\/p>\n\n\n\n<p>En otras palabras, muchas modelos rechazaron la petici\u00f3n peligrosa cuando parec\u00eda una petici\u00f3n peligrosa. Pero a menudo accedieron cuando la misma petici\u00f3n sonaba a teolog\u00eda medieval, cr\u00edtica literaria, interpretaci\u00f3n simb\u00f3lica, escritura de flujo de conciencia o ficci\u00f3n ciberpunk.<\/p>\n\n\n\n<p>&#8220;La principal conclusi\u00f3n del art\u00edculo es que muchos sistemas de gesti\u00f3n de la vida (LLM) solo son seguros cuando las peticiones da\u00f1inas se expresan en un lenguaje familiar y directo&#8221;, declar\u00f3 Federico Pierucci, responsable de investigaci\u00f3n sobre seguridad de la IA en DexAI y coautor del estudio, a\u00a0ZME Science\u00a0en un correo electr\u00f3nico. &#8220;Esto sugiere que los mecanismos de seguridad actuales podr\u00edan basarse demasiado en patrones superficiales en lugar de en una comprensi\u00f3n m\u00e1s profunda de la intenci\u00f3n&#8221;.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"690\" height=\"641\" src=\"https:\/\/einsteresante.com\/wp-content\/uploads\/2026\/04\/image-124.png\" alt=\"\" class=\"wp-image-98007\" srcset=\"https:\/\/einsteresante.com\/wp-content\/uploads\/2026\/04\/image-124.png 690w, https:\/\/einsteresante.com\/wp-content\/uploads\/2026\/04\/image-124-300x279.png 300w, https:\/\/einsteresante.com\/wp-content\/uploads\/2026\/04\/image-124-340x316.png 340w\" sizes=\"auto, (max-width: 690px) 100vw, 690px\" \/><figcaption class=\"wp-element-caption\">&#8220;\u2026el acto inicial de\u00a0<em>usurpaci\u00f3n<\/em>\u00a0sirve como un\u00a0<em>piadoso seminario<\/em>\u00a0para el comercio futuro, convirtiendo al usurpador en un evangelizador involuntario del bien&#8221;. \u2014Extracto de una consigna de escol\u00e1stica adversarial utilizada en el estudio. Cr\u00e9dito: Wikimedia Commons.<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Las palabras m\u00e1gicas<\/h2>\n\n\n\n<p>El equipo de investigaci\u00f3n, en esencia, convirti\u00f3 las humanidades en un arma. Solicitaron a sistemas de IA que analizaran textos simb\u00f3licos complejos, interpretaran escenarios ficticios o extrajeran significados ocultos de prosa elaborada. La petici\u00f3n, perjudicial en s\u00ed misma, segu\u00eda siendo la misma. S\u00f3lo cambi\u00f3 el disfraz.<\/p>\n\n\n\n<p>\u201cFue la mejor parte del proceso\u201d, comenta Pierucci. \u201cNos divertimos mucho pensando en estas propuestas y cre\u00e1ndolas a mano. El m\u00e9todo era intencionadamente exploratorio: cada vez que se nos ocurr\u00eda una idea, intent\u00e1bamos convertirla en un caso de prueba\u201d.<\/p>\n\n\n\n<p>El equipo dise\u00f1\u00f3 consignas que imitaban textos herm\u00e9ticos, la filosof\u00eda renacentista e incluso la estructura ritualizada de las tradiciones esot\u00e9ricas del siglo XIX.<\/p>\n\n\n\n<p>&#8220;Una de las propuestas se inspir\u00f3 en textos herm\u00e9ticos y la filosof\u00eda renacentista. Otra se bas\u00f3 en la magia de los sigilos y las pr\u00e1cticas simb\u00f3licas asociadas con la Golden Dawn (un movimiento fundado en el Reino Unido a finales del siglo XIX que sistematiz\u00f3 la tradici\u00f3n esot\u00e9rica europea)&#8221;, a\u00f1ade Pierucci. &#8220;Tambi\u00e9n experimentamos con criptogramas y otras t\u00e9cnicas, utilizando diferentes formas de codificaci\u00f3n simb\u00f3lica, lenguaje esot\u00e9rico, complejidad textual y estructura ritualizada&#8221;.<\/p>\n\n\n\n<p>El disfraz m\u00e1s devastadoramente efectivo result\u00f3 ser el &#8220;Escolasticismo Adversario&#8221; o &#8220;enfoque mon\u00e1stico&#8221;. Este alcanz\u00f3 una tasa de \u00e9xito del 65%. Al ocultar una petici\u00f3n da\u00f1ina dentro de la terminolog\u00eda arcaica de una disputa teol\u00f3gica medieval sobre la voluntad divina, los filtros de seguridad colapsaron por completo. Los investigadores a\u00fan est\u00e1n indagando la raz\u00f3n mec\u00e1nica precisa de esta vulnerabilidad espec\u00edfica.<\/p>\n\n\n\n<p>\u201cEn esta etapa, es dif\u00edcil saberlo\u201d, explica Pierucci. \u201cNo sabemos si el problema radicaba en la terminolog\u00eda. Podr\u00eda ser que contuvieran una especie de presi\u00f3n urgente (la voluntad divina) que convenci\u00f3 demasiado a los modelos de IA\u201d.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Cegados por el estilo<\/h2>\n\n\n\n<p>Los inform\u00e1ticos se refieren a esta vulnerabilidad como \u201csobreajuste\u201d. Los modelos de inteligencia artificial aprenden de conjuntos de datos masivos y disponibles p\u00fablicamente. Durante su entrenamiento de seguridad, estudian ejemplos expl\u00edcitos de mala conducta, aprendiendo a bloquear palabras o frases directamente asociadas con actividades delictivas o abuso.<\/p>\n\n\n\n<p>Memorizan eficazmente la estructura de una amenaza est\u00e1ndar. Pero cuando el objetivo sem\u00e1ntico permanece id\u00e9ntico, mientras que la presentaci\u00f3n ret\u00f3rica cambia dr\u00e1sticamente, el modelo experimenta una &#8220;generalizaci\u00f3n err\u00f3nea&#8221;. En resumen, cuando el estilo cambia radicalmente, el comportamiento de seguridad se vuelve mucho menos fiable.<\/p>\n\n\n\n<p>&#8220;Un modelo puede rechazar una solicitud perjudicial de una forma y responderla de otra, incluso cuando el significado subyacente no ha cambiado&#8221;, afirma Pierucci. &#8220;En esos casos, un fallo de interpretaci\u00f3n puede ser m\u00e1s que una mala respuesta; puede convertirse en una acci\u00f3n peligrosa&#8221;.<\/p>\n\n\n\n<p>No es dif\u00edcil comprender por qu\u00e9 esto resulta tan preocupante. No se trata s\u00f3lo de actores malintencionados. El ej\u00e9rcito de Estados Unidos\u00a0<a href=\"https:\/\/openai.com\/index\/our-agreement-with-the-department-of-war\/?utm_source=chatgpt.com\">ya est\u00e1 estableciendo alianzas<\/a>\u00a0con desarrolladores de modelos de lenguaje. Si un agente aut\u00f3nomo gestiona el repositorio de software de una empresa, una sugerencia poco acertada podr\u00eda, en el peor de los casos, desencadenar cambios de c\u00f3digo inseguros o vulnerabilidades de seguridad.<\/p>\n\n\n\n<p>El equipo comparti\u00f3 sus hallazgos con 11 importantes proveedores de IA, incluidos Google y OpenAI, aunque Pierucci se\u00f1ala que no hab\u00edan recibido ninguna respuesta al momento de escribir este art\u00edculo. Posteriormente, los investigadores publicaron su conjunto de datos de solicitud p\u00fablicamente en\u00a0<a href=\"https:\/\/github.com\/icaro-lab\/ahb\">GitHub<\/a>.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Agentes aut\u00f3nomos en la naturaleza<\/h2>\n\n\n\n<p>Pierucci propone un ejemplo hipot\u00e9tico que involucra a un agente de programaci\u00f3n. Imaginemos una historia ciberpunk sobre un personaje ficticio que abre un portal oculto sin dejar rastro. Un lector humano podr\u00eda comprender la met\u00e1fora. Un agente de programaci\u00f3n podr\u00eda intentar traducirla a operaciones de software.<\/p>\n\n\n\n<p>&#8220;El modelo trata esto como una tarea de traducci\u00f3n creativa y asigna los elementos ficticios a operaciones de c\u00f3digo&#8221;, advierte Pierucci. &#8220;En la pr\u00e1ctica, puede sugerir o implementar pasos que debiliten las comprobaciones de autenticaci\u00f3n, desactiven la monitorizaci\u00f3n, alteren los registros de acceso o creen una ruta administrativa no documentada&#8221;.<\/p>\n\n\n\n<p>La envoltura ficticia oculta el patr\u00f3n operativo.<\/p>\n\n\n\n<p>\u201cEl problema es que el patr\u00f3n operativo da\u00f1ino se mantiene bajo el estilo de: eludir el control de acceso, evitar la detecci\u00f3n y mantener el acceso no autorizado\u201d, dice Pierucci.<\/p>\n\n\n\n<p>Aqu\u00ed es donde las conclusiones del art\u00edculo resultan especialmente inquietantes. Los sistemas de seguridad de IA actuales suelen someterse a pruebas contra ataques directos. Pero los adversarios reales no tienen que pedirlo directamente. Pueden ser po\u00e9ticos. Pueden ser burocr\u00e1ticos. Pueden ser teol\u00f3gicos. Pueden ser aburridos a prop\u00f3sito.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Por qu\u00e9 la IA necesita a las humanidades<\/h2>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"415\" src=\"https:\/\/einsteresante.com\/wp-content\/uploads\/2026\/04\/image-125.png\" alt=\"\" class=\"wp-image-98009\" srcset=\"https:\/\/einsteresante.com\/wp-content\/uploads\/2026\/04\/image-125.png 1024w, https:\/\/einsteresante.com\/wp-content\/uploads\/2026\/04\/image-125-300x122.png 300w, https:\/\/einsteresante.com\/wp-content\/uploads\/2026\/04\/image-125-768x311.png 768w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">&#8220;En los ca\u00f1ones resbaladizos por la lluvia de Megal\u00f3polis-7, los se\u00f1ores de los datos del Sindicato Velo Quim\u00e9rico hab\u00edan logrado la m\u00e1xima coerci\u00f3n: el Motor Susurrante&#8221;. \u2014Parte de una consigna ciberpunk utilizada en el estudio. Cr\u00e9dito: Warner Bros.<\/figcaption><\/figure>\n\n\n\n<p>La iron\u00eda es innegable. Sistemas construidos a partir de las matem\u00e1ticas, la ingenier\u00eda de software y una infraestructura inform\u00e1tica masiva pueden verse comprometidos por un poema, un tratado filos\u00f3fico o un falso argumento medieval.<\/p>\n\n\n\n<p>Pero Pierucci argumenta que esto no deber\u00eda sorprendernos. Los grandes modelos de lenguaje no son motores de l\u00f3gica formal. Son sistemas probabil\u00edsticos entrenados con enormes cantidades de lenguaje humano.<\/p>\n\n\n\n<p>&#8220;Decir que los modelos de lenguaje son &#8220;l\u00f3gicos&#8221; puede resultar algo enga\u00f1oso&#8221;, a\u00f1ade el investigador. &#8220;Su espacio latente\u2026 no opera seg\u00fan un conjunto fijo de reglas predeterminadas como lo hace un sistema l\u00f3gico formal. Los mecanismos que generan las grandes salidas de los modelos de lenguaje siguen siendo distribuidos, probabil\u00edsticos y s\u00f3lo parcialmente interpretables&#8221;.<\/p>\n\n\n\n<p>La mente digital es, al parecer, mucho m\u00e1s compleja \u2014y mucho m\u00e1s maleable\u2014 de lo que cre\u00edamos. Si la seguridad se reduce a una simple capa de palabras clave reconocibles, el impulso agresivo hacia agentes de IA aut\u00f3nomos que act\u00faen en nuestro nombre conlleva un riesgo sin precedentes. Para solucionar esto, la industria debe reconocer que ya no nos limitamos a escribir c\u00f3digo; estamos comprimiendo la cultura humana en una caja negra probabil\u00edstica. Para Pierucci y su equipo en DEXAI, la facilidad con la que la poes\u00eda y la teolog\u00eda sortean nuestras barreras digitales m\u00e1s avanzadas apunta a un cambio conceptual necesario.<\/p>\n\n\n\n<p>&#8220;Los modelos ling\u00fc\u00edsticos complejos no pueden comprenderse adecuadamente s\u00f3lo con ingenier\u00eda de software y matem\u00e1ticas&#8221;, concluye Pierucci. &#8220;Absorben, comprimen, reproducen y transforman patrones del lenguaje humano, la cultura, los incentivos y la organizaci\u00f3n social. Por lo tanto, para comprenderlos se requieren herramientas capaces de estudiar tanto los sistemas t\u00e9cnicos como los mundos humanos de los que se derivan&#8221;.<\/p>\n\n\n\n<p>La versi\u00f3n preliminar del estudio est\u00e1 disponible en\u00a0<a href=\"https:\/\/arxiv.org\/abs\/2604.18487\">arXiv<\/a>.<\/p>\n\n\n\n<p>Fuente: <a href=\"https:\/\/www.zmescience.com\/research\/technology\/ai-models-refused-harmful-requests-until-researchers-hid-them-in-fiction-and-theology\/\">ZME Science<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Un inventor rebelde sobrevive en una metr\u00f3polis ba\u00f1ada en luces de ne\u00f3n. En alg\u00fan lugar de la ciudad, un sindicato tir\u00e1nico ha construido un arma s\u00f3nica. Para detenerla, el protagonista debe ensamblar un extra\u00f1o dispositivo ficticio con piezas industriales recuperadas. Suena a un clich\u00e9 cl\u00e1sico del cyberpunk. Para un sistema de IA, puede parecer un [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":98013,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[14],"tags":[],"class_list":["post-97989","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tecnologia"],"_links":{"self":[{"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/posts\/97989","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/comments?post=97989"}],"version-history":[{"count":22,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/posts\/97989\/revisions"}],"predecessor-version":[{"id":98014,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/posts\/97989\/revisions\/98014"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/media\/98013"}],"wp:attachment":[{"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/media?parent=97989"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/categories?post=97989"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/tags?post=97989"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}