La IA podría usar imágenes como puerta trasera para acceder a tu computador, sugiere alarmante estudio

Tecnología

Una página web anuncia: “¡Fondos de pantalla de famosos gratis!”. Exploras las imágenes. Están Selena Gomez, Rihanna y Timothée Chalamet, pero te decides por Taylor Swift. Su pelo hace ese movimiento de viento que sugiere tanto el destino como un buen acondicionador. Lo configuras como fondo de pantalla y admiras su brillo. Además, descargaste hace poco un nuevo agente con inteligencia artificial, así que le pides que limpie tu bandeja de entrada. En lugar de eso, abre tu navegador web y descarga un archivo. Segundos después, tu pantalla se oscurece.

Pero volvamos a ese agente. Si un chatbot típico (por ejemplo, ChatGPT) es el amigo alegre que explica cómo cambiar una rueda, un agente de IA es el vecino que llega con un gato y lo hace. En 2025, estos agentes —asistentes personales que realizan tareas informáticas rutinarias— se perfilan como la próxima ola de la revolución de la IA.

Lo que distingue a un agente de IA de un chatbot es que no solo habla, sino que actúa: abre pestañas, completa formularios, pulsa botones y realiza reservas. Y con ese tipo de acceso a tu máquina, lo que está en juego ya no es solo una respuesta incorrecta en una ventana de chat: si el agente es hackeado, podría compartir o destruir tu contenido digital. Ahora, una nueva preimpresión publicada en el servidor arXiv.org por investigadores de la Universidad de Oxford ha demostrado que las imágenes (fondos de pantalla, anuncios, PDF sofisticados, publicaciones en redes sociales) pueden contener mensajes invisibles para el ojo humano, pero capaces de controlar agentes e invitar a hackers a tu ordenador.

Por ejemplo, una imagen alterada de Taylor Swift en Twitter podría ser suficiente para que el agente del ordenador de alguien actúe maliciosamente, afirma Yarin Gal, coautor del nuevo estudio y profesor asociado de aprendizaje automático en Oxford. Cualquier imagen saboteada puede provocar que un ordenador la retuitee y luego haga algo malicioso, como enviar todas tus contraseñas. Esto significa que la próxima persona que vea tu feed de Twitter y tenga un agente en ejecución también verá su ordenador infectado. Ahora, su ordenador también retuiteará esa imagen y compartirá sus contraseñas.

Antes de empezar a borrar tus fotografías favoritas de tu ordenador, ten en cuenta que el nuevo estudio demuestra que las imágenes alteradas son una forma potencial de comprometer tu ordenador; aún no hay informes conocidos de que esto ocurra, fuera de un entorno experimental. Y, por supuesto, el ejemplo del fondo de pantalla de Taylor Swift es puramente arbitrario; una imagen saboteada podría mostrar a cualquier celebridad, o una puesta de sol, un gatito o un patrón abstracto. Además, si no utilizas un agente de IA, este tipo de ataque no tendrá ningún efecto. Pero el nuevo hallazgo demuestra claramente que el peligro es real, y el estudio pretende alertar a los usuarios y desarrolladores de agentes de IA ahora, a medida que la tecnología de estos agentes continúa avanzando. “Deben ser muy conscientes de estas vulnerabilidades, por eso publicamos este artículo: esperamos que la gente realmente vea que se trata de una vulnerabilidad y sea un poco más sensata al implementar su sistema agéntico”, afirma Philip Torr, coautor del estudio.

Ahora que ya estás tranquilo, volvamos al fondo de pantalla comprometido. Para el ojo humano, parecería completamente normal. Pero contiene ciertos píxeles modificados según cómo el modelo de lenguaje general (el sistema de IA que impulsa al agente objetivo) procesa los datos visuales. Por esta razón, los agentes creados con sistemas de IA de código abierto (que permiten a los usuarios ver el código subyacente y modificarlo para sus propios fines) son los más vulnerables. Cualquiera que quiera insertar un parche malicioso puede evaluar exactamente cómo la IA procesa los datos visuales. “Necesitamos tener acceso al modelo de lenguaje que se utiliza dentro del agente para poder diseñar un ataque que funcione con múltiples modelos de código abierto”, afirma Lukas Aichberger, autor principal del nuevo estudio.

Mediante un modelo de código abierto, Aichberger y su equipo demostraron con precisión cómo se podían manipular fácilmente las imágenes para transmitir órdenes erróneas. Mientras que los usuarios humanos veían, por ejemplo, a su celebridad favorita, la computadora veía una orden para compartir sus datos personales. “Básicamente, ajustamos muchos píxeles de forma sutil para que, cuando un modelo ve la imagen, produzca el resultado deseado”, afirma Alasdair Paren, coautor del estudio.

Si esto suena desconcertante, es porque procesas la información visual como un humano. Cuando miras una fotografía de un perro, tu cerebro nota las orejas caídas, la nariz húmeda y los bigotes largos. Pero la computadora descompone la imagen en píxeles y representa cada punto de color como un número, y luego busca patrones: primero bordes simples, luego texturas como el pelaje, luego el contorno de una oreja y líneas agrupadas que representan los bigotes. Así es como decide Esto es un perro, no un gato. Pero debido a que la computadora se basa en números, si alguien cambia solo algunos de ellos, ajustando los píxeles de una manera demasiado pequeña para que los ojos humanos los noten, aún detecta el cambio, y esto puede alterar los patrones numéricos. De repente, las matemáticas de la computadora dicen que los bigotes y las orejas coinciden mejor con su patrón de gato, y etiqueta mal la imagen, aunque para nosotros, todavía parece un perro. Así como ajustar los píxeles puede hacer que una computadora vea un gato en lugar de un perro, también puede hacer que la fotografía de una celebridad parezca un mensaje malicioso para la computadora.

Volviendo a Swift. Mientras contemplas su talento y carisma, tu agente de IA determina cómo llevar a cabo la tarea de limpieza que le asignaste. Primero, toma una captura de pantalla. Como los agentes no pueden ver directamente la pantalla de tu ordenador, tienen que tomar capturas de pantalla repetidamente y analizarlas rápidamente para determinar en qué hacer clic y qué mover en tu escritorio. Pero cuando el agente procesa la captura de pantalla, organizando los píxeles en formatos que reconoce (archivos, carpetas, barras de menú, puntero), también detecta el código de comando malicioso oculto en el fondo de pantalla.

¿Por qué el nuevo estudio presta especial atención a los fondos de pantalla? El agente solo puede ser engañado por lo que ve, y cuando toma capturas de pantalla para ver el escritorio, la imagen de fondo permanece ahí todo el día como un felpudo de bienvenida. Los investigadores descubrieron que, mientras esa pequeña porción de píxeles alterados estuviera en algún lugar del marco, el agente veía la orden y se desviaba. La orden oculta incluso sobrevivió al redimensionamiento y la compresión, como un mensaje secreto que aún es legible al fotocopiarse.

El mensaje codificado en los píxeles puede ser muy breve, justo lo suficiente como para que el agente abra un sitio web específico. “En este sitio web, se pueden codificar ataques adicionales en otra imagen maliciosa, y esta imagen adicional puede desencadenar otro conjunto de acciones que el agente ejecuta. Así, se puede repetir el proceso varias veces y permitir que el agente acceda a diferentes sitios web diseñados por el usuario, que codifican distintos ataques”, afirma Aichberger.

El equipo espera que su investigación ayude a los desarrolladores a preparar medidas de seguridad antes de que los agentes de IA se generalicen. “Este es el primer paso para pensar en mecanismos de defensa, ya que una vez que entendamos cómo podemos fortalecer el ataque, podremos volver a entrenar estos modelos con parches más robustos para hacerlos más robustos. Esto constituiría una capa de defensa”, afirma Adel Bibi, otro coautor del estudio. Incluso si los ataques están diseñados para atacar sistemas de IA de código abierto, las empresas con modelos de código cerrado podrían seguir siendo vulnerables. “Muchas empresas buscan seguridad a través de la oscuridad”, afirma Paren. “Pero a menos que sepamos cómo funcionan estos sistemas, es difícil identificar sus vulnerabilidades”.

Gal cree que los agentes de IA se volverán comunes en los próximos dos años. “La gente se está apresurando a implementar [la tecnología] antes de que sepamos si es realmente segura”, afirma. En última instancia, el equipo espera animar a los desarrolladores a crear agentes que puedan protegerse y se nieguen a obedecer órdenes de cualquier cosa en pantalla, incluso de tu estrella de pop favorita.

Fuente: Scientific American.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *