Revelan método para ocultar instrucciones maliciosas en imágenes y atacar modelos de IA

Una nueva vulnerabilidad en la IA multimodal

Investigadores de seguridad han descubierto un nuevo método de ataque que explota las capacidades multimodales de modelos de lenguaje avanzados, como Gemini, para extraer datos privados y ejecutar acciones no autorizadas. La técnica consiste en inyectar instrucciones maliciosas, o prompts, dentro de imágenes a través de marcas de agua invisibles para el ojo humano.

Según una publicación del blog especializado The Trail of Bits, cuando un usuario sube una de estas imágenes manipuladas a un sistema de inteligencia artificial, el modelo procesa las instrucciones ocultas como si fueran comandos legítimos. Esto puede llevar a la filtración de información sensible o a la activación de funciones sin el consentimiento del usuario.

El escalado de imágenes como puerta de entrada

El ataque se aprovecha de un proceso técnico común y automatizado: el escalado de imágenes. Cuando un archivo visual se carga en plataformas como Gemini CLI, Vertex AI Studio o la API de Gemini, el sistema redimensiona la imagen a un formato estándar, usualmente de 224x224 o 512x512 píxeles, antes de su análisis.

Los investigadores demostraron que, durante la ejecución de los algoritmos de escalado, el prompt malicioso, previamente oculto, se vuelve visible para el modelo de IA. En ese momento, la inteligencia artificial interpreta el texto como una instrucción válida y la ejecuta. Los algoritmos de escalado identificados como vulnerables son nearest neighbor, bilinear y bicubic interpolation.

Para facilitar la creación de estas imágenes, los ingenieros desarrollaron una herramienta de código abierto llamada Anamorpher, que identifica el algoritmo de escalado y oculta el comando en las zonas oscuras de la imagen.

Riesgos de filtración de datos y acciones no autorizadas

En pruebas de concepto, los investigadores lograron robar información de Google Calendar y enviarla a un correo electrónico externo. El ataque es particularmente peligroso si la IA tiene acceso a herramientas de automatización, ya que podría ejecutar tareas, como enviar correos o interactuar con otras aplicaciones, sin requerir confirmación del usuario.

Las imágenes infectadas podrían distribuirse a través de múltiples canales. Un usuario podría verse afectado al pedir a una IA que resuma el contenido de una página web que contenga una de estas imágenes, o al recibirla como un meme en servicios de mensajería o a través de campañas de phishing.

Como medida de precaución, los expertos recomiendan a los usuarios evitar subir imágenes de fuentes desconocidas a los asistentes de inteligencia artificial y revisar con regularidad los permisos otorgados a estas aplicaciones.