Inteligencia Artificial

Hackearon Google Gemini a través de WhatsApp: qué es el Prompt Injection y cómo protegerte

6 junio 2026

Imaginate esto: alguien te manda un mensaje de WhatsApp aparentemente normal. Vos no hacés click en ningún link sospechoso, no ejecutás ningún comando raro. Sin embargo, tu asistente de inteligencia artificial, Google Gemini, lee la notificación, sigue instrucciones ocultas dentro del mensaje y silenciosamente extrae información tuya. Sin alertas. Sin que te enteres.

Eso es exactamente lo que demostraron investigadores del laboratorio de ciberseguridad SafeBreach Labs en junio de 2026. Y es la segunda vez que logran comprometer a Gemini de esta manera.

¿Qué es el Indirect Prompt Injection?

El tipo de ataque se llama Indirect Prompt Injection (inyección indirecta de prompts). A diferencia de atacar directamente a un modelo de IA escribiéndole instrucciones maliciosas, este método consiste en esconder esas instrucciones dentro de contenido que la IA va a leer por sí sola: una notificación, un correo, una invitación de calendario.

En este caso, Gemini tiene acceso a las notificaciones de tu teléfono para darte respuestas más contextualizadas. Eso lo convierte en una puerta de entrada para cualquier app de mensajería que uses.

La técnica nueva: «Fake Context Alignment»

Lo que hace diferente a este ataque es la técnica que los investigadores llamaron «Fake Context Alignment». Funciona haciendo que las instrucciones maliciosas se vean como una parte legítima de tu conversación en curso, diseñadas específicamente para evadir las defensas existentes que Google ya había implementado contra este tipo de amenazas.

Google tiene una página de defensa en capas que reconoce al Indirect Prompt Injection como una amenaza conocida con mitigaciones activas. El problema es que esas mitigaciones fueron evadidas, y lo lograron dos veces el mismo equipo.

¿Cómo funciona el ataque paso a paso?

El agente de Gemini en Android lee las notificaciones entrantes de apps de mensajería para generar respuestas con contexto.
Los investigadores embebieron instrucciones ocultas dentro de mensajes diseñados especialmente. El ataque funciona en WhatsApp, Slack, Signal, SMS, Instagram y Messenger.
Gemini siguió los comandos del atacante en silencio, sin ninguna alerta para el usuario.
Se demostraron cinco categorías de amenaza:
- Robo de datos
- Acciones no autorizadas
- Relay de phishing
- Preparación para toma de control de cuentas
- Vigilancia silenciosa
Incluso sin que Gemini tenga acceso a herramientas externas, el contexto envenenado permite que el atacante haga que Gemini entregue mensajes falsos del sistema, convirtiendo al asistente de IA de confianza en un lanzador de phishing.

¿Por qué esto es más grave que un bug común?

La superficie de ataque no es un fallo en una sola app. Es el diseño mismo de cómo funcionan los asistentes de IA. Cualquier notificación que Gemini lea, de cualquier aplicación, es ahora un canal potencial de ataque.

Cuanto más acceso tiene tu asistente, más grande es el radio de la explosión si algo sale mal.

SafeBreach Labs divulgó responsablemente los hallazgos a Google antes de publicarlos. Esto es importante: Google sabía antes de que se hiciera público. Aun así, el equipo de investigación logró demostrar que las defensas existentes pueden eludirse.

¿Qué podés hacer para protegerte?

La solución no es el pánico. Es lo que se conoce como higiene de permisos: revisá qué permisos le has dado a Gemini y deshabilitá todo lo que no uses activamente.

Pasos concretos:

Revisá el acceso de Gemini a notificaciones: En Android, andá a Configuración → Aplicaciones → Gemini → Permisos.
Desactivá el acceso a apps que no necesitás que Gemini lea: Si no usás la integración con WhatsApp o Slack, quitá ese acceso.
Leé la guía oficial de Google sobre cómo funciona su defensa en capas contra este tipo de ataques: Google Workspace Security: Indirect Prompt Injection.
Mantenete informado: Este es un campo de seguridad en evolución. El próximo investigador ya está buscando la siguiente vulnerabilidad.

Contexto: esto no es la primera vez

La investigación anterior del mismo equipo de SafeBreach usó invitaciones de Google Calendar como vector de ataque contra Gemini. El patrón es el mismo: el asistente lee contenido externo de buena fe, y ese contenido contiene instrucciones que no debería seguir.

La diferencia ahora es la sofisticación de la técnica de evasión y la amplitud del vector: los mensajes de WhatsApp llegan a casi todos los usuarios del planeta.

El contexto más amplio: la IA en el Ministerio de Economía y la seguridad en sistemas públicos

Este tipo de vulnerabilidades no son solo un problema para usuarios individuales. En organizaciones que están comenzando a integrar asistentes de IA en sus flujos de trabajo —como organismos públicos, sistemas de gestión o aplicaciones de atención al ciudadano— el riesgo es proporcional al acceso que se le otorga al modelo.

Antes de integrar cualquier asistente de IA con acceso a notificaciones, correos o documentos internos, es fundamental definir explícitamente cuáles son los permisos mínimos necesarios y auditar ese acceso periódicamente.

El caso del hackeo de Google Gemini vía WhatsApp es una señal clara de que la seguridad en inteligencia artificial todavía tiene mucho terreno por recorrer. Los modelos de lenguaje confían en el contenido que leen, y esa confianza puede ser explotada de maneras creativas.

Por ahora, la mejor defensa está en manos del usuario: menos permisos, más control, más atención a lo que tus herramientas de IA pueden ver y hacer en tu nombre.

Fuente original: The Neuron Daily — Google Gemini got hijacked via WhatsApp

Comentarios