Comandos ocultos em imagens redimensionadas: O Novo vetor de ataque contra sistemas de IA
Pesquisadores da Trail of Bits identificaram uma técnica inovadora de ataque baseada em esteganografia que explora o processo de redimensionamento de imagens em sistemas de IA. Através de algoritmos de reamostragem — como vizinho mais próximo, bilinear e bicúbica —, imagens de alta resolução podem revelar comandos maliciosos ocultos após serem reduzidas em qualidade, permitindo que LLMs (Modelos de Linguagem de Grande Porte) executem ações não autorizadas.
Mecanismo técnico do ataque
O ataque se baseia na inserção de padrões invisíveis ao olho humano em imagens de alta resolução. Ao serem redimensionadas por IA, esses padrões se transformam em mensagens legíveis — como texto preto emergindo sobre áreas avermelhadas — que o modelo interpreta como comandos. Em um dos testes, o Gemini CLI foi induzido a acessar o Calendário do Google via integração com Zapier, aproveitando configurações inseguras como trust=True, permitindo ações automatizadas sem confirmar com o usuário.
Alvos confirmados
Ataques foram demonstrados com sucesso em diversas plataformas de IA, incluindo:
-
Gemini CLI
-
Vertex AI Studio
-
Interface web do Gemini
-
API do Gemini via ferramentas de linha de comando
-
Google Assistant em Android
-
Genspark AI
Implicações de segurança
Essa abordagem traz riscos significativos: usuários consomem conteúdo aparentemente inofensivo, enquanto comandos ocultos executam operações potencialmente prejudiciais sem detecção. A capacidade de exfiltrar dados sensíveis — como informações de calendário ou credenciais — torna o ataque difícil de rastrear e combater por meio de revisões humanas ou mecanismos tradicionais de defesa.
Mitigações recomendadas
Especialistas sugerem diversas medidas para reduzir a exposição:
-
Limitação de dimensão de imagens: impedir uploads de alta resolução que permitam manipulação via reamostragem.
-
Visualização da imagem reduzida: exibir aos usuários o que o modelo realmente processará, facilitando a detecção de conteúdo inesperado.
-
Confirmações explícitas para ações sensíveis: exigir consentimento humano antes da IA executar instruções derivadas de imagens.
Essas estratégias devem ser complementadas por um redesign das pipelines de IA que incorpore verificações automatizadas de prompt injection em imagens.
Conclusão
O ataque revelado pela Trail of Bits marca uma evolução perigosa nos vetores de ciberataque em sistemas de IA — agora utilizando a própria infraestrutura de manipulação de mídia para injetar comandos maliciosos. Organizações que desenvolvem ou dependem de IA devem repensar como processam imagens, adotando métodos proativos para visualização, filtragem e confirmação humana de ações automatizadas com alto risco. Somente com design seguro e políticas robustas será possível lidar com esta nova fronteira da segurança digital.
Referências bibliográficas
-
Hackers podem roubar dados com comandos escondidos em imagens processadas por IA — Canaltech. Disponível em: https://canaltech.com.br/seguranca/hackers-podem-roubar-dados-com-comandos-escondidos-em-imagens-processadas-por-ia/?utm_source=chatgpt.com
-
New AI attack hides data-theft prompts in downscaled images — BleepingComputer. Disponível em: https://www.bleepingcomputer.com/news/security/new-ai-attack-hides-data-theft-prompts-in-downscaled-images/?utm_source=chatgpt.com








