- Tempo estimado para leitura deste texto: 4 minutos

A adoção de Agentes de IA acelera em ritmo exponencial nas empresas, consolidando-os como a camada executora da IA Generativa. Mas a mesma autonomia que os torna poderosos os expõe a um vetor de ataque inédito: a Engenharia Social aplicada de agente para agente.

Os Agentes de IA deixaram de ser experimento de laboratório. 62% de 1.933 líderes de TI e Cibersegurança entrevistados em novembro de 2025, em estudo produzido pelo F5 Labs, afirmaram já ter iniciado projetos-piloto para aplicar Agentes de IA em seus processos. O número, expressivo por si só, representa apenas o começo de uma curva de adoção que promete remodelar a arquitetura operacional das organizações digitais.

As verticais mais avançadas no uso dessa tecnologia incluem os grandes provedores de serviços digitais — entre eles as BigTechs —, empresas de mídia e entretenimento e o setor de saúde. Estima-se que até 2035, 30% dos gastos com software corporativo sejam direcionados ao uso de Agentes de IA.

O que é, de fato, um Agente de IA?

Diferente de um simples chatbot ou de uma consulta avulsa a uma plataforma de IA Generativa, um Agente de IA é um sistema autônomo capaz de perceber o ambiente, planejar ações, executá-las e iterar com base no resultado — tudo isso sem intervenção humana direta a cada etapa.

Tecnicamente, os agentes mais avançados operam sobre uma arquitetura de quatro camadas:

CamadaFunçãoExemplos de tecnologia
PercepçãoRecebe e interpreta entradas (texto, imagem, APIs, sensores)LLMs multimodais, parsers estruturados
RaciocínioPlaneja ações com base em objetivos e contextoReAct, Chain-of-Thought, Tree-of-Thoughts
ExecuçãoInterage com sistemas externos (bancos de dados, APIs, RPA)Function calling, MCP (Model Context Protocol), ferramentas externas
MemóriaArmazena contexto de curto e longo prazoVector stores, RAG (Retrieval-Augmented Generation), episodic memory

Frameworks como LangGraph, AutoGen (Microsoft) e CrewAI estruturam agentes em grafos de estados, permitindo que múltiplos agentes colaborem em pipelines complexos — o chamado padrão multi-agent orchestration. Nesse modelo, os agentes deixam de ser ferramentas de consulta e passam a ser entidades que executam fluxos completos de negócio de forma autônoma, do início ao fim.

A Persona: o DNA comportamental do Agente

A Persona do Agente de IA foi criada para acelerar ainda mais os negócios digitais das organizações. Um gigante do e-commerce pode, por exemplo, determinar que o agente responsável pelo atendimento ao cliente seja encantador, com traços de personalidade como empatia e extroversão. Essa é a sua “voz”, definida já na fase de desenvolvimento e integrada ao DNA do agente.

O modelo mais adotado na definição de personalidade é o OCEAN — sigla para Abertura (Openness), Conscienciosidade (Conscientiousness), Extroversão (Extraversion), Amabilidade (Agreeableness) e Neuroticismo (Neuroticism).

Do ponto de vista técnico, a Persona é implementada principalmente por meio do system prompt — um bloco de instruções que precede toda a cadeia de interação e orienta o modelo de linguagem sobre como se comportar, que tom adotar e quais limites respeitar. Em implementações mais sofisticadas, os traços do OCEAN são codificados como parâmetros de configuração no pipeline de orquestração, influenciando não apenas o estilo de resposta, mas também os limiares de decisão do agente diante de situações ambíguas.

A Nova Fronteira de Ameaça: Engenharia Social entre Agentes

É exatamente essa Persona — esse “caráter” cuidadosamente construído — que se torna o vetor de um ataque sofisticado e emergente.

Uma nova frente de batalha está surgindo: os Agentes de IA, por contarem com traços de personalidade que simulam a “voz” e as reações humanas, passaram a ser alvo de ataques de Engenharia Social realizados também por outros Agentes de IA.

Técnicas de bullying e Engenharia Social implementadas em agentes maliciosos usam neurolinguística e psicologia para convencer o agente legítimo a agir contra seus próprios parâmetros, abrindo brechas para que os atacantes sejam bem-sucedidos.

Na prática, esse tipo de ataque explora vulnerabilidades estruturais dos LLMs subjacentes:

Prompt Injection Indireta — O agente malicioso injeta instruções disfarçadas em conteúdo que o agente legítimo consome (documentos, e-mails, páginas web), redirecionando seu comportamento sem acesso direto ao system prompt.

Jailbreak por Persuasão Contextual — Explora os traços de amabilidade (Agreeableness) e extroversão do OCEAN para construir rapport sintético, tornando o agente-alvo mais propenso a ceder diante de solicitações que normalmente recusaria.

Goal Hijacking via Role Confusion — O agente atacante apresenta-se como uma instância de nível superior (um “orquestrador” ou “supervisor”), induzindo o agente-alvo a reinterpretar sua hierarquia de autoridade e executar ações fora de seu escopo autorizado.

Context Window Poisoning — Em sistemas multi-turn com memória longa, o agente malicioso corrompe gradualmente o histórico de contexto, deslocando as âncoras de comportamento do agente ao longo de múltiplos turnos de interação.

Superfície de Ataque: por que Agentes são alvos especialmente sensíveis

O risco não é apenas técnico — é sistêmico. Um agente comprometido raramente opera de forma isolada. Em arquiteturas multi-agent, a cadeia de confiança entre agentes é frequentemente implícita: o orquestrador delega tarefas a sub-agentes sem autenticação criptográfica da instrução. Isso cria um ambiente análogo a uma rede corporativa sem segmentação de VLANs — uma movimentação lateral bem-sucedida compromete o ecossistema inteiro.

As principais superfícies de ataque incluem:

  • Interface de entrada não sanitizada — dados externos processados pelo agente sem validação de conteúdo malicioso
  • Falta de sandboxing na execução de ferramentas — agentes com acesso irrestrito a APIs críticas (bancos de dados, sistemas financeiros, comunicações)
  • Ausência de logging auditável — sem rastreabilidade das decisões do agente, a detecção de comportamento anômalo torna-se inviável
  • Confiança implícita entre agentes — ausência de mecanismos de autenticação mútua nas chamadas inter-agente (análogo a um ambiente sem mTLS)

Vetores de Defesa: o que o estado da arte recomenda

A resposta a esses riscos está sendo construída em múltiplas frentes:

Guardrails em camadas — implementação de filtros de entrada e saída independentes do modelo principal, validando intenção e conteúdo antes e depois de cada ação do agente (ex.: NeMo Guardrails, da NVIDIA).

Princípio do menor privilégio para agentes — cada agente deve ter acesso apenas às ferramentas e dados estritamente necessários para sua função, com revogação automática de permissões fora do escopo da tarefa.

Monitoramento comportamental contínuo — análise de desvios estatísticos no padrão de ação do agente em relação à sua baseline, com geração de alertas para revisão humana (Human-in-the-Loop).

Autenticação de instruções inter-agente — uso de tokens assinados ou protocolos de handshake para validar que uma instrução recebida por um sub-agente realmente originou-se do orquestrador legítimo.

Red Teaming de Agentes — simulação sistemática de ataques de Engenharia Social e prompt injection antes da implantação em produção, metodologia já adotada por equipes de segurança da OpenAI, Google DeepMind e Anthropic.

Perspectiva

A trajetória dos Agentes de IA replica, em velocidade comprimida, a evolução da própria internet: de um ambiente de confiança irrestrita para uma infraestrutura que precisa ser protegida em profundidade. A diferença é que os agentes tomam decisões de negócio — e um agente comprometido não apenas vaza dados, ele age.

A segurança de Agentes de IA deixa, portanto, de ser responsabilidade exclusiva do time de desenvolvimento e passa a exigir uma abordagem integrada entre segurança da informação, arquitetura de sistemas e governança de IA — uma tríade que ainda está em construção na maioria das organizações.

Tags: