Agentes de ia
A adoção de Agentes de IA acelera em ritmo exponencial nas empresas, consolidando-os como a camada executora da IA Generativa. Mas a mesma autonomia que os torna poderosos os expõe a um vetor de ataque inédito: a Engenharia Social aplicada de agente para agente.
Os Agentes de IA deixaram de ser experimento de laboratório. 62% de 1.933 líderes de TI e Cibersegurança entrevistados em novembro de 2025, em estudo produzido pelo F5 Labs, afirmaram já ter iniciado projetos-piloto para aplicar Agentes de IA em seus processos. O número, expressivo por si só, representa apenas o começo de uma curva de adoção que promete remodelar a arquitetura operacional das organizações digitais.
As verticais mais avançadas no uso dessa tecnologia incluem os grandes provedores de serviços digitais — entre eles as BigTechs —, empresas de mídia e entretenimento e o setor de saúde. Estima-se que até 2035, 30% dos gastos com software corporativo sejam direcionados ao uso de Agentes de IA.
Diferente de um simples chatbot ou de uma consulta avulsa a uma plataforma de IA Generativa, um Agente de IA é um sistema autônomo capaz de perceber o ambiente, planejar ações, executá-las e iterar com base no resultado — tudo isso sem intervenção humana direta a cada etapa.
Tecnicamente, os agentes mais avançados operam sobre uma arquitetura de quatro camadas:
| Camada | Função | Exemplos de tecnologia |
|---|---|---|
| Percepção | Recebe e interpreta entradas (texto, imagem, APIs, sensores) | LLMs multimodais, parsers estruturados |
| Raciocínio | Planeja ações com base em objetivos e contexto | ReAct, Chain-of-Thought, Tree-of-Thoughts |
| Execução | Interage com sistemas externos (bancos de dados, APIs, RPA) | Function calling, MCP (Model Context Protocol), ferramentas externas |
| Memória | Armazena contexto de curto e longo prazo | Vector stores, RAG (Retrieval-Augmented Generation), episodic memory |
Frameworks como LangGraph, AutoGen (Microsoft) e CrewAI estruturam agentes em grafos de estados, permitindo que múltiplos agentes colaborem em pipelines complexos — o chamado padrão multi-agent orchestration. Nesse modelo, os agentes deixam de ser ferramentas de consulta e passam a ser entidades que executam fluxos completos de negócio de forma autônoma, do início ao fim.
A Persona do Agente de IA foi criada para acelerar ainda mais os negócios digitais das organizações. Um gigante do e-commerce pode, por exemplo, determinar que o agente responsável pelo atendimento ao cliente seja encantador, com traços de personalidade como empatia e extroversão. Essa é a sua “voz”, definida já na fase de desenvolvimento e integrada ao DNA do agente.
O modelo mais adotado na definição de personalidade é o OCEAN — sigla para Abertura (Openness), Conscienciosidade (Conscientiousness), Extroversão (Extraversion), Amabilidade (Agreeableness) e Neuroticismo (Neuroticism).
Do ponto de vista técnico, a Persona é implementada principalmente por meio do system prompt — um bloco de instruções que precede toda a cadeia de interação e orienta o modelo de linguagem sobre como se comportar, que tom adotar e quais limites respeitar. Em implementações mais sofisticadas, os traços do OCEAN são codificados como parâmetros de configuração no pipeline de orquestração, influenciando não apenas o estilo de resposta, mas também os limiares de decisão do agente diante de situações ambíguas.
É exatamente essa Persona — esse “caráter” cuidadosamente construído — que se torna o vetor de um ataque sofisticado e emergente.
Uma nova frente de batalha está surgindo: os Agentes de IA, por contarem com traços de personalidade que simulam a “voz” e as reações humanas, passaram a ser alvo de ataques de Engenharia Social realizados também por outros Agentes de IA.
Técnicas de bullying e Engenharia Social implementadas em agentes maliciosos usam neurolinguística e psicologia para convencer o agente legítimo a agir contra seus próprios parâmetros, abrindo brechas para que os atacantes sejam bem-sucedidos.
Na prática, esse tipo de ataque explora vulnerabilidades estruturais dos LLMs subjacentes:
Prompt Injection Indireta — O agente malicioso injeta instruções disfarçadas em conteúdo que o agente legítimo consome (documentos, e-mails, páginas web), redirecionando seu comportamento sem acesso direto ao system prompt.
Jailbreak por Persuasão Contextual — Explora os traços de amabilidade (Agreeableness) e extroversão do OCEAN para construir rapport sintético, tornando o agente-alvo mais propenso a ceder diante de solicitações que normalmente recusaria.
Goal Hijacking via Role Confusion — O agente atacante apresenta-se como uma instância de nível superior (um “orquestrador” ou “supervisor”), induzindo o agente-alvo a reinterpretar sua hierarquia de autoridade e executar ações fora de seu escopo autorizado.
Context Window Poisoning — Em sistemas multi-turn com memória longa, o agente malicioso corrompe gradualmente o histórico de contexto, deslocando as âncoras de comportamento do agente ao longo de múltiplos turnos de interação.
O risco não é apenas técnico — é sistêmico. Um agente comprometido raramente opera de forma isolada. Em arquiteturas multi-agent, a cadeia de confiança entre agentes é frequentemente implícita: o orquestrador delega tarefas a sub-agentes sem autenticação criptográfica da instrução. Isso cria um ambiente análogo a uma rede corporativa sem segmentação de VLANs — uma movimentação lateral bem-sucedida compromete o ecossistema inteiro.
As principais superfícies de ataque incluem:
A resposta a esses riscos está sendo construída em múltiplas frentes:
Guardrails em camadas — implementação de filtros de entrada e saída independentes do modelo principal, validando intenção e conteúdo antes e depois de cada ação do agente (ex.: NeMo Guardrails, da NVIDIA).
Princípio do menor privilégio para agentes — cada agente deve ter acesso apenas às ferramentas e dados estritamente necessários para sua função, com revogação automática de permissões fora do escopo da tarefa.
Monitoramento comportamental contínuo — análise de desvios estatísticos no padrão de ação do agente em relação à sua baseline, com geração de alertas para revisão humana (Human-in-the-Loop).
Autenticação de instruções inter-agente — uso de tokens assinados ou protocolos de handshake para validar que uma instrução recebida por um sub-agente realmente originou-se do orquestrador legítimo.
Red Teaming de Agentes — simulação sistemática de ataques de Engenharia Social e prompt injection antes da implantação em produção, metodologia já adotada por equipes de segurança da OpenAI, Google DeepMind e Anthropic.
A trajetória dos Agentes de IA replica, em velocidade comprimida, a evolução da própria internet: de um ambiente de confiança irrestrita para uma infraestrutura que precisa ser protegida em profundidade. A diferença é que os agentes tomam decisões de negócio — e um agente comprometido não apenas vaza dados, ele age.
A segurança de Agentes de IA deixa, portanto, de ser responsabilidade exclusiva do time de desenvolvimento e passa a exigir uma abordagem integrada entre segurança da informação, arquitetura de sistemas e governança de IA — uma tríade que ainda está em construção na maioria das organizações.
A Advocacia-Geral da União (AGU) tomou uma medida direta contra a proliferação de conteúdos abusivos…
O país atravessa uma virada regulatória sem precedentes: enquanto o Marco Legal da IA percorre…
O ecossistema do Pix, principal meio de pagamento do Brasil, sofreu um novo e severo…
Documento internacional pede moratória imediata e aponta que as tecnologias disponíveis comprometem a privacidade, aprofundam…
A Autoridade Nacional de Proteção de Dados (ANPD) divulgou suas primeiras orientações sobre mecanismos de…
O Superior Tribunal de Justiça decidiu que a comprovação de identidade por selfie, biometria e…