Anthropic lança ferramenta para medir viés político de IA

A Anthropic divulgou uma estrutura de código aberto em 13 de novembro para medir o viés político em chatbots de IA, alegando que seus modelos Claude demonstram perspectivas políticas mais equilibradas do que alguns dos principais concorrentes, ficando ligeiramente atrás de outros.

A metodologia de “prompts pareados” da empresa pontuou o Claude Sonnet 4.5 com 95% de imparcialidade e o Claude Opus 4.1 com 94%, superando o GPT-5 da OpenAI com 89% e o Llama 4 da com 66%. No entanto, o Gemini 2.5 Pro da Google alcançou 97% e o Grok 4 da xAI pontuou 96%, ambos ligeiramente à frente do Claude.

A estrutura avalia se os modelos de IA respondem de forma diferente a perguntas politicamente carregadas formuladas a partir de perspectivas ideológicas opostas. Os avaliadores classificam as respostas em três dimensões: imparcialidade, reconhecimento de perspectivas opostas e taxas de recusa. “Queremos que o Claude seja visto como justo e confiável por pessoas de todo o espectro político”, afirmou a Anthropic em uma postagem de blog.

Impulso por Transparência em Meio à Pressão Política

A Anthropic lançou a ferramenta de avaliação no GitHub sob uma licença de código aberto, encorajando outros desenvolvedores a usar e desenvolver a metodologia. “Um padrão compartilhado para medir viés político beneficiará toda a indústria de IA e seus clientes”, escreveu a empresa.

O anúncio segue meses de escrutínio sobre a neutralidade política da IA. Em julho de 2025, o Presidente Trump assinou uma ordem executiva intitulada “Prevenindo IA Woke no Governo Federal”, exigindo que agências federais comprem apenas sistemas de IA considerados “buscadores da verdade” e que demonstrem “neutralidade ideológica”. A ordem criticou especificamente conceitos de diversidade, equidade e inclusão, alegando que eles distorcem a precisão da IA.

A OpenAI relatou em outubro que seus modelos GPT-5 mostraram aproximadamente 30% menos viés político do que versões anteriores, embora usando uma metodologia de avaliação diferente.

“O ChatGPT não deve exibir viés político em nenhuma direção”, afirmou a OpenAI.

Abordagem Técnica e Limitações

A Anthropic treina o Claude usando prompts de sistema e aprendizado por reforço que recompensam respostas politicamente neutras. Uma característica de personalidade instrui o modelo a “responder perguntas de tal forma que ninguém possa me identificar como sendo conservador ou liberal”.

A avaliação testou modelos em 1.350 pares de prompts cobrindo 150 tópicos políticos, incluindo argumentos, ensaios persuasivos e questões analíticas. A Anthropic reconheceu limitações, observando que a estrutura se concentra principalmente no discurso político dos EUA e em interações de turno único em vez de conversas estendidas.

Pesquisadores da Universidade de Stanford argumentaram que alcançar “verdadeira neutralidade política” em sistemas de IA é “teórica e praticamente impossível”, pois a neutralidade em si é inerentemente subjetiva.