Legítimo interesse no treinamento de IA: inovação necessária ou risco silencioso à privacidade?

08.05.2626 - Tempo estimado para leitura deste texto: 6 minutos

A discussão sobre o uso do legítimo interesse como base legal para o treinamento de modelos de inteligência artificial entrou em uma fase decisiva no Brasil. O tema ganhou força após manifestação recente da Autoridade Nacional de Proteção de Dados, indicando que a hipótese não deve ser descartada, mas também não pode ser tratada como uma autorização ampla e automática para coletar dados pessoais em massa.

Em evento na FGV Direito Rio, realizado em 29 de abril de 2026, durante a 2ª edição do “Diálogos Atlânticos sobre Tecnologia e Regulação”, Iagê Miola, diretor do Conselho Diretor da ANPD, afirmou que a Autoridade ainda não possui uma posição definitiva sobre a aplicação do legítimo interesse ao treinamento de IA, embora já existam reflexões acumuladas em processos de fiscalização e iniciativas regulatórias.

O ponto central do debate é simples de formular, mas complexo de resolver: empresas podem usar dados pessoais para treinar sistemas de inteligência artificial sem pedir consentimento individual de cada titular? A resposta tende a não ser um “sim” ou “não” absoluto. O caminho mais provável é um modelo condicionado, em que o legítimo interesse poderá ser admitido em determinados casos, desde que acompanhado de controles robustos, transparência significativa, teste de balanceamento, respeito à expectativa legítima do titular e exclusão ou tratamento extremamente cauteloso de dados sensíveis e de grupos vulneráveis.

A LGPD prevê o legítimo interesse como uma das hipóteses legais para o tratamento de dados pessoais. O art. 7º, IX, permite o tratamento quando necessário para atender aos interesses legítimos do controlador ou de terceiro, salvo quando prevalecerem direitos e liberdades fundamentais do titular que exijam a proteção dos dados. Já o art. 10 exige que esse interesse esteja vinculado a finalidades legítimas, situações concretas, tratamento apenas dos dados estritamente necessários e adoção de medidas de transparência.

Em outras palavras, legítimo interesse não é uma “carta branca”. Ele exige demonstração. A organização precisa provar que existe uma finalidade legítima, que o tratamento é necessário para atingir essa finalidade e que os direitos do titular não são atropelados pelo interesse econômico, tecnológico ou operacional da empresa. Esse raciocínio é especialmente importante em IA, porque o treinamento de modelos costuma depender de grandes volumes de dados, muitas vezes coletados de ambientes digitais, redes sociais, bases públicas, interações com usuários, documentos, imagens, textos e registros comportamentais.

A dificuldade prática está no tamanho da escala. Modelos de IA precisam de dados variados e representativos para reduzir vieses, melhorar acurácia e funcionar de forma adequada. Segundo a discussão apresentada pela ANPD, um dos consensos identificados é que o consentimento, embora seja uma base legal importante, cria desafios imensos para o treinamento de modelos de IA, justamente porque a coleta de autorizações individuais em larga escala pode tornar o processo inviável e, em alguns casos, até prejudicar a representatividade dos dados utilizados.

Esse ponto merece atenção. Um modelo treinado apenas com dados de pessoas que consentiram expressamente pode se tornar menos representativo, reproduzindo distorções sociais, econômicas, regionais ou comportamentais. Ao mesmo tempo, admitir o uso amplo de dados pessoais sem consentimento pode gerar um ambiente de vigilância invisível, no qual o titular sequer sabe que suas informações foram usadas para treinar sistemas capazes de produzir textos, reconhecer padrões, classificar comportamentos ou inferir características pessoais.

A controvérsia fica ainda mais sensível quando se fala em raspagem de dados, ou scraping.

A coleta automatizada de informações disponíveis na internet é uma das práticas mais discutidas no treinamento de IA. O problema é que dados “publicamente acessíveis” não são necessariamente dados “livres para qualquer finalidade”. A própria LGPD estabelece que o tratamento de dados pessoais cujo acesso é público deve considerar a finalidade, a boa-fé e o interesse público que justificaram sua disponibilização.

Isso significa que uma foto publicada em uma rede social, um comentário em fórum, um currículo disponível online ou uma postagem antiga em blog não podem ser automaticamente reaproveitados para qualquer finalidade tecnológica. O titular pode ter tornado aquele dado público em um contexto específico, para um público específico e com uma expectativa determinada. Usar esse mesmo dado anos depois para treinar um modelo de IA generativa pode ser incompatível com a expectativa original do titular.

A ANPD identificou justamente esse ponto como uma das principais divergências do debate: até que ponto a raspagem de dados pode ser amparada pelo legítimo interesse, especialmente quando há risco de coleta incidental de dados sensíveis? O tema é delicado porque a LGPD não permite o uso do legítimo interesse como base legal para dados pessoais sensíveis. Dados sobre origem racial ou étnica, convicção religiosa, opinião política, filiação sindical, saúde, vida sexual, dado genético ou biométrico possuem regime jurídico próprio e mais restritivo.

O risco é evidente: em uma coleta massiva, a empresa pode pretender capturar apenas textos ou imagens comuns, mas acabar absorvendo informações sensíveis, dados de crianças e adolescentes, opiniões políticas, informações de saúde, padrões de comportamento ou elementos capazes de identificar vulnerabilidades individuais. Em IA, muitas vezes o dado sensível não aparece de forma direta; ele pode ser inferido por cruzamentos, padrões linguísticos, localização, imagem, histórico de navegação ou interações acumuladas.

Por isso, o debate sobre legítimo interesse em IA não pode se limitar à pergunta “a base legal é possível?”.

A pergunta correta é: em quais condições ela seria aceitável? A resposta passa por um teste de balanceamento sério, documentado e auditável. A própria ANPD, em seu Guia Orientativo sobre Legítimo Interesse, apresenta um modelo de teste dividido em finalidade, necessidade, balanceamento e salvaguardas.

Na fase da finalidade, a organização deve explicar qual objetivo legítimo pretende alcançar com o treinamento. Não basta alegar “melhorar a IA” de forma genérica. É necessário especificar se os dados serão usados para aprimorar segurança, reduzir erros, melhorar compreensão linguística, adaptar um serviço, prevenir fraudes, corrigir vieses ou desenvolver determinada funcionalidade.

Na fase da necessidade, deve-se demonstrar que o uso de dados pessoais é realmente indispensável. Se a finalidade puder ser alcançada com dados anonimizados, sintéticos, agregados ou minimizados, a coleta de dados pessoais identificáveis perde força jurídica. A LGPD consagra o princípio da necessidade, impondo limitação ao mínimo necessário para a finalidade pretendida.

Na fase do balanceamento, entra o ponto mais sensível: o interesse da empresa deve ser comparado com os direitos, liberdades e expectativas do titular. Aqui devem ser analisados fatores como contexto da coleta, natureza dos dados, grau de transparência, possibilidade de oposição, impacto sobre grupos vulneráveis, risco de discriminação, uso posterior dos modelos, possibilidade de reidentificação e consequências negativas para os titulares.

Por fim, as salvaguardas são os mecanismos concretos que reduzem riscos. Entre elas estão anonimização ou pseudonimização quando aplicáveis, filtros para exclusão de dados sensíveis, mecanismos de opt-out, políticas claras de privacidade, canais facilitados para exercício de direitos, registros das operações, governança de dados, auditorias, avaliação de impacto e controles técnicos para evitar memorização indevida de informações pessoais pelo modelo.

O caso Meta, analisado anteriormente pela ANPD, mostra como esse debate deixou de ser teórico. Em 2024, a Autoridade havia suspendido preventivamente o uso de dados pessoais para treinamento de IA generativa pela empresa, por entender que o tratamento poderia gerar risco iminente de danos graves ou de difícil reparação. Posteriormente, a ANPD aprovou um plano de conformidade com restrições, incluindo medidas de transparência, direito de oposição facilitado e compromisso de não usar dados de contas de menores de 18 anos para treinamento do modelo até decisão definitiva.

Esse precedente indica o provável padrão regulatório brasileiro: não se trata de proibir toda inovação em IA, mas de exigir que ela seja compatível com a LGPD desde a concepção. A autoridade parece caminhar para uma abordagem de governança, na qual empresas que treinam modelos com dados pessoais deverão demonstrar maturidade técnica, jurídica e organizacional.

Para empresas, o recado é direto: usar legítimo interesse no treinamento de IA sem documentação robusta será arriscado. A base legal precisa vir acompanhada de relatório de avaliação, justificativa concreta, mapeamento de dados, análise de riscos e medidas efetivas de proteção. A LGPD permite que a ANPD solicite relatório de impacto quando o tratamento se basear no legítimo interesse, observados os segredos comercial e industrial.

Para titulares de dados, a discussão é igualmente relevante. O cidadão precisa saber quando seus dados são usados para treinar IA, para qual finalidade, por qual empresa, com quais garantias e como pode exercer seus direitos. A transparência não pode ser escondida em políticas longas, genéricas e incompreensíveis. A ANPD já sinalizou preocupação com transparência superficial, especialmente quando o titular não consegue compreender quais dados foram usados, por qual motivo e com quais consequências.

O futuro da IA no Brasil dependerá desse equilíbrio. De um lado, há o interesse legítimo no desenvolvimento tecnológico, na inovação, na competitividade e na criação de sistemas mais eficientes. De outro, há direitos fundamentais à privacidade, à autodeterminação informativa, à não discriminação e à proteção contra usos abusivos de dados pessoais. A própria LGPD reconhece tanto a proteção da privacidade quanto o desenvolvimento econômico e tecnológico como fundamentos da disciplina de proteção de dados.

O ponto decisivo é que inovação e privacidade não devem ser tratadas como forças opostas. A IA que respeita a LGPD tende a ser mais confiável, auditável e sustentável. O legítimo interesse pode, sim, tornar-se uma base relevante para determinados projetos de treinamento de IA, mas apenas quando for usado com responsabilidade, proporcionalidade e transparência real.

A pergunta, portanto, não é se o Brasil permitirá ou proibirá o uso de dados pessoais em IA. A pergunta é se empresas, poder público e reguladores conseguirão construir um modelo em que a tecnologia avance sem transformar cada pessoa em matéria-prima invisível para sistemas que ela não conhece, não compreende e não consegue contestar.

Tags: privacidade raspagem de dados scraping treinamento de ia

Nos ajude a evoluir com conteúdos cada vez mais relevantes, divulgando e compartilhando nosso site com sua rede: