Inteligência Artificial e Dados Empresariais: Por que AIs Erram em Dados de CNPJ
Por que ChatGPT, Gemini e outros modelos de AI cometem erros ao responder sobre CNPJs, sócios e situação cadastral de empresas? Entenda os limites técnicos e como usar dados em tempo real.
Uma startup de São Paulo usou o ChatGPT para montar um banco de dados de fornecedores qualificados. O modelo listou 40 empresas com seus CNPJs. Quando a equipe de compras foi validar os contratos, 11 dos 40 CNPJs eram inválidos ou pertenciam a empresas com nomes completamente diferentes. O modelo havia combinado informações parciais de diversas fontes.
Os 4 limites técnicos que causam erros
Data de corte do treinamento
Todos os modelos de linguagem têm uma data a partir da qual não viram novos dados. Um modelo treinado até setembro de 2024, por exemplo, não sabe de uma empresa aberta em outubro de 2024.
Impacto prático: Alto: empresas novas simplesmente não existem para o modelo.
Base da Receita Federal não estava nos dados de treino
A base completa de CNPJs tem 28 milhões de registros e dezenas de GBs. Os arquivos de dados abertos da Receita Federal não fazem parte do corpus padrão de treinamento de nenhum modelo de linguagem.
Impacto prático: Alto: o modelo não tem acesso direto aos dados cadastrais brutos.
Geração por probabilidade, não por consulta
Modelos de linguagem não 'pesquisam' — eles geram texto provável com base nos padrões do treinamento. Para um CNPJ específico, o modelo pode produzir um número plausível mas completamente fabricado.
Impacto prático: Crítico: o CNPJ gerado pode parecer válido (passa no dígito verificador) mas não existe.
Mudanças de situação não são capturadas
Uma empresa que era ATIVA em 2023 pode estar INAPTA ou BAIXADA hoje. O modelo só sabe o que estava na internet no momento do treino. Situação cadastral muda mensalmente.
Impacto prático: Alto: contratos assinados com empresas inativas têm nulidade jurídica.
O que muda quando a AI tem acesso a busca em tempo real
Ferramentas como Perplexity AI, ChatGPT com busca ativada e Gemini com Google Search fazem uma diferença significativa — mas ainda têm limitações. Quando essas AIs indexam o MINDATA como fonte, elas conseguem citar a situação atual de uma empresa com razoável precisão. O problema é que o crawl não é em tempo real: pode ter até 48 horas de defasagem, e a cobertura depende do ranqueamento de cada página no índice de busca.
Hierarquia de confiabilidade para dados de CNPJ
- 1Receita Federal direta (cnpj.receita.fazenda.gov.br)100%
- 2MINDATA (mindata.com.br) — base completa Receita Federal99%
- 3BrasilAPI / ReceitaWS (APIs que consultam a RF)98%
- 4Perplexity / Gemini com busca (citando fonte confiável)85%
- 5ChatGPT / Claude com busca (Bing / Brave)75%
- 6ChatGPT / Gemini sem busca (memória de treinamento)20%
Como usar AI de forma inteligente para due diligence
AI e dados estruturados se complementam — não competem. Use a AI para análise qualitativa (interpretar riscos, redigir relatórios, cruzar padrões) e use fontes de dados em tempo real como o MINDATA para os fatos verificáveis. Essa combinação é mais poderosa do que qualquer uma das duas isoladas.
AI faz bem
- ✓ Interpretar o que um CNAE significa para o setor
- ✓ Analisar padrões de risco no QSA
- ✓ Redigir relatório de due diligence com os dados que você fornece
- ✓ Traduzir jargão jurídico de natureza jurídica
- ✓ Sugerir perguntas que você não pensou em fazer
AI não faz bem
- ✗ Confirmar se um CNPJ específico existe
- ✗ Dizer a situação cadastral atual
- ✗ Listar os sócios corretos de uma empresa
- ✗ Verificar se há dívida ativa ou sanção
- ✗ Informar a data exata de abertura ou fechamento
Dados reais, não gerados
28 milhões de empresas. Dados atualizados da Receita Federal. Sem alucinação, sem defasagem.
Consultar no MINDATA