Voltar ao blog
Dados Técnicos

Receita Federal Dados Abertos: Como a Base de CNPJ é Estruturada

A Receita Federal publica mensalmente a base completa de CNPJs do Brasil como dados abertos. Entenda quais arquivos estão disponíveis, a estrutura dos campos e como os dados são atualizados.

Equipe MINDATA6 jun. 20269 min de leitura
Publicidade

O que são os dados abertos da Receita Federal

Desde 2017, a Receita Federal do Brasil disponibiliza publicamente a base completa de CNPJs como dados abertos, em cumprimento à Lei de Acesso à Informação (Lei 12.527/2011) e ao Decreto de Dados Abertos (Decreto 8.777/2016). Os arquivos são publicados mensalmente em formato CSV compactado e podem ser baixados gratuitamente.

A base completa soma mais de 6 GB comprimida e aproximadamente 30 GB descomprimida, com mais de 250 milhões de registros distribuídos em seis conjuntos de arquivos. É a mesma base que alimenta o MINDATA.

~6 GB

Tamanho comprimido

Mensal

Atualização

CSV (Latin-1)

Formato

Quais arquivos estão disponíveis

Cada conjunto é dividido em múltiplos arquivos numerados (ex: K3241.K03200Y0.D40604.L00001). A chave primária de junção entre arquivos é o cnpj_basico.

Empresas
55M+ registros

Dados cadastrais da pessoa jurídica: razão social, natureza jurídica, qualificação do responsável, capital social, porte, ente federativo.

Chave: cnpj_basico

Estabelecimentos
63M+ registros

Dados de cada estabelecimento (matriz e filiais): CNPJ completo, nome fantasia, situação cadastral, CNAE, endereço, telefone, e-mail.

Chave: cnpj_basico + ordem + dv

Sócios
27M+ registros

Quadro de sócios e administradores (QSA): nome, qualificação, CPF/CNPJ mascarado, faixa etária, data de entrada, representante legal.

Chave: cnpj_basico

CNAEs Secundários
120M+ registros

Todas as atividades secundárias de cada estabelecimento, além do CNAE principal. Um estabelecimento pode ter dezenas de CNAEs secundários.

Chave: cnpj_basico + ordem + dv

Simples Nacional
25M+ registros

Indicação se a empresa é optante pelo Simples Nacional ou MEI, com datas de inclusão e exclusão.

Chave: cnpj_basico

Tabelas auxiliares
~5k registros

Motivos de situação cadastral, qualificações de sócio, naturezas jurídicas, municípios, países e CNAEs. Necessárias para decodificar os códigos dos outros arquivos.

Chave: código

Campos mais usados: Estabelecimentos

O arquivo de Estabelecimentos é o mais rico para análise. Cada linha representa um CNPJ completo (14 dígitos). Os campos sem cabeçalho seguem posição fixa no CSV.

CampoTipoDescrição
cnpj_basicoTEXT(8)Primeiros 8 dígitos — vincula ao arquivo Empresas
cnpj_ordemTEXT(4)0001 = matriz; 0002+ = filial
cnpj_dvTEXT(2)Dígitos verificadores
identificador_matriz_filialINT1 = Matriz, 2 = Filial
nome_fantasiaTEXTNome comercial, pode estar vazio
situacao_cadastralTEXT(2)01=Nula, 02=Ativa, 03=Suspensa, 04=Inapta, 08=Baixada
data_situacao_cadastralDATEData da última mudança de situação
cnae_fiscal_principalTEXT(7)CNAE principal sem pontuação
correio_eletronicoTEXTE-mail declarado (nem sempre preenchido)
capital_socialNUMERICNo arquivo Empresas; em centavos em alguns releases

Pontos de atenção ao trabalhar com a base bruta

  • !Encoding Latin-1: os arquivos usam ISO-8859-1, não UTF-8. Caracteres acentuados ficam corrompidos se importados sem a codificação correta.
  • !CPF mascarado: os CPFs dos sócios aparecem no formato ***052458**. Impossível fazer match direto com outras bases por CPF.
  • !Sem cabeçalho: as colunas seguem posição fixa, documentada no layout disponibilizado pela Receita junto com os arquivos.
  • !Capital social em texto: o campo capital_social usa vírgula como separador decimal e ponto como separador de milhar — ao contrário do padrão brasileiro em algumas versões da base.
  • !Telefones incompletos: o preenchimento de DDD e telefone é opcional e frequentemente inconsistente, especialmente em empresas antigas.
Publicidade

Sem precisar baixar nada

O MINDATA processa, normaliza e indexa essa base inteira mensalmente. Consulte qualquer CNPJ em segundos, sem instalar nada.

Consultar CNPJ agora