Se você configurou o robots.txt para liberar o GPTBot e achou que estava pronto, não estava. O robots.txt para IA e o primeiro passo: mas sozinho não garante que o ChatGPT vai conseguir ler o seu site.
Mais de 20% dos sites que liberam acesso no robots.txt continuam invisíveis para as IAs por causa de uma segunda camada de bloqueio que a maioria dos gestores nunca configurou conscientemente. O robots.txt para IA resolve a permissão. Mas permissão e acesso não são a mesma coisa.
O que e o robots.txt para IA e o que ele faz de verdade
O robots.txt e um arquivo de texto simples na raiz do seu site que diz para os bots o que eles podem ou não rastrear. Para as IAs generativas, os principais bots que precisam de permissão são: GPTBot (ChatGPT), ClaudeBot (Claude), PerplexityBot (Perplexity), GoogleExtended (Gemini) e Applebot-Extended (Apple Intelligence).
Quando o robots.txt para IA está bloqueando esses bots: seja por uma regra genérica de Disallow: / ou por uma regra específica: a IA interpreta isso como “não quero ser indexado” e ignora o site. Simples assim.
Quando o robots.txt para IA está liberando: com Allow: / ou sem nenhuma regra de bloqueio: a IA tem permissão para rastrear. Mas permissão não significa que vai conseguir passar.
Modelo pronto de robots.txt para IA
Se você quer liberar todos os principais bots de IA, o modelo abaixo funciona para a maioria dos sites:
User-agent: GPTBotAllow: /User-agent: ClaudeBotAllow: /User-agent: PerplexityBotAllow: /User-agent: Google-ExtendedAllow: /User-agent: Applebot-ExtendedAllow: /User-agent: *Disallow: /wp-admin/Disallow: /wp-login.php
Esse robots.txt para IA libera os 5 crawlers principais de IA generativa e mantem o bloqueio padrão das areas administrativas do site. Copie, cole no arquivo robots.txt da raiz do seu domínio e publique.
Por que o robots.txt para IA sozinho não basta
Aqui está o problema que a maioria dos guias ignora: mesmo com o robots.txt para IA configurado corretamente, o seu site pode continuar invisível para o ChatGPT e outras IAs.
O motivo e que existe uma segunda camada de controle entre o bot e o seu conteúdo: o CDN ou firewall de seguranca, sendo o Cloudflare o mais comum. Em julho de 2024, o Cloudflare ativou por padrão um recurso chamado “AI Crawlers and Scrapers”: que bloqueia automáticamente todos os bots de IA, independentemente do que o robots.txt diz.
O resultado prático: o robots.txt para IA diz “pode entrar”, mas o Cloudflare barra na porta. A IA não consegue rastrear, o site continua invisível, e o gestor não recebe nenhum aviso sobre isso. Se quiser entender como isso acontece e como resolver, leia o artigo sobre o Cloudflare bloqueando bots de IA.
As 3 camadas que o robots.txt para IA não cobre
Camada 1: robots.txt: e o que você acabou de configurar. Permissao declarada para os bots. Necessario mas não suficiente.
Camada 2: CDN/Firewall (Cloudflare): e onde a maioria dos sites está falhando sem saber. O firewall pode bloquear o bot antes de ele chegar ao conteúdo, mesmo que o robots.txt esteja liberado. Verifique o painel do Cloudflare em Security > Bots e confirme que “AI Crawlers and Scrapers” não está ativado.
Camada 3: llms.txt: e um arquivo novo, diferente do robots.txt, que serve para dar contexto estruturado sobre a sua empresa diretamente para as IAs. Nao e obrigatorio ainda, mas e uma vantagem competitiva clara. Veja o artigo sobre llms.txt e o novo padrão para ser citado pelas IAs.
Para saber exatamente em qual das 3 camadas o seu site está falhando: robots.txt, Cloudflare ou llms.txt: use o Sonar IA: diagnóstico gratuito em 10 segundos.
Como verificar se seu robots.txt para IA está funcionando
Depois de públicar o arquivo, acesse diretamente no browser: seusite.com.br/robots.txt. Se o arquivo aparecer com as regras que você configurou, está no ar. Se aparecer uma pagina de erro, o arquivo não foi públicado corretamente.
Mas lembrar: verificar o robots.txt para IA manualmente so confirma a Camada 1. Para checar as 3 camadas de uma vez, o caminho mais rápido e o Sonar IA: que verifica robots.txt, Cloudflare e llms.txt em paralelo e mostra o resultado em segundos.
O que colocar no robots.txt para liberar o ChatGPT?
Adicione o bloco User-agent: GPTBot / Allow: / no arquivo robots.txt da raiz do seu site. Isso da permissão ao bot do ChatGPT para rastrear todas as paginas. Mas lembre: so o robots.txt para IA não garante acesso se o Cloudflare estiver bloqueando.
robots.txt resolve o bloqueio do Cloudflare?
Nao. Sao camadas separadas. O robots.txt para IA e uma instrucao no nível do conteúdo. O Cloudflare atua no nível de rede, antes do bot chegar ao arquivo. Configure os dois separadamente.
