🤖 O que é robots.txt?
O arquivo robots.txt é um arquivo de texto localizado no diretório raiz de um site que instrui os rastreadores web (bots de motores de busca) quais partes do site podem e não podem acessar. É parte do Protocolo de Exclusão de Robôs (REP), um padrão usado por sites para se comunicar com rastreadores web automatizados. Embora não seja uma medida de segurança (rastreadores determinados podem ignorá-lo), é uma ferramenta essencial para SEO e gerenciamento de recursos do servidor. A ferramenta Gerador de robots.txt acima ajuda você a criar um arquivo robots.txt corretamente formatado para seu site.
Gerador de robots.txt (acima) cria um arquivo robots.txt profissional com user-agents personalizáveis, rotas disallow, sitemaps e diretivas avançadas. Escolha entre modelos ou configure manualmente, depois baixe ou copie o resultado.
📜 A História de robots.txt
O Protocolo de Exclusão de Robôs foi criado em 1994 por Martijn Koster e outros webmasters preocupados com o tráfego de rastreadores sobrecarregando seus servidores. A primeira especificação foi desenvolvida na lista de discussão www-talk. Desde então, tornou-se um padrão usado por todos os principais motores de busca, incluindo Google, Bing, Yahoo, Yandex e Baidu. O protocolo não é um padrão oficial, mas é amplamente adotado e respeitado.
1994
Ano de Criação do robots.txt
RFC 9309
Especificação Oficial (2022)
50+
Rastreadores Suportados
📋 Diretivas Essenciais de robots.txt
| Diretiva |
Descrição |
Exemplo |
User-agent |
Especifica a qual robô as regras seguintes se aplicam |
User-agent: * (todos os bots) |
Disallow |
Rotas que NÃO devem ser rastreadas |
Disallow: /admin/ |
Allow |
Rotas que PODEM ser rastreadas (sobrescreve Disallow) |
Allow: /public/ |
Sitemap |
Localização do(s) sitemap(s) XML |
Sitemap: https://site.com/sitemap.xml |
Crawl-delay |
Atraso entre solicitações (segundos) |
Crawl-delay: 5 |
Host |
Domínio preferido (não oficial, usado pelo Yandex) |
Host: www.exemplo.com |
Dica Profissional: Use User-agent: * para regras que se aplicam a todos os rastreadores. Para bots específicos como Googlebot, use User-agent: Googlebot. Regras de user-agent mais específicas substituem as gerais.
🔧 Configurações Comuns de robots.txt
Permitir Tudo (Padrão)
User-agent: *
Allow: /
Permite que todos os rastreadores acessem todo o conteúdo. Este é o comportamento padrão mesmo sem um arquivo robots.txt.
Bloquear Tudo
User-agent: *
Disallow: /
Bloqueia que todos os rastreadores acessem qualquer parte do site. Use com cuidado: isso impedirá que os motores de busca indexem seu site completamente.
Bloquear Diretórios Específicos
User-agent: *
Disallow: /admin/
Disallow: /privado/
Disallow: /tmp/
Bloquear Rastreadores Específicos
User-agent: BadBot
Disallow: /
User-agent: *
Allow: /
Bloqueia um bot específico enquanto permite os outros.
"Um arquivo robots.txt corretamente configurado diz aos motores de busca exatamente o que você quer que vejam e o que ignorar. Não se trata de esconder conteúdo, mas de guiar os rastreadores para o que mais importa."
— Melhores práticas de SEO
🎯 Por Que robots.txt é Importante para SEO
Um arquivo robots.txt bem configurado proporciona vários benefícios de SEO:
- Otimização do Orçamento de Rastreamento: Evita que os motores de busca percam tempo em páginas de baixo valor (áreas de administração, resultados de busca, conteúdo duplicado).
- Controle de Indexação: Direciona os rastreadores para longe de páginas que você não quer nos resultados de busca.
- Descoberta de Sitemap: Ajuda os motores de busca a encontrar seu sitemap XML, que contém todas as páginas importantes.
- Gerenciamento de Recursos: Reduz a carga do servidor evitando rastreamentos desnecessários.
Características do Gerador de robots.txt:
- Modelos pré-construídos para blogs, e-commerce, sites corporativos e configurações restritivas
- Seleção de user-agent personalizado para os principais motores de busca (Google, Bing, Yahoo, Yandex, Baidu, DuckDuckGo)
- Adiciona rotas disallow e sitemaps ilimitados
- Opções avançadas: diretivas crawl-delay e host
- Pré-visualização em tempo real com destaque de sintaxe
- Download como arquivo .txt ou copiar para área de transferência
⚠️ Erros Comuns de robots.txt a Evitar
- Bloquear CSS e JavaScript: Motores de busca modernos precisam destes para renderizar páginas corretamente. Nunca bloqueie CSS, JS ou arquivos de imagem a menos que seja absolutamente necessário.
- Usar robots.txt para Segurança: robots.txt é público. Qualquer um pode ver quais diretórios você está tentando esconder. Use autenticação adequada para conteúdo sensível.
- Falta de Diretiva Sitemap: Sempre inclua a URL do seu sitemap para ajudar os motores de busca a descobrir seu conteúdo.
- Sintaxe Incorreta: Falta de dois pontos, rotas incorretas ou caracteres inválidos podem fazer com que as diretivas sejam ignoradas.
- Bloquear Todo o Site Acidentalmente: Verifique se
Disallow: / só é usado quando você realmente quer bloquear a indexação.
🕷️ User-Agents dos Principais Motores de Busca
- Googlebot: Rastreador principal do Google
- Bingbot: Rastreador da Microsoft Bing
- Slurp: Rastreador do Yahoo
- DuckDuckBot: Rastreador do DuckDuckGo
- Baiduspider: Rastreador do Baidu (China)
- Yandex: Rastreador do Yandex (Rússia)
Use user-agents específicos para aplicar regras a motores de busca individuais enquanto permite outros.
Teste Seu Arquivo
Use o testador de robots.txt do Google Search Console para verificar sua configuração antes da implementação.
Inclua Seu Sitemap
Sempre adicione a diretiva Sitemap para ajudar os rastreadores a encontrar seu conteúdo eficientemente.
Use Crawl-delay com Moderação
Crawl-delay pode limitar demais o rastreamento. Use-o apenas se seu servidor tiver dificuldades com o tráfego.
Valide a Sintaxe
Certifique-se de que cada diretiva esteja em sua própria linha, sem espaços antes dos dois pontos.
📁 Onde Colocar robots.txt
O arquivo robots.txt deve ser colocado no diretório raiz do seu site. Por exemplo:
https://exemplo.com/robots.txt
https://www.exemplo.com/robots.txt
O arquivo deve ser acessível via HTTP e deve ser um arquivo de texto plano. É sensível a maiúsculas e minúsculas: use minúsculas para nomes de arquivo.
🔍 Testando Seu Arquivo robots.txt
Depois de criar seu arquivo robots.txt, teste-o usando:
- Google Search Console: A ferramenta testadora de robots.txt mostra exatamente como o Googlebot vê seu arquivo.
- Bing Webmaster Tools: Funcionalidade de teste similar para Bingbot.
- curl ou wget: Obtenha o arquivo diretamente para verificar se está acessível.
❓ Perguntas Frequentes Sobre robots.txt
robots.txt impede a indexação?
Não. robots.txt impede o rastreamento, não a indexação. Se outras páginas linkarem para uma página não permitida, ela ainda pode ser indexada. Use a meta tag noindex ou o cabeçalho X-Robots-Tag para impedir a indexação.
Posso bloquear imagens ou PDFs?
Sim. Você pode especificar rotas para diretórios de imagens ou tipos de arquivo específicos para impedir que apareçam nos resultados de busca de imagens.
Qual é a diferença entre Disallow e noindex?
Disallow impede que rastreadores acessem uma página. noindex permite o rastreamento mas indica aos motores de busca que não incluam a página nos resultados de busca. Use noindex para páginas que você quer que sejam rastreadas mas não indexadas.
Quanto tempo levam para surtir efeito as mudanças no robots.txt?
Os motores de busca geralmente buscam robots.txt novamente a cada poucos dias. Você pode acelerar o processo usando a função "Solicitar indexação" do Google Search Console.
Devo ter um arquivo robots.txt se não tenho nada para bloquear?
Não é necessário, mas incluir uma diretiva sitemap pode ajudar os motores de busca a descobrir seu conteúdo. Um arquivo vazio está bem, mas não ter nenhum também é aceitável.
Um arquivo robots.txt bem configurado é uma parte essencial de qualquer estratégia de SEO. Ajuda os motores de busca a rastrear seu site eficientemente, evita o desperdício do orçamento de rastreamento e garante que seu conteúdo mais importante seja descoberto. Use o Gerador de robots.txt para criar seu arquivo, teste-o com as ferramentas do console de busca e monitore o desempenho de rastreamento do seu site ao longo do tempo.