O arquivo robots.txt
é utilizado para informar aos robôs de indexação (bots e crawlers) dos mecanismos de busca — como Google, Bing e Baidu — quais diretórios ou arquivos não devem ser acessados ou indexados.
Se o site não possuir um robots.txt
, os mecanismos de busca irão indexar normalmente todo o conteúdo disponível. Quando o arquivo está presente, é possível definir quais áreas do site serão visíveis para os buscadores que respeitam o protocolo.
O uso mais comum é para impedir a indexação de páginas administrativas ou scripts que possam causar sobrecarga quando varridos por robôs.
Criando o arquivo robots.txt
- Crie um arquivo de texto simples (sem formatação) com o nome
robots.txt
. - Salve-o na raiz do site (ex.:
/public_html
ou/www
). - Adicione as regras de bloqueio conforme a sua necessidade.
Exemplo 1 — Bloquear um arquivo específico
O exemplo abaixo instrui todos os robôs (User-agent: *
) a não indexarem o arquivo print.html
:
User-agent: *
Disallow: print.html
O caractere *
(asterisco) no campo User-agent significa que a regra se aplica a todos os robôs.
Exemplo 2 — Bloquear um conjunto de arquivos
Para impedir a indexação de qualquer URL que contenha a palavra “script”, independentemente do diretório:
User-agent: *
Disallow: /*script
Exemplo 3 — Bloquear diretórios específicos
O exemplo abaixo bloqueia a indexação dos diretórios /config
, /admin/script
e /temp/
:
User-agent: *
Disallow: /config
Disallow: /admin/script
Disallow: /temp/
URLs bloqueadas incluem:
/config
,/config.html
,/config/install.php
/admin/script
,/admin/scripts
/temp/
,/temp/arquivo
,/temp/dir/sess.txt
Exemplo 4 — Bloquear toda a indexação do site (não recomendado)
User-agent: *
Disallow: /
Exemplo 5 — Criar regras específicas para determinados robôs
O exemplo abaixo bloqueia todos os robôs, exceto o Googlebot, que terá acesso total:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
Principais robôs de busca
Alguns dos bots mais conhecidos são:
- Googlebot
- BingBot/MSN Bot
- Baidu Spider
- Yandex Bot
- Facebook External Hit
- Google Feedfetcher
Listas completas e atualizadas podem ser consultadas em:
AVISO LEGAL: Os procedimentos descritos neste documento devem ser executados de acordo com o contexto de cada sistema, de forma a evitar impactos negativos à segurança, disponibilidade, integridade e privacidade de dados. A CentralServer se reserva o direito de modificar a qualquer tempo e sem aviso prévio as informações aqui apresentadas a fim de refletir o lançamento de novos serviços, atualizações físicas e operacionais, e evolução do estado-da-arte da tecnologia.