Como realizar o bloqueio de indexação via arquivo robots.txt?

O arquivo robots.txt é utilizado para informar aos robôs de indexação (bots e crawlers) dos mecanismos de busca — como Google, Bing e Baidu — quais diretórios ou arquivos não devem ser acessados ou indexados.

Se o site não possuir um robots.txt, os mecanismos de busca irão indexar normalmente todo o conteúdo disponível. Quando o arquivo está presente, é possível definir quais áreas do site serão visíveis para os buscadores que respeitam o protocolo.

O uso mais comum é para impedir a indexação de páginas administrativas ou scripts que possam causar sobrecarga quando varridos por robôs.

Criando o arquivo robots.txt

  1. Crie um arquivo de texto simples (sem formatação) com o nome robots.txt.
  2. Salve-o na raiz do site (ex.: /public_html ou /www).
  3. Adicione as regras de bloqueio conforme a sua necessidade.

Exemplo 1 — Bloquear um arquivo específico

O exemplo abaixo instrui todos os robôs (User-agent: *) a não indexarem o arquivo print.html:

User-agent: *
Disallow: print.html

O caractere * (asterisco) no campo User-agent significa que a regra se aplica a todos os robôs.

Exemplo 2 — Bloquear um conjunto de arquivos

Para impedir a indexação de qualquer URL que contenha a palavra “script”, independentemente do diretório:

User-agent: *
Disallow: /*script

Exemplo 3 — Bloquear diretórios específicos

O exemplo abaixo bloqueia a indexação dos diretórios /config, /admin/script e /temp/:

User-agent: *
Disallow: /config
Disallow: /admin/script
Disallow: /temp/

URLs bloqueadas incluem:

  • /config, /config.html, /config/install.php
  • /admin/script, /admin/scripts
  • /temp/, /temp/arquivo, /temp/dir/sess.txt

Exemplo 4 — Bloquear toda a indexação do site (não recomendado)

User-agent: *
Disallow: /

Exemplo 5 — Criar regras específicas para determinados robôs

O exemplo abaixo bloqueia todos os robôs, exceto o Googlebot, que terá acesso total:

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

Principais robôs de busca

Alguns dos bots mais conhecidos são:

  • Googlebot
  • BingBot/MSN Bot
  • Baidu Spider
  • Yandex Bot
  • Facebook External Hit
  • Google Feedfetcher

Listas completas e atualizadas podem ser consultadas em:

AVISO LEGAL: Os procedimentos descritos neste documento devem ser executados de acordo com o contexto de cada sistema, de forma a evitar impactos negativos à segurança, disponibilidade, integridade e privacidade de dados. A CentralServer se reserva o direito de modificar a qualquer tempo e sem aviso prévio as informações aqui apresentadas a fim de refletir o lançamento de novos serviços, atualizações físicas e operacionais, e evolução do estado-da-arte da tecnologia.