Arquivos com a tag ‘SEO’

Utilizando robots.txt

20 de março de 2010

Os webcrawlers, ou robôs de buscas, são usados pelos mecanismos de buscas para percorrer a we, indexando a maior quantidade de conteúdo possível. O que muitas pessoas não sabem é que existe um padrão para dizer aos robôs de busca qual conteúdo do seu site deve ser indexado.

Este padrão é conhecido como robots.txt.

Entender como o robots.txt funciona é muito importante quando se trata de otimização de sites, tendo em vista que podemos impedir que conteúdo restrito fique visível nos sites de busca, como uma área de administração, por exemplo.

Criando o robots.txt

O arquivo robots.txt é basicamente um arquivo de texto simples com instruções, por exemplo:

No caso acima, todo o conteúdo do site será indexado.

1
2
User-agent: *
Disallow:

Nenhum conteúdo do site será indexado.

1
2
User-agent: *
Disallow:/

Não permite que a pasta “admin” seja indexada pelo robô do Google, com exceção do arquivo register.html dentro da mesma pasta.

1
2
3
User-agent: Googlebot
Disallow:/admin/
Allow: /admin/register.html

Os robôs tem como instrução, reunir a maior quantidade de conteúdo relevante possível, o que faz com que eles adicionem tudo o que vêem pela frente, a menos que seja dada uma instrução para que determinado conteúdo não seja adicionado.

Se você especificar instruções para algum robô específico, como o robô do Google por exemplo, toda a instrução “global” será ignorada por ele, por exemplo:

1
2
3
4
5
6
7
8
9
User-agent: *
Disallow: /admin/
Disallow: /arquivos/
Disallow: /textos/
Disallow: /audio/
Disallow: /downloads/

User-agent: Googlebot
Disallow: /admin/

No código acima, o Googlebot irá ignorar todo o conteúdo escrito em verde.

Utilizando caracteres especiais

Alguns robôs de buscas como o do Google, Yahoo e Msn permitem o uso de caracteres especiais.

O código abaixo é utilizado para bloquear urls que utilizem parâmetros via GET (incluem interrogação):

1
2
User-agent: *
Disallow:/*?

Ou você pode especificar extensões em particular, como o código abaixo que bloqueia páginas com extensão .php:

1
2
User-agent: Googlebot
Disallow: /*.php$

O Google também indexa resultados de formulários de pesquisas dos sites indexados. Considerando que o parâmetro de busca na url seja “search”, é possível bloquear esta funcionalidade com o código abaixo:

1
2
User-agent: *
Disallow: /?search=

Utilizar corretamente o robots.txt é essêncial para otimização e controle do conteúdo indexado no seu site, por isso esteja sempre atento para quais pastas são exibidas ou bloqueadas. ;)

« voltar para a página principal do blog

© 2010 Foco Livre Ag. - Todos os direitos reservados. Powered by WordPress