domingo, 13 de junho de 2010

Olha o Robot! - Itabuna - Ilheus - Eunapolis

O “crawler” da Google, também conhecido por Googlebot, é um “robot” que percorre todas as páginas da Internet e procede à sua indexação, segundo um algoritmo proprietário da empresa. Há varias coisas que podemos fazer para proceder à optimização dos sites e de que já se tratou noutros artigos.

Mas há algo extra que devemos considerar e que é muitas vezes esquecido, que é balizar as procuras do “crawler” atráves do ficheiro robots.txt e do atributo NoFollow, dando assim uma ajuda extra ao processo de formatação global dos conteúdos que o Googlebot vai ordenar e valorar.

E porque é isto tão importante? Por duas ordens de razões:

Primeiro porque não queremos que o Google misture nas SERP conteúdos “úteis” com excertos de publicidade ou outro material que nada tem a ver com o contexto da página;

Segundo porque a mistura de material que não tem a ver com o conteúdo diminui o peso relativo do que é relevante para efeitos de indexação (seja da página, seja do site no seu conjunto).

Se visitar as “Ferramentas para Webmasters” do Google ele apresenta uma lista das palavras-chave que o Googlebot encontrou no seu site, ordenadas de acordo com a sua frequência, juntamente com este comentário prévio:

“Seguem-se as palavras-chave mais comuns encontradas pelo Google ao rastrear o seu site. Estas devem reflectir o assunto do seu site.”

O que acontece é que, por variadíssimas razões é normal existirem no site diversas páginas ou blocos das mesmas que fogem ao respectivo assunto central, não tendo isto nada de invulgar ou injustificado: é o caso da publicidade, como já disse, pop-ups em javascript a chamar a atenção para outros assuntos, informação e conteudos vários que tendo uma relevância reduzida para o primeiro visitante podem ser úteis e interessantes para o visitante habitual, que já conhece bem qual o “core business” do site.

Os comentários e questões que as pessoas colocam, nomeadamente nas aplicações do tipo CMS também muitas vezes saem do contexto e diminuem a relevância dos conteúdos.

Ora estas situações podem ser remediadas, obrigando o robot a ficar pelo “sumo” das páginas, ignorando esses conteúdos “dispersantes”, contribuindo assim para melhorar o seu ranking no motor de busca.

1. Robots.txt: O que o crawler pode procurar1

O “robots.txt” é um ficheiro de texto que deve existir no directório raiz do site e que tem um conteúdo do tipo:

User-agent: * Allow [ou Disallow]: /ficheiro ou directório

podendo colocar-se tantas linhas quantas as necessárias com instruções de “allow” ou “disallow”, sendo que os ficheiros que contêm esta última instrução não serão indexados. O próprio Wordpress (para quem usa este CMS) recomenda os seguintes “disallows”:

Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache

O “agent” pode ser qualquer um (*) ou apenas, por exemplo, o “Googlebot”; sendo que neste caso o asterisco seria substituído por esta palavra. O “robots.txt” pode ainda conter instruções do tipo:

Disallow: /directorio_a/ Allow: /directorio_a/excepcao.html

É ainda possível, por exemplo, bloquear arquivos com determinadas extensões; por exemplo:

Disallow: /* .pdf$

Impediria a indexação de todos os documentos do tipo pdf.

Portanto o “robots.txt” determina o acesso que o crawler pode fazer ao blog ou site, permitindo o acesso a alguns ficheiros e impedindo aos que não interessam para a sua valorização. Se este ficheiro não existir, o acesso fica generalizado a todos os conteúdos; se não tiver nada para esconder / proteger das SERP não é grave, mas o seu material possivelmente não recebe todos os pontos possíveis em termos de optimização.

Nenhum comentário:

Postar um comentário