Como usar o arquivo robots.txt

No início do verão, os comerciantes do Internet comemoraram seu aniversário: o arquivo robots.txt tem 20 anos. Em virtude disso, o Google expandiu a funcionalidade das ferramentas para webmasters adicionando uma ferramenta de verificação de arquivos robots.txt à suíte. Profissionais de marketing experientes sabem perfeitamente qual é o arquivo e como trabalhar com ele. Iniciantes irão obter informações básicas deste artigo.

Não gosta de ler? Assista ao vídeo

Vídeos ainda mais úteis estão no nosso canal do YouTube. Inscreva-se;)

Agora vá para o texto.

Por que o robots.txt é necessário?

O arquivo robots.txt contém informações que os robôs de pesquisa usam ao verificar um site. Em particular, a partir do robots.txt, os rastreadores descobrirão quais seções do site, tipos de página ou páginas específicas não devem ser verificadas. Usando o arquivo que você exclui do índice de conteúdo de mecanismos de pesquisa que você não deseja mostrar aos mecanismos de pesquisa. Você também pode desativar a indexação de conteúdo duplicado.

Se você usar o robots.txt incorretamente, isso pode custar caro. Uma proibição errônea na varredura excluirá seções importantes, páginas ou até mesmo todo o conteúdo do índice. Neste caso, é difícil contar com a promoção bem-sucedida do website.

Como trabalhar com o robots.txt

O arquivo de texto do robots.txt contém instruções para robôs do mecanismo de pesquisa. Geralmente é usado para proibir a varredura de seções de serviço do site, conteúdo duplicado ou publicações que não são destinadas a todo o público.

Se você não precisar fechar nenhum conteúdo da verificação, poderá deixar o robots.txt em branco. Neste caso, a entrada do arquivo se parece com isto:

User-agent: *

Não permitir:

Se por algum motivo você bloquear completamente o site para robôs de pesquisa, a entrada no arquivo será semelhante a esta:

User-agent: *

Não permitir: /

Para usar corretamente o robots.txt, você deve ter uma ideia dos níveis da diretiva:

  • Nível de página. Nesse caso, a diretiva é semelhante a: Disallow: /primerpage.html.
  • Nível de pasta Nesse nível, as diretivas são escritas da seguinte forma: Disallow: / example-folder /.
  • Nível do tipo de conteúdo Por exemplo, se você não deseja que os robôs indexem arquivos .pdf, use a seguinte diretiva: Disallow: /*.pdf.

Tenha cuidado

Lembre-se dos erros mais comuns encontrados ao compilar o robots.txt:

  • Proibição total da indexação de sites pelos mecanismos de pesquisa

Neste caso, a diretiva é assim:

User-agent: *

Não permitir: /

Por que criar um website se você não permitir que os mecanismos de pesquisa o rastreiem? O uso desta diretriz é apropriado no estágio de desenvolvimento ou melhoria global do recurso.

  • A proibição de escanear o conteúdo indexado

Por exemplo, um webmaster pode proibir pastas de digitalização com vídeos e imagens:

Não permitir: / images /

Não permitir: / videos /

É difícil imaginar uma situação em que a proibição de escanear conteúdo indexado seria justificada. Normalmente, essas ações privam o site do tráfego.

  • Use atributo allow

Esta ação não faz sentido. Por padrão, os mecanismos de pesquisa verificam todo o conteúdo disponível. Usando o arquivo robots.txt, você pode desativar a verificação, mas não precisa permitir a indexação de nada.

Ferramenta de verificação de arquivos Robots.txt

Em meados de julho, o Google introduziu uma ferramenta para verificar o arquivo robots.txt, disponível no painel para webmasters. Para encontrá-lo, use o menu "Ferramenta de verificação de arquivos do Site Toolbar - Scan - robots.txt file verification".

A nova ferramenta resolve as seguintes tarefas:

  • Exibe a versão atual do arquivo robots.txt.
  • Edição e verificação da exatidão do arquivo robots.txt diretamente no painel para webmasters.
  • Ver versões antigas de arquivos.
  • Verifique os URLs bloqueados.
  • Ver mensagens de erro para o arquivo robots.txt.

Se o Google não indexar páginas individuais ou seções inteiras do seu site, a nova ferramenta ajudará você em segundos para verificar se isso ocorre devido a erros no robots.txt. Segundo o especialista do Google, Asaf Arnon, a ferramenta destaca uma diretiva específica que leva à indexação de conteúdo bloqueada.

Você pode fazer alterações no robots.txt e verificar sua exatidão. Para fazer isso, basta especificar o URL que lhe interessa e clique no botão "Verificar".

O porta-voz do Google, John Miller, recomenda que todos os proprietários de sites verifiquem o arquivo robots.txt com uma nova ferramenta. Segundo o especialista, gastando alguns segundos para verificar, o webmaster pode identificar erros críticos que impedem os rastreadores do Google.

Para usar corretamente ...

... arquivo robots.txt, você precisa entender seu significado prático. Este arquivo é usado para restringir o acesso ao site para mecanismos de pesquisa. Se você quiser evitar que robôs verifiquem a página, a seção do site ou o tipo de conteúdo, insira a diretiva apropriada a robots.txt. Verifique se o arquivo é usado corretamente com a nova ferramenta disponível no painel do Google para webmasters. Isso ajudará você a detectar e eliminar erros rapidamente, além de fazer as alterações necessárias no robots.txt.

#
Ferramentas de marketing para mecanismos de pesquisa

Assista ao vídeo: Tutorial Como Criar o - 5 formas de configurar o arquivo (Dezembro 2019).

Loading...

Deixe O Seu Comentário