Aqui estão algumas sugestões sobre a criação do arquivo especialmente para os agentes de usuários do Google;
1) O arquivo deve seguir o Padrão de Exclusão de Robôs.
2) Pode incluir uma ou mais regras para permitir ou bloquear o acesso ao rastreador especificado a um caminho particular de um site.
3) Um webmaster deve estar familiarizado com quase toda a sintaxe do arquivo robots.txt para entender o comportamento sutil de cada sintaxe.
4) O site não pode ter mais de um arquivo robots.txt.
5) O arquivo suporta ambos os subdomínios (como http://website.demo.com/robots.txt ou qualquer porto não-padrão como (http://demo:8181/robots.txt).
6) Se você não souber ou não tiver acesso à pasta raiz de seu site, é melhor chegar ao provedor de serviços de hospedagem web para manter o arquivo robots.txt dentro do mesmo. Caso você não possa acessar a raiz do site, então use meta tags como método alternativo de bloqueio.
7) Mais de uma diretiva ou regra de grupo (mencionada uma por linha) pode ser incluída no arquivo robots.txt.
8) Suporta somente caracteres ASCII.
9) Um grupo fornece informações sobre a quem é solicitado (agente usuário) e o que todos os arquivos ou diretórios que um agente não pode/cansa acessar. As diretrizes são processadas de cima para baixo. Um web bot se associa a apenas um conjunto de regras que pode ser especificado separadamente ou vem em primeiro lugar.
10) De acordo com a suposição padrão, um bot pode rastejar qualquer diretório ou página através de uma sintaxe "Disallow:".
11) As diretrizes usadas no arquivo são sensíveis a casos, como a Disallow: /one.xml não se aplica a ONE.xml.
12) Aplica-se a todos os domínio de um website que consiste de protocolo https ou http.
Normalmente, os agentes de usuários do Bing e do Google vão com um grupo específico de diretivas, mas por padrão, primeiro, as regras de correspondência são preferíveis, uma vez que diferentes motores de busca web bots interpretam as diretivas de uma maneira diferente.
Também é sugerido que os webmasters evitem usar a sintaxe crawl-delay tanto quanto possível em seu arquivo robots.txt para reduzir o tempo total de crawl dos bots do mecanismo de busca.