Voici quelques suggestions sur la création du fichier, notamment pour les agents utilisateurs de Google ;
1) Le dossier doit respecter la norme d'exclusion des robots.
2) Il peut inclure une ou plusieurs règles permettant d'autoriser ou de bloquer l'accès du crawler spécifié à un chemin particulier d'un site.
3) Un webmaster doit être familier avec presque toutes les syntaxes du fichier robots.txt pour comprendre le comportement subtil de chaque syntaxe.
4) Le site ne peut pas avoir plus d'un fichier robots.txt.
5) Le fichier prend en charge les deux sous-domaines (comme http://website.demo.com/robots.txt ou tout port non standard comme (http://demo:8181/robots.txt).
6) Si vous ne connaissez pas ou n'avez pas accès au dossier racine de votre site Web, il est préférable de contacter le fournisseur de services d'hébergement Web pour qu'il conserve le fichier robots.txt dans ce dossier. Si vous ne pouvez pas accéder à la racine du site, utilisez les balises méta comme méthode de blocage alternative.
7) Plusieurs directives ou règles de groupe (mentionnées une par ligne) peuvent être incluses dans le fichier robots.txt.
8) Il ne supporte que les caractères ASCII.
9) Un groupe fournit des informations sur les personnes auxquelles il s'applique (agent utilisateur) et sur tous les fichiers ou répertoires auxquels un agent ne peut pas/peut accéder. Les directives sont traitées de haut en bas. Un robot Web ne s'associe qu'à un seul ensemble de règles qui peut être spécifié séparément ou qui vient en premier.
10) Par défaut, un robot peut explorer n'importe quel répertoire ou page en utilisant la syntaxe "Disallow :".
11) Les directives utilisées dans le fichier sont sensibles à la casse, comme Disallow : /one.xml ne s'applique pas à ONE.xml.
12) Il s'applique à l'ensemble domaine d'un site web composé soit protocole https ou http.
En général, les agents utilisateurs de Bing et de Google utilisent un groupe spécifique de directives, mais par défaut, il est préférable d'utiliser des règles de correspondance en premier lieu, car les différents robots des moteurs de recherche interprètent les directives de manière différente.
Il est également suggéré aux webmasters d'éviter autant que possible d'utiliser la syntaxe crawl-delay dans leur fichier robots.txt afin de réduire le temps total d'exploration des robots des moteurs de recherche.