Hier sind einige Vorschläge zur Erstellung der Datei speziell für Google User Agents;
1) Die Datei sollte dem Robots Exclusion Standard entsprechen.
2) Sie kann eine oder mehrere Regeln enthalten, um dem angegebenen Crawler den Zugang zu einem bestimmten Pfad einer Website zu erlauben oder zu sperren.
3) Ein Webmaster sollte mit fast allen Syntaxen der robots.txt-Datei vertraut sein, um das subtile Verhalten der einzelnen Syntaxen zu verstehen.
4) Die Website darf nicht mehr als eine robots.txt-Datei haben.
5) Die Datei unterstützt sowohl Subdomains (z. B. http://website.demo.com/robots.txt) als auch beliebige Nicht-Standard-Ports wie (http://demo:8181/robots.txt).
6) Wenn Sie den Root-Ordner Ihrer Website nicht kennen oder keinen Zugriff darauf haben, wenden Sie sich am besten an den Webhosting-Anbieter, um die Datei robots.txt darin zu speichern. Falls Sie keinen Zugriff auf das Stammverzeichnis der Website haben, verwenden Sie Meta-Tags als alternative Blockierungsmethode.
7) Es können mehrere Gruppenrichtlinien oder Regeln (eine pro Zeile) in die robots.txt-Datei aufgenommen werden.
8) Es werden nur ASCII-Zeichen unterstützt.
9) Eine Gruppe gibt Auskunft darüber, für wen sie gilt (Benutzer-Agent) und auf welche Dateien oder Verzeichnisse ein Agent nicht zugreifen kann/kann. Die Direktiven werden von oben nach unten abgearbeitet. Ein Web-Bot ordnet sich nur einem Regelsatz zu, der separat angegeben werden kann oder an erster Stelle steht.
10) Standardmäßig wird davon ausgegangen, dass ein Bot jedes Verzeichnis oder jede Seite durch eine "Disallow:"-Syntax crawlen kann.
11) Bei den in der Datei verwendeten Direktiven wird zwischen Groß- und Kleinschreibung unterschieden, z. B. Disallow: /one.xml gilt nicht für ONE.xml.
12) Sie gilt für die gesamte Domain einer Website, die entweder aus https- oder http-Protokoll.
In der Regel verwenden die User Agents von Bing und Google eine bestimmte Gruppe von Direktiven, aber standardmäßig sind zuerst die passenden Regeln zu bevorzugen, da die Web-Bots der verschiedenen Suchmaschinen die Direktiven unterschiedlich interpretieren.
Webmastern wird außerdem empfohlen, die Crawl-Delay-Syntax in ihrer robots.txt-Datei so weit wie möglich zu vermeiden, um die gesamte Crawl-Zeit der Suchmaschinen-Bots zu reduzieren.