Hier zijn wat suggesties voor het maken van het bestand, speciaal voor Google user agents;
1) Het bestand moet voldoen aan de Robots Exclusion Standard.
2) Het kan een of meer regels bevatten voor het toestaan of blokkeren van de toegang van de gespecificeerde crawler tot een bepaald pad van een site.
3) Een webmaster moet bekend zijn met bijna alle syntaxis van het robots.txt bestand om de subtiele gedragingen van elke syntaxis te begrijpen.
4) De site kan niet meer dan één robots.txt-bestand hebben.
5) Het bestand ondersteunt zowel subdomeinen (zoals http://website.demo.com/robots.txt of een niet-standaard poort zoals (http://demo:8181/robots.txt).
6) Als u niet weet of het hebben van de toegang tot de root-map van uw website dan is het het beste om de web hosting service provider te bereiken om de robots.txt bestand te houden in het zelfde. In het geval u geen toegang tot de website root dan meta-tags gebruiken als alternatief blokkeren methode.
7) Er kunnen meer dan één groep directives of regels (vermeld één per regel) in het robots.txt bestand worden opgenomen.
8) Het ondersteunt alleen ASCII-tekens.
9) Een groep geeft informatie over op wie hij van toepassing is (user agent) en wat alle bestanden of directories zijn waartoe een agent geen toegang heeft/kan krijgen. De directives worden van boven naar beneden verwerkt. Een webbot associeert zichzelf met slechts één regelset die afzonderlijk kan worden gespecificeerd of eerst komt.
10) Volgens de standaard aanname kan een bot elke directory of pagina crawlen door een "Disallow:" syntax.
11) De in het bestand gebruikte directives zijn hoofdlettergevoelig, zoals Disallow: /one.xml is niet van toepassing op ONE.xml.
12) Het is van toepassing op de volledige domein van een website bestaande uit https of http protocol.
Meestal gaan de user agents van Bing en Google met een specifieke groep directives aan de slag, maar standaard wordt de voorkeur gegeven aan de eerste, overeenstemmende regels, omdat verschillende zoekmachine-webbots de directives op een verschillende manier interpreteren.
Webmasters wordt ook aangeraden de crawl-delay syntax zoveel mogelijk te vermijden in hun robots.txt bestand om zo de totale crawl tijd van de zoekmachine bots te verminderen.