Ecco alcuni suggerimenti su come creare il file specialmente per gli interpreti di Google;
1) Il file deve seguire lo standard di esclusione dei robot.
2) Può includere una o più regole per permettere o bloccare l'accesso del crawler specificato a un percorso particolare di un sito.
3) Un webmaster dovrebbe avere familiarità con quasi tutte le sintassi del file robots.txt per capire il comportamento sottile di ogni sintassi.
4) Il sito non può avere più di un file robots.txt.
5) Il file supporta entrambi i sottodomini (come http://website.demo.com/robots.txt o qualsiasi porta non standard come (http://demo:8181/robots.txt).
6) Se non si conosce o non si ha accesso alla cartella principale del sito web, è meglio contattare il fornitore di servizi di web hosting per mantenere il file robots.txt all'interno della stessa. Nel caso in cui non possiate accedere alla root del sito web, utilizzate i meta tag come metodo di blocco alternativo.
7) Più direttive o regole di gruppo (menzionate una per linea) possono essere incluse nel file robots.txt.
8) Supporta solo caratteri ASCII.
9) Un gruppo fornisce informazioni su chi è applicato (agente utente) e su tutti i file o le directory a cui un agente non può/possa accedere. Le direttive sono elaborate dall'alto verso il basso. Un web bot si associa a un solo gruppo di regole che può essere specificato separatamente o viene prima.
10) Secondo l'ipotesi predefinita, un bot può effettuare il crawling di qualsiasi directory o pagina mediante la sintassi "Disallow:".
11) Le direttive utilizzate nel file sono sensibili alle maiuscole e alle minuscole, come ad esempio Disallow: /one.xml non si applica a ONE.xml.
12) Si applica all'intero dominio di un sito web composto da protocollo https o http.
Di solito, gli user agent di Bing e Google vanno con un gruppo specifico di direttive, ma per default, prima, sono preferibili le regole di corrispondenza poiché i diversi web bot dei motori di ricerca interpretano le direttive in modo diverso.
Si suggerisce anche ai webmaster di evitare di usare la sintassi crawl-delay il più possibile nel loro file robots.txt in modo da ridurre il tempo totale di crawl dei bot dei motori di ricerca.