Íme néhány javaslat a fájl létrehozására, különösen a Google felhasználói ügynökök számára;
1) A fájlnak követnie kell a Robotok kizárása szabványt.
2) Tartalmazhat egy vagy több szabályt, amelyek engedélyezik vagy blokkolják a megadott lánctalpasok hozzáférését a webhely egy adott útvonalához.
3) A webmesternek ismernie kell a robots.txt fájl szinte minden szintaxisát, hogy megértse az egyes szintaxisok finom viselkedését.
4) A webhelyen nem lehet egynél több robots.txt fájl.
5) A fájl támogatja mind az aldomaineket (mint a http://website.demo.com/robots.txt, vagy bármilyen nem szabványos portot, mint a (http://demo:8181/robots.txt).
6) Ha nem tudja, vagy nem rendelkezik hozzáféréssel a webhely gyökérmappájához, akkor a legjobb, ha eléri a webtárhely-szolgáltatót, hogy a robots.txt fájlt ugyanazon belül tartsa. Abban az esetben, ha nem tud hozzáférni a webhely gyökeréhez, akkor használja a meta címkéket alternatív blokkolási módszerként.
7) A robots.txt fájlban több csoportos irányelv vagy szabály is szerepelhet (soronként egy).
8) Csak ASCII karaktereket támogat.
9) Egy csoport információt szolgáltat arról, hogy kire vonatkozik (felhasználói ügynök), és hogy az ügynök milyen fájlokat vagy könyvtárakat nem érhet el/elérhet. Az irányelvek feldolgozása felülről lefelé haladva történik. Egy webbot csak egy szabálycsoporthoz társul, amely külön megadható, vagy az első helyen áll.
10) Az alapértelmezett feltételezés szerint a bot bármely könyvtárat vagy oldalt feltérképezhet a "Disallow:" szintaxissal.
11) A fájlban használt irányelvek a Disallow-hoz hasonlóan nagy- és kisbetű-érzékenyek: /one.xml nem vonatkozik a ONE.xml-re.
12) A teljes egy weboldal domainje, amely a következőkből áll https vagy http protokoll.
Általában a Bing és a Google felhasználói ügynökei a direktívák egy adott csoportjával mennek, de alapértelmezés szerint az első, egyező szabályok előnyben részesülnek, mivel a különböző keresőmotorok webbotjai másképp értelmezik a direktívákat.
A webmestereknek azt is javasoljuk, hogy a robots.txt fájljukban lehetőleg ne használják a crawl-delay szintaxist, hogy csökkentsék a keresőmotorok robotjainak teljes feltérképezési idejét.