Pateikiame keletą pasiūlymų, kaip sukurti failą, skirtą "Google" naudotojų agentams;
1) Failas turi atitikti robotų pašalinimo standartą.
2) Jame gali būti viena ar daugiau taisyklių, leidžiančių arba blokuojančių nurodyto naršyklės naršo prieigą prie tam tikro svetainės kelio.
3) Tinklalapio administratorius turėtų žinoti beveik visas robots.txt failo sintakses, kad suprastų subtilų kiekvienos sintaksės elgesį.
4) Svetainėje negali būti daugiau nei vienas robots.txt failas.
5) Failas palaiko tiek subdomenus (pavyzdžiui, http://website.demo.com/robots.txt arba bet kokį nestandartinį prievadą, pavyzdžiui, (http://demo:8181/robots.txt).
6) Jei nežinote ar neturite prieigos prie savo svetainės šakninio aplanko, geriausia pasiekti prieglobos paslaugų teikėją, kad jis išsaugotų robots.txt failą. Jei negalite pasiekti svetainės šakninio katalogo, tuomet kaip alternatyvų blokavimo metodą naudokite metažymas.
7) Į robots.txt failą galima įtraukti daugiau nei vieną grupės direktyvą arba taisyklę (minima po vieną eilutėje).
8) Jis palaiko tik ASCII simbolius.
9) Grupėje pateikiama informacija apie tai, kam ji taikoma (naudotojo agentui) ir kokių visų failų ar katalogų agentas negali / gali pasiekti. Direktyvos apdorojamos iš viršaus į apačią. Interneto botas susietas tik su vienu taisyklių rinkiniu, kuris gali būti nurodytas atskirai arba yra pirmas.
10) Pagal numatytąją prielaidą robotas gali nuskaityti bet kurį katalogą ar puslapį naudodamas "Disallow:" sintaksę.
11) faile naudojamos direktyvos yra jautrios didžiosioms raidėms, pavyzdžiui, Disallow: /one.xml netaikomas ONE.xml.
12) Jis taikomas visai svetainės domenas, kurį sudaro https arba http protokolas.
Paprastai "Bing" ir "Google" naudotojų agentai naudojasi tam tikra direktyvų grupe, tačiau pagal nutylėjimą pirmenybė teikiama pirmosioms, sutampančioms taisyklėms, nes skirtingi paieškos sistemų interneto robotai skirtingai interpretuoja direktyvas.
Tinklalapių valdytojams taip pat siūloma savo robots.txt faile kuo dažniau nenaudoti "crawl-delay" sintaksės, kad sutrumpėtų bendras paieškos sistemų robotų naršymo laikas.