Iată câteva sugestii privind crearea fișierului, în special pentru agenții de utilizator Google;
1) Dosarul trebuie să respecte standardul de excludere a roboților.
2) Poate include una sau mai multe reguli pentru a permite sau a bloca accesul unui crawler specificat la o anumită cale a unui site.
3) Un webmaster ar trebui să fie familiarizat cu aproape toate sintaxele din fișierul robots.txt pentru a înțelege comportamentul subtil al fiecărei sintaxe.
4) Site-ul nu poate avea mai mult de un fișier robots.txt.
5) Fișierul suportă atât subdomeniile (cum ar fi http://website.demo.com/robots.txt sau orice port non-standard cum ar fi (http://demo:8181/robots.txt).
6) Dacă nu cunoașteți sau nu aveți acces la dosarul rădăcină al site-ului dvs. web, atunci este mai bine să contactați furnizorul de servicii de găzduire web pentru a păstra fișierul robots.txt în interiorul acestuia. În cazul în care nu aveți acces la rădăcina site-ului web, atunci folosiți meta tag-urile ca metodă alternativă de blocare.
7) În fișierul robots.txt pot fi incluse mai multe directive de grup sau reguli (menționate câte una pe linie).
8) Suportă numai caractere ASCII.
9) Un grup oferă informații despre persoanele cărora li se aplică (agent utilizator) și despre toate fișierele sau directoarele pe care un agent nu le poate/poate accesa. Directivele sunt procesate de sus în jos. Un robot web s-a asociat unui singur set de reguli care poate fi specificat separat sau vine primul.
10) Conform presupunerii implicite, un robot poate să cerceteze orice director sau pagină printr-o sintaxă "Disallow:".
11) Directivele utilizate în fișier sunt sensibile la majuscule și minuscule, cum ar fi Disallow: /one.xml nu se aplică la ONE.xml.
12) Se aplică în întregime domeniu al unui site web care constă fie în protocolul https sau http.
De obicei, agenții de utilizator ai Bing și Google folosesc un anumit grup de directive, dar, în mod implicit, sunt preferabile primele reguli de potrivire, deoarece roboții web ai diferitelor motoare de căutare interpretează directivele în mod diferit.
De asemenea, se sugerează webmasterilor să evite pe cât posibil utilizarea sintaxei crawl-delay în fișierul robots.txt pentru a reduce timpul total de căutare al roboților motoarelor de căutare.