Här finns några förslag på hur du skapar filen särskilt för Google-användarprogrammen;
1) Filen ska följa standarden för uteslutning av robotar.
2) Den kan innehålla en eller flera regler för att tillåta eller blockera åtkomst för den angivna crawlern till en viss sökväg på en webbplats.
3) En webbansvarig bör känna till nästan alla syntaxer i robots.txt-filen för att förstå det subtila beteendet hos varje syntax.
4) Webbplatsen får inte ha mer än en robots.txt-fil.
5) Filen stöder både subdomäner (t.ex. http://website.demo.com/robots.txt) och icke-standardiserade portar (t.ex. http://demo:8181/robots.txt).
6) Om du inte känner till eller har tillgång till din webbplats rotmapp är det bäst att kontakta webbhotellet för att få filen robots.txt i samma mapp. Om du inte har tillgång till webbplatsens rot kan du använda metataggar som en alternativ blockeringsmetod.
7) Fler än ett gruppdirektiv eller en regel (en per rad) kan inkluderas i robots.txt-filen.
8) Den stöder endast ASCII-tecken.
9) En grupp ger information om vem den tillämpas för (användaragent) och vilka filer eller kataloger som en agent inte kan få tillgång till eller kan få tillgång till. Direktiven behandlas uppifrån och ned. En webbrobot associerade sig till endast en regeluppsättning som kan anges separat eller kommer först.
10) Enligt standardantagandet kan en bot gå igenom vilken katalog eller sida som helst med hjälp av syntaxen "Disallow:".
11) Direktiven som används i filen är skiftlägeskänsliga, till exempel Disallow: /Det är inte tillämpligt på ONE.xml.
12) Den gäller för hela domän för en webbplats som består av antingen https- eller http-protokoll.
Vanligtvis använder Bing och Google en viss grupp av direktiv i sina användarprogram, men som standard är de första matchningsreglerna att föredra eftersom olika sökmotorers webbrobotar tolkar direktiven på olika sätt.
Vi föreslår också att webmasters undviker att använda syntaxen crawl-delay så mycket som möjligt i sin robots.txt-fil för att minska den totala tiden för sökmotorernas robotar.