Наводимо деякі рекомендації щодо створення файлу спеціально для агентів користувачів Google;
1) Файл повинен відповідати Стандарту виключення роботів.
2) Він може включати одне або декілька правил, що дозволяють або блокують доступ зазначеному пошуковику до певного шляху сайту.
3) Веб-майстер повинен знати майже весь синтаксис файлу robots.txt, щоб розуміти тонкощі поведінки кожного синтаксису.
4) На сайті не може бути більше одного файлу robots.txt.
5) Файл підтримує обидва піддомени (наприклад, http://website.demo.com/robots.txt або будь-який нестандартний порт, наприклад, (http://demo:8181/robots.txt).
6) Якщо ви не знаєте або не маєте доступу до кореневої папки вашого веб-сайту, найкраще звернутися до постачальника послуг хостингу, щоб файл robots.txt залишався в цій папці. У випадку, якщо ви не маєте доступу до кореневої папки сайту, використовуйте мета-теги як альтернативний метод блокування.
7) До файлу robots.txt може бути включено більше однієї групової директиви або правила (згадуються по одному в рядку).
8) Підтримує тільки символи ASCII.
9) Група містить інформацію про те, для кого вона призначена (користувач-агент), а також про всі файли або каталоги, до яких агент не може/може отримати доступ. Директиви обробляються зверху вниз. Веб-бот асоціює себе тільки з одним набором правил, який може бути вказаний окремо або стояти першим.
10) За замовчуванням бот може переглядати будь-яку директорію або сторінку за допомогою синтаксису "Disallow:".
11) Директиви, що використовуються у файлі, є чутливими до регістру, наприклад, Disallow: /one.xml не застосовується до ONE.xml.
12) Це стосується повною мірою домен веб-сайту, що складається з протокол https або http.
Зазвичай, користувацькі агенти Bing та Google працюють з певною групою директив, але за замовчуванням, по-перше, перевага надається правилам збігу, оскільки різні пошукові боти по-різному інтерпретують директиви.
Також веб-майстрам рекомендується максимально уникати використання синтаксису crawl-delay у файлі robots.txt, щоб зменшити загальний час сканування ботами пошукових систем.