Aquí hay algunas sugerencias para crear el archivo especialmente para los agentes de usuario de Google;
1) El archivo debe seguir la norma de exclusión de robots.
2) Puede incluir una o más reglas para permitir o bloquear el acceso al crawler especificado a una ruta particular de un sitio.
3) Un webmaster debe estar familiarizado con casi toda la sintaxis del archivo robots.txt para entender el sutil comportamiento de cada sintaxis.
4) El sitio no puede tener más de un archivo robots.txt.
5) El archivo admite tanto subdominios (como http://website.demo.com/robots.txt o cualquier puerto no estándar como (http://demo:8181/robots.txt).
6) Si no conoce o no tiene acceso a la carpeta raíz de su sitio web, lo mejor es que se dirija al proveedor de servicios de alojamiento web para que guarde el archivo robots.txt dentro de la misma. En caso de que no pueda acceder a la raíz del sitio web, utilice las etiquetas meta como método de bloqueo alternativo.
7) Se puede incluir más de un grupo de directivas o reglas (mencionadas una por línea) en el archivo robots.txt.
8) Sólo admite caracteres ASCII.
9) Un grupo proporciona información sobre a quién se aplica (agente de usuario) y cuáles son todos los archivos o directorios a los que un agente no puede/puede acceder. Las directivas se procesan de arriba a abajo. Un bot web se asocia a un solo grupo de reglas que puede ser especificado por separado o viene primero.
10) Según la suposición por defecto, un bot puede rastrear cualquier directorio o página mediante una sintaxis "Disallow:".
11) Las directivas utilizadas en el archivo distinguen entre mayúsculas y minúsculas, como Disallow: /one.xml no se aplica a ONE.xml.
12) Se aplica a la totalidad del dominio de un sitio web que consiste en protocolo https o http.
Normalmente, los agentes de usuario de Bing y Google se decantan por un grupo específico de directivas pero, por defecto, se prefieren las reglas de concordancia, ya que los diferentes bots web de los motores de búsqueda interpretan las directivas de manera diferente.
También se sugiere a los administradores de sitios web que eviten utilizar la sintaxis de retardo de rastreo en la medida de lo posible en su archivo robots.txt para reducir el tiempo total de rastreo de los robots del motor de búsqueda.