ここでは、特にGoogleのユーザーエージェントのためのファイルを作成するためのいくつかの提案をします。
1) Robots Exclusion Standardに準拠したファイルであること。
2) サイトの特定のパスに対する指定されたクローラーのアクセスを許可またはブロックするための1つまたは複数のルールを含むことができます。
3) ウェブマスターは、robots.txtファイルのほぼすべての構文に精通し、各構文の微妙な挙動を理解する必要があります。
4) サイトに複数のrobots.txtファイルを置くことはできません。
5) ファイルは、サブドメイン(http://website.demo.com/robots.txt のようなもの、または (http://demo:8181/robots.txt) のような非標準的なポートの両方をサポートします。
6)あなたが知らないか、またはあなたのウェブサイトのルートフォルダへのアクセス権を持っている場合、それは同じ内のrobots.txtファイルを維持するためにウェブホスティングサービスプロバイダに到達するのが最善です。ケースでは、ウェブサイトのルートにアクセスすることはできませんし、代替のブロック方法として、メタタグを使用します。
7) robots.txtファイルには、複数のグループディレクティブやルールを含めることができます(1行に1つずつ記載)。
8)ASCII文字のみをサポートしています。
9)グループは、それが誰(ユーザーエージェント)に対して適用され、エージェントがアクセスできない/できるすべてのファイルまたはディレクトリの情報を提供します。ディレクティブは、上から下へ処理されます。Webボットは、個別に指定できる1つのルールセットのみに関連付けられ、または最初に来る。
10) デフォルトの前提では、ボットは "Disallow:" 構文によって任意のディレクトリやページをクロールすることができます。
11) ファイル内で使用されるディレクティブは、Disallow のように大文字と小文字を区別する。/one.xml は、ONE.xml には適用されません。
12) 全体に適用される のどちらかで構成されるWebサイトのドメインです。 https または http プロトコル.
通常、BingとGoogleのユーザーエージェントは、特定のディレクティブのグループで行きますが、デフォルトでは、異なる検索エンジンのWebボットが異なる方法でディレクティブを解釈するので、最初に、マッチングルールが望ましいです。
また、検索エンジンボットのクロール時間を短縮するために、robots.txtファイルではできるだけクロール遅延構文を使用しないようにすることが推奨されます。