Robots.txtの設定
提供:Asterisk Works Wiki
目次 |
robots.txtとは
goo、Google、Lycos などのロボット型検索エンジンはクローラと呼ばれる自動巡回プログラムを使ってインターネット上のサイト情報を収集する。
robots.txt とは、goo、Google、Lycos などのクローラに対する命令を記述するためのファイルで自分のページが、検索エンジンのデータベースに登録されないように指示することが出来る。
検索サイトの検索結果から攻撃対象を見つけるウイルス等も存在するので特定の人々にのみ公開し、不特定多数のアクセスを望まない場合にはrobots.txtは最低限のセキュリティ対策として設置するとよい。
ただし、この指定は強制的なものではなく、この指定を行っても検索してしまう検索エンジンが存在します。goo、Google、Lycos のクローラはrobots.txtに従うようだ。
設置場所・記述方法
設置場所
robots.txt ファイルは、そのサイトのトップに置かなくてはなりません。
○ http://www.xxx.zzz/robots.txt × http://www.xxx.zzz/~tohoho/robots.txt
記述方法
robots.txt の中には次のように記述します。
User-agent: * Disallow: /
これは、すべて(*)のロボットに対して、/ ではじまるファイル(つまりはすべてのファイル)を検索データベースに登録することを禁止する例。
User-agentとはhttpのリクエストヘッダーのパラメータで、アクセスに使われるプログラムの種類を表します。例えば、googleのクローラの場合はGooglebotとなる。
ケーススタディ
例えば、goo と Google に対してのみ、/himitsu と /cgi-bin の下のファイルを検索させないようにするには、次のようにします。
User-agent: moget Disallow: /himitsu/ Disallow: /cgi-bin/
User-agent: Googlebot Disallow: /himitsu/ Disallow: /cgi-bin/