robots.txt

robots.txt
ロボットはある程度の知識があれば簡単に作ることができ, 存在しないURL への頻繁なアクセスなどで問題を引き起こすこともある. 大量のアクセスがあった後に対処することはできるが, できの悪いロボットによるアクセスを直接排除することはできない. また, いつの間にかページがインデックスされてしまうため, ロボットという得体のしれないものへ悪いイメージを持つ人もいる.

これに対して, ロボットによるサーバへのアクセスを, サーバ側からコントロールするための規格が考えられた(A Standard for Robot Exclusion)[robot96b]. これにより, サーバの管理者が
http://servername/robots.txt というファイルを作成することによって, ロボットによるアクセスの抑制を行うことができる. robots.txtでは, そのサーバのドキュメントのうちロボットにアクセスしてほしくないものを指定する. robots.txtでは, 通常のWebクライアントからのアクセスをコントロールすることはできない. 通常のユーザからのアクセスを制限したい場合は、 httpd のセキュリティ機能などを利用することになる. robots.txt は, 以下のように記述する.

http://foo.bar.co.jp/robots.txt の例
User-Agent: *
Disallow: /local/
Disallow: /foo/bar.html

User-Agent: は有効となるロボットの名前を書く. * はすべてのロボットを表す. Disallow: で, ロボットにアクセスしてほしくないパスを指定する. 上記の例では http://foo.bar.co.jp/local/ (このディレクトリ以下全部) と http://foo.bar.co.jp/foo/bar.html はロボットがアクセスしない. `Disallow: /' と書くと, すべてのドキュメントへのアクセスを抑制できる.

この規格は現在のところ紳士協定的なものである. 対応していないロボットプログラムに対しては無力であるので, robots.txt に従わないロボットによるアクセスを拒否するサーバ[robot96c]などもある. また, robots.txt によってロボットのコントロールが可能であることはあまり知られていないようで, Altavista による調査では 5% 程度のサーバにしか書かれていない.

現状のrobots.txt の規格は, アクセスしてほしくないパスしか記述できない, robots.txt を変更できない一般ユーザはロボットのアクセスを制御できないなどの問題点がある. 96年 11月現在, アクセスしてほしいパスを記述できるように拡張を行った新しい規格について RFC(Request For Comment)化を目指した議論が行われている[robot96d]. また, robots.txt ではなく個々のhtml ドキュメントから meta tag を用いて, ロボットのアクセスを制御できる枠組み[robot96e]が提案されており,Exciteをはじめとするサーチエンジンが対応している.