robots.txt
ロボットはある程度の知識があれば簡単に作ることができ, 存在しないURL への頻繁なアクセスなどで問題を引き起こすこともある. 大量のアクセスがあった後に対処することはできるが, できの悪いロボットに よるアクセスを直接排除することはできない. また, いつの間にかページがインデックスされてしまうため, ロボットという 得体のしれないものへ悪いイメージを持つ人もいる.

これに対して, ロボットによるサーバへのアクセスを, サーバ側からコントロー ルするための規格が考えられた(A Standard for Robot Exclusion)[robot96b]. これにより, サーバの管理者が
http://servername/robots.txt というファイルを作成 することによって, ロボットによるアクセスの抑制を行うことができる. robots.txtでは, そのサーバのドキュメントのうちロボットにアクセスしてほしくない ものを指定する. robots.txtでは, 通常のWebクライアントからのアクセスをコントロール する ことはできない. 通常のユーザからのアクセスを制限したい場合は、 httpd のセキュリティ機能などを利用することになる. robots.txt は, 以下のように記述する.
http://foo.bar.co.jp/robots.txt の例

User-Agent: *
Disallow: /local/
Disallow: /foo/bar.html

User-Agent: は有効となるロボットの名前を書く. * はすべてのロボッ トを表す. Disallow: で, ロボットにアクセスしてほしくないパスを指定する. 上記の例で は http://foo.bar.co.jp/local/ (このディレクトリ以下全部) と http://foo.bar.co.jp/foo/bar.html はロボットがアクセスしない. `Disallow: /' と書くと, すべてのドキュメントへのアクセスを抑制で きる.

この規格は現在のところ紳士協定的なものである. 対応していないロボットプ ログラムに対しては無力であるので, robots.txt に従わないロボットによる アクセスを拒否するサーバ[robot96c]などもある. また, robots.txt によってロボットのコントロールが可能であることはあまり知ら れていないようで, Altavista による調査では 5% 程度のサーバにしか書かれてい ない.

現状のrobots.txt の規格は, アクセスしてほしくないパスしか記述できない, robots.txt を変更できない一般ユーザはロボットのアクセスを制御できない などの問題点がある. 96年 11月現在, アクセスしてほしいパスを記述できるように拡張を行った 新しい規格について RFC(Request For Comment)化を目指した議論が行われている[robot96d]. また, robots.txt ではなく個々のhtml ドキュメントから meta tag を用いて, ロボットのアクセスを制御できる枠組み[robot96e]が提案されており,Exciteをはじめとするサーチ エンジンが対応している.