ロボット避けの方法

サーチエンジンに拾ってもらいたくないページを、どうしてもワールドワイド・ウェブに載せたい、というときには、サーチエンジンのロボットに対して対策を施したほうが良いでしょう。このページではそのための方法と、効果について検討します。

その方法は

robots.txt による方法

おそらくは、これが一番簡単な方法。robots.txt と名づけたテキストファイルに、ロボットに対する許可や不許可の内容をまとめて書いておく。ただしこのファイルはディレクトリの最上位階層 (www.mydomain.com/index.html と同じ場所) に置くことになっているため、サーバ全体の管理者でないかぎり、この手は使えない。そういう場合は、あきらめて META タグによる方法を使うしかない。

User-agent: * 
Disallow: /

これはすべてのロボットに対し、すべてのコンテンツを不許可とする例。上の内容のテキストファイルを、http://www.mydomain.com/index.html と同じディレクトリに、robots.txt という名前で置いておく。

特定のディレクトリだけに制限をかけたい場合はこんな感じ。これは http://www.mydomain.com/himitsu/ 以下だけを、ロボット進入禁止にする例。

User-agent: * 
Disallow: /himitsu/

META タグによる方法

コンテンツの一部分しか管理する権限がない人には、上の方法は使えない。そういう場合には、各 HTML 文書内<HEAD>以降</HEAD>以前の部分に以下のようなメタ情報を埋め込むことで、その文書の索引への組み込みやリンクをたどることについての許可・不許可を、ロボットに伝えることができる。

<META name="ROBOTS" content="NOINDEX, NOFOLLOW">

上はロボットに対し、索引化もリンクをたどるのも不許可とする例。Google のようなキャッシュ機能を持つサーチエンジンに対して、キャッシュを行わないように命令するには、以下の行も追加:

<META name="ROBOTS" content="NOARCHIVE">

その効果は完全か

残念ながら、誰も YES とは言い切れません。これは紳士協定のようなもので、とくに罰則があるとか、そういった種類のものではありません。このルールができて数年経っており、大手サーチエンジンのロボットはそこそこ紳士的であるようですが、絶対に安全とは誰も言い切れません。ましてや大手じゃないところであってもロボットなんかは作れるので、本当にロボットに寄り付かれて困るようなコンテンツは、そもそもウェブに載せること自体を見合わせるべきでしょう。

究極のセキュリティ

実は誰にでもでき、効果も完璧なセキュリティ確保の方法があります。守り抜きたいコンテンツを、ウェブに載せなければ良いのです。簡単ですね。

元々ワールドワイド・ウェブは、きわめて公共性の高い空間として生まれ、発展してきました。そんな場所に掲載するのには、もともと適さない種類の情報もあるでしょう。たとえばビジネス関係や、プライバシーに関するものなど。情報の管理を考えるとき、ロボット避けといったレベルで済むものもあります。しかしもっと積極的な保護が必要なものや、そもそも公開すること自体ふさわしくないものもあるはずです。効果の不確かなロボット避けに頼る前に、本当にそれでいいのか、もう一度考えてみてはどうでしょうか。

Links

HTML 4.01 Specification B.4 Notes on helping search engines index your Web site (W3C勧告: HTML4.0仕様書サーチエンジンによるウェブサイトのインデックス化)

上の文書の日本語訳（内田明氏による）

The Web Robots Pages