Googleは米国時間7月1日、Robots Exclusion Protocol(REP)が将来安定したインターネット標準になることを願って、「Google Robots.txt Parser and Matcher Library」をオープンソースコミュニティに向けて公開した。REPはrobots.txtを使う際の仕様で、その解析やマッチングに使われてきたC++のライブラリなどが公開されている。
REPはウェブ管理者がサイトを巡回するクローラーの行動を制御するためのものだ。考案者のMartijn Koster氏は、自分のウェブサイトがクローラーの巡回にあい、サーバーの負荷を減らすために1994年に最初の標準を開発した。
テキストファイルにはクローラーへの指示が書かれており、これがクローラーがドメインを訪問する権限があるかどうかを決定するなど、クローラーの行動を決定する。
REPは正式な標準ではないため、1990年代より様々に解釈され、新しいユースケースに合わせてアップデートされてこなかった。
「曖昧なデファクト標準となってしまっているためにルールを正確に記述するのが難しくなっており、ウェブサイト所有者にとって難しい課題になっている」とGoogleは記している。「ウェブサイト所有者と開発者がクローラーの管理に頭を悩ませることなく、素晴らしい体験をインターネット上に構築するのを支援したいと思っている」。
GoogleはREP文書のドラフトを作成し、インターネット標準化団体のIETFに提出している。
ドラフトでは、1994年にKoster氏が作成したルールを変更していないが、HTTPに加えてFTP、CoAPを対象に入れるなど、現代的なウェブサイトに合うように、robots.txtの解析とマッチングに関して今まで定義されていなかったシナリオの定義を明確にした。
Googleは合わせて、サーバーの負荷を削減するために最初の500キビバイトのrobots.txtファイルがパーシングされるように提案している。また、最大のキャッシュ時間を24時間として実装することで、ウェブサイトがインデックスリクエストに対応できない事態を防ぐことも提案している。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。