グーグル、「robots.txt」プロトコルの仕様標準化を推進

Charlie Osborne (Special to ZDNET.com) 翻訳校正: 編集部

2019-07-03 11:39

 Googleは米国時間7月1日、Robots Exclusion Protocol(REP)が将来安定したインターネット標準になることを願って、「Google Robots.txt Parser and Matcher Library」をオープンソースコミュニティに向けて公開した。REPはrobots.txtを使う際の仕様で、その解析やマッチングに使われてきたC++のライブラリなどが公開されている。

 REPはウェブ管理者がサイトを巡回するクローラーの行動を制御するためのものだ。考案者のMartijn Koster氏は、自分のウェブサイトがクローラーの巡回にあい、サーバーの負荷を減らすために1994年に最初の標準を開発した。

 テキストファイルにはクローラーへの指示が書かれており、これがクローラーがドメインを訪問する権限があるかどうかを決定するなど、クローラーの行動を決定する。

 REPは正式な標準ではないため、1990年代より様々に解釈され、新しいユースケースに合わせてアップデートされてこなかった。

 「曖昧なデファクト標準となってしまっているためにルールを正確に記述するのが難しくなっており、ウェブサイト所有者にとって難しい課題になっている」とGoogleは記している。「ウェブサイト所有者と開発者がクローラーの管理に頭を悩ませることなく、素晴らしい体験をインターネット上に構築するのを支援したいと思っている」。

 GoogleはREP文書のドラフトを作成し、インターネット標準化団体のIETFに提出している。

 ドラフトでは、1994年にKoster氏が作成したルールを変更していないが、HTTPに加えてFTP、CoAPを対象に入れるなど、現代的なウェブサイトに合うように、robots.txtの解析とマッチングに関して今まで定義されていなかったシナリオの定義を明確にした。

 Googleは合わせて、サーバーの負荷を削減するために最初の500キビバイトのrobots.txtファイルがパーシングされるように提案している。また、最大のキャッシュ時間を24時間として実装することで、ウェブサイトがインデックスリクエストに対応できない事態を防ぐことも提案している。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    迫るISMS新規格への移行期限--ISO/IEC27001改訂の意味と求められる対応策とは

  2. セキュリティ

    警察把握分だけで年間4000件発生、IPA10大脅威の常連「標的型攻撃」を正しく知る用語集

  3. セキュリティ

    まずは“交渉術”を磨くこと!情報セキュリティ担当者の使命を果たすための必須事項とは

  4. セキュリティ

    いま製造業がランサムウェアに狙われている!その被害の実態と実施すべき対策について知る

  5. セキュリティ

    VPNの欠点を理解し、ハイブリッドインフラを支えるゼロトラストの有効性を確認する

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]