Cloudflare、AIスクレイピングを防ぐ無料ツールを提供

Artie Beaty (Special to ZDNET.com) 翻訳校正: 矢倉美登里 吉武稔夫 (ガリレオ)

2024-07-08 09:31

 人工知能(AI)のトレーニングのためにAIボットがウェブサイトのコンテンツをスクレイピングするのが心配なら、Cloudflareがその対策に役立つ。

 ウェブの約20%でプロクシとして利用されていると主張するCloudflareは、すべてのAIボットがサイトのテキストをスクレイピングするのを防ぐ新しいツールを導入した。同社によると、無料でサービスを利用している顧客も含め、すべての顧客にこのツールを提供するという。

 生成AIの台頭により、企業はチャットボットをトレーニングするためのコンテンツを必要としている。多くの企業は、(「ChatGPT」が「Reddit」への投稿を利用してやっているように)分析用にサイトからテキストを抽出するウェブスクレイピングツールを利用している。ウェブスクレイピングボットについて隠し立てせず正直な企業もあれば、そうではない企業もある。

 Cloudflareは2023年9月、許可なしにサイトをスクレイピングする「悪質な」AIのウェブクローラーをユーザーがブロックできる機能をリリースした。当然ながら、一部の企業は、信用できるスクレイピングツールを装ったスクレイピングツールを用意して、ブロックを回避した。そのため、今回の新しいツールは、スクレイピングの適切なプロトコルに従うものも含め、すべてのAIクローラーをブロックする。

 2024年6月には、Cloudflareを利用している上位100万件の「インターネット資産」のうち約39%にAIボットがアクセスしていた、と同社は述べている。それらの資産のうち、AIボットをブロックする措置をとっていたのは3%未満だった。同社によると、サイトをスクレイピングしていた上位4つのボットは「Bytespider」「Amazonbot」「ClaudeBot」「GPTBot」だったという。

 「TikTok」の運営元である字節跳動(バイトダンス)が保有するBytespiderは、ChatGPTと競合する「Doubao」など、大規模言語モデル用のトレーニングデータを収集するのに利用されている。Amazonbotは「Alexa」の質問回答機能、ClaudeBotはチャットAIの「Claude」、GPTBotはChatGPTのトレーニングにそれぞれ利用されている。

 Cloudflareのユーザーであれば、このツールは簡単に利用できる。ダッシュボードの設定セクションに進んでから「Security」>「Bots」をクリックすると、「AI Scrapers and Crawlers」というトグルボタンが表示される。このトグルボタンをオンにすれば、AIボットはもうコンテンツにアクセスできなくなる。

 もちろん、AIボットは絶えず進化している。Cloudflareによると、この機能は有害なボットの「フィンガープリント」を検知するため、やはり自動的に進化するという。

 新ツールは米国時間7月5日からすべてのCloudflareユーザーを対象に提供されている。

提供:Andriy Onufriyenko/Getty Images
提供:Andriy Onufriyenko/Getty Images

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]