robots.txt
その他の語句
用語の解説
robots.txtとは
(ロボットテキスト)
robots.txtとは、Googleやgooなどのロボット型検索エンジンのクローラに対する指示を記述したファイルのことである。
クローラが各Webサイトを巡回(クローリング)する場合、まず、ターゲットとなるWebサイトのルートディレクトリにrobots.txtが配置されているかどうかを確認する。
配置されていれば、そのファイルを読み込み、記述された内容に従って情報を収集していく。
robots.txtにディレクトリ名やクローラ名などを記述することで、情報を収集されないようにすることが可能になる。
例えば、すべてのクローラに対して、すべてのファイルを収集して欲しくない場合には、1行目に「User-agent: *」、2行目に「Disallow: /」と記述する。
また、クローラのアクセス頻度を制限したい場合には、「Crawl-delay:10」(アクセス間隔を10秒間に設定)のように記述する。
クローラに対する指示は、robots.txtを置くという方法の他にもmetaタグで記述する方法もある。
なお、robots.txtは、クローラに対しての強制力がないため、クローラの一部には、robots.txtの内容を無視してクローリングするところもある。
CNET Japan
-
最新「Instagram恋愛」事情--高校生の4人に1人が「出会いはインスタ」
若者たちはSNS、特にInstagramを恋愛に使っているようだ。どのように使っているのか、実態と使い方について見ていきたい。