国立大学法人東京大学とトレンドマイクロは1月28日、東京大学で記者会見を開き、情報セキュリティ分野における共同研究の成果を発表した。Webサイト間を結ぶリンクの構造を解析し、有害サイト、危険サイトがどのように結びついているのかを把握することで、Webアクセス時の危険度を事前に予測する技術への応用を目指す研究となる。
トレンドマイクロによると、現在のウイルス感染は「Webページから経由するものがほとんど」(トレンドマイクロ 上席執行役員 日本代表 大三川彰彦氏)だという。ウイルスそのものには古いものもあるようだが、感染経路が異なってきていることを示すものだ。さらに、「毎日、300億のWebページが更新されている」(大三川氏)という現状もあり、危険なサイトであるかどうかの判断が非常に難しくなっているという。
トレンドマイクロでは、従来のパターンファイルによる保護や、目視でのWebページの確認では、あまりに動的に変化するWebの脅威に、効果的に対抗できないとの認識だ。トレンドマイクロ 事業開発室テクノロジーリサーチ課 テクノロジーリサーチマネージャーの近藤賢志氏は、「テキストマイニングでは『ギャル語』や『KY』『スイーツ(笑)』など、コンテンツに応じて意味が変わるものに対応していくのは難しい」と語り、言語・文化などの文脈に依存しない対策が求められる背景を説明している。
従来の技術では抗しきれない脅威に対応するため、トレンドマイクロは数年前からこの分野の技術開発に取り組んでいたという。その中で、2007年1月に東京大学 産学連携本部が進める産学連携スキーム「Proprius21」に参画、2007年6月から2008年1月にかけて、第1弾の共同研究「Webリンクの構造解析」を実施した。
今回の共同研究では、トレンドマイクロが提供するWebカテゴリデータベースから抽出したURLを用いて、各カテゴリごとのリンク構造の特質と関連性を研究したという。カテゴリはトレンドマイクロの分類によるもので、危険度の高いAdultやIllegal Drugs、Crimeといったものから、一般的なVehicles、Travel、Government / Legalなど38種のカテゴリがある。
東京大学からは、ネットワークサイエンス分野から東京大学大学院 情報理工学研究科 講師の増田直紀氏、経済学分野から東京大学大学院 経済学研究科 21世紀COEものづくり経営研究センター 特任准教授の安田雪氏が参加した。
増田氏によると、今回の研究で用いたデータは、URLページノードが1247万2530、URLページリンクが5270万8173と非常に膨大であったという。そのため、ホスト単位で見た場合の、ユニークホストノード33万9828と、ホストリンク265万9488であれば、「大規模コンピュータを利用すれば解析可能」(増田氏)と判断。主にホスト単位でのネットワーク構造を対象に解析したという。
下記の画像がWebコンテンツのリンク構造を可視化した図だ。右上の緑色の部分と、下の扇形の部分が特徴的だ。
増田氏は、この図の密な塊を示している緑色の部分は、相互リンクが多く、強い関係性を示していると説明。Streaming MediaカテゴリやMP3カテゴリで、その傾向が顕著だと指摘している。また、画像下部の扇形は、階層化されたリンク構造を示しており、トレンドマイクロのカテゴリではReal Estate(不動産)カテゴリを示しているという。カテゴリごとに特徴あるリンク構造のため、この特性をカテゴリの分類に利用できる可能性があるとしている。
増田氏によると、上の例で示した2者のような塊、扇構造ではホスト間のリンクは少ないという。しかし、ホスト間リンク数が150以上の強い関係を示すものも多数存在し、特に例に挙げられるのがアダルトサイトだとしている。
それぞれのカテゴリのリンク先とリンク元の傾向では、「同じカテゴリにいきやすい傾向にある」(増田氏)との知見も得られた。ただし、検索・ポータルサイトのSearch Engine / Portalsカテゴリへのリンクの割合は、どのカテゴリのWebサイトからも高い。また、AdultカテゴリからSpywareカテゴリや、Adware / Joke Program / Cookiesカテゴリに行く割合が比較的高いとも指摘されている。
また、「相互に完全なリンクを持つノードの群」と定義されるクリークについて、今回の研究で巨大クリークが存在することが明らかになった。増田氏は、実際の自然界においては、4人の人間が4人とも友人同士という親しい関係が存在することはあるが、10や20を超える関係はほとんど存在しないと前置きした上で、542個のクリークを検出し、中でも最大のものは930のホストノードを有するものだったと語る。930のノードそれぞれが、他の929ノード全てとリンクを結び合っているという巨大なクリークだ。
この930のホストノードを持つクリークは、ドメインのみを変え、コンテンツはほとんどが同一のものであったという。商業的な動機からこの形態をとっていると増田氏は分析しており、リンクをクリックしても、一見クリークの外部に飛んだようで実は内部に留まっていることもあるという。
増田氏は共同研究から得られた知見の一つとして、アダルトカテゴリの行き先はアダルトでありやすく、またアダルトサイトにくるリンクもアダルトでありやすいと指摘。これを応用すると、カテゴリの分類に利用できるのではないかと期待を寄せている。
つまり、日々300億のページが更新されている中で、これまでは実際にWebページにアクセスしてから警告を表示するという事後の対策であったが、カテゴリ推定の精度を高めていけば、アクセスする前に警告を表示する事前対策が可能になる。近藤氏は「まだまだ研究の端緒についた状態。この研究を進めていくことで、今までの技術の精度向上につながる」と語っており、従来の技術・対策を補完・改善するものとして、研究を進めていきたい考えを示している。