有害サイトのネットワークを可視化する研究--東大とトレンドマイクロ

冨田秀継(編集部) 2008年01月28日 18時01分

  • このエントリーをはてなブックマークに追加

 国立大学法人東京大学とトレンドマイクロは1月28日、東京大学で記者会見を開き、情報セキュリティ分野における共同研究の成果を発表した。Webサイト間を結ぶリンクの構造を解析し、有害サイト、危険サイトがどのように結びついているのかを把握することで、Webアクセス時の危険度を事前に予測する技術への応用を目指す研究となる。

 トレンドマイクロによると、現在のウイルス感染は「Webページから経由するものがほとんど」(トレンドマイクロ 上席執行役員 日本代表 大三川彰彦氏)だという。ウイルスそのものには古いものもあるようだが、感染経路が異なってきていることを示すものだ。さらに、「毎日、300億のWebページが更新されている」(大三川氏)という現状もあり、危険なサイトであるかどうかの判断が非常に難しくなっているという。

 トレンドマイクロでは、従来のパターンファイルによる保護や、目視でのWebページの確認では、あまりに動的に変化するWebの脅威に、効果的に対抗できないとの認識だ。トレンドマイクロ 事業開発室テクノロジーリサーチ課 テクノロジーリサーチマネージャーの近藤賢志氏は、「テキストマイニングでは『ギャル語』や『KY』『スイーツ(笑)』など、コンテンツに応じて意味が変わるものに対応していくのは難しい」と語り、言語・文化などの文脈に依存しない対策が求められる背景を説明している。

 従来の技術では抗しきれない脅威に対応するため、トレンドマイクロは数年前からこの分野の技術開発に取り組んでいたという。その中で、2007年1月に東京大学 産学連携本部が進める産学連携スキーム「Proprius21」に参画、2007年6月から2008年1月にかけて、第1弾の共同研究「Webリンクの構造解析」を実施した。

 今回の共同研究では、トレンドマイクロが提供するWebカテゴリデータベースから抽出したURLを用いて、各カテゴリごとのリンク構造の特質と関連性を研究したという。カテゴリはトレンドマイクロの分類によるもので、危険度の高いAdultやIllegal Drugs、Crimeといったものから、一般的なVehicles、Travel、Government / Legalなど38種のカテゴリがある。

 東京大学からは、ネットワークサイエンス分野から東京大学大学院 情報理工学研究科 講師の増田直紀氏、経済学分野から東京大学大学院 経済学研究科 21世紀COEものづくり経営研究センター 特任准教授の安田雪氏が参加した。

 増田氏によると、今回の研究で用いたデータは、URLページノードが1247万2530、URLページリンクが5270万8173と非常に膨大であったという。そのため、ホスト単位で見た場合の、ユニークホストノード33万9828と、ホストリンク265万9488であれば、「大規模コンピュータを利用すれば解析可能」(増田氏)と判断。主にホスト単位でのネットワーク構造を対象に解析したという。

 下記の画像がWebコンテンツのリンク構造を可視化した図だ。右上の緑色の部分と、下の扇形の部分が特徴的だ。

Webコンテンツのネットワーク構造の可視化

 増田氏は、この図の密な塊を示している緑色の部分は、相互リンクが多く、強い関係性を示していると説明。Streaming MediaカテゴリやMP3カテゴリで、その傾向が顕著だと指摘している。また、画像下部の扇形は、階層化されたリンク構造を示しており、トレンドマイクロのカテゴリではReal Estate(不動産)カテゴリを示しているという。カテゴリごとに特徴あるリンク構造のため、この特性をカテゴリの分類に利用できる可能性があるとしている。

Streaming Media / MP3カテゴリは相互リンクが多いようだ Streaming Media / MP3カテゴリは相互リンクが多いようだ
不動産関連サイトは、階層化されたリンク構造を示しているという 不動産関連サイトは、階層化されたリンク構造を示しているという

 増田氏によると、上の例で示した2者のような塊、扇構造ではホスト間のリンクは少ないという。しかし、ホスト間リンク数が150以上の強い関係を示すものも多数存在し、特に例に挙げられるのがアダルトサイトだとしている。

 それぞれのカテゴリのリンク先とリンク元の傾向では、「同じカテゴリにいきやすい傾向にある」(増田氏)との知見も得られた。ただし、検索・ポータルサイトのSearch Engine / Portalsカテゴリへのリンクの割合は、どのカテゴリのWebサイトからも高い。また、AdultカテゴリからSpywareカテゴリや、Adware / Joke Program / Cookiesカテゴリに行く割合が比較的高いとも指摘されている。

 また、「相互に完全なリンクを持つノードの群」と定義されるクリークについて、今回の研究で巨大クリークが存在することが明らかになった。増田氏は、実際の自然界においては、4人の人間が4人とも友人同士という親しい関係が存在することはあるが、10や20を超える関係はほとんど存在しないと前置きした上で、542個のクリークを検出し、中でも最大のものは930のホストノードを有するものだったと語る。930のノードそれぞれが、他の929ノード全てとリンクを結び合っているという巨大なクリークだ。

 この930のホストノードを持つクリークは、ドメインのみを変え、コンテンツはほとんどが同一のものであったという。商業的な動機からこの形態をとっていると増田氏は分析しており、リンクをクリックしても、一見クリークの外部に飛んだようで実は内部に留まっていることもあるという。

 増田氏は共同研究から得られた知見の一つとして、アダルトカテゴリの行き先はアダルトでありやすく、またアダルトサイトにくるリンクもアダルトでありやすいと指摘。これを応用すると、カテゴリの分類に利用できるのではないかと期待を寄せている。

 つまり、日々300億のページが更新されている中で、これまでは実際にWebページにアクセスしてから警告を表示するという事後の対策であったが、カテゴリ推定の精度を高めていけば、アクセスする前に警告を表示する事前対策が可能になる。近藤氏は「まだまだ研究の端緒についた状態。この研究を進めていくことで、今までの技術の精度向上につながる」と語っており、従来の技術・対策を補完・改善するものとして、研究を進めていきたい考えを示している。

左から、増田氏、東京大学教授で産学連携本部長の藤田隆史氏、大三川氏、近藤氏 左から、増田氏、東京大学教授で産学連携本部長の藤田隆史氏、大三川氏、近藤氏
トレンドマイクロのCEO、Eva Chen氏はビデオメッセージを寄せた トレンドマイクロのCEO、Eva Chen氏はビデオメッセージを寄せた
  • このエントリーをはてなブックマークに追加
関連キーワード
セキュリティ

関連ホワイトペーパー

SpecialPR

連載

CIO
ハードから読み解くITトレンド放談
大木豊成「仕事で使うアップルのトリセツ」
研究現場から見たAI
ITは「ひみつ道具」の夢を見る
内製化とユーザー体験の関係
米ZDNet編集長Larryの独り言
今週の明言
「プロジェクトマネジメント」の解き方
田中克己「2020年のIT企業」
松岡功「一言もの申す」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
Fintechの正体
内山悟志「IT部門はどこに向かうのか」
情報通信技術の新しい使い方
三国大洋のスクラップブック
大河原克行のエンプラ徒然
コミュニケーション
情報系システム最適化
モバイル
通信のゆくえを追う
セキュリティ
企業セキュリティの歩き方
サイバーセキュリティ未来考
セキュリティの論点
ネットワークセキュリティ
スペシャル
Gartner Symposium
企業決算
ソフトウェア開発パラダイムの進化
座談会@ZDNet
Dr.津田のクラウドトップガン対談
CSIRT座談会--バンダイナムコや大成建設、DeNAに聞く
創造的破壊を--次世代SIer座談会
「SD-WAN」の現在
展望2017
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft WPC
HPE Discover
Oracle OpenWorld
Dell EMC World
AWS re:Invent
AWS Summit
PTC LiveWorx
古賀政純「Dockerがもたらすビジネス変革」
さとうなおきの「週刊Azureなう」
誰もが開発者になる時代 ~業務システム開発の現場を行く~
中国ビジネス四方山話
より賢く活用するためのOSS最新動向
「Windows 10」法人導入の手引き
Windows Server 2003サポート終了へ秒読み
米株式動向
実践ビッグデータ
日本株展望
ベトナムでビジネス
アジアのIT
10の事情
エンタープライズトレンド
クラウドと仮想化