富士通研究所、富士通研究開発中心有限公司、Fujitsu Laboratories of Europe Limitedは1月16日、国や企業が所有するデータと、世界中で公開されているLinked Open Data(LOD)の間で、同じ対象を表現するデータを発見し、リンクを自動的に付与する技術を開発したと発表した。
公共データの民間開放、いわゆるオープンデータの取り組みの中では、ユーザーが利用しやすいよう、異なるサイトで公開されている関連データに対しリンクするLODが推奨されている。しかし、リンクを付けるには他サイトで公開されているデータの内容を理解し、関連するデータを発見する必要があり、LODの課題となっていた。
今回開発された技術は、表記やデータ構造の類似性から同一となる対象を高い精度で推定し、リンクを付けることを可能にするというもの。表記の類似度を測定、データ構造から同一対象の異なる表記を収集、それらをパラメータ化して機械学習手法により同一性を判定する、といった各種機能の組み合わせで推定する。この技術は、中国や米国の学術会議が主催した評価コンテストにおいて、第1位の推定精度を達成したとのこと。
開発したアルゴリズムの概要(富士通提供)
さらに、世界中で公開されているLODを収集して一括検索するLOD活用基盤と連携することで、世界中のLODの中から同じ対象を表すデータを発見することが可能になるという。例えば、英語版のデータセットだけでなく、各国語版のデータセットに対しても、同時にリンクを付与できる。
富士通研究所では、本技術と連携可能なLODの検索サービスを、2014年1月中に一般公開する予定。この検索サービスではLOD活用基盤による視覚的かつ対話的な検索インターフェースが利用できるという。世界中で公開されているLODの中から、ライセンスやダウンロード条件に適合したデータセットに対し、概要を検索したり、データの中身を参照するといった機能が提供される。
今回開発した技術は、官公庁や自治体におけるオープンデータの各種実証実験に適用して技術検証を進め、2015年度中の実用化を目指す。
Keep up with ZDNet Japan
ZDNet JapanはFacebook、Twitter、RSS、メールマガジンでも情報を配信しています。