IBM東京基礎研、外国語文書を母国語で分析できるテキストマイニング技術を開発

富永恭子（ロビンソン）

2010-06-10 21:01

　日本IBMは6月10日、海外でビジネスを行う企業が、外国語で記述された文書データを1つの言語で分析することを可能にする「言語横断テキストマイニング技術」を開発したと発表した。

　同技術を開発した日本IBM東京基礎研究所のテキストマイニング研究チームは、文章からの情報抽出やマイニングのためのインデックス構造などの研究開発とともに、製造、金融、保険、放送、通信、小売など様々なビジネス分野への応用に対して、その業績が認められ、同日、社団法人人工知能学会より現場イノベーション賞を授与されている。

　膨大な文書データを活用する技術には「検索」「分類・整理」「知識発見」という異なるレベルの技術が存在し、その目的も言語処理の内容も異なる。IBMのテキストマイニング技術では「知識発見」を目的としているという。今回、日本IBM東京基礎研究所が開発した言語横断テキストマイニング技術は、同研究所が開発したテキストマイニング技術「TAKMI」と言語や分野に依存しない訳語対抽出手法を組み合わせているとする。

　IBMの研究員が開発した訳語対抽出手法では、解析したい概念が母語のデータにおいて出現する文脈を解析し、一般的に使用されている辞書を活用して出現文脈を母語から他言語に変換した上で、他言語中の似たような文脈で出現する表現を訳語の候補として抽出する。データをすべて翻訳するのではなく、解析したい概念の訳語のみをデータ中の文脈に基づいて抽出するため、一般的な辞書には掲載されていない特殊な表現や分野特有の表現であっても、母語と他言語の対応を推定することができ、分布の変化や偏りを捉える上で有益であることが実験結果からも実証されたという。これにより、解析担当者は、専門分野に関する知識を持っていれば、他言語の知識がなくても未知の言語の文書データを分析することができるとしている。

　IBMの言語横断テキストマイニング技術は、たとえば日本語といった1つの言語で定義された分析対象表現に対応する可能性の高い表現を、IBMが開発した訳語対抽出手法を使って他言語のデータから自動的に探し出し、日本語で分析できるという。企業はその結果をもとに、分析対象表現の出現傾向を把握し、特定の製品への偏りや急増傾向をとらえることで、まだ把握していない事実や問題点を早期に発掘し、調査のきっかけをつかんだり、適切なアクションにつなげることが可能になるとしている。