日本IBMは6月7日、非構造化データ分析ソフトの新製品として「IBM Content Analytics with Enterprise Search V3.0(ICA 3.0)」を発表した。料金は、100プロセッサバリューユニットで801万円から(税別)となっており、日本IBMと同社のビジネスパートナーを通じて販売する。
分散並列処理フレームワーク「Hadoop」をベースにした分析用基盤「IBM InfoSphere BigInsights」との連携により、従来製品に比べて約10倍となる数億件分のソーシャルメディアに書き込まれるテキストデータを一括で分析。顧客のビッグデータ活用を支援するソフトウェアと位置付けている。分析データ容量の拡大だけでなく、検索機能と統合したことで、文脈に応じた検索結果の絞り込みや、検索結果の時系列分析、相関分析などを実現するという。
新聞の朝刊に換算して260万年分にあたる1Pバイト規模の大量の非構造化データを分析。IBMの情報検索ソフトウェアである「IBM OmniFind」と統合することで、単純検索ではなく、意味を踏まえた検索などの高度な検索環境を提供。日本語や英語をはじめ、15言語への対応によりグローバル分析が可能になるという。
専務執行役員ソフトウェア事業担当のVivek Mahajan氏は「ICA 3.0は、IBM基礎研究部門が開発した(スーパーコンピューターの)“Watson”を支えた基礎技術をビジネス領域に応用したものであり、IBM東京基礎研究所で開発された技術の応用による優れた日本語解析精度を活用している。ソーシャルメディアだけでなく、あらやるコンタクトポイントの情報を一括に高度分析ができる」と説明する。
技術理事 ソフトウェア開発研究所 ディスカバリ技術・製品開発の濱田誠司氏は「ICA 3.0で活用されている日本語の自然言語処理技術の開発は、約10年間にわたって東京基礎研究所が行ってきたものであり、米国の基礎研究所が評価して製品化した。その点では自信がある技術として完成している。海外の基礎研究所とも協業しており、海外の言語処理にも自信がある」と製品の優秀さを語る。
「既存の顧客がラップトップでデータを分析していても、Hadoopを活用して、シームレスに拡張できるといった仕組みも用意している。一方で、さまざまな分野のデータを分析すると、逆にノイズが出る場合もある。分析と検索を統合したことで、ある領域に絞ってテキストマイニングができることも特徴であり、ユーザーに新たな結論を提供できるようになる」(濱田氏)
エンタープライズ・コンテンツ・マネジメント営業部長の山田桂子氏は「なぜこの瞬間に、この地域で、この製品の販売が増加したのかということを発見するには、構造化データだけでは分析が不可能。非構造化データの中にヒントがある。そこに高度な自然言語分析を活用することで、価値のある洞察を実現する」と今回の製品の特徴を説明する。
「IBMは自然言語分析技術分野に対して、毎年5000万ドルを投資し、200人以上の研究開発者が携わり、年間200件を超える特許を取得している。検索と分析技術を生かすことで、クレジットカード会社では大量の非構造化データからパターンを分析し、不正な請求を支払いの前に検知するといった活用が可能になるなど、すでにさまざまな領域で活用されている」(山田氏)
IBMが全世界1700人以上のCEOを対象にした調査では、今後3~5年後にCEOが顧客接点として重視する手段として、対面形式に次いでソーシャルメディアが2位になっており、ウェブサイトを上回っている。
Twitterの言語別つぶやき件数は、日本語が第2位となっており、1日当たりの日本語によるつぶやきは約2600万件とされている。ICA 3.0では1~2週間分の日本語による全つぶやきを一度に分析できるという。「ICA 3.0は、従来製品を活用しているユーザーからの要求を反映したものであり、すでに数件の問い合わせが出ている」(山田氏)