朝日インタラクティブは6月22日、「ZDNet Japan x TechRepublic Japanデータ管理・活用セミナー」を開催。オープンテキストの講演では、同社ソリューション部のソリューションコンサルタント、大沢明広氏が登壇した。
膨大な非構造化データをどう分析していくか
オープンテキスト
ソリューション部
ソリューションコンサルタント
大沢明広氏
オープンテキストは、カナダを本拠に企業のデジタルトランスフォーメーションを支援する事業を展開する企業だ。大沢氏はまず、デジタルトランスフォーメーションの定義について、2004年にスウェーデンのエリック・ストルターマン教授が提唱した「ITの浸透が人々の生活をあらゆる面でよりよい方向に進化させる」という概念を紹介。
そのうえで「AIやロボティクスなどのデジタル化によって、今までできなかったことができるようになった。これまでになかった技術の導入も進む。当社の事業は、そうしたときに発生する課題を解決すること」と語った。
デジタルトランスフォーメーションにおける課題の1つは、膨大なデータの管理だ。製造業ではかつてはマニュアルなどを文書で共有していたが、いまは操作を録画して映像で共有することが増えてきた。企業が蓄積するデータは、そうした非構造化データを中心に爆発的に増えているのが現状だ。
また、ソーシャルデータの管理も非常に面倒になってきている。ソーシャルデータは人間の目から見れば内容が一目瞭然だが、機械的に管理するという視点でみると、複雑過ぎる。簡単なルールで分類・整理することが困難なのだ。管理されないままファイルサーバに放置されているケースも少なくない。
さらに、これらを分析しようとするときも大きな課題に直面する。構造化データがデータウェアハウスに代表されるようにある分析手法が確立しているのに比べ、非構造化データにはそうした手法がない。また、分析ツールも発展途上で、ツールによって得られる成果が大きく異なってくる。目的に応じた結果が得にくいという課題もある。
※クリックすると拡大画像が見られます
「8:2の法則があります。社内の存在するデータの8割は非構造化データで、構造化データは2割にすぎません。それに対し分析ニーズの8割は構造化データで非構造化は2割にとどまります。このギャップをどう埋めるかが課題なのです」(大沢氏)
情報のライフサイクル管理に必要なこと
そもそも非構造化データの分析ニーズとはどのようなものか。大沢氏によると、分析の目的は、マーケティング目的と組織目的の2つに分けられる。マーケティングでは、顧客ロイヤリティを高めたり、顧客機会の見極めたり、効果的なターゲットマーケティングなどが行うことが目的だ。一方、組織では、新製品やサービスを見極めて利益を拡大したり、不正を検知してリスクを改善するといったことなどに用いられる。
非構造化データをこうした目的で利用するためには効率的に維持、管理していく必要がある。データ自体はデータレイクのような基盤に蓄積するとしても、それにガバナンスを効かせることは一筋縄ではいかない。
大沢氏によると、データのガバナンスに必要になるのは、インフォメーションライフサイクルマネジメント、プライバシー対応、プリプロセシング(整形)、プリザベーション(保管)、バージョン管理などだ。つまり、「情報を生成されてから廃棄されるまで、言い換えると、ゆりかごから墓場までを記録をとって適切に管理することが必要」になってくる。
ここで盲点になるのが、データを収集・整理するためのインデックス作成(メタデータ管理)と分類だ。何をどう分類するかによって、分析の質は大幅にかわる。また、データの完全性(インテグリティ)も課題になりやすい。データが一貫して正しくアクセス可能でなれけば分析の品質が担保できなくなるのだ。
※クリックすると拡大画像が見られます
「情報のライフサイクルを適切に管理しようとすると、文書管理、コンプライアンス、訴訟対応、ストレージ管理といった仕組みを連携させていくことが重要」(大沢氏)ということだ。
こうしたさまざまな課題を解決しやすくするツールとしてオープンテキストが提供しているのが、文書などの非構造化データを管理する「OpenText Content Suite」と、大規模データ分析を行う「OpenText Analytics」だ。OpenText Analyticsは、今後リリースが予定されているコグニティブ製品のコア機能の一部にもなり、テキストマイニング技術を使ってメタデータの作成や分類を精緻に行ったり、並列分散処理や機械学習を用いて、データマイニング予測を行うことができる。また、文書管理やコンプライアンス、訴訟対応といったOpenText Content Suiteのリポジトリと連携することで統合管理が可能となる予定だ。
大沢氏は最後に「AIや機械学習、コグニティブを活用した新しい製品を今後も出す予定です。ツールをうまく使って取り組みを進めてください」と講演を締めくくった。