Oracle DBのデータをHadoopに統合する
「SharePlex Connector for Hadoop」
ここからは、Cloudera World Tokyo 2015のデルのブースで展示されていた2つのソフトウェアを紹介しよう。堀田氏のセッションでも紹介された「Dell SharePrex」と「Dell Statistica」だ。
もともとSharePlexはOracle DB向けのレプリケーションツールだが、「Dell SharePlex Connector for Hadoop」を使うと、Oracle DBのデータをリアルタイムにHadoopに取り込むことできる。デルのソリューションコンサルタントの青木浩朗氏は、この製品の背景について次のように説明する。
デルのソリューションコンサルタントの青木浩朗氏
「構造化データと非構造化データの両方を用いたビッグデータ分析では、それぞれのデータストアからデータを取り出してアドホックに分析するかたちが一般的でした。しかし、この方法では分析にかかるオーバーヘッドが大きくなるため、リアルタイム分析への需要が増した現在では、あらかじめデータを一箇所にまとめておく形態が増えています。いわゆる"データレイク"の考え方です。これをOracle DBとHadoopの間で実現するのがSharePlex Connector for Hadoopです」(青木氏)
Hadoopを使わずにOracle DBに非構造化データも格納して一本化するアプローチもあるが、Oracle DBのシステムが大掛かりになり、コスト高になってしまう。Oracle DBに格納するデータは基幹系などに絞り、分析用データストアのHadoopにデータをまとめるほうがコストパフォーマンスは高くなる。また、負荷が低いこともSharePlexの利点だという。
「RDBのデータをHadoopに取り込むときは、Apache Sqoopというツールを使うのが一般的ですが、RDBに読み取り負荷がかかるため、深夜などにバッチ的に処理する必要があります。SharePlexはOracle DBのREDOログを使ってレプリケーションを行うため、Oracle DBに負荷をかけずにHadoopにデータを取り込むことができます」(青木氏)
容易な操作で高度な分析/可視化を実現する「Dell Statistica」
一方、「Dell Statistica」は、2014年にデルがStatSoftを買収したことで取得した製品だ。デルの製品としては新しいものとなるが、Statistica自体は1984年のリリース以降、30年以上に渡って開発されてきた定評のあるツールである。
デル ソリューションセンターの北川隆一氏は、その特徴について次のように語る。
デル
ソリューションセンター
北川隆一氏
「一言で言えば、豊富な機能を容易な操作で扱えるツールです。16,000以上の分析関数を備えながら、分析モデルの構築はドラッグ&ドロップでできます。また、関数は業界標準のVisual Basicスクリプト形式で記録できますので、カスタマイズが必要なときも特殊な専用言語を覚える必要はありません。.NETのインタフェースを備えているので、Excelなどと連携させることも容易です。例えば、Excelのデータを取り込んでStatisticaで分析し、その結果をExcelに書き戻すといったことが自動化できます。また、Webインタフェースによるダッシュボード機能を使えば、ブラウザからリアルタイムのモニタリングをするといったこともできます」(北川氏)
Statisticaは、Microsoft Officeと同様のリボンインタフェースを採用しているので、普段ExcelやWordを利用しているユーザーにも馴染みやすいだろう。
※クリックすると拡大画像が見られます
なお、StatisticaはWindows上で動作するが、作成したモデルはデータ分析の標準形式であるPMMLで出力できるので、プラットフォームを問わずに分析できる。
導入事例としては、日本では製造業の品質管理が多いそうだが、今後は金融やヘルスケアなど、他の市場でも利用が見込めるそうだ。
「データ分析では、一回で完璧なモデルが構築できることはまれで、修正を繰り返してモデルの精度を高めていく必要があり、ツールの使い勝手の良さが作業効率を大きく左右します。Statisticaは、米国のユーザー満足度調査で高い評価を得ている製品ですので、ぜひ触れてみて使い心地を確かめてもらいたいですね」(北川氏)