ビッグデータの戦略活用を加速する IBMの先鋭テクノロジー

ビッグデータ/アナリティクスの技術・ソリューションに力を注ぐIBM。アナリティクスを高速に回すアプライアンスから、クラウドのソリューションに至るまで、多岐にわたる技術・サービスの拡充・先鋭化を推し進めている。以下、その中から特に注目すべき技術・製品・サービスを紹介しよう。

「1ドルの投資で、13ドルのリターン」

 「ある調査によれば、1ドルの投資で13ドルのリターンを得ることができ、これは3年前の1.2倍になるそうです。」――。

 こう語るのは、日本IBM インフォメーション・マネジメント事業部の一志 達也氏(BigData/DWH/Netezza Technical Sales)だ。

 米国企業ではかねてから、ビジネス戦略上の重点課題として、ビッグデータの利活用を推進してきた。それが、マーケティングの先鋭化や新サービスの開発、サプライチェーンの最適化などにつながり、投資額の13倍もの収益を得ているというわけだ。

 そんななか、アナリティクスの本流は、業務データの単純な分析と定型的なレポーティングを行うだけのものから、「収集可能なあらゆるデータを分析し、何らかの発見や予測につなげる世界へとシフトしています」(一志氏)という。要するに、非定型クエリやデータ・マイニング、あるいは予測モデルによるアドホックで高度なアナリティクス、さらには、分析のトライ&エラーを高回転で回し、発見を導くプラットフォームが強く求められているということだ。また併せて、アナリティクスの領域でも、プラットフォームのクラウド化への要求が高まっている。

 そうしたビッグデータ利活用/アナリティクスの潮流に対応すべく、IBMは2014年10月に米国ラスベガスで催した「IBM Insight2014」において、以下の一連の新製品を発表している。

  • PureData System for Analytics N3001:IBMが買収した「Netezza」テクノロジーをベースにしたDWHアプライアンス
  • DB2新版10.5.0.4(Cancunリリース):データベース管理システム「DB2」の新版
  • dashDB:クラウド上で提供されるDWHサービス(DWH as a Service)
  • IBM Cloudant Data Layer Local Edition:NoSQLデータベース「CouchDB」をベースにしたクラウドサービス(DBaaS:Database as a Service)「IBM Cloudant」のプライベートクラウド版(オンプレミス版)。Cloudantとの併用でアナリティクスのハイブリッド環境を構成
  • IBM DataWorks:セルフサービスで複数データソースへのアクセスを可能にするIBMクラウド上のETL(データ抽出・加工・ローディング)ツール

 さらに、IBMでは、自然な言葉で問いかけると、適切な分析結果へ案内する、次世代の分析ツール「Watson Analytics」のクラウドでの提供を開始したという。

「In-DB」アナリティクスによる高速分析

 言うまでもなく、先に示した新製品のうち、DWHアプライアンスの「PureData System for Analytics N3001」(以下、N3001)と、DB2新版(以下、DB2 Cancun)は、ビッグデータ・アナリティクスの高速化と最適化を実現するものだ。

 N3001は、「データをロードしてすぐに使える簡単さ」、「大規模検索の高速処理」、および「In-DBアナリティクス」などを実現するアプライアンスだ。なかでも、Netezzaならではの特徴と言えるのが、「In-DBアナリティクス」である。

Netezza「In-DBアナリティクス」のイメージ図 Netezza「In-DBアナリティクス」のイメージ図
※クリックすると拡大画像が見られます

 これは文字通り、データベース内で分析処理を高速に実行し、その結果のみをクライアント端末側に返す仕組みである。この仕組みにより、例えば、分析のためのプログラムとデータを端末側で持つ必要がなくなり、クライアントに分析対象のデータを移動させる手間・時間も不要になる。結果、分析業務にかかる時間が大きく削減され、「思考を止めないアナリティクスが可能になります」と、一志氏は指摘する。また、データが各所に拡散し、データの不整合が発生したり、そのセキュリティが損なわれたりする心配もなくなる。ちなみに、PureData Systemでは、自己暗号ドライブやケルベロス認証をサポート。データのセキュリティが高いレベルで確保されている。

 NetezzaのIn-DBアナリティクスでは、「マイニング・アルゴリズム」や「R(言語による)分析」、SPSS活用時の「スコアリング処理(予測モデルに基づいた予測計算処理)」、「空間/地図分析(Spatial分析)」、「行列演算(Matrix)」など、合計千数百個にも及ぶ分析関数群があらかじめ用意されている。また、C/C++やJava、Python、Fortran、R、Eclipseといった言語/開発環境を使い、ユーザー/パートナー企業が独自に分析アルゴリズムを開発することもできる。分析エンジンとして、「Matrix」、「Hadoop」、およびR言語分析の各エンジンを提供している。

 N3001ではさらに、分析性能が従来製品(「N2000」シリーズ)の最大2倍に高速化されているほか、外部データベースからのデータ・ローディングのスピードも(2ラック・モデルの場合で)10テラ・バイト(TB)/時と高速だ。

PureData System for Analytics N3001-001(ミニ)
PureData System for Analytics N3001-001(ミニ)

 モデルは、データ容量1.5ペタ・バイト(PB)をサポートする8ラック・モデルと、最大16TBデータに対応するエントリー・モデル(2Uラック2台構成)の2タイプがある。後者のエントリー・モデル(N3001-001/通称:ミニ)は、Netezzaのテクノロジーと機能・性能を踏襲しながら、価格2,400万円(税別・初年度保守料込み)とかなり廉価だ。

Netezza技術との融合でさらに進化したDB2

 他方、DB2 Cancunは、Netezzaのテクノロジーを取り込み、「BLUアクセラレーション」/「シャドー・テーブル」などの先鋭の仕組みを実現したデータベース管理システムだ。

 このうち、BLUアクセラレーションは、大量データの集計処理に適した「列(カラム)型・インメモリ」でのデータ格納/データ読み込みを実現した高速化の機構だ。この機構では、CPUのL2/L3キャッシュ・メモリを巧みに活用した高速処理を実現。データを圧縮した状態での処理を可能にするIBMの特許技術も実装されており、最新の圧縮技術によって、従来製品(DB2 10.1)の最大12倍強のデータ圧縮を実現している。また、BLUアクセラレーションでは、CPUの能力を最大限に引き出すための並列ベクトル演算の機能を備え、単一命令で複数のデータ演算を同時処理。加えて、クエリに適合しないデータを自動的にスキップするNetezzaのスキッピング・テクノロジーも採用している。この技術は、ビッグデータ分析におけるI/Oの最適化・高速化を実現する技術であり、従来は、数値型データのみに対応していた。しかし、DB2 CancunのBLUアクセラレーションでは、文字列型データにも対応。製品名や製品番号など、文字列が含まれているデータのスキッピングも可能としている。

 DB2 Cancunの「シャドー・テーブル」も非常に有用な仕組みだ。その内容は、データベースの内部で、OLTP(オンライン・トランザクション処理)用の行テーブルとOLAP(オンライン分析処理)用の列テーブルの双方を作成し、アプリケーションの処理要求に合わせて、行テーブルを使うか、列テーブルを使うかの判定を自動的に下す、というもの。これにより、OLTP・OLAP双方の性能が最適化されるという。

DB2 Cancunの「シャドー・テーブル」の概念図 DB2 Cancunの「シャドー・テーブル」の概念図
※クリックすると拡大画像が見られます

 また、行指向と列指向の両テーブル間ではデータの整合性が自動的に確保されるため、ユーザーはデータのメンテナンスに煩わされることなく、行と列の双方のテーブルを運用していくことができる。


【ビデオリサーチ事例】数億件のウェブログ分析を実現したビッグデータ分析基盤

【NTTぷらら事例】ビジネスのさらなる成長を目指しビッグデータの戦略的活用を推進

BigDataの統合とガバナンスを実現するには?
フリートライアル版ダウンロード
イベント情報
提供:日本アイ・ビー・エム株式会社
[PR]企画・制作 朝日インタラクティブ株式会社 営業部 
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]