今こそ要チェック! Hadoop利活用の現実解

Hadoop活用のアイデアを自由に生かす

 Hadoopと、既存システムや他のテクノロジーとの連携がスムーズになれば、当然、Hadoopの「生かしどころ」も、より柔軟に考えられるようになる。

 例えば、既存のデータ・ウェアハウス(DWH)環境へのHadoopの適用は、その1つだ(下図参照)。

HadoopをベースとしたDWH環境のイメージ HadoopをベースとしたDWH環境のイメージ
※クリックすると拡大画像が見られます

 DWHの環境では、恒常的にデータが増え続ける。そうしたデータ増への対応を、既存のデータベース・システムの拡張だけで済まそうとした場合、相応の額のリソース投資を覚悟しなければならない。そこに、Hadoopを適用すれば、データ増への対応をより低コストで実現することが可能になる。

 「日本の多くのお客様は、すでに多様なデータを集める仕組みはお持ちです。ですが、それを蓄えておくための出費がかさむために、せっかく集めたデータを、活用せずに捨てているケースも少なくありません。経済性に優れたHadoopならば、そうした問題を抜本的に解決しうるのです」と、土屋氏は指摘する。

 また、既存のDWH環境に、Hadoopを組み込むことは、DWHの煩雑性・複雑性の解消にもつながるという。

 「DWHの利用が進展すればするほど、DWHの中に、多種多様なデータが格納されるようになり、内容の複雑性・煩雑性が増していきます。そこで、まずはHadoopにデータを蓄えて、加工・整理したものを既存のDWH環境やデータマートの環境で扱うようにする。そうすれば、DWHの複雑化・煩雑化を(経済効率良く)回避することが可能になるのです」(土屋氏)。

 こうした考え方は、「Internet of Things(IoT:モノのインターネット)を支えるストリーム・コンピューティング基盤にも当然応用できる。

 言うまでもなく、IoTのインフラでは、センサーが創出する大量のデータを蓄えておく場所がどうしても必要になる。その格納場所をHadoopで構築し、Hadoopで加工したデータを分析用のDWHやデータマートに流すようにすれば、経済的なIoT基盤が作れるというわけだ。さらに、Hadoopとクラウド環境とを連携させれば、インターネットを介して、顧客や社員のスマートデバイスに必要が情報を送出するサービスも構築できるようになる。

安価で優れたITも実利を生まなければ意味はない

 すでに、IBMの顧客であるフランスの大手自動車メーカー、プジョーシトロエン(PSA)では、まさにIoTインフラにHadoopを適用し、先進的なサービスを提供している。この仕組みでは、自動車に組み込まれたIoTモジュールからのデータがHadoopに蓄えられ、ドライバーごとの自動車の状況やメンテナンス履歴に基づく故障診断やアラート発信・メンテナンス・アドバイス、さらには、ドライビング・アドバイスなどの各種サービスに活用されているという。

 ちなみに、このサービスのポータル・サイトでは、Hadoop自体の機能的な拡張も生かされている。具体的には、ポータル・サイドの背後では、Hadoopのインメモリ型NoSQLデータベース「Apache HBase」が直接的に動作している。すなわち、このサイトでは、Hadoop(とHbase)の採用によって、Webシステム構造(通常は、Webサーバ、アプリケーション・サーバ、データベースの3層構造)のシンプル化と高いインタラクティブ性を実現しているのである。

 このHbaseもそうだが、最近では、HadoopによるETL・バッチ・分析の処理を高度化・高速化する機械学習のコンポーネント「Apache Spark」なども提供されるなど、Hadoopフレームワークの拡張が進み、Hadoop内で完結できるデータ処理の幅も広がりつつある。

 「それでも、エンタープライズでの利用を考えた場合、Hadoopだけですべてのビジネス・ニーズが満たせるわけではありません」と土屋氏は語り、こう説明を加える。

 「ストリーム・コンピューティングのシステムにしても、インタラクティブ性が強く求められるものと、リアルタイム性が必須のもの、そして大量データのバッチ処理が要求されるものに分かれ、それぞれの特性に応じて適材適所で、さまざまなテクノロジーを適用してかねばなりません。その意味でも、Hadoopの拡張機能・新機能を積極的に取り込みながら、既存のエンタープライズ・テクノロジーとHadoopとの連携をしっかりと確保し、お客様さまにとって最も価値の高いかたちで、Hadoopの活用を促進していくことが重要なのです」

IBM Hadoopソリューションの全体概念IBM Hadoopソリューションの全体概念
※クリックすると拡大画像が見られます

 Hadoopの人気は、ビッグデータの格納・処理のコストが安上がりで済むという理由で火が付いた。だが、いくら安価で、優れたITであっても、うまく活用し、ビジネス上の実利へと結び付けることができなければ、企業にとっては無価値な仕組みと化す。Hadoopがそうならいための道具立てと現実解――そのすべてが、IBMにあると考えて間違いはなさそうだ。BigInsightsの今後に注目が集まる。

BigInsights最新版の注目機能――
「R」アリゴリズムの自動分散処理のンパクト

本文での触れたとおり、BigInsightsの1つの特徴として、R言語をHadoop上で動作させる「Big R」の提供がある。BigInsightsの最新版(バージョン4)では、そのR言語で記述したアルゴリズムをサーバ上で分散処理するための機械学習モジュール(System ML)が新たに組み込まれている。

 周知のとおり、R言語はPC上で動作させ、利用するが通常だ。そのため、PCのメモリ・リソースの制約から、分析できるデータ量やパフォーマンスにどうしても限界が出てくる。そこで、R言語で記述されたアルゴリズムを多数のサーバ上で分散処理させ、アルゴリズムのスケーラビリティと処理パフォーマンスを高めるというのが、BigInsightsにおけるSystem MLサポートの目的だ。

 仮にSystem ML がない状態で、R言語のアルゴリズムを分散させ、Hadoopの各ノードで実行された結果から正しい答えを導き出そうとすると、MapReduce関数によるロジックの記述が必要となる。おそらくそれは、R言語のユーザーにとって、難度が高く、骨の折れる作業であろう。しかし、System MLは、その作業を一切不要にしてくれる。結果、R言語のユーザーは、まったく手間をかけずに、自分の記述したアルゴリズムを複数のサーバ上で動作させ、より大量のデータを、よりスピーディに処理することが可能になるのである。


OSSの良さはそのまま、使い勝手を向上!BigInsights for Apache Hadoop

オープンソースのHadoopでデータ解析を高速化--ビッグデータの効率的なビジネス活用のために
フリートライアル版ダウンロード
イベント情報
提供:日本アイ・ビー・エム株式会社
[PR]企画・制作 朝日インタラクティブ株式会社 営業部 
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]