今こそ要チェック! Hadoop利活用の現実解

ビッグデータの潮流の中で、多くの関心を集め、また、普及も進んでいる「Apache Hadoop」。だが、Hadoopの活用で大きな実利を得ているユーザー企業が数多くあるかと言えば、そうとばかりは切れないのが現実だ。そこで本稿では、Hadoopの利活用を成功に導くための要件とテクノロジーについて、IBMのHadoopソリューションを手がかりに考察していく。

Hadoopは特異なシステムではない

 並列分散データ処理のオープンソース・ソフトウェア(OSS)「Apache Hadoop」。今や、「ビッグデータ・テクノロジーの代名詞」と言えるほど、その存在は広く知れわたり、Hadoopを利用する企業・組織の数も増えている。少なくとも、企業ITに携わっている人、あるいは、データ分析の業務にかかわっている人ならば、Hadoopという用語を一度は見聞きした経験があるに違いない。

 ただし、Hadoopを取り巻くユーザー企業の現状をとらえると、Hadoopの導入・活用で大きな成果を上げている企業がある一方で、Hadoopの使いどころをいまだにつかみあぐねていたり、Hadoopの活用に消極的であったりする向きも少なくない。

 果たして、それは何に起因した問題なのか――。

 「1つは、Hadoopが決して扱いやすい技術ではなく、相応のスキルと知識がなければ使いこなせなかったことです。またもう1つ、Hadoopの利活用を阻害する要因として考えられるのが、Hadoopをこれまでのシステムとは"異質なモノ"と見なし、単体としてどう使うかばかりに気を取られることです」と、日本IBM インフォメーション・マネジメント事業部の一志 達也氏は指摘する。また、同氏はこうも続ける。

 「そもそも、企業にとって大切なのは、ビジネス上の課題解決や成長につながるシステムをどう作るかであって、Hadoopはそのための一手段にすぎません。ですからビジネス上の目的に応じたシステム作りの中で、Hadoopをどう生かすかを考えるべきですし、その観点がなく、Hadoopの利用目的が曖昧なままであると、Hadoopのように、"どのようにでも使える"仕組みは、結局、どう使ってよいかが分からなくなるおそれが強いのです」

 この裏を返せば、ビジネス上の目的を明確に定め、システムの中にHadoopをうまく組み込むことに成功した企業は、大きな経済的効果が得られることになる。

 実際、そうした成功例は少なくなく、一志氏と同じ日本IBM インフォメーション・マネジメント事業部の土屋 敦氏は、「例えば、あるお客様は、Hadoopの活用で業務(予測業務)のドラスティックな率化に成功し、約4億円ものコストメリットをすでに得ています」と明かす。

 また同氏によれば、日本の企業の関心も、Hadoopそのものから、「自社のシステムの中にHadoopをどのように組み込みばいいのか、システムの中でHadoopをどう使えば、収益創出やイノベーションにつながるのか」といった点にシフトしているようだ。

Hadoopと他システムを透過的につなぐ

 もちろん、Hadoopが実現しうる「システム上の変革」を理解していなければ、Hadoop活用による実利創出のシナリオは描けない。そこで改めて気になるのが、Hadoopが持つ本質的な価値だ。

土屋 敦氏
土屋 敦氏
日本IBM
ソフトウェア事業
インフォメーション・マネジメント事業部
ワールドワイド・ビッグデータ・タイガー・チーム
テクニカル・リード

 おそらく、Hadoopの絶対的な価値の1つは、多種多様な形式のファイルを、"そのまま放り込む"感覚で格納し、自由に処理・加工できる点だろう。ただ し、それ以上に大きな価値は、大量のデータを扱う際のHadoopの「経済性」にあると、一志・土屋両氏は口をそろえる。

 「Hadoopならば、既存のデータベース・システムを拡張するのに比べ、はるかに低コストで多様・大量のデータを格納・加工する環境が作れます。これは、Hadoopの最大のメリットであり、だからこそ、多くの企業がこの技術に関心を寄せているのです」(土屋氏)。

 このようなHadoopの価値を、既存システムに組み込み、ビジネス・メリットへと転換するためのソリューションが、IBMの「BigInsights for Apache Hadoop(以下、BigInsightsと略す)」(下図参照)となる。

 BigInsightsは、エンタープライズ・システムとデータベースに関するIBMの技術・知見・ノウハウと、Hadoopのテクノロジーを一体化させた仕組みだ。特徴として、Hadoop上での「R言語」の高度利用を実現する「Big R」(本稿末囲み記事『BigInsights最新版の注目機能――"R"アリゴリズムの自動分散処理のインパクト』を併せて参照)の提供や、ANSI標準SQLを通じて、Hadoop上のデータを呼び出せる「SQL on Hadoop(Big SQL)」の存在がある。

 このうち、Big SQLは、HadoopをSQLデータベース化するテクノロジーだ。Hadoopは、データ操作の自由度が高い分、SQLデータベースの扱いに慣れたユーザーにとっては、「何をどうすれば、良いのかが分かりづらい」といった側面がある。BigSQLはそうしたHadoopのネックを解消し、既存のSQLデータベースを扱うのと同様の感覚で、Hadoopのデータを扱えるようにするのである。

 「Big SQLは、IBMの『Logical Data Warehouse』に欠かせない機能の1つで、HadoopのクラスタをSQLデータベースとして扱うことができます。例えば、大量データの超高速分析アプライアンスであるNetezza(IBM PureData System for Analytics )から、Hadoop上のデータを直接呼び出し、Netezzaでそのデータの分析を行ったり、HadoopからNetezza上のデータを呼び出したりすることも可能です。加えて、他社のHadoopディストリビューションに対しても同様のことが行えますし、他社のSQLデータベースとHadoopをつなぐこともできるのです」(一志氏)。

 さらに、IBMは、既存のIBM製品とHadoopとの連携強化にも力を注いでおり、ビジネス・インテリジェンス(BI)ツールやETL(データ抽出・変換・加工・ローディング)ツールと、Hadoopとの連携をすでに確保している。

 「ですから、お客様は、エンタープライズ・システムの既存資産を生かしながら、Hadoopによるデータ活用基盤の革新・改革を、無理なく、確実に、そして迅速に進めることが可能になるのです」(土屋氏)。


OSSの良さはそのまま、使い勝手を向上!BigInsights for Apache Hadoop

オープンソースのHadoopでデータ解析を高速化--ビッグデータの効率的なビジネス活用のために
フリートライアル版ダウンロード
イベント情報
提供:日本アイ・ビー・エム株式会社
[PR]企画・制作 朝日インタラクティブ株式会社 営業部 
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]