ビッグデータ活用を本格検討する企業が増えるなか、プラットフォームをどのように構築するかは重要なポイントとなる。ビッグデータは様々なテクノロジーの集合体であり、ソフトウェアやハードウェアの選択肢も多種多様となるからだ。その課題に対しDell EMCはどのような提案を示すのか、同社およびマップアール・テクノロジーズから話を聞いた。
ビッグデータ関連技術が発展し続けるなか
再注目されるデータレイク
基幹システムやWebに代表されるような多種多様なシステムは、日々の企業活動に伴い大量のデータを生成している。近年ではさらに、ソーシャルメディアやIoTデバイスなどからも膨大なデータが得られるようになってきた。それらをビジネスに役立てるツールとして期待されているのが、ビッグデータ技術だ。
そのビッグデータ技術が今、日本でも多くの企業に本格的に使われ始めていると語るのは、Dell EMC インフラストラクチャ・ソリューションズ 事業統括 ソリューション本部 BigDataビジネス開発 マネージャーの堀田鋭二郎氏だ。ビッグデータ市場をリードするDell EMCのインテル® Xeon® スケーラブル・プロセッサーを搭載したサーバ、ネットワーク、ストレージ上で、マップアール・テクノロジーズのデータ基盤ソフトウェアは、製造や流通をはじめ多くの日本企業で利用されており、その両社製品を利用した活用ニーズが急速に高まり続けているという。
「ビッグデータ技術を、マネタイズやリスク回避などの目的で活用しようとする日本企業がここ2年ほどで急速に増えてきています。MapRのビジネスは世界的に倍増を続ける勢いで伸びていますが、日本はここへ来てワールドワイドを上回る伸びになりそうな状況です」マップアール・テクノロジーズ アライアンス&プロダクトマーケティング ディレクターの三原茂氏は説明する。
一方、ビッグデータ分野のテクノロジーも、世界的に高まり続けているデータ活用ニーズに対応すべく、今なお目覚ましい勢いで発展を続けている。その結果、分析のためのプラットフォームには、少し困った状況が生じてしまう場合もあるという。それは、データ分析を目的としたシステムやクラスタが用途毎に複数乱立してしまう可能性だ。

Dell EMC
インフラストラクチャ・ソリューションズ 事業統括 ソリューション本部
BigDataビジネス開発 マネージャー
堀田 鋭二郎氏
例えば、データ活用フレームワークとして広く使われているHadoopは、データの投入も分析もバッチ型が基本であり、リアルタイム処理のニーズに応えるのが難しい。そこで、インメモリでリアルタイム性の高い分析が可能なSparkなどのテクノロジーが次々に登場してきた。ところが、新たなテクノロジーは必ずしも以前からあるテクノロジーと共存させることができるとは限らず、しばしば別のクラスタを新たに構築して、用途別にクラスタを使い分けることになりがちだ。
「しかし、ビッグデータ分析に供するデータは、テラバイトやペタバイトと非常に大量です。日本企業の場合、データ量もさることながらレコード数も膨大なのが特徴です。そういったデータを、分析のたびにネットワーク越しに転送していてはデータの欠損のリスクとともに転送時間がかかりすぎるのです」(堀田氏)
ビッグデータ基盤として注目されているのが、「データレイク」の考え方だ。ビジネスデータのみの分析用途で従来から利用されているデータウェアハウスと違い、データレイクは、あらゆるデータを蓄え、様々な目的に利用できるようにするビッグデータ基盤といった意味合いを持つ。膨大となったデータは、システム間でコピーや転送をすると想像以上に時間がかかってしまうため、データレイクのコンセプトではデータはなるべく動かさない。つまり、データ基盤上でデータの加工や分析も行う。データレイクでは、あらゆるデータを蓄積することはもちろん、バッチ型もストリーム型でもデータの処理ができ、様々なアプリと接続ができ目的にあった分析までできることが望ましい。

マップアール・テクノロジーズ
アライアンス&プロダクトマーケティング
ディレクター
三原 茂氏
「IoTなどリアルタイム処理のニーズが高まっている中、バッチ処理用、ストリーム処理用、リアルタイム処理用など、用途に応じて別々のテクノロジーでクラスタを用意し、そのクラスタ間をデータ移動させるようでは、データ移動の時間ばかりかかり企業におけるビジネススピードに追随することはできません。オープンソースを含め、多くのソフトウェアや分析フレームワークでは、これらを一つのクラスタ上で完結できませんが、MapRのデータ基盤ソフトウェア『MapR Converged Data Platform』なら、その全ての処理形態に対応することが可能です。単一クラスタ上で全ての機能を利用できるのでデータを動かす必要がなく、アジリティが高くリアルタイム処理も可能、ソースからのデータ収集もバッチとリアルタイムのどちらにも対応します」(三原氏)

※クリックすると拡大画像が見られます

※クリックすると拡大画像が見られます