オープンソースソフトウェア(OSS)の分散並列処理フレームワーク「Apache Hadoop」の商用ディストリビューションを開発、提供するマップアール・テクノロジーズは4月21日、米本社が開発した企業向け製品の現況を説明した。3月末からストリーミングデータをリアルタイムに処理する「MapR Streams」機能のライセンスを販売開始した。同時に、製品名を従来の「MapR M7」「同M5」「同M3」から「MapR Converged Data Platform」に変更した。
新たな製品名のConverged Data Platform(コンバージドデータプラットフォーム)とは、データの収集と分析に必要な複数の機能群を複数の製品やサーバを組み合わせることなく、単一製品と単一サーバで実現できることを表している(図1)。多機能なファイルシステムをベースにこの上でHadoop、NoSQLデータベース、ストリーム処理の3つの機能モジュールを利用できる。
図1:ファイルシステム上でHadoopやNoSQLなど複数の機能モジュールを利用できる
マップアール・テクノロジーズ カントリーマネージャ 平林良昭氏
「MapRの製品を使わなかった場合、流れてくるストリームデータを処理してNASストレージやHadoopに保存したり、(キーバリューストア:KVSの)HBaseなどのNoSQLにデータを渡したりする場合、複数の製品とサーバが必要になる。サーバ間やミドルウェア間でのデータの移動だけで時間や負荷などのコストがかかってしまう」。
マップアール・テクノロジーズでカントリーマネージャを務める平林良昭氏は、複数の機能を単一製品に統合している狙いをこう説明する。
いちから開発したファイルシステムに特徴、高速でマルチプロトコル
MapRのHadoop製品の最大の特徴は、ファイルシステムの「MapR-FS」にある。OSSのHadoopの分散ファイルシステム「HDFS(Hadoop Distributed File System)」がJava言語で開発されているのに対して、MapR-FSはC/C++言語でストレージI/O周りの実装をいちから作り直している。ノード間のデータ転送もHTTPではなく、より低レベルなプロトコルを使う。こうした工夫によってHDFSよりも高速に動作する。
MapR-FSではさらに、Hadoop標準のHDFSのインターフェースだけでなく、NAS(ファイル共有)ストレージのNFSのインターフェースや、NoSQLのHBase互換のインターフェースでアクセスできるようにしている。最近では「純粋に分散型NASストレージとしてMapR-FSを使うユーザーも増えた」(平林氏)という。また、MapR-FS上のデータにSAS Instituteのデータ分析ソフトから直接アクセスして分析する「SAS on MapR」の使い方も増えているという。
MapR-FSの上で動作する機能モジュールとして今回、Hadoop機能(MapReduce)とNoSQL機能に次いでストリーム処理機能のMapR Streamsを加えた形だ。金融取引やIoT(モノのインターネット)センサなどのように絶えず流入してくるイベントデータをリアルタイムに処理する使い方ができる。
製品の体系も変更
ストリーム処理機能のMapR Streamsの追加にあわせて製品名とエディション構成も整理した。従来は、有償エディションが上位版「MapR M7」と下位版「MapR M5」の2つ、無償エディションが「MapR M3」という区分けだった。M7とM5の違いはHBaseの実装で、M5はオープンソースのApache HBaseそのものだが、M7はファイルシステムにHBaseのAPIを組み込んでいた。
TechRepublic Japan関連記事:IoTベンダー座談会
(1)IoTは新たな収益源を生み出すか
(2)IoTのストーリーをどのように描くか
(3)IT部門の役割は事業部門に寄り添うこと
(4)IoTの新たなビジネスモデルをどのように作るのか
(5)IoTで10年後に笑うのは今取り組んでいる企業
新たな製品体系では、製品名を「MapR Converged Data Platform」に統一。エディションは、有償版「Converged Enterprise Edition」と無償版「Converged Community Edition」の2つとした。有償版は、ファイルシステムのMapR FSをベースに、ライセンスの追加によってHadoop、MapR-DB、MapR Streamsの3つの機能モジュールを自由に組み合わせられる。
会見には、MapRのHadoop製品を活用した国内ユーザー2社が登壇した。1つはインターネット広告会社のサイバーエージェントで、高速にアクセスできることや、NFSストレージにMapReduceでアクセスできる点などを評価した。もう1つは医療系のデータ配信などを手がけるメディカル・データ・ビジョンで、医療機関から提供されたデータをリアルタイムに蓄積していける点などを評価した。