企業や研究機関などのビッグデータ分析環境は、第2ステージとも呼べる段階に入っている。それは、「取り扱うデータと分析ニーズの多様化」だ。従来のビッグデータ分析では、分析の用途に応じてあらかじめデータの構造を設計して蓄積してきたが、それでは、新たな分析ニーズに迅速に対応できない。ビッグデータ分析は、単一のデータを利用した定型的なものではなく、あらゆる種類のデータを適宜利用する世界へと変貌してきている。
そこで注目されているのが「データレイク」だ。構造化データも非構造化データもすべてオリジナルの構造のまま「湖」に保管しておき、分析ニーズに応じてデータを取り出しその都度解析を実施していく。データレイクでのデータ管理にはHadoopが提供する分散ファイルシステムHDFS(Hadoop Distributed File System)を利用することが一般的だ。
本資料では、Dell EMC Isilonが提供するHadoopデータレイクソリューションを紹介している。Isilonのデータレイクは、HDFS環境に格納するために中継サーバを別に設置する必要がなく、分析データにそのままHDFSでアクセスできるのが特徴だ。ぜひダウンロードのうえ、詳細をご覧いただきたい。
ホワイトペーパー