ネット系企業向けの技術というイメージが強かった分散処理基盤のフレームワークの Hadoopは、いまや多くの業界で活用が広がっている。
Hadoopは、データを分散格納しその場で処理する設計により、ノードの追加による柔軟な拡張性を持つ。また、障害時も稼働し続けることができる耐障害性を実現するため、予測モデルや感情分析、リスク分析など多くの領域で利用されている。
しかしHadoopには、遅延が大きく、頻度の高いトライ&エラーの処理や繰り返し処理には向かないという課題もあった。それを解決するのがApache Spark だ。Sparkは、RDD(Resilient Distributed Dataset)という特殊なデータセットを持ち、大規模データのオンメモリーでの分散処理を実現するため、高速で繰り返し処理が可能になる。
では、こうしたHadoop/Sparkのメリットを最大限に得るためには、どのようなソフトウェアやITプラットフォームが必要なのだろうか?
本資料では冒頭で、みずほ銀行、PSA・プジョーシトロエンなどの事例を紹介するとともに、Hadoop/Sparkのメリットなどを紹介。企業がHadoop やSparkによる分析環境を容易に構築するための具体的なソリューションを紹介している。詳細は、本資料をダウンロードのうえご覧いただきたい。
ホワイトペーパー