Hadoopの誕生により、スーパーコンピュータやHPC(High Performance Computing)環境がなくても、複数サーバを用いて構築するシステム基盤で、これまでは不可能だと思われていた大規模なデータを処理することが可能になりました。このHadoopの登場が、本格的なビッグデータ時代の到来を大きく後押ししたと言われています。
Hadoopは、数多くの業界でデータ活用のための技術として活用が進む一方で、さまざまな課題も見つかっています。Hadoopはデータ処理の際のレイテンシが比較的高いため、機械学習などの繰り返し処理を多く含む場合は時間がかかります。また、スケールアウトによるシステム増強の結果、サーバ台数が増加して運用が複雑になるという点も課題として浮上しています。
カリフォルニア大学バークレー校のAMPLab によって開発され、のちにオープンソースとして公開された「Apache Spark」は、このような大規模データの分散処理におけるHadoopの課題を解消するオープンソースのソフトウェア・フレームワークです。複数のサーバで安価に大規模データ処理を実行できる点はHadoopと同様ですが、Sparkは分散データを抽象化するRDD(Resilient Distributed Dataset)と複数の処理を記述可能なDAG(Directed Acyclic Graph)というプログラミングモデルを採用し、オンメモリでデータ処理を行うことで、高速化を実現しています。
本資料では、Spark登場の背景やHadoopとの違い、IBMのSparkへの取り組み、そしてSpark活用のためのサーバ選択の最適解について、具体的な活用事例を交えながら解説しています。
ホワイトペーパー