「Apache Hadoop」はビッグデータ向けプラットフォームとして普及しているが、その使用は簡単とは言い難い。ビッグデータ関連の情報を提供するDatanamiは、「分散環境でデータとコンピュートを融合するというHadoopの夢は、極めて高いコストと複雑さのせいで実現に至っていない」とし、その理由は「構築基盤として非常に複雑なスタックとなっている」点にあるとしている。
こうした状況を解決する答えの1つが、開発者の教育だ。ここでThe Linux Foundationの出番がやってくる。The Linux Foundationは米国時間3月30日、「LFS103x - Introduction to Apache Hadoop」(LFS103x - Apache Hadoop入門)というコースを大規模公開オンライン講座(MOOC)として提供すると発表した。

Hadoopの普及率は高い。451 Researchの予想によると、Hadoopは2020年まで年平均成長率(CAGR)が38%で伸び、その売上高は同年までに44億ドルに達するという。
また、Hadoopのエキスパートに対する需要も同じペースで伸びていく。
こうした需要に応えるために、The Linux Foundationと、ビッグデータのエコシステムの発展を目的とする非営利組織であるOpen Data Platform initiative(ODPi)が今回の新コースを提供することになった。この新コースは、既に提供されているThe Linux Foundationの他のコースと同様、ハーバード大学とマサチューセッツ工科大学(MIT)が共同で運営する非営利オンライン学習プラットフォーム「edX」を通じて提供される。なお、コースの開始日は6月8日の予定だ。
ODPiのディレクターを務めるJohn Mertic氏は「Hadoop関連のイノベーションが同技術の状況を著しく変化させ続けているなか、ビッグデータコミュニティーを対象に、気軽に受講でき、ベンダー中立的な教育を提供できることに喜びを感じている」と述べるとともに、「ODPiはエコシステムの複雑さを低減するために注力し、今回の『Introduction to Apache Hadoop』というedXコースを主導するRoman Shaposhnik氏(Hadoopのコミッターであり、ODPiの技術担当バイスプレジデント)とともに、あらゆる規模の企業でHadoopを管理できるようにするための洞察を共有できることを楽しみにしている」と述べている。
カリキュラムは以下の通りだ。
・Hadoopの成り立ちと、そのビッグデータエコシステム
・現代のエンタープライズITにおけるクラスタ環境でのHadoopの配備
・Apache Hadoopに関連するデータレイク管理アーキテクチャの構築
・「YARN」フレームワークの活用による、Hadoopクラスタ上での異種アナリティクスワークロードの利用
・SQL中心の考え方からエンタープライズデータレイクに向けた「Apache Hive」の活用
・コマンドラインを用いた、Hadoopの中核コンポーネント(「HDFS」やYARN、Hive)管理の紹介
・企業のマルチテナント環境におけるデータレイクに対するセキュリティとスケーラビリティの確保
このコースは6つの章で構成されており、各章の最後には成果を確認するためのクイズが設けられている。また最終試験に合格する必要がある。コースの受講は無料であり、修了証明書の発行は99ドルとなっている。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。