Amazon Web Services(AWS)とDeepLearning.AI、Courseraは力を合わせて3コースからなる「Practical Data Science専門講座」を開講し、機械学習(ML)モデルの作成とテストのほか、本番環境における規模拡大の問題に取り組もうとしている。
DeepLearning.AIの創設者であり、CourseraのトップインストラクターであるAndrew Ng氏は「MLには概念実証と本番運用の間にギャップがある」と説明した。この専門講座は開発者がノートPC上のプロトタイプモデルをクラウドに移行する際の支援となることを念頭に置いて構成されている。同氏は「ユーザー数を10から100万に増やそうとした場合、やるべきことが数多くある」と付け加えた。
AWSでMLサービス担当バイスプレジデント兼ゼネラルマネージャーを務めるBratin Saha氏によると、顧客がデプロイするモデルの数は、ほんの数年で数えるほどの量から数百万に達するようになったという。AWSで最も急成長している製品の1つであるMLプラットフォーム「Amazon SageMaker」の責任者である同氏は「MLはもはやニッチとは言えない」と述べた。
この専門講座によって、モデルを本番環境に移行するために必要となるさまざまな可変要素(MLOpsやDevOps)のほか、プロトタイプの規模拡大とともに考えるべき正確性やコスト、最適化といった話題に対する概観が得られるようになる。
Ng氏とSaha氏を交えたインタビューでは、モデルに関するいくつかの特筆すべき点に触れている。以下はその中から重要な点を抜き出したものだ。
モデルは規模の拡大を考慮し、はじめからクラウド内に構築するべきか?
Ng氏によると、同氏のMLモデルに対するアプローチは「適切な作業に向けて適切なツールを用いる」かたちになっているという。同氏は「ノートPC上で概念実証を実施するのは良いことだ。そこから先に進むか進まないかを決めるために概念実証は必要だ」と述べた。
また同氏は、概念実証を実施する前に規模の拡大を計画すると、プロセス自体に混乱が引き起こされかねないとも付け加えた。
規模を拡大する上でスキルが必要となる。
Saha氏によると、この専門コースはML分野における人材基盤を広げることを目的としているという。Saha氏とNg氏はともに、モデルの規模を拡大させる方法を理解している人材が不足している点を指摘した。また、Saha氏は「2年前であれば、われわれは2000万のパラメーターを用いたモデルを訓練していた。今日ではその数が1億になっている。われわれは1カ月あたり数千億件もの予測を実行している」とも述べた。
Ng氏は、スキルの高いML技術者に対する需要が多く、有意義なサービスをクラウド上にデプロイした経験のある人材はさらに不足している状況にあると述べた。Saha氏によると、こういった状況があるためAmazonでは、入社するすべてのエンジニアに対してMLコースの受講を必須にしているという。
MLは進化の初期段階にある。
Ng氏によると、MLは多くの点で初期の頃のソフトウェア開発と類似しているという。同氏は「私はソフトウェアエンジニアリングの混乱期をおぼろげながら覚えているが、今ではバージョン管理によってずっと成熟したものになってきている」と述べ、「私は、ソフトウェアが業界としていかに台頭してきたのかという点からインスピレーションを得ている」と続けた。
Practical Data Science専門講座
Coursera
「Practical Data Science専門講座」のキーポイントは以下の通りだ。
- PythonとSQLになじみがあり、エンドツーエンドのMLパイプラインを開発したいと考えている、データに軸足を置く開発者や科学者、アナリストに向けて特化したかたちで作られている。
- 「BERT」や「FastText」を含む自然言語処理(NLP)と自然言語理解(NLU)用のアルゴリズム。
- 最初のコースでは、SageMakerのサービスを利用し、探索的データ分析(EDA)やAutoMLの基本的な概念を学習できる。
- 2つ目のコースで学習者は、モデルの構築と訓練、デプロイという、MLパイプラインの初めから終わりまでを実行する。
- 3つ目のコースでは、モデルの訓練やチューニング、デプロイのための先進的なテクニックを網羅している。また、分散モデルの訓練やハイパーパラメーターのチューニング、A/Bテストも網羅している。
- AWSパートナーであるVocareumによってマネージドオンラインラボ環境が提供される。
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。