Amazon Web Services(AWS)の「Amazon SageMaker」は機械学習のデプロイに用いられるツール群だ。導入企業は増え続けており、AWSのSageMaker担当幹部によれば、機械学習のエキスパートの間でもSageMakerは不可欠なツールになりつつあるという。
「機械学習のエキスパートもSageMakerに移行しつつある。インフラを自社で管理する必要がなく、生産性が桁違いに高まるからだ」と、AWSの機械学習担当バイスプレジデント兼ゼネラルマネージャーのBratin Saha氏は述べる。
Saha氏はAWSの年次カンファレンス「re:Invent」の第3週に米ZDNetの取材に応じた。今回の「re:Invent」は新型コロナウイルス感染症の影響により、オンラインで開催された。
SageMakerのメリットは、多様なインフラ上でトレーニングタスクを実行し、推論タスクをデプロイできる点にある。
2017年に登場したSageMakerは、タスクの設定や実行に伴う大量の単純作業を自動化する。
SageMakerは機械学習の初心者のための自動化ツールのように見えるかもしれない。しかしSaha氏によれば、機械学習に精通した企業もプログラム開発に伴うルーチンタスクを高速化するためにSageMakerを活用しているという。
「Amazon.comは20年以上にわたって機械学習に投資してきたが、今はSageMakerに移行中だ。現在、Amazon.comでは非常に高度な機械学習が活用されている」と、AWSの機械学習担当バイスプレジデントBratin Saha氏は語る。
提供:Amazon AWS
「クラスターのスピンアップや活用状況の確認、モデルのデプロイ時のチェック、トラフィック監視など、やるべきタスクは山のようにあった」とSaha氏は言う。機械学習のデータサイエンティストたちは、モデルをデプロイするたびにこうしたタスクを実行しなければならず、データ収集やラベリング(ラベリングのトレーニングの場合)、モデルのアーキテクチャ調整、トレーニング済みモデルのデプロイ、推論モデルの監視や保守といった作業に追われた。
「こうした作業がすべて不要になった」とSaha氏は言う。「SageMakerが提供するのは、サーバーレスのトレーニングだ。つまり、使用料はモデルのトレーニング開始から終了までの期間にしかかからない」
「スポットインスタンスにも透明性の高い方法で対応できる。スポットインスタンスを優先、ジョブは停止などと指示する必要はない。SageMakerがすべて面倒を見る」とSaha氏。ジョブのステージングを効率化することで、90%のコスト削減が期待できるという。
Saha氏によれば、LyftやIntuitなどの顧客企業は自社でも機械学習を処理できるが、本番システムを合理化するためにSageMakerを活用しているという。
「特に高度な技術を持つ顧客の一部もSageMakerを利用している」とSaha氏は言う。
「例えばLyftはSageMakerを利用してトレーニングを標準化し、トレーニング時間を数日から数時間に短縮した」とSaha氏。「MobileEyeもSageMakerをトレーニングに使用中だ」。MobileEyeはIntel傘下の自動運転車用チップの開発部門だ。「Intuitではトレーニング時間が6カ月から数日に短縮された」。他にもNFL、JP Morgan Chase、Georgia Pacific等がSageMakerの顧客リストに名を連ねる。
Amazon自体も社内のAI処理をSageMakerに移行させている。「Amazon.comは20年以上にわたって機械学習に投資してきたが、今はSageMakerに移行中だ。現在、Amazon.comでは非常に高度な機械学習が活用されている」。例えば、AmazonのAIアシスタントである「Alexa」には「SageMaker Neo」が使用されている。これはトレーニング済みのモデルをバイナリプログラムにコンパイルする最適化ツールであり、推論タスクを効率的に処理できるように設定されている。
SageMakerには他にも、代表的な機械学習アルゴリズムが組み込まれたコンテナ、トレーニングに使用する特徴データを選べる「Feature Store」、機械学習用のデータ準備を容易にする「Data Wrangler」など、多彩な機能が盛り込まれている。
しかも、進化はまだ止まっていない。
Amazon AI担当バイスプレジデントのSwami Sivasubramanian氏は2週間ほど前、「re:Invent」カンファレンスの基調講演で、大規模なニューラルネットワークを複数のパーツに自動的に分解し、複数のコンピューターに分散する機能をSageMakerに搭載したと発表した。こうした並行処理は「モデル並列性」とも呼ばれ、通常はかなりの労力を必要とする。
大規模な深層学習ネットワーク(Googleの自然言語処理技術「Transformer」をベースにした「T5」など)でも、ニューラルネットワークのトレーニング時間を40%削減することに成功したとSivasubramanian氏は述べている。
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。