AWS re:Invent

AWS、機械学習の推論を効率化する新サービス--「Elastic Inference」や「Inferentia」チップ

Stephanie Condon （ZDNET.com）翻訳校正：編集部

2018-11-29 11:05

　「Amazon Elastic Inference」を利用すれば、ユーザーはGPUアクセラレーションをEC2インスタンスに追加して、推論を高速化し、コストを最大75％節約することができる。通常、推論中のGPUの平均使用率は10～30％であるとAmazon Web Services（AWS）の最高経営責任者（CEO）のAndy Jassy氏は述べた。

　クラウド上の機械学習を採用する企業が増える中、AWSは推論を改善する新しい機能とツールを発表した。Amazon Elastic Inferenceを発表し、「AWS Inferentia」と呼ばれる新しいプロセッサを披露した。

　Jassy氏はラスベガスで開催中の「re:Invent」カンファレンスで、「コストの大部分、おそらくその約90％は推論に関するものだ」と述べた。

　Amazon Elastic Inferenceを使用すると、あらゆるEC2インスタンスについて、そのインスタンスを作成しながら、エラスティックな推論を実行することができる。1TFLOPSで始めることも、最大32TFLOPSで実行することも可能だ。Elastic Inferenceは、そのインスタンスで主要なフレームワークの1つが実行されているときにそれを検知し、何がアクセラレーションのメリットを得られるかを判断することができる。

　Jassy氏は、「これまでよりもはるかに高いコスト効率で推論を実行できるという点で、これはかなり重要なゲームチェンジャーだ」と述べた。

　一方AWS Inferentiaは、AWSによってカスタム設計された高性能な機械学習の推論チップだ。Jassy氏によると、このチップは超高スループット、低遅延で、パフォーマンスが持続し、コスト効率も非常に優れているという。複数の主要なフレームワークをサポートし、EC2のインスタンスタイプに対応する。