DevOpsに機械学習--「MLOps」実現で欠かせないストレージの効率化

阿久津良和

2021-07-15 06:45

 データストレージベンダーであるネットアップは7月14日、記者向け勉強会を開催。「機械学習基盤(MLOps)」の管理と運用について解説した。

ネットアップ システム技術本部 シニア・ソリューションアーキテクト 大野靖夫氏
ネットアップ システム技術本部 シニア・ソリューションアーキテクト 大野靖夫氏

 MLOpsの概要を同社システム技術本部 シニア・ソリューションアーキテクト 大野靖夫氏は「DevOps(開発と運用)にML(機械学習)の要素が加わったもの」と説明。その上でデータ収集や学習可能なデータセット化を指す「データパイプライン」、データをトレーニングして評価する「MLパイプライン(トレーニング)」、推論モデルを本番環境で利用する「MLパイプライン(サービング)」と「3つのパイプラインを人手が介在しない状態で回すのがMLOps」(大野氏)だと解説した。

データパイプラインの効率化が必要

 バズワード化しつつある「○○Ops」だが、昨今はMLOpsに注目が集まっている。ネットアップにも「(これまでは)AI(人工知能)をキーワードにした問い合わせから、『MLOpsでビジネスを推進させるか』という相談が増えている」(大野氏)という。

 前述の通り、MLOpsは収集したデータを加工し、データ学習から出力したモデルを本番システムに展開して運用する工程を指す。DevOpsはソフトウェア開発から成果物までの流れを自動化するものの、ここに機械学習の工程を加えたものだと認識すると分かりやすい。

 「従来は開発者が書いていたコードが、業務システムやセンサーなどから収集したデータ(の自動加工)に相当。(開発者はアルゴリズムを用いてモデル化し)DevOpsやデータエンジニアリングの実践を取り込んだもの」(大野氏)

MLOpsの概要 MLOpsの概要
※クリックすると拡大画像が見られます

 データストレージの文脈でMLOpsの優位性を高めるには、「スケーラビリティ(拡張性)と性能。無限の容量で数ペタバイトを1秒で読み込めるのが理想だが、技術上の限界があり、データパイプラインの効率化が必要となる」(大野氏)ため、効率的なデータの複製と移動を実現するデータストレージが欠かせないとしている。

 「複数のデータセットを保有する某研究機関は、研究者がデータを必要とする際に『コピーして渡している』。データコピーは世代管理を煩雑にしてしまうが、シングルソースで直接(データ)参照させるのは不可能」(大野氏)だからこそ、ストレージレベルでのデータセット世代管理が優位性につながるという。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]