データストレージベンダーであるネットアップは7月14日、記者向け勉強会を開催。「機械学習基盤(MLOps)」の管理と運用について解説した。
ネットアップ システム技術本部 シニア・ソリューションアーキテクト 大野靖夫氏
MLOpsの概要を同社システム技術本部 シニア・ソリューションアーキテクト 大野靖夫氏は「DevOps(開発と運用)にML(機械学習)の要素が加わったもの」と説明。その上でデータ収集や学習可能なデータセット化を指す「データパイプライン」、データをトレーニングして評価する「MLパイプライン(トレーニング)」、推論モデルを本番環境で利用する「MLパイプライン(サービング)」と「3つのパイプラインを人手が介在しない状態で回すのがMLOps」(大野氏)だと解説した。
データパイプラインの効率化が必要
バズワード化しつつある「○○Ops」だが、昨今はMLOpsに注目が集まっている。ネットアップにも「(これまでは)AI(人工知能)をキーワードにした問い合わせから、『MLOpsでビジネスを推進させるか』という相談が増えている」(大野氏)という。
前述の通り、MLOpsは収集したデータを加工し、データ学習から出力したモデルを本番システムに展開して運用する工程を指す。DevOpsはソフトウェア開発から成果物までの流れを自動化するものの、ここに機械学習の工程を加えたものだと認識すると分かりやすい。
「従来は開発者が書いていたコードが、業務システムやセンサーなどから収集したデータ(の自動加工)に相当。(開発者はアルゴリズムを用いてモデル化し)DevOpsやデータエンジニアリングの実践を取り込んだもの」(大野氏)
※クリックすると拡大画像が見られます
データストレージの文脈でMLOpsの優位性を高めるには、「スケーラビリティ(拡張性)と性能。無限の容量で数ペタバイトを1秒で読み込めるのが理想だが、技術上の限界があり、データパイプラインの効率化が必要となる」(大野氏)ため、効率的なデータの複製と移動を実現するデータストレージが欠かせないとしている。
「複数のデータセットを保有する某研究機関は、研究者がデータを必要とする際に『コピーして渡している』。データコピーは世代管理を煩雑にしてしまうが、シングルソースで直接(データ)参照させるのは不可能」(大野氏)だからこそ、ストレージレベルでのデータセット世代管理が優位性につながるという。