東芝と統計数理研究所は8月2日、収集した製造データに多くの欠損値が含まれている場合でも、品質低下や歩留悪化などの要因を高速・高精度に特定する機械学習アルゴリズム「HMLasso」を開発したと発表した。簡易プログラムをオープンソースソフトウェア(OSS)として公開する。
工場やプラントなどの製造現場では、製造物の品質値や加工条件、設備の温度や圧力などの製造プロセスや設備稼働に関するデータが日々大量に収集・蓄積されている。これらのデータを活用し、品質のばらつきを説明する回帰モデルを構築できれば、品質や歩留が悪化する要因の特定と改善に役立てられる。
しかし、実際に収集されるデータには測定ミスや通信エラーによる欠損が発生する。加えて、抜き取り検査によって品質を確認することが多いため、1割程度しかデータを収集できないケースもあるという。このような場合、あらかじめ欠損値を計算・補完してから解析するのが一般的になるが、欠損値が多いと膨大な計算が必要となり、要因解析の高速化や高精度化が困難になる。
そこで東芝と統数研は、欠損値の多いデータからでも高精度な回帰モデルを構築可能な新しい機械学習アルゴリズムを共同開発した。
「CoCoLasso」と呼ばれる既存のアルゴリズムは、欠損率の高低を考慮しない設計のため、欠損率が高い項目に引きずられて全体の精度が下がってしまうという問題があった。一方、HMLassoは欠損率の高低に応じて柔軟に計算する設計のため、欠損率が高い項目があっても全体の計算精度が低下せず、高精度な回帰モデルの構築が可能になる。
これによって欠損値を含むデータから直接、回帰モデルを構築することが可能になる。全体の計算時間を短縮するほか、スパースモデリング技術を応用してデータ項目が多くても品質や歩留への影響度の高い重要な項目だけを絞り込める。
検証では、欠損率を活用することで誤差限界が最適になり、従来のアルゴリズムよりも優れていることを証明。また、平均欠損率50%でデータ項目によっては欠損率が90%以上となる人工データでベンチマークし、CoCoLassoと比べて推定誤差を約41%削減することに成功したとしている。
HMLassoの活用イメージ