NECは、熟練者の過去の行動履歴データから、その卓越した認知・判断に基づく意図を意思決定モデルとして学習する人工知能(AI)技術を開発したと発表した。
この技術は、営業活動やプラント運転などRPA(Robotic Process Automation)を適用できない複雑な意思決定を必要とする業務領域や、自動運転やロボット制御など人の判断・動作を物理的に再現する領域に利用できるという。NECでは、同技術をテレビ放送局の広告スケジューリング業務に適用し、実データを使った性能評価を実施した。その結果、経験豊富な熟練者と同等レベルの意思決定を10倍以上のスピードで実現できることを確認した。
開発した技術の特長
この技術では、逆強化学習のフレームワークをNEC独自のアルゴリズムで拡張し、従来は技術者が行っていた意思決定モデルの構築を自動化する。人手では定式化が困難な意思決定問題に対して、熟練者の過去の行動履歴データから意思決定モデルを作成することで、熟練者と同等の判断を迅速かつ自律的に導き出す。逆強化学習とは、報酬を基に最適行動を導きだす強化学習に対して、最適行動から報酬を推定する方法。
商品の検品検査や需要予測、顧客の嗜好分析などの領域で、AIの活用が増えているが、意思決定問題など、高度なスキルが要求される分野への適用では、利用可能な品質になるまでに繰り返しのヒアリングや熟練者の無意識行動の反映などを含め、膨大な試行錯誤が必要だった。同技術では、熟練者が行っている高度な業務の意思決定を再現することができ、これまで以上に幅広い領域で業務効率の向上を可能にする。
今回の開発に当たりNECは、熟練者・非熟練者の行動履歴データからのサンプリングにより意思決定モデルを評価できるモデルフリー方式を新たに開発した。これにより、コストのかかる精緻な状態遷移モデルの準備が不要となり、学習環境を大幅に簡略化することが可能になった。また、学習途中の意思決定モデル評価をシミュレータ等で実行する必要もないため、学習が既存逆強化学習の100倍の効率で実現したとする。
また熟練者が選択しない行動はリスクがあるため避ける制約、常に行っている行動は守るべき制約と見なし、熟練者が考慮し最適化しているモデルと組み合わせて同時に学習する。意思決定モデルと制約を同時に学習することで、熟練者が無意識に行っている安全で信頼性の高い判断と同等の意思決定が可能となる。
従来の逆強化学習では熟練者の一連の行動を単一の意思決定モデルとして学習するため、状況に応じた複雑なモデルを構築することは困難だった。しかし今回開発した技術では、ビッグデータに混在するデータ同士の関連性から、多数の規則性を自動で発見し、分析するデータに応じて参照する規則を自動で切り替える異種混合学習機能を拡張し、行動履歴データから複数の意思決定モデルとそれらの切り替えルールを学習できるようにした。これにより、熟練者が時と場合より柔軟に使い分ける判断基準を、非熟練者でも理解しやすいロジックで説明でき、熟練者と同等レベルの意思決定を行うことが可能となる。例えば、営業販売に適用した場合、成約率の高い営業の行動履歴を学習し、顧客(見込み客、常連客など)ごとに異なる最適な対処を学習し、経験の浅い営業に活動指針を出すことが可能となるという。
今回の実証実験で適用した広告スケジューリング業務は、広告宣伝の効果やスポンサーの好みを考慮しながら、複数のテレビコマーシャルを限られた番組時間枠に最適に割当てをする業務で、各テレビコマーシャルにおける要件・制限事項と、放送枠の活用方法など放送局側の要件の両方を考慮しなければならず、高度なスキルやノウハウが要求される。
今後NECでは、熟練者への負荷が高いさまざまな業務への適用を進め、人のパートナーとなりうるAIの開発に取り組んでいく。