パナソニック、対話しながら物体を特定する「SegLLM」とは--AIで現場の作業を可視化

加納恵 (編集部)

2025-04-17 13:00

 パナソニック ホールディングスは4月17日、テキストと参照画像を用いて未学習の物体も指示できる、対話型セグメンテーション技術「SegLLM」を開発したと発表した。誤認知を避け、現場で使える高精度なAIの実装を目指す。

 AIの開発プロセスには、(1)企画設計、(2)教師データ構築、(3)アルゴリズム開発、(4)学習・評価、(5)推論――と大きく分けて5つのステップがある。その中でAI性能の基本になるのが、教師データ構築とアルゴリズム開発だ。

 パナソニック ホールディングス DX・CPS本部 デジタル・AI技術センター AIソリューション部 1課 課長の小塚和紀氏は「アルゴリズムはアカデミアなどがオープンにし、利用できる環境にある。一方、教師データの構築は、手作業が必要になるなど重たい部分」と現状を説明する。

 小塚氏は、教師データ構築の一例として、画像の中から特定の物体を認識して検出する「物体領域検出AI」を紹介。以前はカメラが撮影した画像に対し、該当部分を手作業で特定していたが、プロンプトを入力することで未学習の物体を認識できるマルチモーダル基盤モデルの開発や、教師データ作成サービスなどを展開するFastLabelとの協業によって、アノテーション(ラベル付け)とチューニングの効率化を実現している。

 対話型セグメンテーション技術は、画像から物体を特定する際、さらなる効率化を実現する新技術。見た目が同じ、もしくは類似した物体を特定できるほか、未学習の物体を指示できることが特徴だ。

従来技術とSegLLMの違い
従来技術とSegLLMの違い

 1枚の画像に対し「男性をセグメンテーションして」「男性が抱えるかご」など、画像内に写る物体を対話形式で絞り込むことが可能。これにより、見た目が同じ部品が複数存在する画像でも「PCの上にある部品」「白い台の上にある部品」とそれぞれを特定できる。

SegLLMを利用した対話セグメンテーション
SegLLMを利用した対話セグメンテーション

 従来、画像セグメンテーションのためのアルゴリズムとして「LISA(Learning-based Image Segmentation Algorithm)」という手法が使われていたが、これでは、対話の回数が増えるにつれ、過去の対話情報を含むため複雑な指示になってしまうことが課題だったという。

 パナソニック ホールディングス DX・CPS本部 デジタル・AI技術センター AIソリューション部 1課 シニアエンジニアの加藤祐介氏は「LISAでは、テキストによる指示しかできないので、対話が進むにつれテキストが長くなり、複雑な指示になる。そのため1回目より2回目の指示の方が性能が下がってしまっていた。一方、SegLLMは、直接次のプロンプトに置き換えることで、テキストをシンプルを保つことができ、精度劣化を抑えられる」とSegLLMの優位性を示す。

対話セグメンテーション評価結果
対話セグメンテーション評価結果

 今回のSegLLMは、特定部品の作業時間を計測し、工場での組み立て作業の効率化を図る、最速の作業手順を視覚的に指示できるといったシーンで活用できるとのこと。

 加藤氏は「工場や流通の現場では、作業内容を認識したいというニーズがあるが、部品の種類が多く、認識が難しい。そういう場面でも生かしていけると考えている」とAIの活用の幅をさらに広げられるとした。

 パナソニック ホールディングスでは、独自の大規模言語モデル(LLM)「Panasonic-LLM-100b」をSegLLMの内部のLLMと置き換えることで、パナソニックグループの業務に最適化していくという。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]