リコーは6月10日、複雑な図表を含む文書の読み解きに特化したマルチモーダル大規模言語モデル(LMM)を開発したと発表した。多段組みの文書、複雑な表やグラフ、フローチャートなどの非構造化データを高精度で理解できる。
リコーでは1980年代からAIの開発を開始。2020年以降は、生成AIの活用に向けた研究開発を加速し、2023年3月には独自の大規模言語モデル(LLM)の「リコーLLM 6B」、2024年4月には「GPT-4」と同等の性能を持つ「リコーLLM 70B」を発表し、企業向けに提供している。

リコーにおけるLLM開発の流れ
しかし、従来のLLMや検索拡張生成(RAG)では、日本企業が扱う複雑な文書の理解に限界があったとのこと。この課題を解決するため、リコーは経済産業省と新エネルギー・産業技術総合開発機構(NEDO)が立ち上げた助成金プログラム「GENIAC(Generative AI Accelerator Challenge)」に参画。LMMの開発を進めてきた。
リコー リコーデジタルサービスビジネスユニット AIサービス事業本部 本部長の梅津良昭氏は「リコーではLLM+文書活用を目指して開発を進めているが、太刀打ちできない文書があることが分かってきた。それは日本企業が作成している文書。多段組みをしていたり、表や図が複雑にレイアウトされていたりする。こうした複雑な図表まで読み解けるAIを作らないと顧客のドキュメントは半分程度しか活用できない」と開発の背景を話す。
新たに開発したLMMは、文字、チャート、画像を含む約600万枚の学習データを人工的に生成し、モデルを学習。高い解像度での画像入力、リコーが独自開発した「Vision Encoder」と「Adapter」技術により、セル結合などの細かい部分も正確に判別できるようになったという。
具体的には、図表を処理し、内容を理解するVision Encoder、後段のLLMが理解する形式に変換するAdapter、図表情報と文字情報を統合処理するLLMの3層構造になっているとのこと。Adapterは、LLMが図表やグラフでも読み解ける形に変換する役割を果たす。

技術的な特徴
こうして開発した基本モデルに顧客から提供された実データをファインチューニング(追加学習)することで、顧客固有のドキュメントに対する理解度と精度の向上に成功。既に大手損害保険会社とは、社内外から来る照会内容に対し、適切な回答案を自動生成するシステムをトライアルとして運用しているという。
「照会にはオペレーターの方が対応しているが、拠点も多く非常に大変な作業になっているとのこと。それを軽減させるために自動的に回答できるようなシステムを作成したが、対象となる資料の中には複雑な図表が多数含まれ、精度の高い回答が得られないケースもあった。そこでファインチューニングしたところ、精度が向上したというお話をいただき、今後も継続して取り組むことで合意している」(リコー リコーデジタルサービスビジネスユニット AIサービス事業本部 デジタル技術開発センター LMM開発室 室長の長谷川史裕氏)と成果を上げる。

基本モデルによる処理例。該当部分を理解し、きちんと読み取れていることが分かる
約款解説などがある金融生保業界や設計書や技術マニュアルなどが多い製造業などをターゲットにしているとのこと。リコーでは開発したLMMの基本モデルを無償で公開し、社会に還元することで、生成AIの裾野を広げていく方針。今後は、顧客のドキュメントやニーズに合わせてファインチューニング技術を提供し、専用モデルの開発、導入していくほか、リコーの知見と技術を使い、最適なソリューションの提供を目指す。

(左から)リコー リコーデジタルサービスビジネスユニット AIサービス事業本部 本部長の梅津良昭氏、デジタル技術開発センター LMM開発室 室長の長谷川史裕氏