2023年 ChatGPTなどの大規模言語モデルをIT市場分析に活用する際の留意点と対策
調査設計/分析/執筆:岩上由高
ノークリサーチ(本社〒160-0022 東京都新宿区新宿2-13-10 武蔵野ビル5階23号室 代表:伊嶋謙ニTEL:03-5361-7880 URL:http//www.norkresearch.co.jp)はChatGPTなどのLLM(大規模言語モデル)をIT市場分析に活用する際の留意点とその対策について考察した結果を発表した。本リリースは第三者調査機関としての立場から、IT市場分析におけるLLM活用の可能性を論じたものである。
<大規模言語モデルは今後のIT市場分析における有効なツールの1つとなる可能性がある>
■IT分野の市場分析で利用する際の留意点は「固有名称」 「出典元」 「年次」 「周辺知識」
■固有名称の課題(Windows 7/10の混同など)は画像収集と文字認識で回避できる可能性
■出典元の確認は不可欠な機能、「Perplexity AI」などの出典元重視の取り組みにも要注目
■分析対象データの年次範囲を確認することが必須だが、これは市場分析全般の基本事項
■ライブラリ連携によって、既存文書に内在する周辺知識を活かした回答を得ることができる
■IT分野の市場分析で利用する際の留意点は「固有名称」 「出典元」 「年次」 「周辺知識」
昨今では大規模言語モデルの活用に注目が集まっている。特にチャットボットへの適用では自然な文章の問いかけを理解し、人間が書いたような回答を膨大なデータから生成/要約できるレベルに達している。こうした状況を受けて、ノークリサーチでは「IT分野の市場分析においても、こうしたツールが多用されるようになるのか?」という問い合わせを受ける場面が増えている。ノークリサーチでは以前から単なるクロス集計分析に留まらない新たな分析手法の採用やそれに関連した研究活動を進めている。(例. BN分析を用いたDX成功/失敗の境界線と突破口の探索 (リンク ») )
大規模言語モデルの活用は黎明期であり、プラス/マイナス双方の影響が盛んに論じられているが、ノークリサーチとしては今後の市場分析における有用なツール候補の1つと捉えている。そこで、本リリースではIT企業からいただくことの多い上記の質問への回答も兼ねて、大規模言語モデルを活用したチャットボットをIT活用の市場分析に利用することは可能か?活用する際の留意点としては何が考えられるか?などについて考察していくことにする。
大規模言語モデルを活用したチャットボットの具体例としてはOpenAIの「ChatGPT」、Googleの「Bard」、Metaの「BlenderBot」などが挙げられるが、ここでは2023年3月時点の「ChatGPT(非Plus版)」を題材としている。上記に列挙した各モデルは日々進歩しており、本リリースは特定ツールの評価を行ったものではない。ここでは実際の利用例を元に、大規模言語モデルを活用したIT市場分析全般に関わる留意点やその対策を考察することを目的としている。
詳細は次頁以降で述べていくが、右記のようにChatGPTに会話の目的を伝えて公開の許諾を得た上で、IT分野の市場分析に関連した質問を幾つか投げかけてみた。
その結果から、大規模言語モデルを市場分析に利用する際には以下のような点に留意して適切な対策を講じることが重要と考えられる。
1. 固有名称 「Windows 7 とWindows 10が混同されてしまう」 ⇒ 画像収集と文字認識で製品名を区別/判別
2. 出典元 「根拠となる出典元データを確認/参照できない」 ⇒ 出典元の確認は今後の重要な差別化機能
3. 年次 「必ずしも最新のデータを元にした結果ではない」 ⇒ 年次を意識することは市場分析の基本事項
4. 周辺知識 「IT活用に影響する他分野の動きを加味しづらい」 ⇒ 既存文書から知見を抽出して質問文に追加
次頁以降では上記の4つの留意点とその対策について順に述べていく。
■固有名称の課題(Windows 7/10の混同など)は画像収集と文字認識で回避できる可能性
大規模言語モデルを市場分析に活用する際に期待される最大のメリットはWebサイト上などに散在する様々なデータを集約/要約できる点だ。
例えば、各年におけるPCやサーバの出荷状況と要因分析については各所から様々な情報と見解が出されている。IT企業がこれらのデータを活用する際には複数の情報と見解を適切に集約/要約する必要がある。 そこで、まず最初に質問したのは、2019年の日本国内におけるPC出荷の状況である。右記が示すように、四半期毎に分けて要点を端的にまとめた回答が生成されていることが確認できる。 2019年のPC出荷と言えば、2020年1月に控えたWindows7 SP1のサポート終了が大きく影響していたことは周知の通りだ。しかし、右記の赤点線が示すように「Windows 7 SP1」となるべき箇所が「Windows 10」となっている。 右記の下段が示すように、その点を指摘すると訂正する旨の返答があった。だが 「Windows 7が引き続き多くのPC出荷に採用されていた」 といったように、訂正後においても実態とは異なる内容の回答が返される結果となった。
このケースでは「Windows」とバージョン番号が切り離されて、「Windows 7」と「Windows 10」が混同された可能性が考えられる。こうした固有名称に起因する課題は通常のテキストマイニングなどにおいても発生する。特にIT分野では「製品名+バージョン」の組み合わせが多いため、製品シェアなどを扱うIT市場分析においては無視できない課題となる。小規模なテキストマイニングであれば、辞書を作成して「Windows 7」や「Windows 10」を1単語の固有名称として認識させるという対処もある。だが、データ量が膨大となる大規模言語モデルでは現実的ではない。そこで考えられるのが、下図で示した画像収集&文字認識の併用だ。「製品名+バージョン」の表記はロゴ画像などの形でWebサイトに数多く掲載されている。そこで、Webサイトのクローリング時にロゴ画像も一緒に収集し、そこから抽出した文字列を固有名称として扱う。製品名を指すロゴ画像を的確に拾う工夫なども含め大規模言語モデル側の対応が必要となるが、昨今ではテキストや画像などを混在させたマルチモーダルなデータ活用の研究も盛んだ。そのため、こうした手法も固有名称に起因する課題を解消する手段の1つになり得ると考えられる。
■出典元の確認は不可欠な機能、「Perplexity AI」などの出典元重視の取り組みにも要注目
企業が市場分析の結果をビジネス戦略などに活用する上で不可欠となる要素の1つが「信頼できる出典元から得たデータか?」という点だ。
また、Webサイトからクローリングで得た情報の中には著作権上の制約を伴うデータが混在している可能性もある。 そのため、大規模言語モデルを市場分析に活用する上では出典元を確認できる仕組みも重要だ。
左記のように、2023年3月時点の「ChatGTP(非Plus版)」では、前頁で得た回答に用いた出典元を表示させることができる。だが、赤点線が示すように、実在しない出典元が示されることもある点に注意しておく必要がある。
一方、出典元の提示を重視した取り組みも既に存在する。例えば、Perplexity AIの「Perplexity Ask」は「ChatGPT」と同じように自然な対話で情報収集を行うことのできるサービスだが、実在する出典元へのリンクが回答と共に表示されるようになっている。(ただし、2023年3月時点では日本語訳が完全ではないため、英語コンテンツを引用した場合には上記と同じような誤りが生じる可能性もある点に注意が必要) いずれにしても、出典元の確認はIT市場分析に用いる大規模言語モデルを選定する際の重要な機能要素になると予想される。
■分析対象データの年次範囲を確認することが必須だが、これは市場分析全般の基本事項
既に広く認知されている事柄だが、大規模言語モデルは常に最新のデータに基づく結果を返すとは限らない。本リリース執筆時点の「ChatGTP(非Plus版)」は2021年9月までに収集したデータに基づいて回答を生成しているため、2022年の日本国内におけるPC出荷状況を尋ねた場合は右記のような返答が返ってくる。
右記の下段が示すように2023年以降の将来に関する予測を尋ねた場合にも、最新の情報に基づいた回答でない旨を注記した上で、可能な範囲で今後の予測を回答している。 ただし、利用する側の尋ね方によってはこうした注記がないまま今後の予測が提示されることもある。利用中の大規模言語モデルが対象とするデータの年次を常に把握しておくことが大切だ。
とは言え、根拠となるデータの年次を確認することは様々な市場分析データを参照する際の基本事項だ。したがって、上記に述べた留意点は大規模言語モデルに限ったことではなく、市場分析において様々なデータやツールを利用する側が常に念頭に置いておくべき事柄と言える。
■ライブラリ連携によって、既存文書に内在する周辺知識を活かした回答を得ることができる
実効性のあるIT分野の市場分析を行うためにはIT業界内の動きを把握するだけでは不十分だ。
例を挙げると、左記の上段は2020年の日本国内におけるPC出荷状況を尋ねた際の回答である。出荷台数やベンダシェアと共に、PC需要の増加要因としてコロナ禍の影響にも言及されており、個別にWebページを参照する場合と比較すると大幅な効率化が期待できる。
一方で、2020年のPC出荷に大きな影響を与えた要因として「GIGAスクール構想」が挙げられるが左記の上段ではこの点には触れられていない。 そこで、左記の下段のように追加の質問をすると2020年のPC出荷にGIGAスクール構想が大きな影響を与えた旨の回答が得られた。(適切な回答を得られやすいように、ここでは「構想」を「政策」と言い換えている)
つまり、大規模言語モデルを活用してIT分野の市場分析を的確に行うためにはIT市場に影響を与える周辺の知識領域(ドメイン)を質問文の中に適切に含めておく必要がある。
こうした課題を解決するアプローチの1つとして、大規模言語モデルを特定用途向けに限定した「ドメイン特化型モデル」を構築するという取り組みも考えられる。ただし、IT分野の市場分析において含めるべきドメインはどこまでか?を決める必要がある。その対象はビジネス環境(= 為替、エネルギー価格など)、社会環境(= 少子高齢化、地域格差など)、各種の法制度など多岐に渡り、どこまでを大規模言語モデルに学習させるべきか?の判断が極めて難しくなる。
上記の課題を解決するために考えられる別のアプローチが「大規模言語モデルへの質問に含めるべき周辺知識を自動収集する」という取り組みだ。個々のIT企業が戦略立案に含めたいと考える周辺知識は既存の計画書や報告書に記載されている可能性が高い。そこで、下図が示すように既存文書をクローリングして戦略立案で頻繁に用いられているキーワードを抽出し、それを大規模言語モデルに対する質問文に自動で追記する仕組みを構築する。こうすることで、上記で見られたようにGIGAスクール構想の影響が回答から漏れてしまうといった状態を低減できる。さらに、この手法には大規模言語モデル側の改善を待たずに利用する側が現時点でも取り組むことができるという利点がある。 実際に左図のように大規模言語モデルと連携してデータを補完した質問文を投げかけるライブラリも既に存在する。(LangChain、LlamaIndex など)
このように個々のIT企業が社内に蓄積された文書データを上手く活用し、大規模言語モデルから適切な回答を引き出すといった手法も有効と考えられる。
ここでは2023年3月時点の「ChatGTP(非Plus版)」を題材とした考察を述べたが、ノークリサーチとしてもこうした新たな手法を積極的に活用して、更に精緻/迅速な分析と提言の提供に努めていく。
本データの無断引用・転載を禁じます。引用・転載をご希望の場合は下記をご参照の上、担当窓口にお問い合わせください。
引用・転載のポリシー: (リンク »)
当調査データに関するお問い合わせ
株式会社ノークリサーチ担当:岩上由高
〒160-0022東京都新宿区新宿2-13-10武蔵野ビル5階23号室
TEL03-5361-7880FAX03-5361-7881
Mail:inform@norkresearch.co.jp
Web:www.norkresearch.co.jp
お問い合わせにつきましては発表元企業までお願いいたします。