尾花政篤氏
日本でリーガルテックにおけるAIの活用が活発化している。これは、2023年8月に法務省が公表した「AI等を用いた契約書等関連業務支援サービスの提供と弁護士法第72条との関係について」を受けたものだ。このような状況を踏まえ、契約関連分野でのAI活用について、SansanのContract One Unit プロダクトマネジャーであり、言語理解研究所 AIコンサルタント 兼 セールスマネジャーを務める尾花政篤氏に話を聞いた。
--まず、言語理解研究所について教えてください。
言語理解研究所は、「言葉の価値を最大限に引き出し、顧客の想像を超え続ける」をミッションに徳島で自然言語処理技術を開発している会社です。徳島大学発ベンチャーとして2002年に設立され、2023年6月にSansanグループ入りしています。主要なお客さまは、日本経済新聞社やQUICKなどです。
現在、「ChatGPT」などの大規模言語モデル(LLM)が非常に話題になっていますが、「何でもできそうだと思ったけど、そこまででもない」と思うことがあります。原因としては「ハルシネーション」と「べき等性」があります。べき等性は、同じ入力に対して同じ結果が返ってくるとは限らないということです。精度の観点からすると、サービスの商用提供において、これらはなかなか乗り越えられない壁となっています。
言語理解研究所の導入事例である「日経テレコン」では、記事検索時の鍵となる分類エンジンを提供しています。商用サービスとして間違ってはいけないということで、正確性を持って狙い通りに分類できるところが強みだと思っています。日本経済新聞社の「決算サマリー」では、企業が発表する決算短信資料などの要約を作成します。数字なども含めて、誤った情報の掲載は許されません。ここでも、言語理解研究所の技術の精度が高いということで、コア技術として採用されています。
機械学習は、誰でも身近に使えるようになっていますが、とりわけ正確性が求められる領域では、言語理解研究所の技術が生かせると考えています。
その技術ですが、大規模言語知識データベース(Large Language knowledge Database:LLD)というものを40年にわたって更新しています。LLDは、単語概念知識データベース(GAIA)と意味共起知識データベース(URANOS)で構成されます。
GAIAは、単語辞書のようなもので、一つ一つの単語に品詞、正誤情報、名称変更、揺れ、同義語を登録します。また、「ラップ」と言っても台所用品かもしれないし、音楽かもしれないので、どの“概念”に分類されるかも登録しています。
URANOSは、概念と概念が結びついた時、どのような意図や感情が生まれるか、共起するかをラベル付けし、データベース化しています。例えば、「あたる」という言葉の場合、「牡蠣」と組み合わせた場合はお腹が痛いというネガティブな感情を、「宝くじ」とでは、ハッピーな感情を登録します。
そして、LLDを用いた形態素解析・格構造解析により、文章の構造化と意味理解を可能にしています。
これらを組み合わせることで、同じインプットに対して、同じアウトプットを必ず返すという処理を実現しています。
--Sansan内での位置付けはどうなっていますか。
Sansan内での位置付けは、子会社となりますが、サービスをグループ内でも提供しています。これまでSansanは、「Sansan」「Eight」「Bill One」「Contract One」といったサービスで、文書情報をデータ化して価値を引き出すということをしてきました。これらサービスの裏側に言語理解研究所の技術を組み込むことで、さらに発展させるという狙いがあります。
各サービスに対する技術の展開は順次進めていますが、現在一番進んでいるのはContract Oneです。
--契約サービスのContract Oneで一番進んでいる理由は何ですか。
契約には大量の文章があるというのが最もフィットしたということです。名刺ですと単語の羅列になりがちです。請求書ですと数字の羅列です。それに対して契約書は、日本語という自然言語で書かれた文章を大量に解析することが必要になります。技術の価値が最も発揮しやすかったということでContract Oneからとなっています。
--文書の解析が主な用途なのでしょうか。
そうですね。今は、契約書と契約書の関連付けみたいなところに言語理解研究所の技術を使っています。契約書というのは一本一本独立したものではありません。企業間で基本合意書を結んだ後、業務提携関係が深まっていくと業務提携契約書を交わしたりします。さらに、基本契約、個別契約、覚書というように連なり、構造が深まっていきます。
契約書とその関係性を見ると、前に結んだ契約を書き換えることはできないので、後から結んだ契約書で置き換えることになります。