産総研と東工大、日本語に強いLLM「Swallow」公開--「Llama 2」の能力拡張

ZDNET Japan Staff

2023-12-21 18:33

　産業技術総合研究所（産総研）と東京工業大学（東工大）情報理工学院情報工学系の岡崎直観教授と横田理央教授らの研究チームは、日本語能力に優れた大規模言語モデル（LLM）「Swallow」を公開した。産総研が12月21日に発表した。同モデルは現在公開されている日本語に対応したLLMとしては最大規模であり、商用利用が可能なため、安心してビジネスに活用できるとしている。

　両者の研究チームは、MetaのLLM「Llama 2」の日本語能力を拡張することでSwallowを構築した。拡張前のLLMの高い言語処理能力を維持しながら日本語能力を強化するため、研究チームは言語モデルに日本語の文字や単語などの語彙（ごい）を追加した上で、新たに開発した日本語データを用いてモデルを継続的に構築する「継続事前学習」を行った。今回公開したモデルは、70億／130億／700億パラメーター（7/13/70B）の3種。

　現在、自然言語処理やAIの研究開発の推進、LLMのメカニズム解明、海外依存を理由とした安全保障上のリスク懸念など、さまざまな動機で日本語に強いLLMの開発が進められているが、日本語に強くオープンかつ高性能なモデルは少なかった。そこで、東工大と産総研はLLMの開発に関する共同研究を開始した。

　同研究において、東工大は主にデータの語彙拡張によるモデル学習・推論効率の改善、産総研はモデル構築に必須な大規模計算資源として「AI橋渡しクラウド」（AI Bridging Cloud Infrastructure：ABCI）を提供するとともに、主に継続学習によるモデルの日本語能力の改善を担当した（写真1）。モデルの学習データには、東工大が新エネルギー・産業技術総合開発機構（NEDO）のプロジェクトで開発した大規模な日本語ウェブコーパスを用いた。

写真1：ABCIの外観

継続事前学習でLlama2の日本語能力を改善

　Llama 2は日本語にも対応しているが、事前学習データの約90％は英語が占めており、日本語の割合は全体の約0.1％にとどまっている。そのため、同モデルは英語で高い性能を示す一方、日本語の読み書きは苦手という弱点があった。

　そこで、研究チームではLlama 2の7/13/70Bのモデルをベースに、大規模な日本語ウェブコーパスと英語のコーパスを9対1で混ぜたデータを用いて継続事前学習を行い、本来の言語モデルの能力を生かしながら日本語能力の改善に取り組んだ。その結果、研究チームが採用した日本語に関するベンチマークデータにおいて、7/13/70Bの全モデルはベースモデルよりも高い性能を示した。また、日本語コーパスのみで事前学習された同規模の日本語LLMよりも高い性能を示すことから、継続事前学習の有効性が明らかになった。

語彙拡張によるLLMの学習・推論効率を改善

　Llama 2は、アルゴリズムの一つ「バイト対符号化」に基づいてテキストがトークンに区切られているが、英語を重視した多言語のモデルとして学習されているため、日本語の主要な単語や文字が語彙に含まれず、テキストが不自然な単位に区切られることがある。例えば「吾輩は猫である」という7文字のテキストは「<0xE5><0x90><0xBE><0xE8><0xBC><0xA9>は<0xE7><0x8C><0xAB>である」という、人間には理解しにくい13トークンに区切られる。

　日本語の語彙が不足している言語モデルは、日本語を不自然な単位で取り扱うことに加え、テキストをより多くのトークンで表現してしまうため、学習や生成の効率が低下する。LLMの学習に必要な計算予算はトークン数に比例するため、逆に計算予算が一定である条件下ではテキストを少ないトークンで表現する方がより多くの情報を学習に詰め込める。

　また、LLMがテキストの生成に要する時間はトークン数に比例するため、同じテキストを生成するのであれば、より少ない数のトークンで表現できる方が短時間で結果を出力できる。さらにLLMの入力や出力には、一度に扱えるトークン長の上限がある。入力をより少ないトークンで表現できる方が、タスクの指示や解き方「few-shot事例」を多く詰め込めるため、下流タスクでの性能向上も期待される。研究チームは、Llama 2のトークナイザーに1万6000件の日本語のトークンを追加することで、日本語テキストのトークン長を56.2％に削減した。

大規模な日本語のウェブコーパスを開発

　LLMの学習には、膨大な言語データが必要となる。特にウェブページを収集し、テキスト化したデータはLLM構築の要である。従来オープンな日本語LLMの学習には、「CC-100」「mC4」「OSCAR」など既存のデータセットの日本語部分が用いられてきた。しかし、これらのデータセットでは、ウェブページのHTMLをテキスト化する際のノイズが混入していたり、最新の情報や知識を収録していなかったりする問題があった。また、これらは多言語のデータセットとして構築されているため、日本語に特化してデータの品質を高めるような工夫は取り入れられていない。

　そこで研究チームは、ウェブサイトを巡回・情報収集し、そのアーカイブを無償で提供する非営利団体Common Crawlから配布されているアーカイブから日本語のテキストを独自に抽出・精錬し、約3121億文字（約1.73億ページ）からなる日本語ウェブコーパスを構築した。この規模は、CC-100 (約258億文字）、mC4（約2397億文字）、OSCAR 23.10（約740億文字）を抜き、日本語の言語モデルの学習コーパスの中で、商用利用が可能なものとしては最大だという。

　世界的にLLMの大規模化が進む中、日本語を扱う能力が高いものが少なかったが、今回のモデル公開によって、高度な日本語処理が求められる日常生活・産業現場においてAI技術の活用を推進できる。今回公開するSwallowのライセンスは、Llama 2の「LLAMA 2 Community License」を継承しており、ライセンスに従う限りは研究／商業目的での利用が可能である。