Laboro.AI、日本語版「BERT」モデルを開発--オープンソースで公開

ZDNET Japan Staff

2020-04-17 11:36

　オーダーメイドのAI（人工知能）を開発・提供するLaboro.AIは4月17日、自然言語処理モデル「BERT（Bidirectional Encoder Representations from Transformers）」を独自に事前学習させた日本語版モデル「Laboro.AI BERTモデル」を開発し、オープンソースとして公開したと発表した。

　自然言語処理は、機械学習の技術領域の一つである。人が日常的に使用する言葉や文字など、テキスト情報をAIに処理させる分野になる。手書き文字の読み取りを行うOCR（光学文字認識）やテキストで会話するチャットボットのほか、スマートスピーカーにも技術が活用されている。

　BERTは、2018年10月にGoogleが発表した自然言語処理モデル。従来の自然言語処理アルゴリズムと比べて、文章の文脈を理解することに長けているほか、文章分類や感情分析などさまざまなタスクに応用したり、インターネット上にある大量のデータから事前学習したりできる。

　Laboro.AIでは、主に英文への対応が中心だったBERTを日本語の文章にも対応できるように、独自のBERT事前学習モデルを開発した。インターネット上で公開されているニュースサイトやブログなど約4300のウェブサイト・260万以上のウェブページに掲載されていたテキスト情報を独自に収集し、言語データベースとなるコーパスを構築。この日本語の言語情報データを使って学習を行わせた。

　Laboro.AI BERTモデルは、社内に大量に蓄積された文書の整理や分類や、文書・メールなどテキストデータの分類、チャットボットなどQ＆Aシステムへの応用、スマートスピーカーなど音声技術への応用といった分野での活用が期待されている。