Laboro.AI、日本語版「BERT」モデルを開発--オープンソースで公開

ZDNET Japan Staff

2020-04-17 11:36

 オーダーメイドのAI(人工知能)を開発・提供するLaboro.AIは4月17日、自然言語処理モデル「BERT(Bidirectional Encoder Representations from Transformers)」を独自に事前学習させた日本語版モデル「Laboro.AI BERTモデル」を開発し、オープンソースとして公開したと発表した。

 自然言語処理は、機械学習の技術領域の一つである。人が日常的に使用する言葉や文字など、テキスト情報をAIに処理させる分野になる。手書き文字の読み取りを行うOCR(光学文字認識)やテキストで会話するチャットボットのほか、スマートスピーカーにも技術が活用されている。

 BERTは、2018年10月にGoogleが発表した自然言語処理モデル。従来の自然言語処理アルゴリズムと比べて、文章の文脈を理解することに長けているほか、文章分類や感情分析などさまざまなタスクに応用したり、インターネット上にある大量のデータから事前学習したりできる。

 Laboro.AIでは、主に英文への対応が中心だったBERTを日本語の文章にも対応できるように、独自のBERT事前学習モデルを開発した。インターネット上で公開されているニュースサイトやブログなど約4300のウェブサイト・260万以上のウェブページに掲載されていたテキスト情報を独自に収集し、言語データベースとなるコーパスを構築。この日本語の言語情報データを使って学習を行わせた。

 Laboro.AI BERTモデルは、社内に大量に蓄積された文書の整理や分類や、文書・メールなどテキストデータの分類、チャットボットなどQ&Aシステムへの応用、スマートスピーカーなど音声技術への応用といった分野での活用が期待されている。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]