NTTデータは3月16日、特定の業務領域に応じて最適な言語モデルを自動構築する「ドメイン特化BERT構築フレームワーク」を開発したと発表した。ユーザー環境に即した言語処理サービスを迅速に提供できるようになる。
BERT(Bidirectional Encoder Representations from Transformers)は、自然言語処理モデル。同社によれば、実ビジネスでのBERTの適用が期待されるが、業界特有の専門用語や言い回しなどによって十分な精度を得にくいなどの課題があるという。同社は、金融業界の文書に特化した「金融版BERT」を開発しており、2020年7月から金融業界向け自然言語処理の実証実験を進めている。今回はこのノウハウを利用し、業務データごとに適した追加学習データを自動収集する仕組みとしてフレームワークを開発したという。

ドメイン特化BERT-FWの仕組み
同社では、金融系資格試験とその得点で開発したフレームワークなどの性能を評価した。その結果、NTT版BERTモデルでは280点、金融版BERTモデルでは308点、今回のフレームワークでは328点だった。また、モデルの構築期間も金融版BERTの28日に対し、今回のフレームワークでは8日になり、業務有識者などによる手作業もチューニングも不要だったとする。

モデル構築期間のイメージ
今回のフレームワークは、例えば、電子カルテの記載内容のチェックや安全データシート(SDS)記載の危険度チェック、稟議書の記載内容チェック、日報からのプロジェクトリスク抽出、FAQの回答の自動引き当て、社内文書の検索といった活用が想定されるという。同社は4月以降順次、他社と共同での検証を実施していくという。