海外コメンタリー

IBM「Watson」関連研究チームが取り組む文書の自動要約システム--品質は人レベルにも

Nick Heath (TechRepublic) 翻訳校正: 編集部

2016-03-09 06:30

 IBMの自然言語処理および機械学習エンジンを担当するチームが、人間に匹敵する文書要約能力を備えたディープラーニング(深層学習)ベースのシステムを開発した。

 IBMの「Watson」の質問応答能力はヘルスケアから金融まで幅広い分野で活用されている

 Watsonの自然言語処理および機械学習エンジンは、IBMが提供する言語認識やコンピュータビジョン、データアナリティクスのサービスを支えている。そして、研究チームは舞台裏でこのスマートなシステムの能力を高め続けている。

 Watsonの質問応答アルゴリズム担当チームによる最新の画期的成果は、文書の要約を自動的に作成する「最先端」システムの開発だ。

 同チームは、過去に機械翻訳や動画への自動キャプション追加に使用されたディープラーニングのアプローチを採用して、何百万もの英語ニュース記事の短い要約を作成した。

 IBM USの研究者であるRamesh Nallapati氏とBing Xiang氏、Bowen Zhou氏は論文の中で、「この研究で、われわれはテキストを要約する作業に注力している。もちろん、これはソース文書の言葉の入力シーケンスを要約という言葉のターゲットシーケンスにマッピングする作業と考えることも可能だ」と述べている。

 彼らが使用した、ディープラーニングをベースとするシーケンスツーシーケンスアプローチは、機械翻訳に使われることの方が多い。同チームによると、要約は通常、文字数が少なく、文書の長さにそれほど依存しないので、要約の作成は機械翻訳と大きく異なるという。また、機械翻訳と異なり、ソース資料の重要な概念以外のすべてを省略することも許容されるという。

 こうした違いがあるにもかかわらず、認識リカレントニューラルネットワーク(エンコーダとデコーダ)を使用してテキストの要約を作成するこのアプローチは、Facebookが要約作成に使用する新しい最先端モデルを「大幅に上回るパフォーマンス」を発揮する。

 IBMのチームは、「それらの要約は驚くほど高品質で、ほとんどの場合、人間が作成した要約として簡単に通用するだろう」と述べている。

 「われわれの研究成果は、シーケンスツーシーケンスモデルが要約に関して極めて大きな可能性を秘めていることを力強く証明するものだ」(同チーム)

 同チームが今後重点的に取り組む研究テーマは、要約の中で珍しい単語を効果的に生成する方法を調べることだ。それが「既存モデルの著しい欠点であるようだ」と同チームは述べている。

 人間のように言語を理解できる能力をコンピュータに持たせたいのなら、テキストの核心的な意味をとらえる要約を作成可能なマシンの開発が重要になる。テクノロジが高品質な文章を出力できる段階まで進歩する中で、要約作成の自動化やコンピュータによるレポート作成に対する需要も拡大している。自動レポート執筆サービス「Quill」を提供するNarrative Scienceが先頃述べたところによると、同社の売上高は毎年倍増しているという。

 IBMは従来の事業分野の低迷への対処を進める中で、Watsonサービス群を開発者に提供してサードパーティーアプリを構築してもらうだけでなく、「『Watson Health』や『Watson Internet of Things』といった新たな機会への投資も積極的に行っている」と最高経営責任者(CEO)のGinni Rometty氏は先頃述べた。

 Credit SuisseのアナリストであるKulbinder Garcha氏によると、IBMはクラウドコンピューティングへの段階的に移行し、縮小傾向にあるハードウェアやOS、従来のサービス事業による利益への依存を減らそうと努力しており、Watsonなどの新しいテクノロジへの注力は「複数年にわたる、痛みを伴う方向転換」の一環だという。

IBM「Watson」関連チームが取り組む自動要約システム
IBMのWatsonシステム 提供:IBM

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    ChatGPTに関連する詐欺が大幅に増加、パロアルトの調査結果に見るマルウェアの現状

  2. セキュリティ

    迫るISMS新規格への移行期限--ISO/IEC27001改訂の意味と求められる対応策とは

  3. セキュリティ

    警察把握分だけで年間4000件発生、IPA10大脅威の常連「標的型攻撃」を正しく知る用語集

  4. セキュリティ

    いま製造業がランサムウェアに狙われている!その被害の実態と実施すべき対策について知る

  5. セキュリティ

    ランサムウェア攻撃に狙われる医療機関、今すぐ実践すべきセキュリティ対策とは?

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]