グーグル、見出しを自動生成するアルゴリズムを開発

Liam Tung (Special to ZDNet.com) 翻訳校正: 中村智恵子 吉武稔夫 (ガリレオ) 2016年08月29日 11時59分

  • このエントリーをはてなブックマークに追加

 記事に見出しをつけることは一部の人間が習得する技能であり、機械が学習するのは特に難しい技術だ。

 Googleはコンピュータが文章の内容をまとめる際に遭遇する難関を乗り越え、「非常に良い」見出しをつけられる機械学習アルゴリズムを開発したと発表した。

 Googleの「TensorFlow」ソフトウェアライブラリに基づいてGoogle Brain Teamが開発したこのモデルは、記事から抜粋した内容を元に、まずまずの見出しを作成した。

 同ソフトウェアは「metro-goldwyn-mayer reported a third-quarter net loss of dlrs 16 million due mainly to the effect of accounting rules adopted this year」(主に今年採用した会計規則の影響によって、Metro-Goldwyn-Mayerは第3四半期に1600万ドルの純損失を計上した)という記事を「mgm reports 16 million net loss on higher revenue」(MGM、売上増加も純損失1600万ドルを計上)という見出しにまとめた。

 別の例では、「australian wine exports hit a record 52.1 million liters worth 260 million dollars (143 million us) in september, the government statistics office reported on monday」(オーストラリアワインの輸出は、9月に5210万リットルで2億6000万豪ドル[1億4300万米ドル]相当という記録を出したと、政府の統計局が月曜日に発表した)という記事を「australian wine exports hit record high in september」(オーストラリアワインの輸出、9月に記録的な結果)とまとめた。

 「記事の見出しという性質上、記事の最初の数行を読むだけでこのモデルが良い見出しを作成できることに気がついた」と、Google Brain TeamのソフトウェアエンジニアPeter Liu氏はブログに記している

 記者やサブエディターにとって幸いなことに、見出しの作成を完全に自動化することはできない。少なくとも今のところは。

 Liu氏はチームが「良い概念実証」を作ったが、記事全体を読む必要のあるまとめ作業となると困難が生じると指摘した。

 「そうした作業では、このモデルアーキテクチャを使ってゼロから訓練しても、われわれが研究中の他の技術ほどうまくいかないが、基礎としては役に立つ」と、Liu氏は述べている。

 この分野での進歩に拍車をかけるため、Googleは同モデルをオープンソース化し、他の人も利用できるようにGitHubで公開した。

 発表された成果はマルチGPUおよびマルチマシンシステムで訓練されたモデルによって得られたものだが、Googleが公開したコードは、1台のマシンで実行できるように簡略化されている。

 Googleは「Annotated English Gigaword」のデータを使用してモデルを訓練した。Annotated English Gigawordはジョンズ・ホプキンス大学で開発されたデータセットで、英語のさまざまなニュース配信サービスで作成されたニュース記事1000万本から収集した約40億語で構成されている。IBMで「Watson」を担当している研究者らが同様の研究で使用したのと同じデータセットだ。

 TensorFlowは、Googleが2015年にオープンソース化した技術で、電子メールアプリ「Inbox」の「Smart Reply」機能や「Google Photos」の検索機能など、同社の各種サービスで利用されている。

 人間が文章を要約する方法を模倣するため、GoogleはSmart Replyに搭載しているモデルと類似したディープラーニングモデルを使用した。このモデルは「Sequence to Sequence Learning」と呼ばれるもので、動画の字幕作成、音声認識、機械翻訳で使われている。

 Liu氏が説明するように、要約には「抜粋的」と「要約的」の2つのアプローチがある。前者は与えられた文章から単語を抜き出し、それらを組み合わせて要約文を作成するが、この方法ではお粗末な結果になることがある。後者はGoogleが実現を目指しているもので、人間が文章を要約するように、言い換えたり、元の文章に出てこない単語を使用したりする。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

  • このエントリーをはてなブックマークに追加

この記事を読んだ方に

連載

CIO
シェアリングエコノミーの衝撃
デジタル“失敗学”
コンサルティング現場のカラクリ
Rethink Internet:インターネット再考
インシデントをもたらすヒューマンエラー
トランザクションの今昔物語
エリック松永のデジタルIQ道場
研究現場から見たAI
Fintechの正体
米ZDNet編集長Larryの独り言
大木豊成「仕事で使うアップルのトリセツ」
山本雅史「ハードから読み解くITトレンド放談」
田中克己「2020年のIT企業」
松岡功「一言もの申す」
松岡功「今週の明言」
内山悟志「IT部門はどこに向かうのか」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
大河原克行「エンプラ徒然」
内製化とユーザー体験の関係
「プロジェクトマネジメント」の解き方
ITは「ひみつ道具」の夢を見る
セキュリティ
エンドポイントセキュリティの4つの「基礎」
企業セキュリティの歩き方
サイバーセキュリティ未来考
ネットワークセキュリティの要諦
セキュリティの論点
スペシャル
エンタープライズAIの隆盛
インシュアテックで変わる保険業界
顧客は勝手に育たない--MAツール導入の心得
「ひとり情シス」の本当のところ
ざっくり解決!SNS担当者お悩み相談室
生産性向上に効くビジネスITツール最前線
ざっくりわかるSNSマーケティング入門
課題解決のためのUI/UX
誰もが開発者になる時代 ~業務システム開発の現場を行く~
「Windows 10」法人導入の手引き
ソフトウェア開発パラダイムの進化
エンタープライズトレンド
10の事情
座談会@ZDNet
Dr.津田のクラウドトップガン対談
Gartner Symposium
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft WPC
Microsoft Connect()
HPE Discover
Oracle OpenWorld
Dell Technologies World
AWS re:Invent
AWS Summit
PTC LiveWorx
吉田行男「より賢く活用するためのOSS最新動向」
古賀政純「Dockerがもたらすビジネス変革」
中国ビジネス四方山話
ベトナムでビジネス
日本株展望
企業決算
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]