新型コロナ感染症研究用のオープンなデータセット公開--ホワイトハウス主導でMSら

Stephanie Condon (ZDNET.com) 翻訳校正: 編集部

2020-03-17 14:37

 米国の学術界、政府、企業が連携して、新型コロナウイルス感染症(COVID-19)研究の前進に向け、世界の機械学習コミュニティが利用できる新しい構造化データセットが1週間ほどで作成された。この「COVID-19 Open Research Dataset(CORD-19)」は、COVID-19やコロナウイルス科のウイルスに関する2万9000件の学術論文(1万件以上の論文全文を含む)から構成されており、SemanticScholar.orgで米国時間3月16日に公開された。このデータセットは、データマイニングやテキストマイニングに利用可能な、これまででもっとも広範でマシンリーダブルなコロナウイルスに関する文献集だ。

CORD-19

 ホワイトハウスが要請し、データの構築を支援した組織は、Allen Institute for AI、Chan Zuckerberg Initiative(CZI)、ジョージタウン大学のCenter for Security and Emerging Technology(CSET)、Microsoft、米国立衛生研究所の国立医学図書館(NLM)らだ。

 ホワイトハウスの科学技術政策局と関係組織は、このデータセットが利用できるようになったのに伴い、米国の人工知能(AI)専門家に対して、COVID-19に関する優先度の高いリサーチクエスチョンなどを解決するのに役立つテキストマイニングやデータマイニングの手法を開発するよう呼びかけた

 ホワイトハウスの最高技術責任者(CTO)を務めるMichael Kratsios氏によれば、これらのクエスチョンは、コロナウイルスの潜伏期間、治療、症状、予防などに関するものであり、世界保健機構(WHO)および全米科学アカデミー、全米技術アカデミー、全米医学アカデミーの新興感染症および21世紀の健康への脅威に関する常設委員会と連携して作成されたものだという。これらの主要なクエスチョンはKaggle上で参照可能で、研究者はこのサイトを通じて得られた知見を送ることができる。

 Allen InstituteのDoug Raymond氏は、米ZDNetの取材に対して、COVID-19の世界的流行のような大きな危機が起こったとき、「研究者が最初に直面する最大の課題は『自分は何に貢献でき、何が既になされたのか』を知ることだ」と述べている。「今回われわれが公開している基礎的なデータセットのようなリソースがなければ、それにはかなり時間がかかる」という。

 全文リポジトリーの最初のバージョンは、Allen Instituteの「Semantic Scholar」のサイトで公開される。情報の内容は今後も更新され、アーカイブサービス(「bioRxiv」「medRxiv」など)や査読付き論文で公開された新たな知見が反映される。

 このデータセットを構築するために、Microsoftはウェブスケールの文献キュレーションツールを利用し、グローバルな科学的取り組みや成果をまとめた。NLMは文献のコンテンツへのアクセスを提供し、Allen Instituteはコンテンツをマシンリーダブルな形式に変換した。

 Allen Institute for AIは、この共同プロジェクトに加えて、研究者や一般の人々が最新の研究成果を追いかけるためのコロナウイルス研究に関するカスタマイズ可能な動的フィードサービスの提供を開始する。

 Raymond氏によると、このフィードは、AIによって各論文の関係性を分析して生成されるという。最初のフィードはAllen Instituteの評価に基づいて選ばれ、ユーザーが読んだ論文に応じて結果が調整されていく仕組みになっている。

 このフィードは、Allen InstituteのSemantic Scholarユーザーであれば誰でも利用できる。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]