米国の学術界、政府、企業が連携して、新型コロナウイルス感染症(COVID-19)研究の前進に向け、世界の機械学習コミュニティが利用できる新しい構造化データセットが1週間ほどで作成された。この「COVID-19 Open Research Dataset(CORD-19)」は、COVID-19やコロナウイルス科のウイルスに関する2万9000件の学術論文(1万件以上の論文全文を含む)から構成されており、SemanticScholar.orgで米国時間3月16日に公開された。このデータセットは、データマイニングやテキストマイニングに利用可能な、これまででもっとも広範でマシンリーダブルなコロナウイルスに関する文献集だ。
ホワイトハウスが要請し、データの構築を支援した組織は、Allen Institute for AI、Chan Zuckerberg Initiative(CZI)、ジョージタウン大学のCenter for Security and Emerging Technology(CSET)、Microsoft、米国立衛生研究所の国立医学図書館(NLM)らだ。
ホワイトハウスの科学技術政策局と関係組織は、このデータセットが利用できるようになったのに伴い、米国の人工知能(AI)専門家に対して、COVID-19に関する優先度の高いリサーチクエスチョンなどを解決するのに役立つテキストマイニングやデータマイニングの手法を開発するよう呼びかけた。
ホワイトハウスの最高技術責任者(CTO)を務めるMichael Kratsios氏によれば、これらのクエスチョンは、コロナウイルスの潜伏期間、治療、症状、予防などに関するものであり、世界保健機構(WHO)および全米科学アカデミー、全米技術アカデミー、全米医学アカデミーの新興感染症および21世紀の健康への脅威に関する常設委員会と連携して作成されたものだという。これらの主要なクエスチョンはKaggle上で参照可能で、研究者はこのサイトを通じて得られた知見を送ることができる。
Allen InstituteのDoug Raymond氏は、米ZDNetの取材に対して、COVID-19の世界的流行のような大きな危機が起こったとき、「研究者が最初に直面する最大の課題は『自分は何に貢献でき、何が既になされたのか』を知ることだ」と述べている。「今回われわれが公開している基礎的なデータセットのようなリソースがなければ、それにはかなり時間がかかる」という。
全文リポジトリーの最初のバージョンは、Allen Instituteの「Semantic Scholar」のサイトで公開される。情報の内容は今後も更新され、アーカイブサービス(「bioRxiv」「medRxiv」など)や査読付き論文で公開された新たな知見が反映される。
このデータセットを構築するために、Microsoftはウェブスケールの文献キュレーションツールを利用し、グローバルな科学的取り組みや成果をまとめた。NLMは文献のコンテンツへのアクセスを提供し、Allen Instituteはコンテンツをマシンリーダブルな形式に変換した。
Allen Institute for AIは、この共同プロジェクトに加えて、研究者や一般の人々が最新の研究成果を追いかけるためのコロナウイルス研究に関するカスタマイズ可能な動的フィードサービスの提供を開始する。
Raymond氏によると、このフィードは、AIによって各論文の関係性を分析して生成されるという。最初のフィードはAllen Instituteの評価に基づいて選ばれ、ユーザーが読んだ論文に応じて結果が調整されていく仕組みになっている。
このフィードは、Allen InstituteのSemantic Scholarユーザーであれば誰でも利用できる。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。