Googleは米国時間1月23日、「Google Dataset Search」のベータ段階終了と新機能の追加を発表した。このツールは、リサーチャーらがオンラインで利用可能なデータを見つけやすくするよう支援する目的で設計されたものだ。
提供:Google
この検索機能はオンラインで公開されているデータを集積する試みで、2018年に開始された。Google ResearchのリサーチサイエンティストであるNatasha Noy氏によると、これまでに2500万のデータセットをインデックス化したという。対象となるコンテンツは、ペンギンの個体数から医療データに至るまでさまざまであり、リサーチャーらによる仮説の検証や、サイエンティストによる機械学習(ML)アルゴリズムの訓練といった目的で利用できる。
また、同ツールは一般の人々が利用することもできる。例えば「skiing」を検索すると、最速のスキーヤーが出す速度や、スキーリゾートの売上高を示すデータセットが表示される。
今回新たに追加された機能は、主にリサーチプロセスを簡素化する狙いがあるようだ。例えば、結果をテーブルや画像、テキストといった、必要となるデータセットの種類に基づいて、あるいは無償利用が可能かどうかに基づいてフィルタリングできるようになっている。また、モバイルでも利用可能になった。
Noy氏は、特定のデータセットを所有している人は、schema.orgというオープン規格を用いて該当データセットの性質をウェブ上で記述しておけば、同ツールによってその情報が検索できるようになると説明し、活用するよう促している。
Googleは、Dataset Searchを最初に立ち上げた段階で、ユーザーが実際にデータを検索できるよう、既存のデータリポジトリーを検索エンジンのカタログに追加する簡単な方法を見つけ出すことが難関の1つになると考えていた。
このためGoogleはschema.orgという規格を提案した。データセットを含んだページに、この規格に従ったメタデータを定義しておくことで、Dataset Searchエンジンから該当ページを検索できるようになる。
Googleは「われわれの最終的な目標は、データセットの公開と利用、発見のためのエコシステムの醸成に向け支援することだ」と述べた。
このツールのテストに参加しているユーザー数については明らかにされていないが、Googleは2018年以降に検索されたデータの種類について提示している。Noy氏によると、最も一般的なクエリーには「教育」や「天気」「がん」「犯罪」「サッカー」のほか、「犬」もあったという。
Noy氏によると、この検索エンジンにリンクされているデータの最も大きなトピックは、地球科学や生物学、農業に関するものだ。そして、世界中のほとんどの政府機関は既に、オープンなデータを公開する際にschema.org規格を利用している。米政府だけでも200万のデータセットを公開している。
Dataset Searchはベータ段階を終えたが、Googleが今後もこのツールへの取り組みを続けていくとNoy氏は述べている。また、まだ使ったことがなければ、「試してみた」上で、考えたことをGoogleに伝えてほしいとしている。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。