IBMがオープンな機械学習用データセットを提供するリポジトリを公開

Stephanie Condon （ZDNET.com）翻訳校正：石橋啓一郎

2019-07-17 11:05

　IBMは米国時間7月16日、機械学習用のオープンなデータセットを無料で提供するリポジトリ「IBM Data Asset eXchange」（DAX）の公開を始めた。オンライン上で提供されているオープンなデータセットは数多くあるが、DAXの特徴は企業向けにキュレーションされたデータを提供することだという。

　DAXでは、明確に定義されたオープンデータライセンスに基づいて、標準化されたフォーマットに成形され、メタデータが付与された高品質なデータセットを提供する。また、企業がデータセットを利用しやすいようにチュートリアルも提供される。

　さらに、このリポジトリでは、IBMやIBM Researchが提供するさまざまなデータセットも入手できる。例えば同社は、「Finance Proposition Bank」と「Contracts Proposition Bank」のデータセットを公開する予定だが、これらのデータは「Watson Natural Language Understanding」などのIBMの製品で使われている自然言語理解技術を改善するための研究プログラムで作成されたものだ。

　IBMは、DAXのリポジトリを、同社の「Model Asset eXchange」（MAX）を補完するものとして位置づけている。MAXはデータサイエンティストや開発者が無料のオープンソース深層学習モデルを簡単に見つけられるようにするためのサービスだ。

　同社はブログ記事で、この取り組みの目的は「DAXとMAXの資産を、IBMのAI関連製品や、その他のハイブリッド・マルチクラウドのAIツール（特定企業の独自技術かオープンソースかを問わず）と組み合わせて簡単に使えるようにすること」だと述べている。

　また、IBMは同日、3つのオープンソースプロジェクト（「Kabanero」「Appsody」「Codewind」）を新たにスタートさせたと発表した。これらのプロジェクトはいずれも、Kubernetesを利用したクラウドネイティブアプリの構築と展開を支えることを目的としたものだ。コンテナはハイブリッドクラウドの重要な要素であり、この取り組みは、企業のハイブリッドクラウド採用を積極的に後押ししている同社の戦略の一環だと言える。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。