AIの訓練データ集めを支援する「DefinedCrowd」--クラウドソーシングを活用

藤本和彦 (編集部)

2018-10-03 07:00

 人工知能(AI)の開発には、高品質なトレーニングデータと機械学習アルゴリズムが、欠かせない要素となっている。機械学習モデルをトレーニングするには、大量のデータが必要となる。

 その一方で、「現在入手可能なデータセットは品質が低く、新たに規模が大きい特定のデータを短期間で入手することは非常に困難。新たに入手したデータは、データサイエンティストが社内で処理や整理をする必要があり、多くの時間が費やされている」とDefinedCrowdで最高技術責任者(CTO)を務めるJoão Freitas氏は指摘する。実際、データサイエンティストは80%の時間を、データの処理や整理に費やしているといわれる。

DefinedCrowdで最高技術責任者(CTO)を務めるJoao Freitas氏
DefinedCrowdで最高技術責任者(CTO)を務めるJoão Freitas氏

 DefinedCrowdは、米国シアトルで2015年に創業したスタートアップ企業。AI開発のためのトレーニングデータを収集・整理するデータプラットフォームを提供する。クラウドソーシングを活用したサービスが最大の特徴だ。「Neevo」と呼ばれるコミュニティーを運営し、世界53カ国に4万5000人以上のクラウドワーカーを擁する。コミュニティーに参加するには、機密保持契約を結んだ上で、言語テストと資格認定を受ける必要がある。

 音声技術、自然言語処理、コンピュータビジョンのアプリケーションを構築するために必要な60以上のデータワークフローを提供し、スクリプトに沿った音声の録音や自然発話音声の録音、書き起こし、リスニングテスト、テキストと音声の整合性修正、テキスト収集、意味的注釈付け、テキストの感情分析、画像分類、画像タグ付けといったデータ処理に対応する。

 データの品質を確保するため、ワーカーによる不審行動のリアルタイム監視機能や、データ収集後の検証ステップ、レピュテーションシステムなどを備える。また、プライバシーとセキュリティの観点では、顧客の機密情報を消し込むためのマスキングツールなどを用意する。

 「収集したデータの15~20%は使い物にならないのが現状だ。DefinedCrowdでは、高品質なデータを5~10倍の速さで集められる」(Freitas氏)

 日本を中心としてアジア市場でのシェア拡大を図るため、2018年3月に東京オフィスを開設。2018年6月には、Evolution Equity Partnersが率いた1180万ドルのシリーズAラウンドで資金調達を完了。以前からの出資者であるSony Innovation Fund、Portugal Ventures、Amazon Alexa Fund、Busy Angelsからの追加出資に加え、新たにMastercard、Kibo Ventures、EDP(Energias de Portugal)が加わった。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

自社にとって最大のセキュリティ脅威は何ですか

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]