AIの訓練データ集めを支援する「DefinedCrowd」--クラウドソーシングを活用

藤本和彦 (編集部)

2018-10-03 07:00

 人工知能(AI)の開発には、高品質なトレーニングデータと機械学習アルゴリズムが、欠かせない要素となっている。機械学習モデルをトレーニングするには、大量のデータが必要となる。

 その一方で、「現在入手可能なデータセットは品質が低く、新たに規模が大きい特定のデータを短期間で入手することは非常に困難。新たに入手したデータは、データサイエンティストが社内で処理や整理をする必要があり、多くの時間が費やされている」とDefinedCrowdで最高技術責任者(CTO)を務めるJoão Freitas氏は指摘する。実際、データサイエンティストは80%の時間を、データの処理や整理に費やしているといわれる。

DefinedCrowdで最高技術責任者(CTO)を務めるJoao Freitas氏
DefinedCrowdで最高技術責任者(CTO)を務めるJoão Freitas氏

 DefinedCrowdは、米国シアトルで2015年に創業したスタートアップ企業。AI開発のためのトレーニングデータを収集・整理するデータプラットフォームを提供する。クラウドソーシングを活用したサービスが最大の特徴だ。「Neevo」と呼ばれるコミュニティーを運営し、世界53カ国に4万5000人以上のクラウドワーカーを擁する。コミュニティーに参加するには、機密保持契約を結んだ上で、言語テストと資格認定を受ける必要がある。

 音声技術、自然言語処理、コンピュータビジョンのアプリケーションを構築するために必要な60以上のデータワークフローを提供し、スクリプトに沿った音声の録音や自然発話音声の録音、書き起こし、リスニングテスト、テキストと音声の整合性修正、テキスト収集、意味的注釈付け、テキストの感情分析、画像分類、画像タグ付けといったデータ処理に対応する。

 データの品質を確保するため、ワーカーによる不審行動のリアルタイム監視機能や、データ収集後の検証ステップ、レピュテーションシステムなどを備える。また、プライバシーとセキュリティの観点では、顧客の機密情報を消し込むためのマスキングツールなどを用意する。

 「収集したデータの15~20%は使い物にならないのが現状だ。DefinedCrowdでは、高品質なデータを5~10倍の速さで集められる」(Freitas氏)

 日本を中心としてアジア市場でのシェア拡大を図るため、2018年3月に東京オフィスを開設。2018年6月には、Evolution Equity Partnersが率いた1180万ドルのシリーズAラウンドで資金調達を完了。以前からの出資者であるSony Innovation Fund、Portugal Ventures、Amazon Alexa Fund、Busy Angelsからの追加出資に加え、新たにMastercard、Kibo Ventures、EDP(Energias de Portugal)が加わった。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    従来型のセキュリティでは太刀打ちできない「生成AIによるサイバー攻撃」撃退法のススメ

  2. セキュリティ

    マンガでわかる脆弱性“診断”と脆弱性“管理”の違い--セキュリティ体制の強化に脆弱性管理ツールの活用

  3. セキュリティ

    クラウドセキュリティ管理導入による投資収益率(ROI)は264%--米フォレスター調査レポート

  4. セキュリティ

    情報セキュリティに対する懸念を解消、「ISMS認証」取得の検討から審査当日までのTo Doリスト

  5. セキュリティ

    ISMSとPマークは何が違うのか--第三者認証取得を目指す企業が最初に理解すべきこと

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]