人工知能(AI)の開発には、高品質なトレーニングデータと機械学習アルゴリズムが、欠かせない要素となっている。機械学習モデルをトレーニングするには、大量のデータが必要となる。
その一方で、「現在入手可能なデータセットは品質が低く、新たに規模が大きい特定のデータを短期間で入手することは非常に困難。新たに入手したデータは、データサイエンティストが社内で処理や整理をする必要があり、多くの時間が費やされている」とDefinedCrowdで最高技術責任者(CTO)を務めるJoão Freitas氏は指摘する。実際、データサイエンティストは80%の時間を、データの処理や整理に費やしているといわれる。
DefinedCrowdで最高技術責任者(CTO)を務めるJoão Freitas氏
DefinedCrowdは、米国シアトルで2015年に創業したスタートアップ企業。AI開発のためのトレーニングデータを収集・整理するデータプラットフォームを提供する。クラウドソーシングを活用したサービスが最大の特徴だ。「Neevo」と呼ばれるコミュニティーを運営し、世界53カ国に4万5000人以上のクラウドワーカーを擁する。コミュニティーに参加するには、機密保持契約を結んだ上で、言語テストと資格認定を受ける必要がある。
音声技術、自然言語処理、コンピュータビジョンのアプリケーションを構築するために必要な60以上のデータワークフローを提供し、スクリプトに沿った音声の録音や自然発話音声の録音、書き起こし、リスニングテスト、テキストと音声の整合性修正、テキスト収集、意味的注釈付け、テキストの感情分析、画像分類、画像タグ付けといったデータ処理に対応する。
データの品質を確保するため、ワーカーによる不審行動のリアルタイム監視機能や、データ収集後の検証ステップ、レピュテーションシステムなどを備える。また、プライバシーとセキュリティの観点では、顧客の機密情報を消し込むためのマスキングツールなどを用意する。
「収集したデータの15~20%は使い物にならないのが現状だ。DefinedCrowdでは、高品質なデータを5~10倍の速さで集められる」(Freitas氏)
日本を中心としてアジア市場でのシェア拡大を図るため、2018年3月に東京オフィスを開設。2018年6月には、Evolution Equity Partnersが率いた1180万ドルのシリーズAラウンドで資金調達を完了。以前からの出資者であるSony Innovation Fund、Portugal Ventures、Amazon Alexa Fund、Busy Angelsからの追加出資に加え、新たにMastercard、Kibo Ventures、EDP(Energias de Portugal)が加わった。