機械学習プロジェクトを円滑に進めるための両者の協働
さて、ここまで2つのデータサイエンティストのタイプについて説明しました。
本連載の主題である「機械学習プロジェクト」の開発フェーズについては、AI型のデータサイエンティストの方が活躍できる範囲は広いと考えます。その一方、BI型のデータサイエンティストも重要な貢献が可能です。
「Garbage in, garbage out(”無意味なデータ”をコンピュータに入力すると”無意味なデータ”が返される)」と言われるように、いかなるアルゴリズムでも入力データが不適切であれば精度の高い結果は期待できません。
首尾よく開発できたように見えても、汎用性(汎化性能)が低いといった問題を抱えることになるでしょう。
そのため、データの特徴や分布の確認・解釈、ビジネスサイドの知見を活用した定性的なアプローチによるモデルの妥当性の確認などが重要です。これらはBI型のデータサイエンティストが力を発揮するタスクです。
このように、データサイエンティストにも得意分野があることを念頭に、プロジェクトのチーム編成や担当領域のアサインすることによって、各々がスキルを最大限に発揮して課題に取り組むことが可能になります。
連載のおわりに
本連載は今回が最終回です。第1回から第4回まで、「機械学習プロジェクトを始めるための第一歩」としてどのような情報が役に立つかを意識してきました。
「機械学習」や「AI」という言葉を目にする機会は格段に増えましたが、いざ自分たちで機械学習を活用したサービスや機能の開発を進めようとなると、さまざまな疑問が生じると思います。
「どうやって始めればいいのか」「どんなデータを準備すべきか」「どのような体制や人材が必要なのか」ーー。本連載がそのような疑問に直面している方のお役に立てれば幸いです。
- 田中耕太郎(データサイエンティスト)
- 東京工業大学大学院にてMOT(技術経営専門職)を取得。 在学中より研究開発系の大学ベンチャーにて企業戦略の策定、マーケティングに従事。 IT系ベンチャーにて主に事業企画、プロジェクトマネジメントを経験後、 コンサルタントとして大手企業や官公庁のデータ分析案件を担当。 データサイエンス領域では機械学習の活用、統計を用いた事業分析を専門に行い、 組織の立ち上げ、データサイエンティストの採用や育成にも注力。 現在はC2Cの領域で、主に事業状況の可視化やビッグデータ分析を担当している。