最近では誰もが「シチズンデータサイエンティスト」を話題にしているにも関わらず、それを定義できる者はいないようだ(ひょっとすると、見れば分かるという前提なのかもしれないが)。
シチズンデータサイエンティストのもっとも簡単な定義は、「データサイエンティストではない人」だろう。もちろんこれは卑下しているわけではなく、データサイエンスを利用したいという意思は持っているが、データサイエンスのライフサイクルのあれこれを正式に習った経験がないという意味だ。例えばシチズンデータサイエンティストは、モデルを構築する際にどの企業データが重要になる可能性があるかを熟知していながら、GBMとランダムフォレストとSVMの違いは知らないかもしれない。多くのシチズンデータサイエンティストにとって、これらのアルゴリズムの名前はデータサイエンティストの内輪の言葉だし、シチズンデータサイエンティストの仕事は、データサイエンスではなく、それを道具として使って自分の仕事を片付けることだ。
筆者は、シチズンデータサイエンティストを「機械学習などのデータサイエンスのテクニックを使って、業績の改善に役立つ知見の獲得や、予測モデルの構築を行おうとしているビジネスパーソン」と定義している。
シチズンデータサイエンティストは逞しさを必要とする
シチズンデータサイエンティストになるには、この副業に熱心に取り組む必要がある。なぜなら、データサイエンスは簡単ではないからだ。それにはまず、データの取得、データの準備、特徴量エンジニアリング、アルゴリズムの選択、モデルのトレーニング、モデルの評価、そして知見や予測の獲得からなる、データサイエンスのライフサイクルを学ぶ必要がある。また、RやPythonを使ったプログラミングも覚える必要があるかもしれない。ただし運が良ければ(そして賢ければ)、「RapidMiner」や「KNIME」などのツールをダウンロードして、面倒なコーディングではなく、視覚的なドラッグアンドドロップのインターフェースで作業できるだろう。