Kaggleに初参加してみて
Kaggleに参加したことのない私もデータサイエンスグループに配属されて以降、機械学習のコンペに積極的に挑戦しています。先日、初めて参加したKaggleのコンペ「Home Credit Default Risk」が終わり、チーム名「:D」で銀メダル(注4)を獲得しました。前回記事にあったように同じデータサイエンスグループの加納さんと小野寺さんは2位入賞で金メダルを獲得したので、それに比べるとかすんでしまいますが、それでもコンペ終了時に銀メダルが確定した瞬間には、Slack内のチームチャネルで大いに盛り上がりました。あの興奮は忘れられません。
とはいえ、私もいずれ金メダルを獲得してKaggle Master になりたいと思っています。Kaggle Masterになるためには金メダル1つ、銀メダル2つが必要で、金メダルの獲得が最も難しいとされています。今回のコンペを通じて、身近にいるKaggle Masterと自分の差として最も痛感したのは「思い付くことは全て、できるだけ早く試す」ということです。
コンペ終了時に順位が高いチームがやっていた施策が「アイデアとして思い付いていたがスコアが上がる確信がなかったから実行しなかった」というのは多々あるようです。こうしたアイデアをちゃんと全て消化できるか否かが、Kaggle Masterとそうでないものの差を生む一因だとコンペを通じて実感しました。
また、これらの施策をできるだけ早くやることも重要です。なぜなら、アイデアがある状態だと安心して手が止まったり、他のアイデアを捻り出そうとしなかったりするためです。Kaggle Masterはコンペにおける暫定の順位が高くても決して手を止めることなく、当たり前のように次の分析作業を始めています。私もこのような、謙虚でひたむきな姿勢を身に付けたいと思います。
データサイエンティストとしての価値の出し方
先述の通り、私はKaggleをやっていたわけでも、データサイエンスに強いバックグラウンドがあるわけでもありません。いろいろと足りない部分はあるものの、データサイエンティストの一人として業務で一定の価値は出せていると思っています。ここからは、データサイエンスに強い専門性があるわけではない私がどのように業務で価値を出しているかを書いていきます。
データサイエンティストとは何かという議論がさまざまな場所で行われており、明確な定義が決まっているわけではありませんが、この職種は非常に複合的なスキルを必要とするものだと感じます。下図はデータサイエンティスト協会が発表しているデータサイエンティストに求められるスキルセットを示しています。データサイエンティストという職種の定義が曖昧な以上、何とも言えない部分はありますが、少なくともDeNAのデータサイエンスグループで求められているスキルセットと大きく乖離(かいり)しているとは思いません。
私の場合、出身が工学系であることと、大学院で機械学習を研究対象としていたことから「データエンジニアリング力」と「データサイエンス力」の基礎はあると考えていますが、これらはそれ単体を武器に戦えるほどとがったものではありません。一方、自分の強みが「ビジネス力」に当たる部分にあると思っている(ビジネス力こそ社会人歴半年ということもあって不十分な部分も多々ありますが)ため、ここを軸に3種類のスキルをうまく使い分けて、自信を持って業務に取り組めていると感じています。このように、データサイエンティストという職種は複合的なスキルを必要とし、だからこそ価値の出し方が多種多様に存在していると思います。
Kaggleやデータサイエンティストに興味がある人に向けて
私はまだ始めたばかりですが、Kaggleは非常に面白いです。金融や宇宙、ゲーム、医療などさまざまな業界のデータを触れ、コンペを進める中でそれらのドメイン知識や機械学習、データ分析などに関する知的好奇心を満たすことができます。スキルアップにつながるという側面もあり、実際にKaggleに取り組むことで業務において手を動かすスピードが格段に上がっている実感があります。
また、メダルやKaggle Masterなどの称号を手にできると自分の実力を証明でき、営業や転職、起業の役に立つかもしれません。もし昨今のブームを経ていわゆるAIに興味関心がある人がいれば、一度Kaggleをやってみることをおすすめします。
Kaggleを始める人は、tkm2261さんが運営されているKagglerのSlackチャネルに参加するといいかもしれません。Kaggleや機械学習に関する情報を得たり、質問をしたりできます。
データサイエンティストという職種に興味がある人、あるいは本稿を読んで興味を持った人がいるかもしれません。データサイエンティストとして働くためには複合的なスキルを身に付ける必要がありますが、必ずしもそれら全てが第一線で活躍できるほどとがっている必要はありません。
例えば、私と同様に「ビジネス力」に強みがあると思えば、基本的な「データエンジニアリング力」と「データサイエンス力」を身に付けることで、データサイエンティストとしての価値の出し方が広がると思います。これら2つの力を身に付けることで、一人でできることの幅が広がるだけでなく、プロフェッショナルの仕事をより深く理解した上で、より良い仕事ができるでしょう。結果として、「ビジネス力」をさらに伸ばすことにつながります。
私もまだ働き始めて半年の未熟者ですが、一緒に成長していきましょう。
- 田口直弥
- ディー・エヌ・エー システム本部 AI システム部 データサイエンスグループ
- 2018年3月に東京大学大学院にて修士号を取得後、同年4月にDeNAに入社。データサイエンスグループに配属後はオートモーティブ事業にて分析業務に励む傍ら、Kaggleに参戦し精力的に取り組んでいる。