最近参加したKaggle Days Chinaのオフラインコンペの話
ここからは、直近で参加したKaggle Days Chinaのオフラインコンペについてです。そもそもKaggle Daysとは、LogicAIが主催するイベントで、全2日間のうち初日がKaggle Grand masterによるプレゼンテーションやワークショップ、2日目が参加者で競うオフラインコンペという構成になっています。
今回のコンペのテーマは、「時刻の異なる同地点の2枚の天体画像とその差分の画像から、その地点に星が写っているかを推定する」というものでした。Kaggleのコンペページから引用した画像を下記に記載します。1番左と真ん中が時刻の異なる同地点の2枚の天体画像で、1番右がその差分です。筆者のチームは、このコンペで優勝できたので、その解法の話もしようと思います。優勝についてはこちらでもまとめています。
解法
ソースコードはgithubに公開しています。まず、今回のデータで特徴的だったのは学習データのみloc_xとloc_yというメタデータが与えられていた点です。これは星かどうかを見分ける対象物の画像内での位置を示すデータでとても重要でした。公開されているnotebookの画像を見ると、その点が何を示しているか分かります。下記にその一例を記載しました。赤丸がloc_xとloc_yの位置であり、ここに写っている物体が星かどうかを判別してほしいというメタ情報になります。
しかし、このデータは学習データにしかないので、どう使うか工夫が必要でした。私たちのチームはそこで、マルチタスクラーニングという手法を取り入れました。これは星かどうかだけでなく、locationも同時に予測して精度を上げる方法です。マルチタスクラーニングによる精度向上は、過去にもさまざまなテーマで効果が示されており、それが今回のコンペでもうまく行って他チームとの差分になりました。その概要は下図の通りです。CNNのモデルには、多くのコンペティションで成果を残しているSE-ResNeXtを使用しました。
最後に
今回はオフラインコンペについて紹介しました。オフラインコンペをeスポーツのように多くの人が楽しめるコンテンツにしたいというのが筆者の目標の1つです。この記事を読んだ方に少しでも魅力が伝わって、参加を希望する人が出てきてくれたら嬉しいです。
次回は第2回Atma杯に参加します。第1回は懇親会だけでは足らず、2次会に行ってまで解法について話し込むくらい盛り上がったので、第2回もとても楽しみです。
これがKaggle Days Chineのオフラインコンペで優勝した際に撮った写真で、1番右の満面の笑みを浮かべているのが筆者です。
- 大越拓実
- ディー・エヌ・エー AI本部 AIシステム部 データサイエンス第1グループ
- 2019年6月DeNA入社。Kaggle Grandmaster。大学時代は統計学を専攻し、スポーツにおけるデータ活用の研究に従事する傍ら、キスモの創業メンバーとして名古屋におけるAI活用の発展に注力した。趣味でKaggleに挑戦する中で、オフラインコンペにも参加するようになった。