DeNAのKaggle日記

第3回:チームで取り組むKaggleの面白さ--コンペ準優勝の裏側とは? - (page 2)

加納龍一 (ディー・エヌ・エー) 2018年09月28日 06時50分

  • このエントリーをはてなブックマークに追加
  • 印刷

Kagglerの個性

 ここで、チームで取り組むことの価値が出てきます。実際にKaggleに取り組んでみると分かるのですが、一人ひとりのKagglerは個性を持っており、得意とする手法やアプローチは千差万別です。それらの個性を集約することで、最終的な予測モデルに多様性が生まれてくるのです。

 Kagglerの個性といってもイメージが湧きにくいと思うので、少し具体例を挙げてみようと思います。

 Kaggleで扱う予測問題に取り組む手法は、大きく二種類に分類できると思っています。ニューラルネットワークを用いるものと、勾配ブースティングと呼ばれる手法を用いるものです。両者は性質が大きく異なり、それらの中にも細分化された数多くのアルゴリズムが存在しています。どんなアルゴリズムを選ぶかというのも、Kagglerによりさまざまです。

 また、モデルに入力する特徴量の多様性も、最終的な予測精度の多様性にとって重要です。モデルの性質上、どうしてもモデル内では表現しづらい特徴というのは存在します。例えば、ニューラルネットワークも勾配ブースティングもモデル内部で特徴量同士の乗除演算を表現できないため、入力の特徴量の掛け算や割り算の結果を人間が作成して入力するというのは重要となります。このような、モデルが表現できない部分を人間が抽出する作業は、「特徴量エンジニアリング」と呼ばれています。

 ここが機械学習の精度を突き詰める上で個性の生まれやすいところで、「どういった人がローンを完済できなくなってしまうのだろうか」などと考えつつ、与えられたデータとにらめっこしながら一人ひとりが特徴量エンジニアリングを行っていくのです。具体例としては、「年収が高かったとしても家族の人数が多いと家計を支えるのも大変だろうから、(年収)÷(家族人数)を特徴として入力してみよう」や「現職で働いている時間の割合が人生の中で長い人ほど安定していそうだから、(現職の雇用期間)÷(年齢)を特徴として入力してみよう」といったようなものが挙げられます。ここの発想や思考は、やはり千差万別です。

 また、単純に掛けたり割ったりするだけでなく、特徴抽出を高度なアルゴリズムを用いて行ったりもします。例えば下図は、提供された特徴量を、UMAPと呼ばれるアルゴリズムを使って無理やり二次元上に可視化した図です。小さな点がいくつも分布していますが、この点の一つ一つが、ローンの申込情報に対応しています。見てみると一様に分布しておらず、いくつもの島を作って分布していることが分かるかと思います。この島の一つ一つが何か似た特性を持ったローン申し込みの集合となっています。直感的には理解が難しいものですが、このような情報も特徴量として有益なものとなります。

UMAPというアルゴリズムにより二次元上に投影された、ローン申込みの情報。一つ一つの点が、ローン申し込みの情報に対応している。
UMAPというアルゴリズムにより二次元上に投影された、ローン申込みの情報。一つ一つの点が、ローン申し込みの情報に対応している。

 他にも、手法は星の数ほど存在します。このように、特徴抽出の方法一つとっても、何をどのように使うかに個性が現れてくるのです。

 そして、前述でも述べたように個性ある複数の予測モデルを組み合わせることが精度を上げる重要なポイントです。今回、私たちのチームでは一人ひとりのメンバーが、アイデアを共有し合いながらも他メンバーのアイデアに完全に浸ることなく個性を発揮できたことが、上位入賞の要因の一つだったと感じています。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

  • このエントリーをはてなブックマークに追加

関連ホワイトペーパー

連載

CIO
月刊 Windows 10移行の心・技・体
ITアナリストが知る日本企業の「ITの盲点」
シェアリングエコノミーの衝撃
デジタル“失敗学”
コンサルティング現場のカラクリ
Rethink Internet:インターネット再考
インシデントをもたらすヒューマンエラー
トランザクションの今昔物語
エリック松永のデジタルIQ道場
研究現場から見たAI
Fintechの正体
米ZDNet編集長Larryの独り言
大木豊成「仕事で使うアップルのトリセツ」
山本雅史「ハードから読み解くITトレンド放談」
田中克己「展望2020年のIT企業」
松岡功「一言もの申す」
松岡功「今週の明言」
内山悟志「IT部門はどこに向かうのか」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
大河原克行「エンプラ徒然」
内製化とユーザー体験の関係
「プロジェクトマネジメント」の解き方
ITは「ひみつ道具」の夢を見る
セキュリティ
セキュリティインシデント対応の現場
エンドポイントセキュリティの4つの「基礎」
企業セキュリティの歩き方
サイバーセキュリティ未来考
ネットワークセキュリティの要諦
セキュリティの論点
スペシャル
エンタープライズAIの隆盛
インシュアテックで変わる保険業界
顧客は勝手に育たない--MAツール導入の心得
「ひとり情シス」の本当のところ
ざっくり解決!SNS担当者お悩み相談室
生産性向上に効くビジネスITツール最前線
ざっくりわかるSNSマーケティング入門
課題解決のためのUI/UX
誰もが開発者になる時代 ~業務システム開発の現場を行く~
「Windows 10」法人導入の手引き
ソフトウェア開発パラダイムの進化
エンタープライズトレンド
10の事情
座談会@ZDNet
Dr.津田のクラウドトップガン対談
Gartner Symposium
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft WPC
Microsoft Connect()
HPE Discover
Oracle OpenWorld
Dell Technologies World
AWS re:Invent
AWS Summit
PTC LiveWorx
吉田行男「より賢く活用するためのOSS最新動向」
古賀政純「Dockerがもたらすビジネス変革」
中国ビジネス四方山話
ベトナムでビジネス
日本株展望
企業決算
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]