日立製作所でサービスプラットフォーム事業本部 AIビジネス推進 主任技師を務める諸橋政幸氏と、カカクコムでマーケティング支援室 データサイエンスチーム リーダーを務める齊藤拓磨氏は、チーム名「NAKANO」でデータ分析コンペに参加する異色のコンビだ。
2019年10月にはコンペティションサイト「SIGNATE」の分析コンペで優勝を果たしている。SIGNATEは日本最大級の分析コンペティションサイト。約2万7000人が登録しており、今までにさまざまな大手企業がAI(人工知能)開発のコンペティションを開催している。
諸橋氏は日立製作所のAIビジネス推進部に所属し、金融や小売などさまざまな領域を担当するデータサイエンティスト。顧客のデータを使って課題を解決するコンサルタントなどの役割を担っているという。一方の齊藤氏は、カカクコムでマーケティング支援室に所属するデータサイエンティスト。「価格.com」「食べログ」など、同社の運営サービスを中心にさまざまなウェブサイトのデータ分析業務を担当している。
二人がチームを組むことになったきっかけは何だったのだろうか。齊藤氏は前職で諸橋氏の顧客の一人だったのだという。ただ、そのときはビジネスの関係だけで、二人でチームを組んでコンペに参加するなどとは想像していなかった。齊藤氏が現在の職場に変わってからは、週末にたまに会って一緒に分析作業などをするようになった。チームの名称は、二人の住まいが東京都・中野区であることにちなむ。
諸橋氏は4~5年ほど前から、斎藤氏は2019年から、それぞれ個人でコンペに参加するようになった。今回のSIGNATEでのコンペで初めてチームを組んだのだという。チーム参加だといろいろなアイデアを試せるというメリットがある一方で、情報の共有やコードのマージといった作業作業も発生することになる、と二人は振り返る。相談相手がいることは非常に心強かったという。また、他人のアプローチを知ることで、取り組み方やノウハウの幅を広げることができた。
今回参加したコンペでは、データの意味が分からないという特徴があった。データの意味が分かっていれば、その性質に合わせて仮説を立てて特徴量の作成が可能だったが、今回はそれができなかったため、データの観点から特徴量を生成し、多様性を出すために多くの時間と試行錯誤が必要だったという。
データセットとアルゴルズムを組み合わせて、できるだけ多様性を出すようにした。実際に100個以上のモデルを作成し、最終的に57のモデルにまで絞り込んだ。それらのモデルを配合するアンサンブル学習と呼ばれる手法を用いて予測精度を向上していった。アンサンブルは、通常はコンペの終盤で利用することが多いが、今回は仮説に基づく特徴量生成があまりできなかったので、コンペの初期の段階から取り入れた。「多数決をとった方が精度は上がりやすい」と齊藤氏はアンサンブル学習のメリットを話す。一方、モデルを大量に作ったため、再現性の検証が非常に大変だった。
今回のコンペでは、できるだけ汎用的なモデルを構築したことが奏功したという。「学習データに特化したモデルを構築しても汎用性がない。未来を予測できるモデルを構築することが大事」と諸橋氏は話す。これは日常の業務でも生かせる部分であると付け加える。「分析においては経験が一番大事だと思っている。分析コンペに出ることで、実務以外のデータ分析も体験できるため、さらなるスキルアップにつながると考えている。あとは、単純に分析が好きだから」
二人はお互いについて、このように評する。「齊藤さんは発想力が豊かでひらめきのある人。コンペでは、みんなと同じことをやってもそこそこの精度にしかならないが、齊藤さんには“突破力”がある」(諸橋氏)
「諸橋さんは実装力に長けている。57個のモデルのうち40個は諸橋さんが作った。アイデアを形にする技術やノウハウを多く持っている。チームでコンペに参加するとお互いに刺激を与え合い、迷惑をかけないよう自己研さんに励むようになる」(齊藤氏)
現在はちょうどいいコンペがなく様子見の状態だが、また二人のチームで活動したいとしている。
カカクコムの齊藤拓磨氏(左)と日立製作所の諸橋政幸氏