--インフラ部門やIT部門、マーケティング部門などとはどのように連携していますか。
われわれの部署にはデータプランナー、機械学習エンジニアのほかにアプリエンジニア、インフラエンジニアが所属しています。そのため、部門内でたいていの問題は処理できています。
役割をバレーボールで例えてみましょうか。まず、事業課題をデータプランナーがレシーブします。そこに機械学習エンジニアが分析モデルとコードでトスを上げます。そこでアプリエンジニアが開発しているAPI基盤がスパイクします。インフラエンジニアは共通基盤を作っているので、これらの環境を維持しています。このようなチームプレーでビジネス部門と業務連携をしています。
--分析モデルの改善サイクルはどのように回していますか。
すべての施策にA/Bテストを導入しています。A/Bテストで勝った計算モデルが生き残り、サービスに組み込まれます。常にいろいろなA/Bテストが走っているので、組み込む際は問題ないのですが、組み込んだ後に適宜見直すことは課題ですね。
--学習に用いるデータの肥大化などは問題ないですか。
それほど困っていないです。会社の方針としてシステム投資をかなりしているためかもしれません。分散学習(分散並列環境で機械学習)をしているので、パフォーマンスが悪い際はインスタンスを追加して解決しています。使わせてもらっている予算規模から考えるに、経営層からの期待が大きいと感じています。
また、ユーザー単位や商品単位で予測する関係上、レコード数も極端に多くなることなく適度な数に収まっています。あとはモデルを適用する際の(深層学習の際の)特徴量選択を厳選しているので、肥大化していないことも理由です。
--所属されている組織のデータ活用度合いを点数化するとしたら100点満点中何点でしょうか。
なかなか難しいですね。私の理想から採点してみると70点くらいかなと思います。
周りのメンバーも優秀なメンバーが多く、その点に関してはまったく問題はありません。基本的な改善サイクルを1~2週間で回しているのですが、ケースによってはそれよりも遅い場合もあり、ここは改善ポイントですね。
あとは基本的に1~2週間単位でのサイクルなので季節要因による変動などの長期的な視点での改善についてはまだ余地があると思っています。あとは稼働している機械学習の性能の劣化をきちんと定量化することができていないので、ここも改善していきたいですね。期待も込めて30点は成長余地という採点です。