昨今、多くの企業が抱えている問題の一つとして、データ分析人材、特にデータ分析を専門とする技術者(データサイエンティスト、人工知能〈AI〉開発者、コンサルタントなど)の不足があります。その一因には、人材の育成が追い付いていない現状が挙げられます。
今回は、200人を超えるデータ専門家の人材育成に関わった経験を持つ筆者(=佐野遼太郎)が自らの成長体験を踏まえつつ、その取り組み方や伸びる人材の特徴を解説します。ちなみに、ここで育成の対象となるのは、これから初めて機械学習モデルを作る人とします。
知識ゼロからの機械学習の学び方
まずは、筆者自身の体験をもとにデータ分析技術者の卵がどのように機械学習に取り組むべきかを書きます。
・理論(中身)の理解から脱却、まずは手を動かす
私自身の失敗として、最初に機械学習の理論を飛躍なしにそのまま理解しようとしたことが挙げられます。多くの場合、PythonやRのパッケージを用いて機械学習モデルを構築しますが、完全に理解していないものを使用することに抵抗感があり、理論を理解することから手を付けました。
これでは、1年たってもモデル一つ作れないでしょう。経験上、専門書を読む力のある人ほど、同じような失敗をする傾向が見られました。まずは手を動かして、機械学習モデルを感覚的に理解し、並行して適度な深さで理論を補完すべきです。
・理論(中身)の理解も大切
しかし、予測モデルを感覚的に理解したらそれでいいかといえば、そうではありません。「データが増えたときの計算量」や「そもそも何を出力しているのか」「データが変化したらどのような影響があるのか」「そのモデルにできること/できないことは何か」などを知ることが大切です。
例えば、回帰木で販売数を予測した場合、学習データ以上の販売数を出力できないため、売り上げが右肩上がりに成長している店舗に適用すると失敗します。モデルに付随する理論の証明まで理解する必要はありませんが、モデルが行っていることは理解する必要があります。
・泥臭い作業を行うこと
よく言われていることですが、データ分析業務の9割は前処理です。そして、これが一番大切です。汚いデータを四苦八苦して読み込み、変数の一つひとつをじっくりと眺めて仕様書との整合性や欠損値の確認などを泥臭く進める必要があります。
実際に、ある期間からデータの単位がマイルからキロメートルに変わっていたということもありました。これは分布を確認すると山が二つ現れるので、丁寧にデータを確認すればすぐに分かります。このことに気付かなくても、モデル構築までエラーなく進んでしまうのが機械学習の怖いところです。だからこそ泥臭くデータを眺めることが大切です。
・教えることは教わること
社会人になってから1年がたち、ありがたいことに社内外の講座に登壇する機会が増えてきました。自分では十分に分かっていたつもりでも、受講者からの質問で理解不足に気付くなど、非常に多くのことを学びました。
特に、難しいことを分かりやすく説明するのは、本質を理解するための良い訓練になりました。人に教えることは、自分が学ぶための良い勉強法の一つだと感じました。