DeNAのKaggle日記

第6回:ゼロから始めるデータ分析人材の育て方

佐野遼太郎 (ディー・エヌ・エー) 2019年01月03日 07時00分

  • このエントリーをはてなブックマークに追加
  • 印刷

 昨今、多くの企業が抱えている問題の一つとして、データ分析人材、特にデータ分析を専門とする技術者(データサイエンティスト、人工知能〈AI〉開発者、コンサルタントなど)の不足があります。その一因には、人材の育成が追い付いていない現状が挙げられます。

 今回は、200人を超えるデータ専門家の人材育成に関わった経験を持つ筆者(=佐野遼太郎)が自らの成長体験を踏まえつつ、その取り組み方や伸びる人材の特徴を解説します。ちなみに、ここで育成の対象となるのは、これから初めて機械学習モデルを作る人とします。

知識ゼロからの機械学習の学び方

 まずは、筆者自身の体験をもとにデータ分析技術者の卵がどのように機械学習に取り組むべきかを書きます。

・理論(中身)の理解から脱却、まずは手を動かす

 私自身の失敗として、最初に機械学習の理論を飛躍なしにそのまま理解しようとしたことが挙げられます。多くの場合、PythonやRのパッケージを用いて機械学習モデルを構築しますが、完全に理解していないものを使用することに抵抗感があり、理論を理解することから手を付けました。

 これでは、1年たってもモデル一つ作れないでしょう。経験上、専門書を読む力のある人ほど、同じような失敗をする傾向が見られました。まずは手を動かして、機械学習モデルを感覚的に理解し、並行して適度な深さで理論を補完すべきです。

・理論(中身)の理解も大切

 しかし、予測モデルを感覚的に理解したらそれでいいかといえば、そうではありません。「データが増えたときの計算量」や「そもそも何を出力しているのか」「データが変化したらどのような影響があるのか」「そのモデルにできること/できないことは何か」などを知ることが大切です。

 例えば、回帰木で販売数を予測した場合、学習データ以上の販売数を出力できないため、売り上げが右肩上がりに成長している店舗に適用すると失敗します。モデルに付随する理論の証明まで理解する必要はありませんが、モデルが行っていることは理解する必要があります。

・泥臭い作業を行うこと

 よく言われていることですが、データ分析業務の9割は前処理です。そして、これが一番大切です。汚いデータを四苦八苦して読み込み、変数の一つひとつをじっくりと眺めて仕様書との整合性や欠損値の確認などを泥臭く進める必要があります。

 実際に、ある期間からデータの単位がマイルからキロメートルに変わっていたということもありました。これは分布を確認すると山が二つ現れるので、丁寧にデータを確認すればすぐに分かります。このことに気付かなくても、モデル構築までエラーなく進んでしまうのが機械学習の怖いところです。だからこそ泥臭くデータを眺めることが大切です。

・教えることは教わること

 社会人になってから1年がたち、ありがたいことに社内外の講座に登壇する機会が増えてきました。自分では十分に分かっていたつもりでも、受講者からの質問で理解不足に気付くなど、非常に多くのことを学びました。

 特に、難しいことを分かりやすく説明するのは、本質を理解するための良い訓練になりました。人に教えることは、自分が学ぶための良い勉強法の一つだと感じました。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

  • このエントリーをはてなブックマークに追加

関連ホワイトペーパー

SpecialPR

連載

CIO
月刊 Windows 10移行の心・技・体
ITアナリストが知る日本企業の「ITの盲点」
シェアリングエコノミーの衝撃
デジタル“失敗学”
コンサルティング現場のカラクリ
Rethink Internet:インターネット再考
インシデントをもたらすヒューマンエラー
トランザクションの今昔物語
エリック松永のデジタルIQ道場
研究現場から見たAI
Fintechの正体
米ZDNet編集長Larryの独り言
大木豊成「仕事で使うアップルのトリセツ」
山本雅史「ハードから読み解くITトレンド放談」
田中克己「展望2020年のIT企業」
松岡功「一言もの申す」
松岡功「今週の明言」
内山悟志「IT部門はどこに向かうのか」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
大河原克行「エンプラ徒然」
内製化とユーザー体験の関係
「プロジェクトマネジメント」の解き方
ITは「ひみつ道具」の夢を見る
セキュリティ
セキュリティインシデント対応の現場
エンドポイントセキュリティの4つの「基礎」
企業セキュリティの歩き方
サイバーセキュリティ未来考
ネットワークセキュリティの要諦
セキュリティの論点
スペシャル
エンタープライズAIの隆盛
インシュアテックで変わる保険業界
顧客は勝手に育たない--MAツール導入の心得
「ひとり情シス」の本当のところ
ざっくり解決!SNS担当者お悩み相談室
生産性向上に効くビジネスITツール最前線
ざっくりわかるSNSマーケティング入門
課題解決のためのUI/UX
誰もが開発者になる時代 ~業務システム開発の現場を行く~
「Windows 10」法人導入の手引き
ソフトウェア開発パラダイムの進化
エンタープライズトレンド
10の事情
座談会@ZDNet
Dr.津田のクラウドトップガン対談
Gartner Symposium
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft WPC
Microsoft Connect()
HPE Discover
Oracle OpenWorld
Dell Technologies World
AWS re:Invent
AWS Summit
PTC LiveWorx
吉田行男「より賢く活用するためのOSS最新動向」
古賀政純「Dockerがもたらすビジネス変革」
中国ビジネス四方山話
ベトナムでビジネス
日本株展望
企業決算
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]