スキルの選択と育成から始めるデータ分析組織の作り方--R言語を土台に体制構築

輿石拓真 (ヴァリューズ) 2019年07月31日 07時00分

  • このエントリーをはてなブックマークに追加
  • 印刷

始めに

 昨今、データ分析組織の話題を耳にすることが多くなりました。また、機械学習やデータ分析人材の採用に積極的な企業のデータ活用事例を見る機会も増えてきました。

 一方で、社内にデータ分析のできる人材がおらず、「データの専門組織を作りたいがうまくいかない」という声も多く聞きます。企業のデータ活用の進展度合いはこのように二分されてしまっているのが現状ではないかと思います。

 私はデータマーケティングなどを手掛けるヴァリューズという会社に所属しています。大きな組織変革の真っただ中に入社したこともあり、分析チームの人員拡大や体制構築を経験しました。具体的には、オープンソースの統計解析言語「R」を共通言語としたり、それを軸に分析ツールの開発や教育プログラムの整備を進めたりするなど、分析チームの基礎作りを推進しました。

 分析チームを作っていくに当たり、1つの言語を「スキルセットの土台にした」という話はあまり耳にしません。「なぜこういった選択をしたのか」「どのように進めていったのか」「どういったメリットがあったのか」――。分析組織の組成に悩む方々へ向けて、当社の事例を紹介したいと思います。

Rを導入以前の分析チームの状況と辛さ

多岐にわたる使用ツールの乱立による非効率

 入社当時の分析チームでは各々が好きな分析ツールや解析言語を使っていました。「Rか、Pythonか」という話ではなく、ビジネスインテリジェンス(BI)ツールを使っていたり、表計算ソフトを使っていたり、エンジニア出身者はPHPを使っていたりと千差万別な状況でした。

 この状況では知識やノウハウがチーム内で共有されないという問題がありました。他の人が書いたコードの理解は難しく、相互のアドバイスも限定的になります。チーム全体で助け合えることが少ない状況でした。各々が分析作業を効率化していましたが、お互いに使うツールが異なるので、その恩恵もチーム全体で享受できません。新しいことにチャレンジしていきたい立ち上げ期の組織にとっては致命的でした。

タスクと使用ツールの不一致による非効率

 また、PHPで簡単なデータの加工処理を書いたり、ExcelやBIツールで複雑な加工をしたりと、タスクと各ツールが合っていない状況でした。データの分析にはそれに適したツールがあります。実際にあるツールでは数時間かかっていたものが、Rなどのデータ分析に適したツールを使うと数十分で終わるということも少なくありません。それ以外にも、データ分析には同じ結果をいつでも再現できることや定期的に同じ処理を繰り返す場合が多く、Excelなどのマウス操作が中心のツールは適しているとは言えません。

 このような背景からチームのスキルセットそのものからデータ分析組織に適したものへと変えていく必要性を感じ、Rの共通言語化を進めるに至りました。

なぜRを選んだのか

 データ分析に適した言語を本格的に導入しようと考えると、RかPythonかという悩みが出てきます。当社はデータ分析のアウトプットがマーケティング領域のレポートであることが多く、アドホックのデータハンドリングのしやすさと、プログラミング未経験者にとっての習得のしやすさの2点でRを選択しました。

 Rには「tidyverse」と呼ばれるデータハンドリングと可視化のために設計されたパッケージ群があり、これらを使うことでデータハンドリングのほとんどのタスクを数行のコードで記述できます。また、tidyverseのパッケージ群を使えばデータを処理する順番で上から下にコードを書いていけばよく、プログラミング初心者でもコードを書きやすい、読みやすいという特徴があります。

Rを組織に浸透させるには(プログラミング未経験者にも使えるのか)

 Rを共通言語にしていきたいという意見は上層部からもすぐ賛同を得られました。しかし、組織作りで最も大変なところは、実際、人に動いてもらうところにあると思います。特に、もともとExcelやBIツールで分析の大半を行っていたような、プログラミングの未経験者にRを浸透させることができるかどうかが肝になります。 

 前述のようにRは初学者にやさしい言語です。幾つかの工夫で当社では3~4カ月程度でRを使えるというレベルにまで上達しています。

Rの教育体制

 まずはRを使ってデータハンドリングが不自由なくできるレベルを目指し、研修を行い、知識をインプットすることから始めます。Rでは同じ操作をするのに複数のやり方が存在するため、適切な方法を選択できるようすることが肝心です。具体的には、先ほど紹介したtidyverseと呼ばれるパッケージ群に含まれる「dplyr」「tidyr」「stringr」「glue」「lubridate」というRパッケージの使い方を習得します。これらが使えれば大抵のデータハンドリングはできるようになります。

 しかし、座学での研修をやっただけではRを習得できません。研修後はRを使える人がメンターとなり、すぐに質問したり、フィードバックしたりできる環境を整えます。重要なのは、実務でRを使うハードルを下げることです。「Excelでやった方が早い」と思うと、そちらに流れてしまうものです。

 その点を意識して教育を続けたところ、当社ではプログラミング未経験者でも3~4カ月程度でRを使ったデータハンドリングができるようになっています。Rユーザーは当初2人程度でしたが、1人が3人程度のメンターを務め、徐々にRユーザーを増やしていきました。データハンドリングさえできれば、後は個人の知識レベルによって高度な分析に進むことができます。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

  • このエントリーをはてなブックマークに追加

SpecialPR

連載

CIO
教育IT“本格始動”
月刊 Windows 10移行の心・技・体
ITアナリストが知る日本企業の「ITの盲点」
シェアリングエコノミーの衝撃
デジタル“失敗学”
コンサルティング現場のカラクリ
Rethink Internet:インターネット再考
インシデントをもたらすヒューマンエラー
トランザクションの今昔物語
エリック松永のデジタルIQ道場
研究現場から見たAI
Fintechの正体
米ZDNet編集長Larryの独り言
大木豊成「仕事で使うアップルのトリセツ」
山本雅史「ハードから読み解くITトレンド放談」
田中克己「展望2020年のIT企業」
松岡功「一言もの申す」
松岡功「今週の明言」
内山悟志「IT部門はどこに向かうのか」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
大河原克行「エンプラ徒然」
内製化とユーザー体験の関係
「プロジェクトマネジメント」の解き方
ITは「ひみつ道具」の夢を見る
セキュリティ
セキュリティインシデント対応の現場
エンドポイントセキュリティの4つの「基礎」
企業セキュリティの歩き方
サイバーセキュリティ未来考
ネットワークセキュリティの要諦
セキュリティの論点
スペシャル
エンタープライズAIの隆盛
インシュアテックで変わる保険業界
顧客は勝手に育たない--MAツール導入の心得
「ひとり情シス」の本当のところ
ざっくり解決!SNS担当者お悩み相談室
生産性向上に効くビジネスITツール最前線
ざっくりわかるSNSマーケティング入門
課題解決のためのUI/UX
誰もが開発者になる時代 ~業務システム開発の現場を行く~
「Windows 10」法人導入の手引き
ソフトウェア開発パラダイムの進化
エンタープライズトレンド
10の事情
座談会@ZDNet
Dr.津田のクラウドトップガン対談
Gartner Symposium
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft Inspire
Microsoft Connect()
HPE Discover
Oracle OpenWorld
Dell Technologies World
AWS re:Invent
AWS Summit
PTC LiveWorx
吉田行男「より賢く活用するためのOSS最新動向」
古賀政純「Dockerがもたらすビジネス変革」
中国ビジネス四方山話
ベトナムでビジネス
日本株展望
企業決算
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]