ひとつのデータ分析プロジェクトにおける理想的なメンバー構成としては、データ分析の目的を定め、分析プロジェクトの方向性を企画するものが1人、データ分析の統計的手法について実施・検討を担うものが1〜2人、データ分析のためのデータを作成するものが1名程度だと考える。
扱うデータの規模やその後のシステム化を視野に入れるのであれば、システム設計に明るいものや、これら多様な人材をとりまとめて各種調整を行えるものなど、さまざまなスキルセットを持つ人材が必要になってくる。しかし実際にはリソースの制約から、2人程度の人員でそれぞれの役割を分担することが多くなるだろう。現実的に2人であらゆることを担うのは不可能であるから、データ分析のスコープを明確に定義し、何がゴールであるか定めるということ、また、そのリソース不足を理解し、無理な要求を実施しない企業全体の協力も必要になってくる。
具体的なデータ分析の最初の一歩は自社にはどのようなデータがあるのか、を調べることだ。データ分析を始めるに際して、どのようなデータを持っているか、そのデータをもって何ができるか(あるいはできないか)は調べる。「どのようなデータがどこにあるか」は、システム設計書などを読めば記載されているのが理想であるが、メンテナンスされていないために実際のデータと設計書が乖離する場合や、そもそも設計書すら存在しないケースもある。
データを集めることがデータ分析の最も基本的な要素であるから、どこにどのようなデータがあるのかきちんとわかっているだけでも十分価値がある。これさえできていれば、質の悪いデータや不足するデータがあれば、クレンジングにどれだけコストを費やすかや、新しいデータをどのように取得するか方針を打ち立てることもできる。
システムとして高度なことができなくとも、利用できるデータの種類や、データ分析に必要なことを把握していると、実際にアクションを起こしやすくなる。現状を把握したうえで、徐々にシステムを育てていけばよいのである。
まとめ
データ分析に使われるデータは、従来の守りのデータと性質が異なる攻めのデータだ。この違いを理解し、データを活用できるような分析基盤を構築し、企業にとってよいデータ活用の営みを構築していくことができるだろう。
データ分析基盤では、従来のITシステムにおけるデータ活用以上にデータを自由に利用できる環境が求められる。そのためにまずは現状を理解しなければならない。専門知識を持ったメンバーを中心として、何ができるのか、あるいはできないのかを認識することが重要だ。どのようにデータを活用していけばいいか考え、アクションとして実行する。この営みを繰り返すことにより、企業におけるデータ活用は洗練されていくだろう。この営みを支えるチームの編成や企業データに対する知見を積み重ねていくことこそ、まさにデータ分析基盤を整えることになるだろう。
- 安部 晃生(あべ こうせい)DATUM STUDIO株式会社CTO兼国立研究開発法人国立成育医療研究センター共同研究員
- 国立成育医療研究センターにて、ゲノム・エピゲノム領域のデータ分析・研究に従事。その後、ウルシステムズ株式会社にて、機械学習を活用したシステムなど、開発の経験を積む。 現在、システム開発・コンサルティング・社員教育と、データ分析を軸にクライアントの価値向上に貢献している。データ分析がシステムに組み込まれ企業活動を良くする世界を実現すべく、がんばっている。 著書(共著)に『データサイエンティスト養成読本 R活用編』(技術評論社)がある。