最近、巷ではビッグデータやデータサイエンティストという言葉をよく目にします。2013年7月16日には一般社団法人データサイエンティスト協会が発足し、データサイエンティストに必要となるスキルや知識を定義し、育成カリキュラムを作成するなど、高度IT人材の育成と業界の発展に向けた活動も展開しています。
しかし、期待の大きさからか求められるスキルレベルは非常に高く、Hadoopなどのインフラ技術から統計・機械学習などの専門知識、コンサルティング能力までを求められるケースが多く、なかなか担い手が増加していないのが現情です。
高度な分析を実施するのであればプログラミングや数学などの知識を避けることはできません。本連載では、一般のビジネスマンがデータを分析し、ビジネス上で意思決定する上で、大事なことや身に着けるべきスキル、考え方などを伝えます。
データ分析とは何か
データサイエンティストに求められる要件として、データ分析は欠かせません。
しかし騒がれているものの、企業は実データを公開することはありませんし、実際にデータ分析について何をどのようにすべきかという話があまりされていないのも事実です。すぐにプログラミング言語におけるデータ処理の仕方や、機械学習、統計手法などの具体的な話が展開されることが多いでしょう。
そこで、まずはデータ分析の概論の説明からします。
ITの進歩により日々膨大なデータが生み出され、蓄積されています。ウェブサイトのアクセスデータや購買データ、会員データなどその種類もさまざまですが、企業活動によって生じるデータ蓄積のため、非常に重要な知見が埋もれていると考えることが一般的でしょう。しかし、いくらデータを蓄積しても、データを分析し、そこから得られた知見より意思決定をしなければまったく意味がありません。
データ分析とは、何らかの目的をもって表現された文字や記号、数値などを収集し、分類、整理、成型、取捨選択をしたうえで解釈し、価値のある意味を見出すことです。そのため、ものごとを分析するにあたり、出てきた結果が目的に沿ったものであるかどうかの適切な判断が求められます。そのためには「分析しようとする問題」「分析手法」「分析結果」の3つを理解する必要があります。