編集部からのお知らせ
新着記事まとめPDF「IBM分社のキンドリル」
ZDNet Summit 2021開催のご案内
OSSとビッグデータアナリティクス

アナリティクスの難所“データの理解”とは - (page 2)

島田 茂(日本テラデータ)

2016-07-11 07:00

分析用データセット作成に向けた「データ整理・加工」

 次に難所を乗り越えるためのテクノロジーや基本的な注意点を挙げてみたい。

 分析用データセットを作成するには、モデル構築時に適応するモデリング手法を意識しながらデータを整理・加工を行う。主に、アナリティクスに適したデータ蓄積、データ調査、分析用データセットの作成という3つのステップを経る。

 それぞれを解説する。

1.アナリティクスに適したデータ蓄積(図2)

 OSSのHadoopやSparkの登場により、データ加工と蓄積に関しては、ETLツールを巻き込み、データ取得、加工、蓄積機能の再配置が行われている。

 従来のようにETLツールでデータ取り込むためにインターフェースを定義する必要もなく、1つのファイルを丸ごと取り込んでおき、必要な時にデータの整理・加工をすれば良い時代になった(データのレイトバインディング:遅延評価)。

 またデータ加工ツールも進化しており、ユーザーが視覚的に加工ステップを設計でき、その修正が容易なツールも登場しているため、データ収集・蓄積から分析用データセットを作るまでの作業が徐々に簡素化されている(TalendやRapidMiner、Exploratoryなど)。


図2

2.データ調査

 データ調査は、データ整理・加工の中で、最も基本的な作業である。まさにデータの理解を深めるために重要な作業と言える(図3、4)。 

図3
図3
図4
図4

 また、データを整理してきれいにする作業ということで、データ整理・加工については、“クレンジング”と言われることもある。

 これらの作業を行うOSSの事例としては、RやRapidMinerであり、プログラミング言語であれば、SQLやPythonが分析者の間では人気がある。データの意味合いを理解するために、要約統計量、1項目可視化、2項目可視化なども容易に出力できる。すでに多数の情報がネット上で公開されているので、そちらを参照されたい。

 また、予測モデルを構築するためには、様々な統計的・発見的手法があり、手法に合ったデータセットを作らなければならない。統計的手法には、線形回帰、ロジスティック回帰、k-meansクラスタリング、階層的クラスタリングなどがある。(階層的クラスタリングについては、次回解説予定)

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

特集

CIO

モバイル

セキュリティ

スペシャル

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]