OSSとビッグデータアナリティクス

アナリティクスの難所“データの理解”とは - (page 3)

島田 茂(日本テラデータ)

2016-07-11 07:00

3.分析用データセットの作成

 分析用データセットの作成について、下の図5で説明する。例えば、線形回帰モデルを適用する場合、目的変数Yと説明変数A、B、C、D、Eに対応するデータを集約したTABLEを作成することになる。これを分析用データセットと言う。

図5
図5

 線形回帰モデルを例にとると、分析用データセットは、単純な変数候補一覧TABLEに見えるが、何でも説明変数に採用していいというものでもない(線形回帰モデルであれば、多重共線性に注意するなど)。このように手法によって理論を適用する際に制約条件があり、上記のイメージには見えない注意点や工夫が必要である。

最後に

 今回は、データ整理・加工についての基本的なステップと注意点をご紹介した。

 これまでのポイントを再掲すると、データを使って何がしたいのか(アナリティクスの目的:構造化仮説と予測モデル)、対象課題をアナリティクスで解決するためにデータがあるのかないのか(データ収集、データ整理・加工)、入手できないデータがある場合、それをどう補うのか、例えば、代替となるデータはあるかないか(再度、データ収集)、そろえたデータがお互いにどんな関係性にあるのか(関係性の探索)など。

 アナリティクスの難所を乗り越えるためには、兎にも角にも、常にデータと向き合うことが必要である。

 データ整理・加工と関係性探索については、構築するモデルと適用する手法によって難易度が変わるため、その検証に使われる時間や工数は当然ながら変化し、工数の予測はとても難しい。

 残念ながら、上記で述べたデータの由来や意味合いを理解せずに簡単な操作で分析できてしまう夢のようなツールは存在しないのが現実である。

 次回は、モデル構築における手法をさらに掘り下げつつ、最も知恵と経験が必要となる「アナリティクスにおけるデータモデル」について考察し、「要素の関係性探索(特にモデル構築)」と「シミュレーション」について紹介する。

島田 茂
日本テラデータ プロフェッショナル・サービス本部 ビッグデータ分析ラボ 部長
プロフェッショナル・サービス本部ビッグデータ分析ラボを統括。過去には、先進ITソリューション・製品の研究開発を大手IT会社にて国内および国外(主に米国・英国)の研究所で従事。その後、グローバル企業における日本法人の営業経験を通じて、経営に興味が高まりOSSを普及させるベンチャー企業を設立。テラデータの新たなチャレンジに魅せられ日本テラデータに入社、ビッグデータ分析ラボ(通称BAL:バル)を立上げ、今に至る。島田氏のほか、共著者は次の3人。日本テラデータ ソリューション・セールス・スペシャリスト 長谷川 亮氏、プロフェッショナル・サービス本部 ビッグデータ分析ラボ コンサルタント 片瀬 友英氏、同コンサルタント 樫下 茂氏。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]