データアナリスト
事業部門のエンドユーザーと連携して、その事業に必要な分析レポートの種類を定義し、必要なデータの取得、モデル化、準備、整理を行う人物。このデータに関する分析レポートを作成して、事業部門ユーザーがそれを基に行動できるようにすることが目的だ。
データアナリティクス
ソフトウェアベースのクエリとアルゴリズムによってデータを検証すること。その情報について結論を出し、企業が意思決定を下すために行う。
データガバナンス
データの可用性、有用性、品質、完全性、安全性を担保するために定義された一連のデータ管理ポリシーおよび手法。
データマイニング
データの有意義なパターンや関係性を見つけ出すために、データを「採掘」(マイニング)、つまり調査する分析プロセス。
データリポジトリ
データを一元的に格納する領域。
データサイエンティスト
コンピュータサイエンス、数学、統計学、データ視覚化の専門家で、極めて難解な問題を解決するために、複雑なアルゴリズムやデータモデルを開発する。
ETL(抽出、変換、ロード)
ETLによって、1つのデータベースから別のデータベースにデータを移すことができる。具体的には、元の保存場所であるデータベースからデータを抽出し、移動先のデータベースで使用可能なフォーマットに変換した後、変換済みのデータを移動先のデータベースにロードする。ETLプロセスを利用することで、さまざまなデータ保存場所からデータを出し入れして、データの新しい組み合わせを作成し、分析クエリやレポートに利用することができる。
「Hadoop」
The Apache Software Foundationが管理するバッチ処理ソフトウェアフレームワーク。複数のコンピュータクラスタにわたって大規模データセットの分散処理を可能にする。
「HANA」
ソフトウェアとハードウェアを組み合わせたSAPのインメモリコンピューティングプラットフォーム。大量のトランザクションやリアルタイム分析を処理するために設計された。
レガシーシステム
企業にとっての価値が高いため、昔から使用され続けているコンピュータシステム、アプリケーション、テクノロジのこと。
「MapReduce」
データ分析の問題を小さな単位に分割した後、同一ネットワークまたはクラスタ上の複数のコンピュータ、あるいは別のシステム(場合によっては地理的に離れた場所にあるシステム)のグリッドに配置、分散するビッグデータバッチ処理フレームワーク。このデータに対して実行されるデータアナリティクスの結果は後で収集され、蒸留された、つまり「縮小」されたレポートにまとめられる。
System of Record(SoR)データ
通常は固定レコード長で、データレコードの少なくとも1つのフィールドがデータキーまたはアクセスフィールドとして使用されるデータのこと。入力される注文、出荷される部品、送付される請求書、顧客の住所氏名の記録といった企業のトランザクションファイルは、SoRデータで構成されている。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。