AI導入--機械学習で事業価値を生み出すデータとは - (page 2)

田中耕太郎

2017-05-22 07:00

機械学習の基本はパターン認識

 「機械学習をさせる」とは一体どういうことでしょうか。機械学習は、ほぼ同義語として「パターン認識」と呼ばれることがあります。学習からアウトプットまでの流れは、概ね以下のようになります。

 『(1)膨大なパターンを学習することにより、(2) 新しいインプット・データに対して、(3) 学習から導かれたモデルを利用し、(4)最も妥当なものをアウトプットする』

 上記を分解し、要素ごとに簡単な解説をします。(1)では実際に観測されたデータ(学習データ)を使用し、パターンを学習させます。この作業は「モデル作成」などと呼ばれます。(2)では予測に使用するデータを入力します。(3)では学習済みのモデルにインプットされたデータを当てはめます。(4)では予測結果をアウトプットとして出力します。

 モデル作成のための手法はさまざまなものが提案されており、最近は入門者向けの書籍も多く刊行されています。また、PythonやRといった言語で、機械学習アルゴリズムに特化したライブラリも活発に開発が続けられています。

 そのため、具体的な理論や数式を活用したアルゴリズム、実装方法についての説明は書籍などに譲り、本稿ではデータを中心にして説明します。


提供:iStock

「前処理」は、データを知るところから

 事業やサービスを運営していると、さまざまなデータを取得することができます。そのようなデータの中から目的変数や説明変数として用いるものを決めたら、学習に適した形に変換・加工します。

 この工程は一般的に「前処理」と呼ばれます。前処理は非常に地味な作業ながら、予測精度を左右する重要な工程です。特に、アルゴリズムを独自に開発しないような場合は、実験や開発の時間の大きな部分を占めます。

 前処理はデータを知るところから始まります。次ページに利用するデータについて確認すべき事項を列挙しました。これらの事項は一般的なデータ分析のみならず、機械学習においてもデータの正しい解釈や活用をする上で有効です。

 データを正しく知るというプロセスを踏まえ、実際の学習データを作り込んでいきます。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]