一般社団法人Pythonエンジニア育成推進協会はコラム「第16回「scikit-learnの使い方(2)カテゴリ変数のエンコーディングと特徴量の正規化」」を公開しました。
###
こんにちは、小澤です。
今回も引き続き、「scikit-learn」における前処理について解説していきます。今回は、機械学習モデルの性能に大きな影響を与える2つの前処理として、「カテゴリ変数のエンコーディング」と「特徴量の正規化」を取り上げ、それぞれの実装方法と活用方法について説明します。
なお、教科書『Pythonによる新しいデータ分析の教科書(第2版)』では、4.4.1章「前処理」(217〜225ページ)の箇所です。
カテゴリ変数のエンコーディング
機械学習アルゴリズムは数値データを前提として動作するため、文字列などのカテゴリ変数は数値データに変換する必要があります。カテゴリ変数とは、性別、血液型、職業など、限られた種類の値をとる変数のことを指します。このようなカテゴリ変数を機械学習で扱えるようにするため、数値データへの変換プロセスが必要となります。この変換プロセスを「カテゴリ変数のエンコーディング」と呼び、scikit-learnでは以下の手法を利用できます。
この続きは以下をご覧ください
(リンク »)
こんにちは、小澤です。
今回も引き続き、「scikit-learn」における前処理について解説していきます。今回は、機械学習モデルの性能に大きな影響を与える2つの前処理として、「カテゴリ変数のエンコーディング」と「特徴量の正規化」を取り上げ、それぞれの実装方法と活用方法について説明します。
なお、教科書『Pythonによる新しいデータ分析の教科書(第2版)』では、4.4.1章「前処理」(217〜225ページ)の箇所です。
カテゴリ変数のエンコーディング
機械学習アルゴリズムは数値データを前提として動作するため、文字列などのカテゴリ変数は数値データに変換する必要があります。カテゴリ変数とは、性別、血液型、職業など、限られた種類の値をとる変数のことを指します。このようなカテゴリ変数を機械学習で扱えるようにするため、数値データへの変換プロセスが必要となります。この変換プロセスを「カテゴリ変数のエンコーディング」と呼び、scikit-learnでは以下の手法を利用できます。
この続きは以下をご覧ください
(リンク »)
本プレスリリースは発表元企業よりご投稿いただいた情報を掲載しております。
お問い合わせにつきましては発表元企業までお願いいたします。
お問い合わせにつきましては発表元企業までお願いいたします。

