つまり、回帰式は下記の通りであることがわかりました。
オゾンの量=0.06×太陽の放射の量+-3.33×風力+1.65×気温-64.34
※小数点第2位まで
さて、上記の回帰式ですが、どの程度信頼性があるのでしょうか。
それを判断する指標がR-squaredという指標です。これは得られた回帰式が実際どの程度データ全体に近いのかを示す「決定係数」(寄与率)と呼ばれ、ゼロから1までの値をとる指標です。1に近いほど説明力が高く、ゼロに近ければ回帰モデルで説明できていないと解釈することができます。Multipleは通常の決定係数で、Adjustedは自由度(変数のうち独立に選べるものの数)を調整済みの決定係数です。
より厳密に言えば、後者において評価すべきですが、前者の数値で評価しても問題ありません。今、R-squaredの値は0.6059なので、6割ほどのデータは上記の回帰式で説明できていると解釈してよいでしょう。これによって、各変数のデータが得られた場合、オゾンの量がいくらになるかを推定することができるようになります。
実際に応用してみたい場合でも、売り上げを構成する要素を変数として考え、回帰分析によって各変数の係数を推定することができます。
また、本来であれば、各変数間に非常に強い相関がないかどうかをチェックする「多重共線性」(マルチコリニアリティ)を精査したり、推定された変数の信頼区間の推定なども実行する必要がありますが、本連載ではまず実践してみることを優先しているため、今回は扱いません。より理解を深めたい方は別途、統計学の書籍などを読んで知識を深めることを推奨いたします。
次回は顧客を分類するためによく用いられるクラスター分析の概要とRでのやり方をご説明します。
- 伊藤徹郎
- 金融機関で営業からモバイル開発までの幅広く経験。その後、ALBERTにデータ分析者として参画。レコメンデーションのアルゴリズム開発やECサイト、小売りなどのCRM分析、広告分析など、幅広いデータをあつかう。Tokyo.Rなどの社外コミュニティでも活動中。