データサイエンティスト講座

統計解析ソフト「R」で取り組む回帰分析 - (page 2)

伊藤徹郎(ALBERT)

2014-07-15 07:30

 では、実際に「R」を使って回帰分析を実施してみましょう

 「R」に搭載されているデータセットの中に「airquality」というデータセットがあります。

 これは、1973年5月から9月までのニューヨークの大気状態を6つの変数で観測・記録したデータです。

 まずはデータ内容の確認をしましょう。head(airquality)というコマンドを打ってみてください。Airqualityというデータセットの上から6つを表示してくれます。


 データの内容はそれぞれ、下記の通りです。


 気が早い人は、ここですぐ回帰分析を実施しようとしてしまうのですが、いったん落ち着いて、このデータセットがどのような内容なのかを確認しましょう。

 まずは、前回にも登場したsummary関数で各変数の統計情報を眺めてみます。


 数値だけでは、なかなか直感的にわかりづらいので、可視化の回に紹介した箱ひげ図を描いてみましょう。boxplot(airquality)というコマンドを打つと、下記のような箱ひげ図が描画できます。


 それぞれの変数の単位が異なるので、一概には言えませんが、各変数のばらつきが把握できます。ここで、勘のよい方はお気づきになると思いますが、Temp(温度)の範囲が非常に大きい値を取っています。

 よく確認してみると、このデータは摂氏ではなく華氏のデータとなっていることがわかります。摂氏で言えば、おおよそ10℃から35℃くらいの範囲のデータであることがわかれば、この範囲の値をとっても問題ないことがわかります。このように分析を開始する前のデータ確認は非常に重要です。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

関連記事

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]