相関係数は、2つの変数間の関係性を数値で表す統計指標です。Rでは、cor()
関数を使用して簡単に相関係数を計算することができます。この記事では、cor()
関数の基本的な使い方を解説し、特定の変数間や全ての変数間の相関係数を確認する方法を紹介します。
1. 基本的な相関係数の計算方法
相関係数を計算するために、cor()
関数を使います。以下の例では、mtcars
データセットのmpg
(燃費)とwt
(重量)の間の相関係数を計算します。
# データの準備
data(mtcars)
# mpg(燃費)とwt(重量)の相関係数を計算
cor(mtcars$mpg, mtcars$wt)
このコードでは、mpg
とwt
の相関係数を計算し、その結果が表示されます。相関係数は-1から1の範囲を取り、1に近いほど正の相関、-1に近いほど負の相関があります。
2. ピアソン、スピアマン、ケンドールの相関係数
Rのcor()
関数では、以下の3種類の相関係数を計算することができます。
- ピアソン相関係数(デフォルト)
- スピアマン順位相関係数(非線形の関係に対応)
- ケンドールの順位相関係数(非線形データに強い)
以下のように、method
オプションを使って相関係数の種類を指定できます。
# ピアソン相関係数
cor(mtcars$mpg, mtcars$wt, method = "pearson")
# スピアマン順位相関係数
cor(mtcars$mpg, mtcars$wt, method = "spearman")
# ケンドールの順位相関係数
cor(mtcars$mpg, mtcars$wt, method = "kendall")
デフォルトではピアソン相関係数が計算されますが、非線形なデータや異なるスケールのデータを扱う場合は、スピアマンやケンドールを使用する方が適しています。
まとめ
この記事では、Rで相関係数を計算する方法を紹介しました。cor()
関数を使って、特定の変数間の相関や、データセット全体の相関行列を簡単に確認できます。さらに、ggplot2
を使って相関行列を可視化することで、データの関係性を直感的に理解することが可能です。
コメント