Rでは、データセット内の全ての数値変数に対して、相関係数を一括で計算し、確認することができます。この記事では、cor()
関数を使った基本的な相関行列の作成方法や、ggplot2
やcorrplot
パッケージを使用して、相関行列を可視化する方法を紹介します。
1. 相関行列の作成
まず、データセットに含まれるすべての数値変数間の相関係数を計算するために、cor()
関数を使います。
# データの準備
data(mtcars)
# 相関行列の作成
cor_matrix <- cor(mtcars)
# 結果を表示
print(cor_matrix)
上記のコードでは、mtcars
データセットを使用して、全ての変数の
# 相関行列をデータフレームに変換
melted_cor_matrix <- melt(cor_matrix)
# ggplot2でヒートマップを作成
library(ggplot2)
ggplot(data = melted_cor_matrix, aes(x = Var1, y = Var2, fill = value)) +
geom_tile() +
scale_fill_gradient2(low = "blue", high = "red", mid = "white",
midpoint = 0, limit = c(-1, 1), space = "Lab",
name="相関係数") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust = 1)) +
coord_fixed()
このコードでは、相関行列をヒートマップとして視覚化し、各変数間の相関係数の強さを色で表しています。相関が高い(正の相関)は赤、低い(負の相関)は青で表示されます。
2.2 corrplot
パッケージを使った相関行列の可視化
corrplot
パッケージは、相関行列の可視化に特化したツールです。以下のコードで、相関行列を円形グラフで表示することができます。
# corrplotパッケージのインストールと読み込み
install.packages("corrplot")
library(corrplot)
# corrplotで相関行列を可視化
corrplot(cor_matrix, method = "circle")
このコードでは、相関係数の大小に応じて円の大きさと色を変えて表示します。直感的に相関関係を把握することができる便利なツールです。
3. 特定の変数間の相関を確認
すべての変数間の相関だけでなく、特定の変数間の相関を確認することも可能です。例えば、wt
(重量)とmpg
(燃費)の相関係数を求める方法を以下に示します。
# 特定の変数間の相関を計算
cor(mtcars$wt, mtcars$mpg)
上記のコードは、wt
とmpg
の相関係数を計算して出力します。
まとめ
Rを使用すると、簡単にデータセット内のすべての変数間の相関係数を計算し、可視化することができます。cor()
関数で相関行列を生成し、ggplot2
やcorrplot
で視覚的に理解しやすい形式に変換することで、データの関係性をより明確に把握することが可能です。
コメント