統計解析において、正規性と等分散性の確認は重要なステップです。これらの前提が満たされているかどうかによって、使用するべき統計手法が異なるためです。この記事では、Rを使用して正規性と等分散性を確認する方法について説明します。
正規性の確認
正規性を確認するためには、shapiro.test()
関数を使用します。Shapiro-Wilk検定は、小規模なサンプルで正規性を確認するために有効な検定方法です。
# データの準備
data <- rnorm(100)
# Shapiro-Wilk検定
shapiro.test(data)
この検定で得られるp値が0.05以上であれば、データは正規分布に従うと判断されます。
等分散性の確認
等分散性を確認するためには、bartlett.test()
、leveneTest()
、そしてvar.test()
(F検定)を使用します。
Bartlett検定
Bartlett検定は、データが正規分布に従う場合に有効です。等分散性を確認するために一般的に使用されます。
# データの準備
group <- gl(2, 50, labels = c("Group1", "Group2"))
values <- c(rnorm(50), rnorm(50, mean = 1))
# Bartlett検定
bartlett.test(values ~ group)
Levene検定
Levene検定は、Bartlett検定に比べて正規性の仮定が緩やかで、データが非正規分布であっても等分散性を検証できる点で有用です。
# Levene検定
library(car)
leveneTest(values ~ group)
F検定
F検定は、2つのグループの分散を比較するための検定です。正規性の仮定が満たされている場合に適しています。
# F検定
var.test(values[group == "Group1"], values[group == "Group2"])
Bartlett検定やLevene検定と同様、これらの検定で得られるp値が0.05以上であれば、等分散性があると判断されます。
まとめ
正規性と等分散性の確認は、適切な統計手法を選択する上で欠かせないステップです。Rを使用すれば、これらの確認を簡単に行うことができますので、データ解析の前に必ず実施するようにしましょう。