データ分析では、2つのグループ間の差を比較することがよくあります。この際、データの性質に応じてパラメトリック検定(正規性を仮定した検定)またはノンパラメトリック検定(正規性を仮定しない検定)を選択することが重要です。この記事では、Rを用いて二群の比較を行うためのパラメトリック検定とノンパラメトリック検定の方法を紹介します。
1. パラメトリック検定: t検定
パラメトリック検定では、データが正規分布に従うと仮定します。二群の平均を比較するために最も一般的に用いられる方法がt検定です。
1.1 対応のないt検定
対応のないt検定は、2つの独立したグループ間の平均を比較する際に使用します。
# データの作成
group1 <- rnorm(50, mean = 5)
group2 <- rnorm(50, mean = 6)
# 対応のないt検定
t.test(group1, group2, var.equal = TRUE)
1.2 対応のあるt検定
対応のあるt検定は、同一のサンプルに対して2回の測定を行った場合など、ペアとなるデータを比較する際に使用します。
# データの作成
before <- rnorm(50, mean = 5)
after <- before + rnorm(50, mean = 1)
# 対応のあるt検定
t.test(before, after, paired = TRUE)
2. ノンパラメトリック検定: Mann-Whitney U検定とWilcoxonの符号順位検定
データが正規分布に従わない場合は、ノンパラメトリック検定を使用します。
2.1 Mann-Whitney U検定(Wilcoxonの順位和検定)
これは、2つの独立したグループの中央値を比較するために使用されます。正規性が仮定されないため、t検定の代わりとして使用されます。
# Mann-Whitney U検定
wilcox.test(group1, group2)
2.2 Wilcoxonの符号順位検定
これは、ペアとなるデータの中央値を比較するために使用され、対応のあるt検定のノンパラメトリック版です。
# Wilcoxonの符号順位検定
wilcox.test(before, after, paired = TRUE)
まとめ
二群の比較には、データの性質に応じてパラメトリック検定またはノンパラメトリック検定を使用します。データが正規分布に従う場合はt検定を、正規分布に従わない場合はMann-Whitney U検定やWilcoxonの符号順位検定を選択しましょう。