fixedpoint.jp - 仮説検定において多重比較するとどのくらいまずいのか (2019-06-25)

統計解析で仮説検定を行う際、多重比較の問題に注意が必要です。例えば、(ある一定の仮定の下で)2つのグループで平均に差があるかどうかを2標本t検定で判断できるとしても、3つ以上のグループのいずれかで平均に差があるかを判断するためにこの検定を繰り返し行うと多重比較となってしまいます。つまり、仮に{X, Y, Z}というちょうど3つのグループがある場合、X-Y間を比較するためにt検定、Y-Z間を比較するためにまたt検定、Z-X間を比較するためにさらにt検定という形に繰り返し、3つの組み合わせのいずれかで有意差が出たら有意とするという検定を行うと、各t検定で設定していた有意水準よりも第I種の過誤率が高くなってしまいます。このため、3つ以上のグループ間でどこかに平均の差があるかどうかを判断するには、一元配置分散分析(One-way ANOVA)などがより適切とされます。

それにしても、多重比較することで実際にどのくらい第I種の過誤率が高くなるのでしょうか？モンテカルロ法を用いて、上のような多重比較による検定の有意水準を推定できます。具体的には、次のようなRのコードで計算をしてみます:

f <- function(n, mu, sigma, alpha) {
    df <- data.frame(x = rnorm(n, mu, sigma), y = rnorm(n, mu, sigma), z = rnorm(n, mu, sigma))
    txy <- t.test(df$x, df$y, conf.level = 1-alpha)
    tyz <- t.test(df$y, df$z, conf.level = 1-alpha)
    tzx <- t.test(df$z, df$x, conf.level = 1-alpha)
    txy$p.value < alpha || tyz$p.value < alpha || tzx$p.value < alpha
}

N <- 10000

Nf <- sum(replicate(N, f(100, 10, 5, 0.05)))
Ef <- as.double(Nf)/N

上記の関数fは、帰無仮説のとおりに同じ正規母集団(平均mu、標準偏差sigma)からデータをn個サンプルし、有意水準alphaの(両側)2標本t検定を繰り返し3つの組み合わせで多重比較し、いずれかの組で有意差が出たらTRUEを返します。パラメータの1つである標準偏差が5という値をとることが分かっていると仮定し、共通の平均を仮に10としています。そして帰無仮説の下で、3つのグループそれぞれについて100サンプルずつ得て、各t検定での有意水準を0.05として多重比較の検定を10000回で実行します。このうちfがTRUEを返した回数がNfであり、Efが推定された第I種の過誤率、すなわち多重比較による検定の有意水準の推定値となります。疑似乱数によりますが、Efは0.12程度になります。

以上のような方法で、多重比較によって第I種の過誤が生じる可能性がどのくらい高くなるのかの見当がつきます。