2段階検定についての統計の教科書の記述

はじめに

2つの群の平均値の差を検定するときにはt検定がよく使われます。このとき2つの群の分散が異なるときに普通のt検定を行うとタイプIエラーを犯す可能性が大きくなりますが,Welchのt検定を使うとそれをコントロールすることができます。

等分散の仮定を違反したときに,どの程度悪いことが起きるのか,そしてWelchの方法を使うとどの程度それがコントロールできるかについては青木先生の次のシミュレーションが大変参考になります。

統計学のテキストの中には,2つの群の等分散の判断にF検定など分散に関する検定を用いて,その結果をもとに普通のt検定を行うかWelchのt検定を用いるかを判断するべし,という記述があったりします。ここではこれを便宜的に2段階検定法と呼びますが,この2段階検定法の問題点は様々なところで指摘されています。井口先生の次のサイトがかなり詳しく書いています。

また,奥村先生の次の簡易的なシミュレーションも参考になります。

ところで,統計解析のテキストはこの問題についてどう書いているのかふと気になりましたので,以下調べてみた記録を以下に残しておきます(手元にあったもののみですが)。

芝・南風原(1990)『行動科学における統計解析法』

2段階検定を推奨している訳ではないですが,そういう手法をとることがあると紹介しています(pp.108-9)。

ところで,ここで述べた検定法を適用するときは,2群の母集団分散が等しいという仮定が妥当であるかどうかを,実際に得られた標本分散を用いて確認する必要がある。その際,2群の母集団分散に関する仮説$H_0:\sigma_1 ^2 =\sigma_2 ^2$の検定を利用することがある。この仮説が棄却されない場合でも,それが等分散を証明することにはならないが,その仮定が消極的ながら指示されたとみなすのである。

母分散が等しいという帰無仮説を棄却できなかったからといって,それをもって等分散の証明にならないと明示しているのは親切ですね。

森・吉田(1990)『心理学のためのデータ解析テクニカルブック』

以下の記述(p.62)のように2段階検定を推奨しています。

2つの条件の平均値の差について検定を行うためには,2条件の分散が等質であるという前提条件が満たされていなければならない。そこで,まず,この条件が満たされているかどうか調べておこう。これにはF検定を行えばよい。

宮埜(1993)『心理学のためのデータ解析法』

Welchの方法についての紹介はなく普通のt検定のみの解説ですが,等分散性の仮定についての以下のような補足があります。

実データでは正規性および等分散性の家庭は必ずしも満足されない。しかし,正規性については標本の大きさが15以上ならば満足されなくても検定結果はあまり変わらない。また,等分散性についても分散比が0.4から2.5の範囲にある場合や$n_1 = n_2$である場合にはあまり結果に影響しないことが知られている。

等分散性についてのこの性質が誰の何の研究に基づいているのかは分からないのですが,巻末にいくつか参考にした文献が挙げられており,そのいずれかにこの記述があるのだと思われます。手元にその文献はないため確認できていませんが。

吉田(1998)『本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本』

「対応のない場合のt検定を適用する際の前提条件」というコラム(?)のようなものがあり(p.191)そこには以下のように書いてあります。

②両条件の母集団の分散(ないし,標準偏差)が等しいこと。ただし,これも実際には得られたデータの分散が条件間で大きく異らなければよしとします。そして,両条件の分散に顕著な差が認められた場合には,この章の3節で解説するU検定や,ウェルチ(Welch)の検定,コクラン・コックス(Cochran-Cox)の検定などの他の検定を用います。

コラムの中では分散の異なりの判定については述べていませんが,注には,「2つの条件の分散の差の検定については森・吉田(1990)のF検定の部分を見るように書いているので2段階検定を推奨しているようです。

山田・杉澤・村井(2008)『Rによるやさしい統計学』

t検定に関する章の中で,等分散性の検定を行うように書いています。まとめの段落では以下のように書かれているので,2段階検定が推奨されています(p.150)。

ここまでの内容を整理しておきましょう。まず,var.test関数を実行して分散の等質性をチェックします。その結果,等分散の仮定が満たされていたら独立な2群のt検定(t.test(クラスA,クラスB,var.equal=TRUE))を,そうでなかったらWelchの検定(t.test(クラスA, クラスB,var.equal=FALSE))を行うということです。

宮川(2015)『基本統計学(第4版)』

Welchの方法についての記載はなく,p.267の注で以下のように書いています。

$\sigma_1 ^2 \neq \sigma_2 ^2 $ のときの検定方法もあるが,それは本書では扱わない。なお, $\sigma_1 ^2 = \sigma_2 ^2 $としてよいかどうかは,後述(9.7節,275-277ページ)の検定方により調べることができる。

pp.275-277で紹介されるのはF検定なので,2段階推定を紹介しているようです。

英語の統計のテキストというのはあまり持っていないのですが,いくつか手元にあったもので調べてみました。

Howell (2010) Statistical Methods for Psychology(7th ed.)

等分散の仮定が違反された場合には,Welch-を使えと書いており,等分散のチェックにはLeveneの方法を使えと書いてあり,2段階検定を推奨しています(pp.214-215)。なお等分散の検定にF検定を使うのは,データの非正規性の影響を強く受けるので採用しないとのことです。

Field, Miles, & Field (2012) Discovering statistics using R

p.373で分散の等分散性についてコラムがあります。そこでは,

[S]tatisticians used to recommend testing for it[homogeneity of variance] (using Levene’s test) and if the assumption was violated, use an adjustment to correct for it. However, more recently statisticians have stopped using this approach, for two reasons. First, violating this assumption only matters if you have unequal group sizes; if you don’t have unequal group sizes, the assumption is pretty much irrelevant and can be ignored. Second, the tests of homogeneity of variance tend to work very well when you have equal group sizes and large samples (when it doesn’t matter as much if you have violated the assumption) and don’t work as well with unequal group sizes and smaller samples - which is exactly when it matters.

のように書いてあり,2段階検定が使われなくなったことを指摘しています。その後,Welchの方法を使えば気にしないで済むと書いてあります。

その後のソフトウェアの使い方の解説部分でも,関数の等分散のオプションについて以下のように言っています。

If for some reason you want to assume equal variances (we can’t think why you would), then include the option var.equal = TRUE.

Herzog, Francis, & Clarke (2019) Understandig Statistics and Experimental Design

4.4節で,t検定の各種の仮定の違反が紹介されて,その中で母集団分散が異なる場合について説明されています(p.57)。そこでは分散が異なる場合にタイプIエラーがどの程度増えるのかについての簡単なシミュレーションが紹介されています。分散が異なる場合の対処法については,以下のように書いてありますが,Welchの方法で検定力が下がる場合もあると書いています。等分散性の判断についての記述はありません。

These problems can be addressed by using a variation of the t -test called the Welch test. However, there is a cost; if the population standard deviations are actually equal, then the Welch test has smaller power than the standard t -test (it is less likely to reject the null hypothesis when there really is a difference).

Leppink (2019)Statistical Methods for Experimental Research in Education and Psychology

p.28で等分散性の問題を扱っています。多くの研究者が(正規性)と等分散性の検定をしてからt検定を行うとしつつもその問題点を指摘しています。

Many researchers test both the normally distributed population and equal SDs assumptions through statistical significance tests (e.g., Fasano & Francheschini, 1987; Justel, Peña, & Zamar, 1997; Levene, 1960; Shapiro & Wilk, 1965; Smirnov, 1948; Stephens, 1974). However, this approach is not without problems.

問題点は3つあるとしていて,1つ目が,等分散の検定が非有意だからといってそれが等分散の証拠にはならないこと,2つ目は検定結果はサンプルサイズに依存すること,3点目は問題点という訳ではないようですが,研究者はいつでも普通のt検定とWelchの検定の結果を両方報告できる(のだから両方報告すれば良い,と解釈すればよいのかな?)としています。