2群の平均値差の効果量について

授業準備の関係の調べ物の記録。

2群の平均値差の効果量でよく使われるのはdやらgやらだけど,定義式と記号の使い方に混乱があってけっこうややこしい。

Cohen (1988)の記述

2群の平均値差の効果量の指標としてのdはp.20の2.2.1式で次の様に定義される(Cohenの本ではイタリックはボールド体,以下同じ)。

$$ d = \frac{m_A - m_B}{\sigma} $$

ここで$m_A, m_B$は各群の母平均,$\sigma$は母集団の標準偏差である。 この後,色々な分野での検出力の計算の例が続いている。

この式の分母の標準偏差について標本から計算する推定値が登場するのはp.66である。

[W]e redefine our ES index, d, so that its elements are sample results, rather than population parameters, and call it $d_s$.

と述べて2.5.1式で

$$ d_s = \frac{\bar{X}_A - \bar{X}_B}{s} $$ として定義している。 $\bar{X}_A, \bar{X}_B$は各群の標本平均で$s$はプールした母集団標準偏差の推定値でありp.67の2.5.2式で

$$ s = \sqrt{\frac{\sum(X_A - \bar{X}_A) + \sum(X_B - \bar{X}_B)}{n_A + n_B - 2}} $$ と定義されている。

2.5.1式についた注には次のように書かれている。

It has been shown by Hedges (1981) and Kraemer (1983), in the context ofthe use of $d_s$ in meta-analysis that the absolute value of $d_s$ is positively biased by a factor of approximately (4df - 1)/(4df - 4), which is of little consequence except for small samples. However, because the relationships with $t$ given below are purely algebraic, this in no way affects its use in significance testing.

ここで混乱しないために押さえておくべきポイントは,Cohen(1988)は標本統計量としてdを計算するときにはプールした標準偏差の推定量に$n_A + n_B - 2$で割るものを用いていることだろう。

石井他(2013)の記述

教育心理学会のチュートリアルセミナー。 その話題提供で岡田先生は,標本効果量の名称について次のように書いている。

$\delta$は母集団における効果量であり,実際には標本から推定する必要がある。この目的から,Cohenの$d$やHedgesの$g$など,いくつかの標本効果量が知られている。ただし,これらの標本効果量の指標には名称の混乱も見られる。ここでは McGrath & Meyer(2006)など現在の心理学研究における多数派の記述に従い,標本平均の差をプールした標本分散(分母が $n_1 + n_2$; ただし$n_1$と$n_2$はそれぞれ第1群と第2群の標本サイズ)の正の平方根で割り算した標本効果量をCohenの$d$,同じくプールした不偏分散(分母が$n_1 + n_2 - 2$)の正の平方根で割り算した標本効果量をHedgesの$g$と呼ぶことにした。(p.235)

McGrath & Meyer (2006)の記述

岡田先生が引用していた文献を見てみる。 使われる記号に混乱があるとの指摘。

The standardized mean difference actually encompasses a set of related statistics, the presentation of which is unfortunately complicated by discrepancies in the symbols used by different authors. (p.387)

各著者が色々な記号を当てているのはp.388のTable 1にまとまっている。 過去の5つの研究の記号の用法をまとめながら,著者らは母集団のパラメータに$\delta$,$N$で割って求めた標本のプールした標準偏差を$d$,$N-2$で割って求めた標本のプールした標準偏差を$g$,それらのバイアスを修正した推定量を$\hat{\delta}$を推奨(Recommended)としている。

ここで$\hat{\delta}$は,gを$N-2$で割るほうの標準化平均値差として次のように定義されている。

$$ \hat{\delta} = \frac{g(N - 3)}{N - 2.25} $$

これはCohen (1988)の注にも書いてあるようにgには (4df - 1)/(4df - 4)だけポジティブにバイアスがかかるのでその逆数をとって補正に用いたものである。 dfにN-2を入れて整理すれば上の式の修正項になる。 この補正式はHunter & Schmidt (2004)に提案されたシンプルな式である。

ガンマ関数を用いたやや複雑な近似はHedges(1981)が提案している。 なお読んでいないのだがHedges & Olkin (1985)はMcGrath & Meyer(2006)のTable 1によれば,バイアスを修正したこの統計量にdの記号を当てているみたいである。 だいぶ混沌としている。

注意が必要な点はTable 1を見ると,先ほどの教育心理学会のチュートリアルセミナーでCohen’s dと呼ばれている標本統計量をCohen自身は使っていないことだろう。 なおこのことは南風原(2014)も指摘している。

大久保・岡田(2012)の記述

大久保・岡田(2012, pp.62–64)では名称の混乱について解説していて,他の教科書が標準化効果量についてどのような記号を当てているかも紹介している。

いくつかポイントとなるような点を引用してみる。

もっとも安心して使える用語はHedgesのgで,この用語が(3.17)式[n1+n2-2で割ったほうの式,引用者注]の量以外の統計量を指すことはまずありません。(p.62)

ここの指摘は統計の教科書とかでではそうなのかもしれないが,後に示すようにRのパッケージの関数名について言えば,あまり安心できないのかもしれない(Hedgesのgや単にgという名前はバイアス修正した計算式にあてられることが多いため)。

このような混乱がありますので,たとえば単に「Cohenのdを算出した」と書くだけではその算出法がどんな文脈をみても一意に定まるとは言えないのが現状です。したがって,どのようにしてその「Cohenのd」をの[ママ]値を計算したのかを示すため,論文などでは効果量の式の出典となる書籍・論文を記載するか,もしくは(3.14)式[n1+n2で割ったほうの式,引用者注]のようにその計算式まで含めて記載することを本書では推奨したいと思います。

正確に伝わるためにはこれが現実的な落とし所だと思うけど,統計ユーザーに求める水準がどんどん上がっていくなぁとも感じる。

Rの各種パッケージ

Rのパッケージには効果量を計算してくれるものがいくつかある。 そこでの名称はどうなっているか調べてみた。

# define functions
SS <- function(x) {
  sum((x - mean(x))^2)
}

d_divided_n <- function(x1, x2) {
  n1 <- length(x1)
  n2 <- length(x2)
  s_pooled <- sqrt((SS(x1) + SS(x2))/(n1 + n2))
  (mean(x1) - mean(x2))/s_pooled
}

d_divided_n_minus_2 <- function(x1, x2) {
  n1 <- length(x1)
  n2 <- length(x2)
  s_pooled <- sqrt((SS(x1) + SS(x2))/(n1 + n2 - 2))
  (mean(x1) - mean(x2))/s_pooled
}
delta_hat <- function(x1, x2) {
  n_total <- length(x1) + length(x2)
  g <- d_divided_n_minus_2(x1, x2)
  (g * (n_total - 3))/(n_total - 2.25)
}

coef_correction <- function(df) {
  gamma(df/2) / (sqrt(df/2) * gamma((df - 1)/2))
}

delta_hat_alt <- function(x1, x2) {
  n1 <- length(x1)
  n2 <- length(x2)
  d <- d_divided_n_minus_2(x1, x2)
  coef_correction(n1 + n2 - 2) * d
}

# data
x1 <- sleep$extra[1:10]
x2 <- sleep$extra[11:20]

d_divided_n(x1, x2)  # -0.8771959
d_divided_n_minus_2(x1, x2)  # -0.8321811
delta_hat(x1, x2) # -0.7970185
delta_hat_alt(x1, x2) # -0.7969352

# effectsize package
effectsize::cohens_d(x1, x2)$Cohens_d  # -0.8321811
effectsize::hedges_g(x1, x2)$Hedges_g  # -0.7969352

# effsize package
effsize::cohen.d(x1, x2)$estimate  # -0.8321811
effsize::cohen.d(x1, x2, hedges.correction = TRUE)$estimate  # -0.7970185

# compute.es package
res_compute_es <- compute.es::mes(mean(x1), mean(x2), sd(x1), sd(x2),
                                 length(x1), length(x2))
res_compute_es$d  # -0.83
res_compute_es$g  # -0.8

まとめると次のようになる。

パッケージと関数 McGrath & Meyer (2006)の記号
effectsize::cohens_d() g
effectsize::hedges_g $\hat{\delta}$ (ガンマ関数を用いたもの)
effsize::cohen.d() g
effsize::cohen.d(…, hedges.correction = TRUE) $\hat{\delta}$
compute.es::mes()$d g
compute.es::mes()$g $\hat{\delta}$

ということでCohen dという名前のついた関数で計算されるのはだいたいgであり,Hedges gという名前のついた関数のときには,バイアスを修正した$\hat{\delta}$である。

結局どの記号で書けばよいのか

数式で示す紙面の余裕があれば大久保・岡田(2012)が推奨するように数式を書くのが一番明確で誤解がないだろう。 その余裕がないのであれば,南風原(2014, p.62)の注での指摘にしたがうのが良いのではないかと思う。

このd[n-2でプールした標準偏差を計算したdのこと,引用者注]は,Hedgesのgとよばれることがあります。一方,(3.8)式の分母を$n_1 + n_2$として(3.9)式に代入したものはCohenのdとよばれることがあります。しかし,検定力分析の代表的なテキストであるCohen(1988)においてdと表記されているのは,このような標本統計量ではなく,(3.11)式の母集団標準化平均値差δです。また,Cohen(1988)は,δの推定量としては(3.9)式のdを($d_s$という記号で)用いていることから,この式にHedgesの名を付して,Cohen自身が使用していない式にCohenの名を冠するのは混乱を招きます。研究報告では,人名ではなく,「標準化平均値差」という名称を用いて,(CohenもHedgesも使用していて,検定統計量$t$の構成要素であるという意味でも自然な)(3.9)式のdの値を報告したらよいでしょう。

主要な引用文献

  • Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Routledge. https://doi.org/10.4324/9780203771587
  • 南風原 朝和(2014). 続・心理統計学の基礎──統合的理解を広げ深める── 有斐閣
  • Hedges, L. V. (1981). Distribution Theory for Glass’s Estimator of Effect size and Related Estimators. Journal of Educational Statistics, 6(2), 107–128. https://doi.org/10.3102/10769986006002107
  • 石井 秀宗・吉田 寿夫・岡田 謙介・南風原 朝和(2013). 心理学研究における効果量の活用と報告 教育心理学年報, 52, 234–237. https://doi.org/10.5926/arepj.52.234
  • McGrath, R. E., & Meyer, G. J. (2006). When effect sizes disagree: The case of r and d. Psychological Methods, 11, 386–401. https://doi.org/10.1037/1082-989X.11.4.386
  • 大久保 街亜・岡田 謙介(2012). 伝えるための心理統計──効果量・信頼区間・検定力── 勁草書房