ACERとMCERとDCER

Metsämuuronen, J. (2022). Attenuation-Corrected Estimators of Reliability. Applied Psychological Measurement, 46(8), 720–737. https://doi.org/10.1177/01466216221108131

これを読んで,関連したものを調べた際のメモ(主に用語について)。

attenuationとdeflation

相関と信頼性に関連した2つの用語としてattenuationとdeflationの2つを区別している。 それぞれの定義は以下の通りである。

[A]ttenuation refers to underestimation as a natural consequence of random errors in the measurement, and deflation refers to underestimation caused by artificial systematic errors during the estimation. (p.720)

どちらも相関の過小推定に変わりはないが,原因によって区別するということらしい。 同じパラグラフの続く文で"not always easy to separate from each other (p.720)“とも書いてある。

これだけだと具体的にイメージが湧きづらいので同じ著者のMetsämuuronen (2022a)も見てみる。 次のような記述がある。

Empirical examples discussed later show that, in certain types of datasets, typically with very easy and very difficult tests and tests with incremental difficulty level including both easy and difficult items, the estimates of reliability may be deflated by 0.40–0.60 units of reliability (see, e.g., Zumbo et al., 2007; Gadermann et al., 2012; Metsämuuronen and Ukkola, 2019; see section “Practical Consequences of Mechanical Error in the Estimates of Correlation in Reliability”). (p.2)

たしかに,スクリーニング検査のように困難度が極端な項目(大部分の人が通過する項目)を含むテストにおいて信頼性が低い値をとる話は,測定誤差によって下がるメカニズムとは分けて考えておいた方が良いというのは分かる。

この直後のパラグラフは信頼性過小推定研究の歴史について述べられる。 ガットマンの$\lambda$の話,ブラウンとスピアマンの公式,フラナガンとルーロンの公式,アルファ,KR20,GLBの話に触れている。

続くパラグラフではアルファの過小推定の研究について言及している。 そして,その次のパラグラフは以下のように始まっている。

On the top of attenuation related to the measurement modeling, the estimates of reliability are also deflated sometimes radically as discussed above. The root cause for the deflation is that the estimates by product-moment correlation coefficient (PMC; Pearson, 1896) embedded in the traditional estimators of reliability in the form of item–score correlation (Rit) or principal- or factor loading (λi) may be seriously deflated approximating 100% with items with extreme difficulty level and large sample size (see Metsämuuronen, 2020b, 2021b) . (p.2)

困難度が極端な場合と大きなサンプルサイズの場合を挙げている。

推定量の式の中のデフレしたピアソンの相関を(相対的に)デフレしていない相関係数に置き換えることで得られる信頼性の推定量をdeflation-corrected estimators of reliablity (DCER)と呼んでいる。

DCERは2つのタイプに分けられるそうである。

One, focused on this article, are MEC-corrected estimators of reliability where PMC is replaced by a totally different estimator of correlation that is less prone to deflation than PMC. The other types of DCERs not discussed in this article could be called attenuation-corrected estimators of reliability; in these, PMC is replaced by relevant attenuation-corrected estimators of correlation. (p.2)

過去に順序尺度向けの$\alpha$としてoridinal $\alpha$というものがZumbo et al. (2007) 提案されたが,これはDCERの特殊なケースに位置付けられるとのことである。

もとの論文はACERの話である。 MCERについてはいくつか研究してきたので,今度はACERの性質について調べようというのがもとの論文の目的である。

maximum possible correlation

希薄化の修正には次の式で定義される値を用いる。

$$ \rho_{AC} = R_{AC} = \frac{\rho_{gX_Obs}}{\rho_{gX_Max}} $$

右辺の分母は所与のデータセットで,項目とテストの相関の理論的な最大値である。 項目の方の値を相関が一番高くなるように並べ替えて得られる相関の最大値を用いる。 分子は実際の項目-テスト相関である。 この計算の具体的に意味するところはSupplementa Appendixの数値例を見るとよく分かる。

この比(割合)をとった値が修正に使われる。 気持ちとしては,所与のデータセットでどんなに頑張っても,分母の値までしかいかないのだから,実際の項目-テスト相関がその中でのどれくらい善戦(?)しているかで評価しましょう,ということなのでしょう。

実際のデータセットを用いた数値例では,MCERとの違いや修正をしなかった場合との違いが述べられている(ここら辺は細かな話なのでまとめない)。

ところでattenuationには伝統的に希薄化という語を当てていると思うが,deflationには何の語を当てるべきだろうか。デフレ?収縮?