一致度の検定(ICCとカッパ)

コーエンのカッパ係数(Cohen's coefficient kappa)


コーエンのカッパ係数は、2名の評価者それぞれから得られた評価結果(名義尺度や順序尺度)の一致度を測定するために使用される統計量です。
評価者間で一致度が高ければ、評価結果の信頼性が高まります。
κは偶然に同じ評価結果が発生する可能性を考慮しているため、単純な一致頻度の計算よりも堅牢な指標であると考えられています。
カッパ係数の値(k)の値は−1 ≦ k ≦ 1 となり、数値が1に近いほど評定者の分類は一致していることを表し、k=1になった場合は完全な一致となります。

例えば、

ある症例群を対象に、2名の評価者が疾患の悪性グレードについてカテゴリ評価を行った。
評価結果の一致度を確かめたい。
このようなときに、カッパ係数を用います。
 

k係数の目安


Landis and Koch (1977)
  • 0.81〜1.0 ほぼ完全、完全一致(almost perfect or perfect agreement)
  • 0.61〜0.80 かなりの一致(substantial agreement)
  • 0.41〜0.60 中等度の一致(moderate agreement)
  • 0.21〜0.40 まずまずの一致(fair agreement)
  • 0.0〜0.2: わずかに一致(slight agreement)

Krippendorff (1980)
  • 0.80以上 明確な結果(definite conclusions)
  • 0.67〜0.80 不確かな結果(conclusions tentatively)
  • 0.67未満 評価しない(discounted)

実践



重み付きカッパ係数


実践の下方に示したように、重みを考慮することも出来ます。
重みというのは、例えば、1,2,3のカテゴリを評価した場合に、
評価者A → 1
評価者B → 3
としていたら、評価結果が大きく乖離していることになります。
しかし、通常のカッパ係数は単純に一致しているかどうかしか見ていません。
このような乖離の大きさを重みとして調整したカッパ係数が重み付きカッパ係数です。
線形の重み付け(1次重み付け)は、評価の差を一定の割合で増減させて重み付けします。評価の差が大きくなるほど重みは一定の割合ごとに小さくなります。
クアドラティックな重み付け(2次重み付け)は、評価の差が小さいほど大きく、評価の差が大きいほど小さい重みを付けるよう重み付けします。

級内相関係数(ICC:Intraclass Correlation Coefficient)


ICCは、1名の評価者で対応のあるデータを反復して評価した場合や、2名以上の評価者それぞれから得られた評価結果の一致度を測定するために使用される統計量です。
評価には順序尺度や間隔尺度が用いられます。
同じ被験者を対象とした評価の変動を、すべての評価およびすべての被験者の総合的な変動と比較することにより、評価の信頼性を評価します。

評価者間で一致度が高ければ、評価結果の信頼性が高まります。
級内相関係数は相関係数と同様に icc ≦ 1 の値になります。
完全一致の時は1、偶然の一致程度の時は0、反対の一致が多い場合はマイナスの値になります。
ICCの評価基準はカッパ係数の基準に倣うか、一般に、0.7以上で信頼性が良好であると主張することが多いようです。
ICCには大きく3つのCaseがあります。
Shrout and Fleiss(1979)は、n個のターゲット(このブログで言う被検者)に対してk人の評価者が行った評価の信頼性について、6つのケースで説明しています。 

Case1: 評価者内信頼性を算出するケース


一般に、1人の評価者がk回評価した結果を用います。
評価する項目は単一の項目(例えば重症度など)です。
これは一元配置分散分析の固定効果(fixed effect)モデルによる分析と同じ意味合いがあります。

Case2: 評価者間の信頼性を算出するケース(評価者はランダムに選出された人)


無作為に選ばれたk人の評価者による評価結果を対象とします。 
評価は単一の項目です。
評価者は変量効果とみなされます。

Case3: 評価者間の信頼性を算出するケース(評価者は固定)


特定のk人の評価者による評価結果を対象とします。
評価は単一の項目です。
評価者は固定効果とみなされます。
この場合、被検者のデータはどのケースでも変量要因となるので、固定要因と変量要因とが合わさった混合モデルとも言われます。

Case2と3の違いは、評価者が変量効果(評価者はたまたま充てがわれた要因)と見なされるか、固定効果(評価者が従属変数への影響すると最初から分かっている)と見なされるか、です。

残り、3のケースは、Case1〜3で、単一の評価者による反復評価の平均、または、k人の評価者によるk個の評価の平均のいずれかについて信頼性を推定する方法です。
1人の評価者の場合は平均相互相関に相当し、k人による評価の場合はスピアマンブラウンの調整済み信頼性に相当します。

例えば、

  • ある症例群を対象に、1名の評価者が被験者ごとの疾患悪性グレードについてカテゴリ評価を複数回行った(反復して測定した)。→Case1
  • ある症例群を対象に、4名の評価者が被験者ごとの疾患悪性グレードについてカテゴリ評価を行った。→Case2 or Case3(評価者を固定効果とみなすかで分ける。一般にCase2の方がICCが低くなることが多いので、利用されているのではないかと思う)
評価結果の一致度を確かめたい。
このようなときに、ICCを用います。

実践




References
  • https://qiita.com/tand826/items/4d1fb2045f2b48d21b7d
  • https://ides.hatenablog.com/entry/20170417/1492409363
  • http://www.snap-tck.com/room04/c01/stat/stat05/stat0504.html
  • https://pingouin-stats.org/generated/pingouin.intraclass_corr.html (see, Examples and check data frames)
  • http://www.med.osaka-u.ac.jp/pub/kid/clinicaljournalclub12.html
  • https://stackoverflow.com/questions/11528150/inter-rater-agreement-in-python-cohens-kappa
  • 信頼性指標としての級内相関係数(https://personal.hs.hirosaki-u.ac.jp/pteiki/research/stat/icc.pdf)
Visionary Imaging Services, Inc.
Imaging CROサービスをご提供させていただきます。
お問い合わせお待ちしております。
https://www.vis-ionary.com/