生物医学統計を学ぶ！: 一致度の検定（ICCとカッパ）

コーエンのカッパ係数（Cohen's coefficient kappa）

コーエンのカッパ係数は、2名の評価者それぞれから得られた評価結果（名義尺度や順序尺度）の一致度を測定するために使用される統計量です。

評価者間で一致度が高ければ、評価結果の信頼性が高まります。

κは偶然に同じ評価結果が発生する可能性を考慮しているため、単純な一致頻度の計算よりも堅牢な指標であると考えられています。

カッパ係数の値（k）の値は−1 ≦ k ≦ 1 となり、数値が1に近いほど評定者の分類は一致していることを表し、ｋ＝１になった場合は完全な一致となります。

例えば、

ある症例群を対象に、2名の評価者が疾患の悪性グレードについてカテゴリ評価を行った。

評価結果の一致度を確かめたい。

このようなときに、カッパ係数を用います。

k係数の目安

Landis and Koch (1977)

0.81〜1.0 ほぼ完全、完全一致(almost perfect or perfect agreement)
0.61〜0.80 かなりの一致(substantial agreement)
0.41〜0.60 中等度の一致(moderate agreement)
0.21〜0.40 まずまずの一致(fair agreement)
0.0〜0.2: わずかに一致(slight agreement)

Krippendorff (1980)

0.80以上　明確な結果(definite conclusions)
0.67〜0.80　不確かな結果(conclusions tentatively)
0.67未満　評価しない(discounted)

実践

```
  # kappa
  import numpy as np
  import pandas as pd
  import matplotlib.pyplot as plt
  from sklearn.metrics import confusion_matrix
  # 正解ラベルと2つの評価結果
  # 2クラス分類の場合
  label = np.array([1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]) 
  obs1 =  np.array([1,1,1,1,1,1,2,2,1,1,1,1,1,2,2,2,2,2,2,2,2,1,1,1,1,2,2,2,2,2])
  obs2 =  np.array([2,1,1,1,1,1,2,2,1,1,2,1,1,2,2,1,2,2,1,2,2,1,2,2,1,2,2,1,2,2])
  # 一致度をみる
  # 共通しているもののみでマトリクスを作るのではなく、単純に組み合わせのカウントでマトリクスを作る
  kTP = 0
  kFP = 0
  kTN = 0
  kFN = 0
  for o1,o2 in zip(obs1,obs2):
    if 1 == o1 and 1 == o2:
      kTP += 1
    if 2 == o1 and 2 == o2:
      kTN += 1
    if 1 == o1 and 2 == o2:
      kFP += 1
    if 2 == o1 and 1 == o2:
      kFN += 1
  k_cm = np.array([[kTP,kFP],[kFN,kTN]])
  print(k_cm)

# これはつまり
  confusion_matrix(y_true=obs1, y_pred=obs2,labels=[1,2], sample_weight=None, normalize=None)
  
  # k_score
  from sklearn.metrics import cohen_kappa_score
  k = cohen_kappa_score(y1=obs1,y2=obs2,labels=label)
  '''
  The kappa statistic, which is a number between -1 and 1. 
  The maximum value means complete agreement; # 1に近いほど一致
  zero or lower means chance agreement.
  '''
  print(k) # 0.5333333333333333
    
  # 3クラス以上のカテゴリを分類した場合
  label = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3] 
  obs1 = [1,1,1,1,1,1,2,2,1,1,1,1,1,2,2,2,2,2,2,2,2,1,1,1,1,2,2,2,2,2,3,3,3,1,3,2,3,3,3,2,3,3,3,2,3]
  obs2 = [2,1,1,1,1,1,2,2,1,1,2,1,1,2,2,1,2,2,1,2,2,1,2,2,1,2,2,1,2,2,3,3,3,3,3,3,3,2,2,3,3,3,3,2,3]
  # 混同行列
  from sklearn.metrics import confusion_matrix
  confusion_matrix(y_true=obs1, y_pred=obs2,labels=[1,2,3], sample_weight=None, normalize=None)
  # カッパの算出
  print(cohen_kappa_score(y1=obs1,y2=obs2,labels=label))
  # 重み付けを考慮する場合
  print(cohen_kappa_score(y1=obs1,y2=obs2,labels=label,weights="linear"))
  print(cohen_kappa_score(y1=obs1,y2=obs2,labels=label,weights="quadratic"))
  ```

重み付きカッパ係数

実践の下方に示したように、重みを考慮することも出来ます。

重みというのは、例えば、1,2,3のカテゴリを評価した場合に、

評価者A → 1

評価者B → 3

としていたら、評価結果が大きく乖離していることになります。

しかし、通常のカッパ係数は単純に一致しているかどうかしか見ていません。

このような乖離の大きさを重みとして調整したカッパ係数が重み付きカッパ係数です。

線形の重み付け（1次重み付け）は、評価の差を一定の割合で増減させて重み付けします。評価の差が大きくなるほど重みは一定の割合ごとに小さくなります。

クアドラティックな重み付け（2次重み付け）は、評価の差が小さいほど大きく、評価の差が大きいほど小さい重みを付けるよう重み付けします。

級内相関係数(ICC：Intraclass Correlation Coefficient)

ICCは、1名の評価者で対応のあるデータを反復して評価した場合や、2名以上の評価者それぞれから得られた評価結果の一致度を測定するために使用される統計量です。

評価には順序尺度や間隔尺度が用いられます。

同じ被験者を対象とした評価の変動を、すべての評価およびすべての被験者の総合的な変動と比較することにより、評価の信頼性を評価します。

評価者間で一致度が高ければ、評価結果の信頼性が高まります。

級内相関係数は相関係数と同様に icc ≦ 1 の値になります。

完全一致の時は1、偶然の一致程度の時は0、反対の一致が多い場合はマイナスの値になります。

ICCの評価基準はカッパ係数の基準に倣うか、一般に、0.7以上で信頼性が良好であると主張することが多いようです。

ICCには大きく3つのCaseがあります。

Shrout and Fleiss（1979）は、n個のターゲット（このブログで言う被検者）に対してk人の評価者が行った評価の信頼性について、6つのケースで説明しています。

Case1: 評価者内信頼性を算出するケース

一般に、1人の評価者がk回評価した結果を用います。

評価する項目は単一の項目（例えば重症度など）です。

これは一元配置分散分析の固定効果(fixed effect)モデルによる分析と同じ意味合いがあります。

Case2: 評価者間の信頼性を算出するケース（評価者はランダムに選出された人）

無作為に選ばれたk人の評価者による評価結果を対象とします。

評価は単一の項目です。

評価者は変量効果とみなされます。

Case3: 評価者間の信頼性を算出するケース（評価者は固定）

特定のk人の評価者による評価結果を対象とします。

評価は単一の項目です。

評価者は固定効果とみなされます。

この場合、被検者のデータはどのケースでも変量要因となるので、固定要因と変量要因とが合わさった混合モデルとも言われます。

Case2と3の違いは、評価者が変量効果（評価者はたまたま充てがわれた要因）と見なされるか、固定効果（評価者が従属変数への影響すると最初から分かっている）と見なされるか、です。

残り、3のケースは、Case1〜3で、単一の評価者による反復評価の平均、または、k人の評価者によるk個の評価の平均のいずれかについて信頼性を推定する方法です。

1人の評価者の場合は平均相互相関に相当し、k人による評価の場合はスピアマンブラウンの調整済み信頼性に相当します。

例えば、

ある症例群を対象に、1名の評価者が被験者ごとの疾患悪性グレードについてカテゴリ評価を複数回行った（反復して測定した）。→Case1
ある症例群を対象に、4名の評価者が被験者ごとの疾患悪性グレードについてカテゴリ評価を行った。→Case2 or Case3（評価者を固定効果とみなすかで分ける。一般にCase2の方がICCが低くなることが多いので、利用されているのではないかと思う）

評価結果の一致度を確かめたい。

このようなときに、ICCを用います。

実践

References

https://qiita.com/tand826/items/4d1fb2045f2b48d21b7d
https://ides.hatenablog.com/entry/20170417/1492409363
http://www.snap-tck.com/room04/c01/stat/stat05/stat0504.html
https://pingouin-stats.org/generated/pingouin.intraclass_corr.html (see, Examples and check data frames)
http://www.med.osaka-u.ac.jp/pub/kid/clinicaljournalclub12.html
https://stackoverflow.com/questions/11528150/inter-rater-agreement-in-python-cohens-kappa
信頼性指標としての級内相関係数（https://personal.hs.hirosaki-u.ac.jp/pteiki/research/stat/icc.pdf）

Visionary Imaging Services, Inc.

Imaging CROサービスをご提供させていただきます。

お問い合わせお待ちしております。

https://www.vis-ionary.com/