相関による統計解析

相関(correlation)は、2つ以上の変数で、一方が変われば他方もそれに連れて変わる、はたまた、第3の変数の影響を受けて、他の変数が関わり合っているなど、一方が他方との関係を離れては意味をなさないようなものの間の関係を言います。

例えば、コレステロール値が上がれば血圧も上がるというような、2つの変数間で一方が変われば他方もそれに連れて変わる関係があるか知りたいときに用いられる指標です。

基本的には、2つの変数をx,yに当てはめて、どれだけ直線的かを調べます。
相関を調べるときは、基本的に、2つの変数間の相関を調べます。
直線的かつ散らばりの少ない散布図になるほど相関が強いことを意味します。

負の相関と正の相関


国が豊かになるほど健康な歯を持つ子供の数が増えるというような2つの変数間の関係もあれば、国が豊かになるほど子供の虫歯の数が減るという関係もあります。
前者は、正の相関、後者は負の相関があるといいます。


(国民総生産GNPと齲歯(うし)数:模擬データ)

観測データの散布図から最小二乗法などで線形回帰直線を描き、その角度によって正負を判別します。右上がりは正の相関、右下がりは負の相関を表します。
散らばりの強い中央の図では若干回帰直線に傾きがありますので、強いて言えば正の相関となってしまいますが、このような散らばりの強いケースはほぼ無相関と考えます。
相関の有無は回帰直線だけでなく、相関係数からも判断されます。


相関係数


相関係数は、完全な正の相関の場合に1、完全な負の相関の場合に-1の-1〜1までの値をとります。
相関係数の種類は大きく2つあり、観測データの正規性に応じて使い分けます
正規性の検定には、シャピロ・ウィルク検定がよく用いられます。

データが正規分布に従う場合


シャピロ・ウィルク検定にて2変数とも有意差がなかった場合(2変数とも正規分布)、ピアソンの相関係数を用います。

データが正規分布に従わない場合

シャピロ・ウィルク検定にて2変数のうち1つでも有意差があった場合(どちらか、または両方が非正規分布であった場合)、スペアマンの順位相関係数を用います。

相関グラフ


相関グラフは、変数間の相関係数を俯瞰するために利用されます。
ヒートマップでグラフを表示する際は、ルックアップテーブルを適切に選択すれば、正の相関は明るく、負の相関は別の色で明るく、0に近い値を暗く表示できます。
今回はカラーマップに「seismic」を使っています。
濃い青なら正の相関、濃い赤なら負の相関、0に近いほど無相関であることを示しています。
単調なルックアップテーブルで表示された相関グラフのヒートマップは、色が暗いからと言って相関が無いわけではないので注意が必要です。
相関係数だけでなく、散布図とともにグリッド表示するなども行われることがあります。
ここでは、scikit-learnのdiabetesデータセットを使って、BMIと血圧の相関を調べる例を示します。
 

(BMIとBPとの相関グラフ)

(左:pearson, 中央:spearman, 右:subtraction)

マップ上、同じ変数で算出しているマスは相関係数が1になります。
2つ目のグラフは、相関係数を算出するアルゴリズムの違いを可視化しています。
正規分布に従うかどうかの手間を加えることで、適切なアルゴリズムを選択できます。

References
  • https://www.nature.com/articles/s41598-020-72403-x#Fig2
Visionary Imaging Services, Inc.
Imaging CROサービスをご提供させていただきます。
お問い合わせお待ちしております。
https://www.vis-ionary.com/