データの正規性

検定の原理原則に「正規分布に従うことを仮定する」というものがありました。
しかし、実際に集められるデータが正規分布になることが少ないとはいえ、エイヤ!とばかりに正規性の確認をおざなりにしていては、本当に正しく検定が行えているか分からなくなります。
正規性が確認できないまま正規分布を前提とする検定を行えば、偏った値を解析してしまう可能性があります。
一方で、正規性が仮定できないとわかっていれば、このようなバイアスを小さくすることができるパラメトリックな手法を採用できます。

実際の検定では、正規性を確認する検定を行い、正規性の仮定を担保します。

シャピロ・ウィルク検定


正規分布の検定には、シャピロ・ウィルク検定がよく用いられます。
この他にもコルモロゴフ・スミルノフの正規性の検定などもありますが、例数が多くなければ使えないという制約があります。
これに対し、シャピロ・ウィルク検定はデータの標本数が比較的少なくても利用できる利点があります。
ただし、例数が5000を超える場合は、コルモロゴフ・スミルノフの正規性の検定の方が正確な確率を算出できるとされています。
正規性の検定が難しい場合で、正規分布を確認するのみでよければ、ヒストグラム、尖度、歪度を確認して判断する古典的な手法もあります。
ほとんどの場合、正規性の検定が行われます。


References
  • https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.shapiro.html