検定で用いるp値の考え方

「おおまかに検定を理解する」では「BチームがとAチームよりも高い点を取る」確率を簡単に求めました。
この確率のことをp値と言います。
pはprobabilityの頭文字です。

この例では、とりあえずp値が5%より大きければ、帰無仮説(null hypothesis)を採択する設定でした。
このようなp値の基準を有意水準と言います。

有意水準が5%程度で、実際のp値が5%未満であれば、帰無仮説が本当になる可能性は5%未満ということになりますから、採択できないというわけです。

逆に、全体の確率から有意水準を差し引いた残りの確率は、信頼区間と呼ばれます。
この場合、1(全確率)-0.05(有意水準) = 0.95ですから、全体のうちの95%が信頼区間となります。

p値が信頼区間内の確率(5%以上)ならば、帰無仮説(差はない)が採択されます。

p値の捉え方は仮説の立て方によって変わってきます。
この例では、3通りの対立仮説が考えられます。
  1. Aチームの得点力はBチームの得点力と同等ではない
  2. Aチームの得点力はBチームの得点力より高い
  3. Aチームの得点力はBチームの得点力より低い
(1)の対立仮説は、得点力が高いか低いかではなく、全体を考えたときの検定です。
(2)の対立仮説は、Aチームの得点力がBチームのそれよりも高いかどうかを調べるための検定です。
この場合、Bチームの得点力が少ないかどうかについては考慮しません。
(3)の対立仮説は、Aチームの得点力がBチームのそれよりも低いかどうかを調べるための検定です。
この場合、Bチームの得点力が高いかどうかについては考慮しません。

(1)のような検定方法を「両側検定」、(2)と(3)のような検定方法を「片側検定」といいます。
(2)は、片側検定-less-、(3)は片側検定-greater-です。

これらの関係を標準正規分布の確率密度関数で示します。
有意水準を5%とした場合、両側検定と片側検定の有意水準は次のような関係になります。


両側の場合、左側2.5%と右側2.5%を合わせて5%となっています。
片側の場合、1つのサイドで5%となっています。

実際には、帰無仮説の設け方によって、両側か片側かを決めます。

先の玉入れの例のように、事前にデータの分布から片側(less or greater)を決めておくことができる場合は、片側での検定が可能です。
しかし、実際にはどの群が大きくなりそうか、小さくなりそうかなどはわからないと思います。
このような場合は両側で検定を行うことになります。

実際、ほとんどの場合、両側で有意水準を5%や1%に設定することがほとんどです。

両側か片側かは、利用する検定アルゴリズムにも依存します。
ほとんどのアルゴリズムは両側のp値を算出します。
t検定による2群の比較などでは意図的に片側のp値を求めることができます。
あるいは、標準正規分布や密度関数を用いて、特定の値までの確率を累積密度(scipyのcdf関数:低い側の確率、sf関数:高い側の確率)から求めることもできます。

注意点としては、有意水準が同じでも、両側か片側かによって棄却領域(青い部分)が変わります。図を見て分かるとおり、片側のほうが若干棄却されやすくなります。
片側検定は、差がない事を証明したい(帰無仮説を採択する)ときは良いと思いますが、差があることを証明しようとしている(帰無仮説を棄却する)ときは、片側よりも両側検定の方がロバストです。

余談ですが、標準正規分布の場合、片側のp値を2倍して両側のp値とすることもできます。もし、2倍して1を超える場合は、tailサイドが異なっていますので、もう一方の片側p値を2倍した値を両側のp値とします。
標準正規分布の性質上、このようなこともできます。

Visionary Imaging Services, Inc.

0 件のコメント:

コメントを投稿