確率密度

度数分布からわかることは、データが釣鐘型かロングテール型かだけではありません。
「全データ中、何度その値が出たか」という、データ上の事実から分かる確率を知ることができます。

例えば、的当てゲームで、中心が5点、外側に向かっていくほど獲得できる点数が1点ずつ下がっていく丸い的(5,4,3,2,1)があるとします。
挑戦者は全部で10名おり、各々は5を狙って、10回投げられるとします。


その結果、次のような度数分布が得られたとしましょう。


この度数分布から、各スコアに当たる確率が分かります。
この例では、的に当たらなかったボールは無かったとします。

5点に当たる確率 = 4/100 = 4%
4点に当たる確率 = 16/100 = 16%
3点に当たる確率 = 46/100 = 46%
2点に当たる確率 = 31/100 = 31%
1点に当たる確率 = 3/100 = 3%

組み合わせてもいいでしょう。
例えば、3点以上に当たる確率は66%です。

度数分布から確率が求められることが分かりました。
次に、統計解析に用いるデータの数を十分に大きくしていった場合のヒストグラム(度数分布)の形を考えます。
先ほどは各々で10回しか投げませんでしたが、10000回投げたとします。
このような度数分布になります。


データ数を増やしていくほど、ヒストグラムはきめ細かくなり、棒グラフは滑らかになります。横軸の階級を増やして確認してみましょう。
例えば、中心からの距離でスコアを細分化したら、このようになるはずです。


ここからさらに分布を細かくして滑らかにしていくには、さらにデータを増やさなければなりません。
しかし、現実的には難しいケースがほとんどです。
このようなときには、度数分布を推定する方法が用いられます。
上記のような離散的な棒グラフから、連続的な曲線を推定します。


図中黄色の滑らかな線は、別名で確率密度関数または単に密度関数と呼ばれます。
ヒストグラムと確率密度関数の違いは、縦軸の尺度です。
図の左側の尺度に示すヒストグラムの縦軸は度数であるのに対し、図の右側の尺度に示す確率密度の縦軸は、曲線が囲む面積が 1 になるように値が計算されます。
曲線下面積の割合を確率として扱えるようにしています。

では、先の例(10000回ずつ投げた)に戻り、3以上の的に当たる確率を確率密度関数から求めてみます。手計算はできないので、プログラムを使って確率密度関数下が3以上の面積を求めます。その結果、およそ66.9%とわかります(下記コード参照)。

今回は意図的に釣鐘型になるように疑似データを作っているので、データのヒストグラムは釣鐘型のカーブを描いています。
釣鐘型のカーブは、代表値を山の頂上付近に持つ、左右対称のようにみえるカーブです。
このカーブは統計解析をする上で重要な意味を持っており、「正規分布」または「ガウス分布」と呼ばれます。

試してみましょう


Visionary Imaging Services, Inc.
Imaging CROサービスをご提供させていただきます。
お問い合わせお待ちしております。
https://www.vis-ionary.com/

0 件のコメント:

コメントを投稿