正規分布

広義の定義


データが平均値の付近に集積するような分布を表します。
正規分布は、統計理論の原理を支える重要な概念です。
一般に、正規分布と表現されているものは、度数分布や確率密度関数などを対象としていることが多いです。
一定のルールやパターン(規則性)を持つデータは、十分な量の観測を行えば、度数分布が正規分布になります。
例えば、運動会の玉入れを何千〜何万回と繰り返して、スコアの度数分布を描くと正規分布になります。
これは中心極限定理といい、統計学において重要な原理原則です。
この原理を利用すれば、身の回りで起こっていることが、ものすごく小さな確率で偶然起こったものなのか、何かのパターンによって起こりうるものなのかを統計解析できます。
正規分布以外にもロングテール型、一様分布や二つ山分布などがあります。
以降、身長データを例に解説していきます。

 

正規分布の性質


偶然か起こりうるかを分ける


左右対称の綺麗な正規分布は、平均値(μ)と標準偏差(σ:sigma)から、「偶然のもの」と、「起こりうるもの」を分類するための指標を提供します。
これは、正規分布が、平均値と標準偏差さえ決まってしえば分布が定まる性質を持っているからです。
ここでは例として、平均165cm、標準偏差10の10000個の身長データで説明していきます。
分布の定義は、以下のように決められます。

ここで、 P(a <= X <= b)は変数Xが a からb の値を取る確率を表します。
  • P(平均 - SD <= X <= 平均 + SD)  のとき、曲線下面積は0.683
  • P(平均 - 2SD <= X <= 平均+2SD)  のとき、曲線下面積は0.954
  • P(平均-3SD <= X <= 平均+3SD)  のとき、曲線下面積は0.997
これを図で説明すると、このようになります。



本来は、完全に左右対称の正規分布にこのルールを適用しますが、そのような実測データは皆無に等しいため、あえてリアルに見える正規分布のまま説明しています。
実際の統計解析では、平均と標準偏差から完全に左右対称の正規分布を仮定して算出する場合が多いです。

この身長データは、平均 165 cm、標準偏差 10 の正規分布になっていました。
一番上の式[平均 ± SD]を利用すると、155(=165-10)cmから 175(=165+10)cmまでの間に約 68.3%の人がいることになります。
その次の式[平均 ± 2SD]では、145(=165-20)cmから 185(=165+20)cmまでの間に約 95.4%の人がいることになります。
最後の次の式[平均 ± 3SD]では、135(=165-30)cmから 195(=165+30)cmまでの間に約 99.3%の人がいることになります。

論文などでよく用いられる95%信頼区間や99%信頼区間もこれらと同様に考えることができます。
  • P(平均 - 1.96SD <= X <= 平均+1.96SD)  のとき、曲線下面積は0.95
  • P(平均-2.58SD <= X <= 平均+2.58SD)  のとき、曲線下面積は0.99
このように考えると、確かに、データを比べるとき、このすそ野の端にいると結論付けられたデータは、比較しているデータとは同じではない(有意に差がある)と言っている意味がわかります。

この曲線下面積は永遠に1.0にはなりません。しかし、限りなく1.0に近づきます(0.9999...)。確率を計算するときは、全曲線下面積(すなわち、全確率)を便宜上、1.0として扱います。

分散との関係


正規分布は、観測データの散らばり(ばらつき)が大きくなるに連れて、度数のピークは低く、すそ野は広くなる傾向になります。
つまり、観測データの分散が大きいと、正規分布の広がりも広くなることが予想できます。


 

標準正規分布


標準正規分布は、観測データの平均を0、分散を1となるように変換してから作成した度数分布が正規分布となっている場合の分布です。


 

観測データの平均を0、分散を1となるように変換する方法は標準化と呼ばれ、標準化された値はZ値などと呼ばれます。
標準化を行うことにより、単位や平均値などが異なるデータ同士を単純に比較できるようになります。
上の標準正規分布の横軸を見ると、代表値の位置が0となっており、0を中心に左右に広がっていることがわかります。これが標準化の効果です。
標準化は、(観測データ - 観測データの平均値)/ 標準偏差で求まります。
例えば、身長データの平均値が165cm、標準偏差が10であるとします。
この場合、身長が170cm以上になる確率を標準正規分布から求めるには、170を標準化して(170-165/10)、この位置までの確率密度の積算を求め、全体面積(すなわち、「1.0」)から差し引けば求まります。

しかし、実際の統計解析では、疑似データのように綺麗な正規分布を描くことはほとんどありません。
最初に示したようないろいろなタイプの分布があります。
例えば、身長データを例に、2つ山分布について考えてみます。
この例では、身長150cmと170cmに偏りのあるデータになっています。
見てのとおり、度数分布も確率密度関数も正規分布になりません。


標準化をしても分布の形は同じです。


正規分布とならなければ、中心極限定理を適用できません。
この度数分布のまま確率密度関数を計算し、そこから確率を算出しても、「たまたまそのデータでそうなっただけ」と一笑に付されかねません。
このようなとき、十分な観測データを収集できるまで長い年月をかけるしか無いのでしょうか。
このような課題に対する1つの対応策として、統計解析をする人たち(限られた手持ちのデータから規則性を見出そうとする人たち)は、「十分な量の観測を行えば、度数の分布が正規分布になる」という原理原則を信じて突き進むという手段を使う術を持っています。
すなわち、どのような分布であっても、一旦、正規分布を仮定するということです。
(※実際には、正規分布かどうかを検定を用いて調べてから決めます。)

どのようにするかというと、正規分布の性質である平均(代表値)と標準偏差が決まれば分布が求まる法則を利用して、どのような観測データでも正規分布を仮定した場合には標準正規分布を適用するということをやります。
標準正規分布は、確率変数の平均を0、分散を1としたときの正規分布です。
観測データを標準化すれば、必ず平均は0、分散は1(=標準偏差も1)となりますから、どのような観測データでも標準正規分布として考えられるという理屈です。

これまでに示したガウシアンフィッティングを用いた確率密度は、度数分布をそのまま反映しているために歪んだカーブを描いていました。
一方、シミュレートされる標準正規分布は常に一定の左右対称の分布になります。

標準正規分布を適用する場合、確率は標準正規分布の確率密度の曲線下面積から算出されます。
確率の算出方法は、一般の確率密度から求める場合と変わります。
一般の確率密度から求める方法(確率密度のページを参照)では、観測値が、例えば、165cmならそのまま165として、そのままのスケールで扱っていましたが、標準正規分布を使う場合は、①実測値を標準化してから、②確率(標準正規分布の確率密度から求められた面積)を計算するという手順になります。
標準化する必要がある以外は、確率の求め方は一般の確率密度から求める場合と同じです。

補足


正規分布が仮定できるときに用いる統計解析手法は、パラメトリックな手法と呼ばれます。
正規分布が仮定できない場合は、平均値の信頼性が下がるために順序統計量による解析を行います。このような統計解析手法はノンパラメトリックな手法と呼ばれます。

Visionary Imaging Services, Inc.
Imaging CROサービスをご提供させていただきます。
お問い合わせお待ちしております。
https://www.vis-ionary.com/