散らばりの指標

代表値には表せないデータの性質を示す指標として、散らばりの指標(ばらつきの指標)があります。
代表値はデータの中心位置の指標となるため、結構な統計量ではあるのですが、大局的にしかデータの性質を示せません。
これに対して、散らばりの指標はデータの分布や拡散具合、あるいは、当てはまりの良さ/悪さ
散らばりの指標には、最大最小の範囲、偏差(誤差)、平均二乗誤差、分散(不偏分散)、標準偏差、分位(パーセンタイル)、四分位範囲などがあります。

最大最小の範囲


最大値から最小値を差分して求められるデータの範囲(レンジ)です。

偏差(誤差)


実測値と推定値との差や、データ群間の差です。

平均二乗誤差


偏差の二乗の和をデータ数で除したもの(偏差の二乗の和の平均)の平方根

ここで、μを平均二乗誤差、偏差をε、データ数をnとした場合

\[ε_1 = {x_1 - y_1},ε_1 = {x_2 - y_2},...,ε_n = {x_n - y_n}\] \[μ = {\sqrt{ε_1^2+ε_2^2+…+ε_n^2 \over n-1}}\]


分散(不偏分散)


一般に、分散といえば不偏分散を意味することが多いので、不偏分散を記載します。
不偏分散は、分母がn-1になります。
狭義の分散は、分母はnです。この理由は、母集団についての推定を標本に基づいて行うという前提から来ており、自由度という概念で説明されます。
しかし、一般には、nは十分に大きな値であると考えられるので、計算上、nでもn-1でも、さほど大きな差はなく、統計を使うだけの人にとっては、あまり気にしなくて良いところでしょう。

ここで、観測したデータをx、観測したデータの平均値をxバー、データ数をnとした場合

\[V = {\sum_{n=1}^a(x-\bar{x}) \over n-1}\]

標準偏差


分散の平方根です。

\[SD = \sqrt{V}\]

分位(パーセンタイル)


データに順位付けをして、データの広がりを捉えるための値です。
順位は割合で指定します。
例えば、割合をPとした場合、Pパーセンタイルは、順に整列させた値の少なくともP%がこの値以下、かつ、(100-P)%がこの値以上となる値です。
データの個数が偶数の場合は、対応する箇所にある数値の相加平均となります。
例えば、50パーセンタイルは、順に整列させた値の少なくとも50%がこの値以下、かつ、(100-50)%がこの値以上となる値です。
50パーセンタイルは中央値と同じ意味になります。

パーセンタイルには、0を超える100未満までの間のどの値を指定してもよいのですが、一般には、四分位(25パーセンタイル:第一四分位、50パーセンタイル:第二四分位、75パーセンタイル:第三四分位)と十分位(10,20,...90パーセンタイル)が用いられます。
異常値を検出するために、2.5パーセンタイルや97.5パーセンタイルが用いられることもあります。

四分位範囲


四分位範囲は、25パーセンタイルと75パーセンタイルとの差です。
3,2,5,3,6,7,1,9という8個の要素を持つ数列を考えてみます。
これを整列すると1,2,3,3,5,6,7,9となります。
25パーセンタイルは、25%がこの値以下、かつ、75%がこの値以上となる値ですので、2と3の間を取って(相加平均を算出して)、2.5です。
75パーセンタイルは、75%がこの値以下、かつ、25%がこの値以上となる値ですので、6と7の間を取って(相加平均を算出して)、6.5です。
よって、6.5-2.5=4.0となり、四分位範囲は4.0と導くことができます。

補足


分散と標準偏差は、一般的に、外れ値や異常値の影響を受けやすいとされています。
これらを算出する際は、事前に外れ値と決めた範囲の最小値、最大値をデータから除外してから計算することがほとんどです。
事前に外れ値の補正がなされた標本データから算出される値は、トリム〇〇と呼ばれます。例えば、トリム平均、トリム標準偏差などです。
外れ値の許容範囲が広い場合は、例えば、中央値絶対偏差など、中央値を用いた偏差の計算も併用されることがあります。

Visionary Imaging Services, Inc.

0 件のコメント:

コメントを投稿