代表値

代表値は、データの中心座標のようなもので、データの特徴を表す代表的な値です。
例えば、平均値(mean)や中央値(median)、最頻値(mode)などが用いられます。別名、記述統計量、基本統計量、要約統計量とも呼ばれます。
例えば、ある特定の疾患を持つ患者に、いつも通りの医療ルーチンを提供した場合と、新しい医療サービスを提供した場合とで、回復に差が出るかどうかを調べるとします。
調査の結果、回復の度合い(1〜5の5段階スケール、大きいほど良い)から従来医療ルーチン治療群と新医療治療群の差を調べます。
ルーチン群は、回復の度合いが、[4,3,5,3,2,1,3,3]
新医療群は、回復の度合いが、[3,5,3,2,5,3,4,4]

平均値 = (4+3+5+3+2+1+3+3)/8 = 3
中央値 = [1,2,3,3,3,3,4,5] = 3
最頻値 = [1,2,3,3,3,3,4,5]  = 3

平均値 = (3+5+3+2+5+3+4+4)/8 = 3.62
中央値 = [2,3,3,3,4,4,5,5] = 3.5
最頻値 = [2,3,3,3,4,4,5,5] = 3

平均値や中央値で見ると、新医療治療群のほうがスコアが高くなっており、一見、良さそうに見えます。
最頻値で見ると、同じです。

単純な例ではありますが、このように、代表値は、記述や推測を行うためのはじめの一歩に必要な元データとして利用されます。

平均値


平均値には主に4種類ありますが、一般には「算術平均」が利用されます。
強みは、すべてのデータを参考にした値になることです。
弱みは、外れ値の影響を強く受けることです。(「度数分布を見て決める」を参照。パレート分布な度数分布を示すデータの平均値は、信頼性が下がります)。平均値を代表値として使う場合は、平均値に近い値がたくさんあるときに限られます。

中央値


データの中央の値です。偶数個あるときは、中央の2つの値の相加平均から求めます。
強みは、データの中央の値なので、外れ値の影響を受けにくいことです。年収などの実態を示す値としてよく用いられます。
弱みは、外れ値が無い場合には、平均値のような繊細さがなくなることです。

最頻値


度数分布のピークにくるデータです。
頻度が同じデータがある場合、データを区分して、度数分布にした上で、度数が最も大きい階級(データ区分)の階級値の最大と最小値の平均を最頻値とする場合もあります。
強みは、中央値と同様に、外れ値の影響を受けにくいことです。
弱みは、データのピークしか参考としないことです。

補足


どの代表値も、データの数が極端に少なく、データが極端に偏っている場合、数式上は計算できても、論拠としては意味のない参考値として解釈されることもあるため注意が必要です。(例えば、今回の例で言うと、1点が5人、5点が5人など)

代表値の決め方


代表値は、データのもつ性質を調べてから決定されなければなりません。
なんでも・いつでも平均値(算術平均)を使えば良いというものではないので注意が必要です。
代表値の決め方は、おおよそ、こうした方がよさそうだという方法論があります。

度数分布を見て決める

データから度数分布グラフを作り、分布を確認します。
大まかに、釣鐘型(左右対称)か、ロングテール型(左右非対称)かを見分けます。
綺麗な釣鐘型のときは、いずれの代表値を使っても問題ありません(正規分布に従うと考えることができるので、結果が大きく変わりません)。
ロングテール型の場合は中央値や最頻値を用います。

釣鐘型

ロングテール型


※補足
度数分布の形状は、釣鐘型、ロングテール型だけでなく、一様分布や2つ山分布などの形状ももちろんありますが、これらについては正規分布で説明します。

検定の中で決める

本格的な統計を行う際は、検定のプロセスが多段階になっていることがほとんどです。
このようにいくつかのステップを踏んで統計を進めていく場面では、昔の人がよく銀召して決めたお作法のような代表値の決め方があります。
検定のアルゴリズムによって、どの代表値を使うかは自動的に決まります。
これらの手法については、検定の章で解説していきます。

外れ値に注意


一般的には、外れ値を除外してから度数分布を確認します。
外れ値を除外せずに度数分布を作る場合と、除外して作る場合とでは分布が変わってきます。

Visionary Imaging Services, Inc.
Imaging CROサービスをご提供させていただきます。
お問い合わせお待ちしております。
https://www.vis-ionary.com/

0 件のコメント:

コメントを投稿