データの確認や要約は、記述や推測を行うために、次のような観点から実施されています。
データの確認
- 逸脱しているデータ(外れ値や異常値ではなく、間違ったデータのこと)がないかを把握する
- 欠測値の有無を把握する
データの要約
- データの特性を様々な統計量(要約統計量)から概観する
- 相関係数を計算して変数間の関連の強さを把握する:相関図
- 正規性(正規分布かどうか、あるいは分布形状のタイプ)を確認する:度数分布
- 外れ値や異常値の有無を把握する:箱ひげ図、散布図
- 度数の階級ごとの詳細を調べる:幹葉図(みきはず)
- カテゴリカルデータの割合を知る
要約統計量
要約統計量とは、観測データの分布の特徴を代表的に(要約して)表す統計量です。
要約統計量の種類は決まっているわけではなく、データを要約するために使える統計量であれば、要約統計量と呼びます。
パラメトリック(正規分布)な要約統計量
正規分布に従うと仮定する場合の主な要約統計量です。
- 平均(算術平均)
- トリム平均:外れ値を除外した観測値の平均
- 中央値
- 四分位点
- 最小値、最大値
- 中点値:最大値と最小値を足して2で割った値
- 範囲:最大値から最小値を差し引いた値
- 最頻値
- 分散、標準偏差
- 平均絶対偏差(観測値とその平均値との差の絶対値の平均値)
- 歪度(skewness):標準正規分と比べた正規分布の左右の偏り具合
- 歪度が0:左右対称
- 歪度が正の値:左側にピークのあるロングテール型の分布
- 歪度が負の値:右側にピークのあるロングテール型の分布
- 尖度(kurtosis):標準正規分布と比べた正規分布の尖り具合
- 尖度が0:標準正規分布と同じ尖り具合
- 尖度が正の値:標準正規分布に比べ尖った分布
- 尖度が負の値:標準正規分布より扁平な分布
ノンパラメトリック(非正規分布)な要約統計量
正規分布に従わない(観測データの度数分布が一定でない)と仮定する場合の主な要約統計量です。
- 中央値
- 中央絶対偏差(観測値とその中央値との差の絶対値の中央値)
- 四分位点
- 最小値、最大値
- 中点値:最大値と最小値を足して2で割った値
- 範囲:最大値から最小値を差し引いた値
- 最頻値
Visionary Imaging Services, Inc.
0 件のコメント:
コメントを投稿