データの確認と要約

データの確認や要約は、記述や推測を行うために、次のような観点から実施されています。

データの確認

  • 逸脱しているデータ(外れ値や異常値ではなく、間違ったデータのこと)がないかを把握する
  • 欠測値の有無を把握する

データの要約

  • データの特性を様々な統計量(要約統計量)から概観する
  • 相関係数を計算して変数間の関連の強さを把握する:相関図
  • 正規性(正規分布かどうか、あるいは分布形状のタイプ)を確認する:度数分布
  • 外れ値や異常値の有無を把握する:箱ひげ図、散布図
  • 度数の階級ごとの詳細を調べる:幹葉図(みきはず)
  • カテゴリカルデータの割合を知る

要約統計量


要約統計量とは、観測データの分布の特徴を代表的に(要約して)表す統計量です。
要約統計量の種類は決まっているわけではなく、データを要約するために使える統計量であれば、要約統計量と呼びます。

パラメトリック(正規分布)な要約統計量


正規分布に従うと仮定する場合の主な要約統計量です。

  • 平均(算術平均)
  • トリム平均:外れ値を除外した観測値の平均
  • 中央値
  • 四分位点
  • 最小値、最大値
  • 中点値:最大値と最小値を足して2で割った値
  • 範囲:最大値から最小値を差し引いた値
  • 最頻値
  • 分散、標準偏差
  • 平均絶対偏差(観測値とその平均値との差の絶対値の平均値)
  • 歪度(skewness):標準正規分と比べた正規分布の左右の偏り具合
    • 歪度が0:左右対称
    • 歪度が正の値:左側にピークのあるロングテール型の分布
    • 歪度が負の値:右側にピークのあるロングテール型の分布
  • 尖度(kurtosis):標準正規分布と比べた正規分布の尖り具合
    • 尖度が0:標準正規分布と同じ尖り具合
    • 尖度が正の値:標準正規分布に比べ尖った分布
    • 尖度が負の値:標準正規分布より扁平な分布

ノンパラメトリック(非正規分布)な要約統計量


正規分布に従わない(観測データの度数分布が一定でない)と仮定する場合の主な要約統計量です。
  • 中央値
  • 中央絶対偏差(観測値とその中央値との差の絶対値の中央値)
  • 四分位点
  • 最小値、最大値
  • 中点値:最大値と最小値を足して2で割った値
  • 範囲:最大値から最小値を差し引いた値
  • 最頻値

Visionary Imaging Services, Inc.

0 件のコメント:

コメントを投稿