データの種類(尺度)

統計解析に使うデータの種類は尺度と呼ばれています。
主に4つの尺度があります。

名義尺度


データの区別の尺度です。
例えば、{男・女}、{治療あり・治療なし}、{薬A、薬B、薬C}などのカテゴリをラベルしたデータです。
各カテゴリに割り当てられる印は、ラベルと呼ばれます。
例えば、{治療あり・治療なし}では、治療ありを1、治療なしを0とするなど、カテゴリーごとに一意のラベルを付けます。
名義尺度のデータは、あくまで属するカテゴリラベルにしか意味がありませんから、例え、ラベルが0、1、2、3、、という数値で割り振られていたとしても、四則演算はできません。
実際の解析時は、ワンホットラベルとして表にまとめられます。
ワンホットラベルは、名義尺度のカテゴリカルデータがあった場合、それぞれに0か1のラベルを付けることを言います。
例えば、男:1、女:2という変数列があったとして、1,1,2...となっていたら、
{1,0},{1,0},{0,1}...とデータの列をカテゴリ分増やして0か1のラベルに置き換えます。

順序尺度


昇順に並べられた順序に意味があるデータです。
例えば、1位、2位、3位や、{非常に嫌い=1、やや嫌い=2、どちらとも言えない=3、やや好き=4、非常に好き=5}といったカテゴリーによって回答されたデータは各数値の順位のみ意味をもつ順序尺度です。
非常に好き > どちらとも言えない > 非常に嫌いなどのように順序関係が保証される必要があります。 {非常に嫌い=100、やや嫌い=200、どちらとも言えない=300、やや好き=400、非常に好き=500}でも、取扱いは大きく変わりません。

順序尺度では、5 - 4 = 1と3 - 2 = 1は、表記上、差は同じ「1」ですが、値の差の大きさ(間隔)は全く異なる概念の意味になってしまいます。
例えば、2位-1位と、100位-99位は、差は同じ「1」ですが、全く違う意味を持つ差です。
このため、解釈を簡素にするために、順序尺度の値の差の大きさに意味はないと断捨離します。
ただ並んでいる数値の羅列の前後を演算しても意味がないと考えたほうがシンプルというわけです(意味をもたせたいときは間隔尺度を使えばよいと考えます)。
順序尺度の解釈は主に中央値を用いて行います。

間隔尺度


数値の差(間隔)に意味があるデータです。
間隔尺度は「値の大小関係と値の差の大きさに意味があり、値0(原点)は相対的な意味を持つ」と説明されます。
間隔尺度の代表例は「気温」です。
例えば、気温が10℃と30℃では後者の方が「気温が高い」と判断できます。
次に、「値0は相対的な意味をもつ」というのは、0が「ない」ということを示さないということです。
例えば、リンゴをスーパーに買いに行って、全てのリンゴが売り切れていたら、買えるリンゴの数は0です。これは「購入できたリンゴはない=手元にリンゴが存在しない」ことを表します。
一方で、気温0℃は「気温がない」とはなりません。
気温がマイナスの場合もありますので、0℃というのは相対的な意味を持つことになります。

比例尺度(比率尺度、比尺度)


比例尺度は「値の差の大きさ・比に意味があり、値0が絶対的な意味をもつ」と説明されます。
例えば、長さ、重さ、時間などです。
長さや時間は間隔では?と考えてしまいますが、統計の尺度としては比例尺度になります。
間隔尺度と比例尺度は見分けづらいです。
この2つの尺度を見分けるコツは、「0の値=nullかどうか」を考えることです。
「体重」が「0 kg」の場合、体重が「無い(=null)」ことになるので「比例尺度」になります。
「歩数」が「0」の場合、歩数が「無い」ということを示すわけではない(0だとしてもそれはあくまで万歩計を置きっぱなしにして歩数が0になっている値であったということを示す)ので「間隔尺度」になります。
実際の検定時は、間隔尺度と比率尺度は連続変数として括られて、同じように扱われることが多いので、そこまで神経質になる必要は無さそうです。

Visionary Imaging Services, Inc.