箱ひげ図

四分位と、最大値、最小値、中央値、平均値の分布がひと目で分かる、データのばらつきを捉えやすいグラフです。
水平に描かれているときは、ヒゲのように見えます。

四分位は、観測値を昇順(1,1,2,3,3,...)に並べて、小さい方から順に四等分(均等に4つにわける)したときの、小さいほうから25%の値(第1四分位数)、50%の値(第2四分位数=中央値)、75%の値(第3四分位数)です。
◯%の値というのは、◯パーセンタイルともいいます。
第3四分位から第1四分位を差分した値は四分位範囲(IQR, interquartile range)といいます。

箱ひげ図の中央に描かれる垂直(または水平)な線の上限は信頼区間内の最大値、下限は信頼区間内の最小値です。

箱の上辺は75パーセンタイル、下辺は25パーセンタイルです。
よって、箱の範囲に、50%のデータが詰まっています。
箱の範囲が狭ければ、ほとんどのデータが中央値付近に集まっていることがひと目でわかります。
広ければ、観測値の散らばりが強いことがわかります。

中央値(50パーセンタイル)は箱の中に描かれる水平線です。

平均値は、箱の中に描かれる中央値とは異なるスタイルの線、またはアスタリスクなどの記号で表されます。

外れ値は、ヒゲよりも外側に描かれます。
外れ値の範囲は、慣例的に、上限を(第3四分位+k×四分位範囲)以上、下限を(第1四分位-k×四分位範囲)以下として取り扱うことが多いです。
kには1.5などが用いられます。k=1.5の場合、データが正規分布に従うと仮定すると、外れ値は、確率密度関数上で99.3%信頼区間外のデータということになります。


kは、ほとんどの場合1.5のままで良いと思いますが、もし任意の信頼区間を設けてプロットしたい場合は、このように計算します。
第1四分位数(Q1)は、標準正規分布上、μ-0.675σの位置にあります。
第3四分位数(Q3)は、標準正規分布上、μ+0.675σの位置にあります。
この関係から、外れ値の上限と下限の標準正規分布上の位置はkによって決まります。

外れ値下限:
= Q1 - 1.5 * IQR
= Q1 - 1.5 * (Q3 - Q1)
= -0.675σ - 1.5 * (0.675 - [-0.675])σ
= -0.675σ - 1.5 * 1.35σ
= -2.7σ
外れ値上限:
= Q3 + 1.5 * IQR
= Q3 + 1.5 * (Q3 - Q1)
= 0.675σ + 1.5 * (0.675 - [-0.675])σ
= 0.675σ + 1.5 * 1.35σ
= 2.7σ

μ±2.7σは、おおよそ99.3%信頼区間です。

kを調整すれば、95%信頼区間などに合わせることが出来ます。
95%信頼区間はμ±1.96σです。
1.96σ  = 0.675σ + k * 1.35σ
k = (1.96σ - 0.675σ) / 1.35σ
k = 0.951851852


(実線は中央値、破線は平均値)

Visionary Imaging Services, Inc.
Imaging CROサービスをご提供させていただきます。
お問い合わせお待ちしております。
https://www.vis-ionary.com/