散らばり・変動係数(CV)・標準化


データの散らばり

◆レンジ(範囲) ・・・ R と表す

※はずれ値の影響を大きく受ける。

 

◆四分位範囲 ・・・ IQR(Inter Quartile Range)と表す

Q3 - Q1

※はずれ値の影響をほとんど受けない。

 

◆四分位偏差 

IQR/2 

◆偏差 ・・・ ̅観測値から平均値を引いた差


   ※はずれ値の影響を強く受けるため、解釈に注意が必要。


◆分散 ・・・ ̅偏差の二乗の総和を度数の合計で割る


   ※n-1で割る定義もある(不偏分散)


    エクセル関数  =VAR(データ)  n-1で割る定義
          =VARP(データ)  nで割る定義

◆標準偏差 ・・・ ̅分散の平方根

分散は2乗するので単位が異なり解釈が難しい。

そこで平方根を取った。

   ※n-1で割る定義もある(不偏分散ベース)

 

エクセル関数 =STDEV(データ)  n-1で割る定義(標本から母集団を推定)

       =STDEV.P(データ)  nで割る定義(データが母集団すべての場合)

 

分位数と5数要約

  • 最大値
  • 第3四分位(Q3)
  • 中央値  (Q2)
  • 第1四分位(Q1)
  • 最小値

※EDAで用いるはずれ値の基準 = IQRの1.5倍(または3倍)

 四分位範囲の外側からIQRの1.5倍以上離れたものははずれ値とする。

 

変動係数 で散らばりを考える

次のような場合、どちらが散らばりが大きいか、単純に比較することは難しいが、変動係数を求めることで比較しやすくなる。


平均編集 標準偏差
管理職
2000万円 450万円 
アルバイト
100万円
30万円


◆変動係数(CV:Coefficient of Variation) ・・・ 標準偏差を平均値で割る   

                                               ※ %で表すことが多い

管理職    450/2000 = 22.5%

アルバイト  30 / 100 = 30%    →アルバイトの方が散らばりが大きい

 

変動係数は平均で割っているので無単位であり、身長と体重など単位の異なる測定値間の変動をも比較できる。

 


観測値の標準化

◆Z値 ・・・ 偏差を標準偏差で割る       

 

※ Z値の平均値は0、標準偏差は1となる。

◆偏差値 ・・・ Z値を10倍して50足す

 

※ 偏差値の平均値は50、標準偏差は10となる。

中心極限定理

母平均(μ)、分散(σ^2)の母集団から大きさnの標本を抽出するとき、

標本の大きさが十分に大きければ(30以上あれば)、母集団がどのような分布でも

標本平均 = 母平均(μ) で

標本分散(S^2) ≒ σ^2/n の正規分布になる。  

  ※標準偏差ではなく分散とする。