どらちゃんのポッケ

R・統計・技術メモなど勉強ログ置き場

記述統計2

記述統計2ということで

  1. 分散
  2. 標準偏差
  3. 標準誤差

あたりを。


記述統計とは、ざっくりいうと、得られたデータから推測することをせず、整理・見やすくするために行うものです。
平均値、最大値、最小値などなどがありましたが、まだまだ色んなものがあります。


分散と標準偏差
あるクラスにテストを実施して、平均値が50点、中央値50点になったとします。
その場合、下記のような例のように、複数の場合が想定されます。

パターンA)30 40 50 60 70(点)
パターンB)10 30 50 70 90(点)

※ここから下図を見ながら読んで!↓
このパターンの違いを一発で分かる指標が欲しくないですか?

それが、分散と標準偏差です。

それでは、まず分散から。
ざっくりいうと、分散と標準偏差は、得られたデータがどれくらい散らばっているかの目安です。


まず分散の求め方ですが・・・。

{Σ(平均−各データ)^2}/データ数

パターンAだと・・・
{(50-30)^2+(50-40)^2+(50-50)^2+(50-60)^2+(50-70)^2}/5

そして、標準偏差は、分散の平方根をとったものです。

標準偏差=√分散


上の数式の意味は、
「各データと平均の差」の平均を算出したい。

→まず、各データと平均の差をとる。:平均−各データ
→しかし、そのままでは符号が正負あるので、合計することができない。
 マイナスをプラスに変換するために2乗する:(平均−各データ)^2
→平均からの差を合計する:Σ(平均−各データ)^2
→その平均値をもとめる:{Σ(平均−各データ)^2}/データ数:分散
→2乗した値だど、よくわからないから、平方根をとって、見やすくする:√分散:標準偏差

こんな流れです。



疲れたので、標準誤差については、また次の機会で!