記述統計1
大学で勉強した知識を腐らせないためにブログにまとめます。
文系っぽくイメージで理解する統計ですw
統計の種類には、大きく分けて2種類のものがあります。
1 記述統計
得られた値を要約し、記述するためのもの。平均値とか。
2 推測統計
得られた値を推定・予測のための基礎にするもの。調べていない状況について推測する方法。回帰分析とか。
今回は1の記述統計について述べます。
記述統計は統計の基礎中の基礎で、言われれば「あーそうか」っていうくらいのレベルのことしかないけれど、
データを整理する上では必要なことです。
1 尺度
2 代表値
●尺度
・質的尺度 −名義尺度 分類などにのために用いるカテゴリーなど。 Ex)男女/背番号 −順序尺度 カテゴリーと順序(数値)を対応させる基準。しかし、1-----2-3--4のようになることもあり、順位の差は実際の差がでない。 Ex)競争順位 ・量的尺度 −間隔尺度 連続変数で表現できるが、0が無を意味しないもの。 Ex)摂氏温度、西暦年号 −比率尺度 連続変数で表現でき、0が無を意味するもの。 Ex)重さ、長さ、絶対温度
※量的尺度⇒質的尺度の変換可能。
170cm以下を「小さい」、以上を「大きい」など。<比率尺度を名義尺度へ>
変換により扱いが簡単になるが、正確な測定値は失われる。
※尺度によるデータの精密さ
比率→間隔→順序→名義の順番でデータが持っている精密さが失われていく
※間隔尺度よりも上でなければ、演算の意味がない
名義:背番号10+背番号30の意味はない
間隔:2001年+2年=2003年
●代表値
データを記述統計でまとめる際に、代表値を記述すると見やすくなります。
最頻値(mode)
どの尺度も使用可能!ただし、名義尺度は、modeのみしか使えない。
もっとも多く観測される値(カテゴリー)のこと。頻度分布やヒストグラムにすることで、理解し易くなる。
最大値・最小値(Max/Min)
もっとも大きい値ともっとも小さい値
中央値(median)
順序尺度以上で使用可能。データを大きさ順にならべた時の中央の値。
データが偶数個の場合は、2つの中央値の間の値が中央値となる。
1 5 7 10 15 ⇒7
1 5 7 10 15 100 ⇒7+10/2=8.5
平均値(mean)
間隔・比率尺度で使用可能。すべてのデータを足しあわせ、個数で割る。
1 5 7 10 15 ⇒1+5+7+10+15/5=7.6
1 5 7 10 15 100 ⇒1+5+7+10+15+100/6=23
(中央値では、8.5だった)
※中央値と平均値について
データを扱うときに、どの程度極端な値があるかで変わってきます。
例の下段(1 5 7 10 15 100)を見てもらえれば分かると思います。
平均値では、例外の値(外れ値)に引っ張られてしまうので、例外の値を除外してから、平均値を求めるという処理が必要になります。
中央値では、データの真ん中の値になるので、外れ値の影響が少ないです。
両者の使い分けが大事です。
次回予告は記述統計2ということで、分散、標準偏差、標準誤差あたりを。