どらちゃんのポッケ

R・統計・技術メモなど勉強ログ置き場

記述統計1

大学で勉強した知識を腐らせないためにブログにまとめます。
文系っぽくイメージで理解する統計ですw



統計の種類には、大きく分けて2種類のものがあります。

1 記述統計
得られた値を要約し、記述するためのもの。平均値とか。

2 推測統計
得られた値を推定・予測のための基礎にするもの。調べていない状況について推測する方法。回帰分析とか。

今回は1の記述統計について述べます。
記述統計は統計の基礎中の基礎で、言われれば「あーそうか」っていうくらいのレベルのことしかないけれど、
データを整理する上では必要なことです。

1 尺度
2 代表値

●尺度

・質的尺度
	−名義尺度 分類などにのために用いるカテゴリーなど。	Ex)男女/背番号
	−順序尺度 カテゴリーと順序(数値)を対応させる基準。しかし、1-----2-3--4のようになることもあり、順位の差は実際の差がでない。
								Ex)競争順位
・量的尺度
	−間隔尺度 連続変数で表現できるが、0が無を意味しないもの。	Ex)摂氏温度、西暦年号
	−比率尺度 連続変数で表現でき、0が無を意味するもの。		Ex)重さ、長さ、絶対温度

※量的尺度⇒質的尺度の変換可能。
170cm以下を「小さい」、以上を「大きい」など。<比率尺度を名義尺度へ>
変換により扱いが簡単になるが、正確な測定値は失われる。

※尺度によるデータの精密さ
比率→間隔→順序→名義の順番でデータが持っている精密さが失われていく

※間隔尺度よりも上でなければ、演算の意味がない
名義:背番号10+背番号30の意味はない
間隔:2001年+2年=2003年

●代表値
データを記述統計でまとめる際に、代表値を記述すると見やすくなります。

最頻値(mode)
どの尺度も使用可能!ただし、名義尺度は、modeのみしか使えない。
もっとも多く観測される値(カテゴリー)のこと。頻度分布やヒストグラムにすることで、理解し易くなる。

最大値・最小値(Max/Min)
もっとも大きい値ともっとも小さい値

中央値(median)
順序尺度以上で使用可能。データを大きさ順にならべた時の中央の値。
データが偶数個の場合は、2つの中央値の間の値が中央値となる。
1 5 7 10 15 ⇒7
1 5 7 10 15 100 ⇒7+10/2=8.5

平均値(mean)
間隔・比率尺度で使用可能。すべてのデータを足しあわせ、個数で割る。
1 5 7 10 15 ⇒1+5+7+10+15/5=7.6
1 5 7 10 15 100 ⇒1+5+7+10+15+100/6=23
(中央値では、8.5だった)

※中央値と平均値について
データを扱うときに、どの程度極端な値があるかで変わってきます。
例の下段(1 5 7 10 15 100)を見てもらえれば分かると思います。
平均値では、例外の値(外れ値)に引っ張られてしまうので、例外の値を除外してから、平均値を求めるという処理が必要になります。
中央値では、データの真ん中の値になるので、外れ値の影響が少ないです。
両者の使い分けが大事です。


次回予告は記述統計2ということで、分散、標準偏差、標準誤差あたりを。