2014年09月21日

平均値と代表値(特性値)/データ分析の解説

新聞やTVでいろいろな統計データが公表される時だいたい平均値が使われている。
平均値と聞くとイメージするのは、平均値付近が一番多くのデータが分布していて、平均値を挟んで平均値より小さいデータと平均値より大きい分布がだいたい同じ量くらいにあるって勝手に思います。つまり、難しいことは分からなくても正規分布の様な分布になっているもんだと勝手にイメージしちゃいます。正規分布だと、平均値と、中央値と最頻値が同じ値になります。

この分布は国税庁が公表した2012年の1年間働いた人の給与のデータです。
20140920_01.JPG

平均値は408万円です。
グラフを見ると一番人数が多い最頻値は400万円以下です。
あなたの収入と見比べてどうですか?多い?少ない?
実はこれは男女混合のデータです。
ちなみに、男性の平均値は502万円、女性は268万円です。女性の所得は男性の半分強しかありません。ですが、このデータは正規雇用、非正規雇用混合なので、パートさんのデータも含まれます、つまり、旦那さんの配偶者控除を受けるために年収を103万円以下に制限している女性のデータが多く含まれています。。。
勤続年数や年齢でも大きく違うでしょう。業種によってもかなりちがっています。
もちろん、国税庁のデータはそれらの区分ごとのデータも公表されています。
そんなこんなをひっくるめた給与所得者4,556万人の平均値が408万円ということな訳です。

このようにある集団の特徴を表す値を代表値または特性値といいこの場合は平均値が代表値とされています。

平均値は極端に大きい値や極端に小さい値等の外れ値があるとその影響で平均値が変わってしまいます。
それに対し、一番分布が高い最頻値や、全てのデータを小さい方から順に並べてちょうど真ん中の順番にくる中央値は外れ値の影響を受けません。

統計データの特徴を分かりやすくするために代表値は平均値、最頻値、中央値などから適したものを使う必要があります。
また、年毎に比較する様な場合では、当然ですが同じ代表値比較しなければなりません。。

Excelの関数では平均値のことを“Average”と言いますが、数学では平均値は“Mean”と訳されます。どちらも“平均”の意味ですが、“代表値”のことを“Average”と訳す場合もあるようです。

ではまずは、この「平均値」についていろいろ勉強していきましょう!
最初はいわゆる「平均値」と言われる「算術平均(相加平均)」と「加重平均」についてまとめてみました。
20160419_08.jpg


関連ページ
中央値(median / メジアン)についてまとめてみた
QUARTILE関数で四分位点を求めてみた
統計分析の基本中の基本、度数分布表についてまとめてみた
数値データの分布をみるヒストグラムについてまとめてみた
正規分布について
中央値を求めるMEDIAN関数
データ分析の解説/メニュー
posted by haku1569 at 16:24| データ分析の解説 | このブログの読者になる | 更新情報をチェックする