そのような時にいわゆる同じ土俵に上げないと比較出来ません。そのために予めデータを揃えて(変換して)同じ土俵に上がるようにしておきます。
その様にデータを変換することを、標準化(Standerdinze)と言って、標準化されたデータを"標準化係数"、"標準化得点"、"z得点"等と言われます。
で、どうデータをそろえるかと言うと、変換後のデータの平均値が"0"、標準偏差が"1"になるようにそれぞれのデータから元のデータの平均値を引いて、元のデータの標準偏差で割ります。ここで、標準偏差で割っているので標準化されたデータは無次元量(単位が無い)になります。ので、身長と体重も比較できるようになるわけです。
ちなみに、データが正規分布の場合、標準化したデータ、平均値が"0"、標準偏差が"1"の正規分布を"標準正規分布"(Standard normal distribution)と言います。
Excelで、標準化したデータの平均値と標準偏差を求めてみましょう。
こんなデータがあります。
平均値と標準偏差をAVERAGE関数、STDEV関数で予め求めておきます。
標準化データを計算します。
其々のデータから平均値を引いて標準偏差で割ります。
すると、その平均が"0"、標準偏差は"1"になりました。
Excelではデータを標準化するSTANDERDIZE関数と言うのがあります。
てっきり、元データの範囲を指定すると平均値や標準偏差も計算してデータを標準化してくれるのかな?と思ったのですが、平均値と標準偏差は別途計算しておきそれを引数として引用するだけなので、あまりメリットはなさそう。。
んで、データを標準化すると標準正規分布になるわけではないので誤解の無いように。。
では、次回は標準正規分布を変形した偏差値についてまとめてみました。
バックナンバー
分散と標準偏差(ばらつき)についてまとめてみた
データの変動と分散についてまとめてみた
関連ページ
統計分析の基本中の基本、度数分布表についてまとめてみた
数値データの分布をみるヒストグラムについてまとめてみた
正規分布について
データ分析の解説/メニュー
ラベル:標準化