データ分析の解説: (4) haku1569　Excel でらくらくデータ分析！

TOP / データ分析の解説

<< 1 2 3 4 -

2014年11月01日

相関関係で気をつけたいこと（散布図を画いて確認しよう！） /データ分析の解説

さて、前回は相関係数を求めることで、相関の強さ、正の相関、負の相関かどうかが分かるようになったのだけど、じゃ、相関係数を求めればいいかというと、そうではなくて、
相関グラフ（散布図）もちゃんと画いて確認しないと間違いを見落としてしまうケースがあったりします。
今回はそんなことも含めて、相関分析で気をつけておきたいことをまとめてみました。

外れ値
“外れ値”というのは、データの入力ミスだったり、異なるデータが混在したりして、極端に大きい（小さい）データのことで、この外れ値があると“平均値”が大きく変わってしまうことがよく知られています。
相関分析でも、外れ値があると相関係数が小さくなってしまいます。
これを見分けるには相関グラフ（散布図）を画いてみないと見過ごしてしまいます。

直線以外の規則性
前回も説明したように、相関係数は分布が直線に近似できる場合の相関を表す数値です。
なので、上の図のように曲線の規則性あっても、相関係数では相関が無いような結果になってしまうことがあります。
ので、これも相関グラフ（散布図）を画いてみることが必要です。。

データの混在（層別にする）

せっかく相関グラフ（散布図）を画いてみても、そのデータに本来別なデータとして扱わなければならないものなのにそれに気づかずに一緒に混ぜてしまい、相関が無くなってしまったり、上の図の例の様に、正負が逆の結果になってしまうこともあります。
対象とするデータに異なる条件が隠れていないか、よく吟味しなければなりません。
これは、そのデータに関する専門的な知識が必要になる場合もあって、ちと大変です。。。

選抜効果
広い範囲に分布する全体のデータは明らかに相関があるんだけど、その中の1部分を取り出すと、相関が小さくなってしまうことを“選抜効果”と呼ばれます。

この選抜効果でよく例えに挙げられるのが、入試を行って合格者の、入試の時の得点と、入学後の成績の相関をみると相関が無いという結果になるという話。。。
この場合、“入試で合格した”で範囲を狭く選抜してしまったことが相関を無くしてしまう原因になるわけです。。。

なのだけど、選抜された範囲で相関が弱くなるのは、決して分析が間違っているわけではなくそれはそれで真実な訳です。
つまり、実際に必要とする分析の範囲がどこかによって、相関は変わります。
もし、全体から選抜した範囲の相関を求めたい時は、全体の相関も求めたうえで、選抜した範囲の相関を評価するべきだと思います。。

っと、いう訳で、相関係数だけでは分からないところ、見過ごしてしまうところがあります。
散布図を画けばおぎなえるところ、散布図を画いても分からないこともあります。
データの背景をよく見て（データを収集して、分析して）正しい（妥当な）相関を見つけましょう！！

さて次は、その散布図について簡単にまとめてみました。
予告編

バックナンバー
其の1 相関関係についてまとめてみた

関連ページ
其の3 散布図についてまとめてみた（どっちが横軸？）
其の4.1 散布図を画いてみた / グラフ
COVAR関数で共分散を求めてみた
CORREL関数で相関係数を求めてみた”
データ分析の解説/メニュー

ラベル：相関関係外れ値選抜効果

posted by haku1569 at 19:56| データ分析の解説 |

2014年10月12日

相関関係についてまとめてみた /データ分析の解説

何か２つのデータの間に関係がありそうだ！
っていうのを相関関係があるといいます。
ドラマやなんかの登場人物の関係も“相関図”と言ったりしますが、それはちと意味が違います。
相関関係を調べるデータは基本的に最終的には連続した数値データにするのが分析には適していると思います。

分かりやすい例をあげると、、
季節（月）と電気料金の関係だったら、気温と電気料金とか
子供の算数の成績（テストの点数）と理科の成績とか、
スーパーでの気温と、ビールの販売数とか。。。
など、大体想像がつきそうなデータの関係だけではなくて、2つのデータがどんな関係があるか、どのデータを対象にした方が関係性が強いかを分析することも重要です。
例えば、気温とビールの販売数の関係は、気温より湿度のデータの方がより関係があったりとか？（ないか。。？）
算数と、理科の成績の相関？
理系と文系の教科の場合、理系の方が塾に通っている子供が多いとしたら。。。
塾に通ってる子と算数または理科の成績の相関ってことになるかも！？
つまり、そこがデータ分析の肝になるところ。。色んな角度でデータを集めて分析することが必要なことになる。。

相関関係を見る相関グラフ（散布図）
２つのデータの相関関係を調べるには、まず相関グラフを画いてしまうのが手っ取り早く全体の傾向をつかむのに有効です。
具体的には、2つのデータを横軸と縦軸にとった“散布図”を画きます。
数学的にいうと“x-yグラフ”になります。ちなみに横軸が“x”、縦軸が“y”になります。
Excelを使うと散布図を簡単に画くことが出来ます。
散布図については後ほどまとめておきます。。

相関係数
話が逸れてしまったけど、
相関グラフを画いてみて分かることはばらつきの大小と、グラフの傾向、右肩上がりか右肩下がりか、それと直線ではなく曲線的な傾向があるかないか等など。。
んで、相関グラフでの特性を表す値（特性値）に“相関係数”というのがあります。
ばらつきが無く一直線上にある場合は“1”、ばらつきが大きく右肩上がりか右肩下がりかグラフの傾向も分からないような場合は“0”になります。
また、右肩上がりはプラス（正の値）、右肩下がりはマイナス（負の値）になります。

相関係数は2つのデータが直線的な傾向を判断する特性値なので、相関係数が“0”でもばらつきが大きい場合とは限らず、曲線的な規則性に当てはまっている場合もあります。

共分散と相関係数
さて、相関係数はどうやって計算するかというと。。。
まず“共分散”というのを求めます。
共分散は標準偏差を求める時の分散と同じような考え方で、“x”と“y”の平均との差をかけてその平均を求めます。
分散はその“x”だけ（または“y”だけ）の特殊なケースと言えるかもしれません。

共分散を求めることで相関係数がプラス（右肩上がり）かマイナス（右肩下がり）かが分かります。
“x”と“y”の平均値の点から右上、左上、右下、左下の4つの範囲に分けると、
xの平均との差とyの平均との差の積（掛け算）がプラスになる範囲は、右上と左下の範囲になり、この範囲を通るグラフは右肩上がりになります。
逆に、xの平均との差とyの平均との差の積（掛け算）がマイナスになるのは左上と右下の範囲になり、個の範囲を通るグラフは右肩下がりになります。

共分散の値の単位はxの単位とyの単位の積になります。
例えば、気温とビールの販売数の共分散だったら、単位は“℃・本”になります。
またその値も、ビールを販売する店によって販売量が異なると共分散の値も変わってくるでしょう。
そこで、相関係数を使って、いろいろな相関関係の特性を共通の値で表すわけです。。
ちなみに、共分散はExcelの“CONVAR関数”で簡単に求めることができます。

相関係数の単位は共分散をxの単位を持つxの標準偏差と、yの単位を持つyの標準偏差で割るため単位が無くなります（無次元）。
また、相関係数の値は“-1～1”の範囲の値になります。

相関係数と、相関関係の相関の強さの目安は、

相関係数>0.7：相関が強い
0.4<相関係数<0.7：相関が中間的（な強さ）
0.2<相関係数<0.4：相関が弱い
相関係数<0.2：相関が見られない

とされています。
（目安なので“以上”、“以下”かどうか細かいことは気にしないでくださいね！）
また、相関係数はExcelの“CORREL関数”で簡単に求めることができます。

と、相関係数さえ求めれば、相関関係が分かってしまうように思いますが実際は、そう単純な話ではありません。
次は、相関関係を調べる時の注意しなければならないことについてまとめてみました。

予告編

ラベル：相関関係相関係数散布図相関グラフ

posted by haku1569 at 22:51| データ分析の解説 |

2014年09月23日

分散と標準偏差（ばらつき）についてまとめてみた/データ分析の解説

“ばらつき”と云うのは集団の中のデータ同士の差異（違い）のことで、統計的にはそれを“定量化”つまりはっきりと数字化（値に）したものです。それが“分散”や“標準偏差”になります。
前回は“平均との差”の平均“分散”についてまとめましたが、今回は“標準偏差”について詳しくみてみましょう。
例えば、テストを行った各学生の点数がこんな点数で、平均は63点でした。

さてここで、加藤さんは73点で平均より10点高かった訳ですが「10点も高かった」と言えるのか、それとも「10点しか高くなかった」としか言えないのか。。。？
テストの結果をヒストグラムにしたとすると、、

ばらつきが大きかったとすると左のようになだらかな分布になり、ばらつきが小さいと右のような尖がった分布になります。
　平均値より10点高かった加藤さんですが全体の分布がどうなっているか（ばらつきが大きいのか小さいのか）によって、全体の中での位置付けが変わってくるわけです。
　そのばらつきの大きさを数値で表したのが"標準偏差"（Standard Deviation）です。

分散と標準偏差の求め方
標準偏差を求めるためにまず"分散"（variance）を求めます。
分散は平均との差（点数-平均）の二乗の平均値です。
で、標準偏差はその分散の平方根になるわけです。

平均との差（点数-平均）を単に平均してしまうと、プラス・マイナスで相殺されてしまいます。
例えば田中君の53点と加藤さんの73点の平均との差をそのまま足してしまうと-10＋10=0になってばらつきが無くなってしまいます。そこで一旦二乗を平均したのが分散になります。

平均値が同じでも標準偏差が異なるとデータのばらつきが違いますから、データの分布の様子が変わってくるわけです。
よく聞く“正規分布”と言うのは“平均値”と“標準偏差”だけで、分布の形が決まります。
ですが、標準偏差はばらつきの大きさを表しているだけなので、正規分布にはなっていない分布でも用いることができます。

平均との差の平均は、平均との差の絶対値から平均を求める方法もあり、これを“平均偏差”といます。二乗の平均から平方根にした標準偏差とは値が異なります。

一般的に標準偏差は“σ（シグマ）”で表示されますが、これは母集団の標準偏差の場合で、サンプルデータ（標本）から母集団の標準偏差を推定する場合は“s”で表示され、データの個数は"n"ではなく"n-1"になります。
明確に区別する場合は標本（サンプル）の場合は"標本分散（または不偏分散）"、"標本標準分布"が使われます。

Excelの関数では“標本から予測した（母集団の）標準偏差”を求める“STDEV関数”“母集団の標準偏差”を求める“STDEVP関数”が用意されています。

さて標準偏差が分かったところで、次回は色々な種類のデータを比較できる様にするためのデータの標準化についてまとめてみました。

バックナンバー
データの変動と分散についてまとめてみた

関連ページ
・統計分析の基本中の基本、度数分布表についてまとめてみた
・数値データの分布をみるヒストグラムについてまとめてみた
・正規分布について
・平均偏差、ばらつきの平均
・データ分析の解説/メニュー

ラベル：標準偏差分散平均偏差ばらつき

posted by haku1569 at 19:21| データ分析の解説 |

2014年09月21日

平均値と代表値（特性値）/データ分析の解説

新聞やTVでいろいろな統計データが公表される時だいたい平均値が使われている。
平均値と聞くとイメージするのは、平均値付近が一番多くのデータが分布していて、平均値を挟んで平均値より小さいデータと平均値より大きい分布がだいたい同じ量くらいにあるって勝手に思います。つまり、難しいことは分からなくても正規分布の様な分布になっているもんだと勝手にイメージしちゃいます。正規分布だと、平均値と、中央値と最頻値が同じ値になります。

この分布は国税庁が公表した2012年の1年間働いた人の給与のデータです。

平均値は408万円です。
グラフを見ると一番人数が多い最頻値は400万円以下です。
あなたの収入と見比べてどうですか？多い？少ない？
実はこれは男女混合のデータです。
ちなみに、男性の平均値は502万円、女性は268万円です。女性の所得は男性の半分強しかありません。ですが、このデータは正規雇用、非正規雇用混合なので、パートさんのデータも含まれます、つまり、旦那さんの配偶者控除を受けるために年収を103万円以下に制限している女性のデータが多く含まれています。。。
勤続年数や年齢でも大きく違うでしょう。業種によってもかなりちがっています。
もちろん、国税庁のデータはそれらの区分ごとのデータも公表されています。
そんなこんなをひっくるめた給与所得者4,556万人の平均値が408万円ということな訳です。

このようにある集団の特徴を表す値を代表値または特性値といいこの場合は平均値が代表値とされています。

平均値は極端に大きい値や極端に小さい値等の外れ値があるとその影響で平均値が変わってしまいます。
それに対し、一番分布が高い最頻値や、全てのデータを小さい方から順に並べてちょうど真ん中の順番にくる中央値は外れ値の影響を受けません。

統計データの特徴を分かりやすくするために代表値は平均値、最頻値、中央値などから適したものを使う必要があります。
また、年毎に比較する様な場合では、当然ですが同じ代表値比較しなければなりません。。

Excelの関数では平均値のことを“Average”と言いますが、数学では平均値は“Mean”と訳されます。どちらも“平均”の意味ですが、“代表値”のことを“Average”と訳す場合もあるようです。

ではまずは、この「平均値」についていろいろ勉強していきましょう！
最初はいわゆる「平均値」と言われる「算術平均（相加平均）」と「加重平均」についてまとめてみました。

ラベル：平均値代表値特性値中央値最頻値

posted by haku1569 at 16:24| データ分析の解説 |

中央値についてまとめてみた（平均値と何がちがう？）/データ分析の解説

中央値ってのは
データを小さい順から並べた時にちょうど真ん中にくる値のことです。

いわゆる平均値では極端に大きいデータや極端に小さいデータ（外れ値）が1個でもあるとその値によって平均値が大きく変わってしまいます。
データが正規分布に近い場合はデータの集団の特徴を平均値で代表させる（代表値）ことができますが、正規分布から外れてしまっている場合は平均値では集団の特徴を代表させるには適当ではありません。
なのに、“平均値”は老若男女を問わず広く知れ渡っているため、かなりの割合で正規分布から大きく外れてしまっていてもその集団の代表値に“平均値”が使われています。
中央値は、そのような場合に平均値に代わって集団の代表値として使用することができます。

中央値の求め方
データの数が奇数の時は、真中にくるデータがありますが、偶数の時は真中のデータはありません。
その時は、まんなかの2つのデータの平均値を中央値とします。
例えば、10人の子供が並んだ時は5番目と6番目の子供の身長の平均値が中央値になります。
式で書くとこうなります。
ちなみに記号は“χ”の上に“~”（チルダ記号）をつけて“エックスチルダ”と呼びます。

よく、スポーツの採点で体操、フィギュアスケートやシンクロ等の採点では採点の最大値と最小値を除いてから平均する“トリム平均（調整平均）”が採用されています。これは平均値が外れ値の影響を受けやすいためにそのようにしているのですが、このトリム平均の取り除く幅をどんどん増やしていって残った最後のデータが1つ（または2つ）になった時の値が中央値ということになります。

中央値と平均値を比べてみると
外れ値がある時は間違いなく中央値を用いるのが妥当です。

では、分布が左右対称ではなく偏っている場合は？

この場合、平均値は明らかに右寄りの値になります。
よく、給与所得者の平均賃金が非常に高く感じられるのは間違いなくこの為です。
中央値だとそれが緩和されて、実情に近い値になるでしょう。しかし山のピーク（最頻値）よりは右側になります。この場合は最頻値が最も多くの人が実感できる値になります。

例えば、テストがあって5人の生徒の点数（①～⑤）が、
①10点、②10点、③30点、④70点、⑤80点だったとします。
前回の算術平均と加重平均の話に出てきた天秤の釣り合いを考えてみると、
平均値は（10+10+30+70+80)÷5=40点で重心になり天秤は釣り合います。
中央値は③番目の値、30点になり天秤は釣り合いません。
またこの3番目の順番さえ変わらなければ、他の①、②、④、⑤の点数がいくつであろうが中央値は変わりません。

というわけで、データの代表値として"平均値"を使うか"中央値"か"最頻値"何が妥当かを判断するには度数分布図（ヒストグラム）をまず作るようにしましょう！

Excelでは、中央値を求める“MEDIAN関数”が用意されているため、データの数が奇数か偶数かとかを気にすることはありませんよ。。

次回は中央値に対応するばらつきの代表値"四分位範囲"、"四分位偏差"について説明しましょう！

バックナンバー
1．平均値と代表値（特性値）
2．算術平均（相加平均）と加重平均の違いは？「重み」ってナニ！？

関連ページ
QUARTILE関数で四分位点を求めてみた
統計分析の基本中の基本、度数分布表についてまとめてみた
数値データの分布をみるヒストグラムについてまとめてみた
正規分布について
中央値を求めるMEDIAN関数
データ分析の解説/メニュー

ラベル：中央値 Median メジアンエックスチルダ

posted by haku1569 at 00:30| データ分析の解説 |

2014年08月31日

主婦も納得？ABC分析（パレート分析）/データ分析の解説

ABC分析って？
例えば、家計簿を例にとるとみんな分かりやすいと思うので、、、
家計簿は、買物、公共料金の支払い等の支出（金額）とそのアイテム（項目）を日付ごとに記録していきます。
更に、買った品名等のアイテムを“食料品”、“衣料品”とか“光熱費”とかの分類をしているかもしれません。

ところで、家計簿をつける目的を考えると、、
その一つに支出を減らすというのがあると思います。減らすための作戦を立てるデータになるわけですよね。
普段より支出が多かったら、その原因を確認して次の月からから「お財布のひもを締めていかなきゃ！」と対策をとることもあるでしょう。

ABC分析というのは、パレート図っていうのを作って、支出の大きい順に項目を並べ替えてどの項目を重点的に節約すれば支出の減らすのに効果的かを見極める分析の手法のことです。パレート図を使うのでパレート分析とも言われます。
パレート図も度数分布を表したものですが、一般的にアイテム（項目・カテゴリーとも、、）毎の度数分布の場合はパレート図が使われ、数値（ある範囲の数値）毎の度数分布の場合はヒストグラムが使われます。
支出の合計の70～80%を占める項目を“ランクA”80～90%を占める項目を“ランクB”、残り（90～100%）の項目を“ランクC”と重点度合いでランク分けすることから“ABC分析”と言われます。

ちなみに“パレート”というのは、イタリアの経済学者の名前“Vilfredo pareto（ヴィルフレートパレート）”から来ています。

家計簿の場合は、支出を減らすための分析になりますが、お店や、企業の場合は売上を増やすために、“売上金額と販売商品”、“売上金額と顧客”なんかがABC分析の対象になります。
他に減らす方は、工場の“不良件数と不良の原因”とか“在庫金額と在庫品目”とか、、、いろいろありそうですね。

ニッパチの法則
ABC分析では“パレートの法則”というのがあって、家計簿の例えでいうと、全部の支出の項目の内、大きい順に並べた最初の20%の項目の数だけで支出の合計の80%を占めるというもので、“80-20の法則”や“ニッパチの法則”ともいわれます。
具体的に言うと、仮に100項目の支出（米、野菜、肉、衣料品、医薬品、家賃・・・とか）があって、支出の合計が100万円（多すぎでしょ！？それとも、大金持ち？）だった時、大きい順の20項目の支出（家賃、教育費とか？）だけで、支出金額合計100万円の80%、つまり80万円を占めると言う法則ですが、必ずしも、20%の項目が値の80%を占めるということではなくて、全体の値の殆どは、僅かな項目で占められるという法則（経験則）を表しています。

ABC分析の目的は？
ABC分析は文字通り分析の方法なので、ある課題を解決するためのツール（手段）でしかありません。
例えば、家計の支出を減らす、商品の売り上げを伸ばす、工場の不良率を下げる、在庫を削減する。。。が最終目標になります。
では、何のためにABC分析をするかというと、、

①課題解決のための重要なアイテム（項目）が何かを明確にすること（見える化）
②その影響度合い（依存度合い）を把握すること
③そして、注力するところ、または力を抜くところ（もっと言うと、やめてしまうところ）を見極める。
④注力する方法、力を抜く方法を考える。
⑤対策を実施した後の効果を確認する
・・・

なんかが、ABC分析をする目的になると思う。。

パレート図の形
パレート図を作った時、必ずしも“パレートの法則”が成り立つような“80-20”のグラフになるとは限りません。
累積構成比の線グラフがもっと急に立ち上がるグラフ（急な形）だったり、なだらかなグラフ（なだらかな形）になることもあるでしょう。。

商品の売り上げで考えると、“急な形”はごく少ない商品で売上の殆どを占めてしまっています。
その商品の売上のバラつきが全体の売上のバラつきに影響を与えてしまい依存度が大きくなってしまっています。その商品が製造中止になったり、納期が遅れたりすると致命的な影響を与えてしまいます。
もっと、売れ筋商品の柱を増やす必要があります。できれば、違うジャンルの商品で柱をつくるのが効果的に、リスクを減らせます。
また、このような場合、少ない売れ筋商品の売り上げを維持するために、注力は可能かもしれませんが、必要以上に力を注がないと維持できなくなっているのかもしれません。。

それとは反対に“ゆるやかな形”は売れ筋商品が何かがつかめません。
リスクは小さいと言えますが、売上を伸ばすために何処に力を注いだらいいかが曖昧になっています。
“商品と売上”の分析だけではなく、“顧客と売上”など視点を変えた分析も行って、課題を見つけ出す必要がありそうです。。

ロングテールの法則
“パレートの法則（80-20の法則）”と反して最近は“ロングテールの法則”と言うのがあります。
これは、インターネットによる本の通販サイト“Amazon”の成功事例をモデルにしたパレート図の形です。

年に1～2冊しか売れない様な、実際に店舗をもつ書店では在庫が出来ない本をどんどん品揃えに増やしていくと、それらの売上に占める割合が半分以上になるという成功事例です。
実際に在庫を持たないネット通販だから可能になった手法です。Amazonに対抗しようと店舗を持つ書店が年に数冊しか売れない本を沢山品揃えすることは不可能です。
つまり、Amazonは既存の書店に対し明確な差別化をしたということです。
“パレートの法則”は例えばコンビニの商品在庫のシステム（POSシステム）に見られるように、小さな店舗で棚に置ける商品（アイテム）の数が限られている時に、常に売れ筋商品をリアルタイムで分析して、在庫補充をしていくというシステムにその活用を見ることができますが、品揃えするアイテムの数とそれにかかわるコストがどうかによって考え方がガラっと変わってしまうのでしょう。。
そう言えば、TVで地方の大型のホームセンターで、年に1回ぐらいしか売れない様な物でも常に在庫して「あの店に行けば何でもある！」というPRで集客しているというの見たことがあったなー。。

それでは、次は実際にパレート図をExcelで作ってみましょう。

関連ページ

第2弾!“Excelのグラフでパレート図を画いてみた”
第3弾!“ピボットテーブル＋ピボットグラフでパレート図を画いてみた”
データ分析の解説

ラベル：ABC分析パレート分析パレートの法則ニッパチの法則パレート図

posted by haku1569 at 19:40| データ分析の解説 |

2014年07月26日

お母さんの必見！わが子の偏差値とz値とは/データ分析の解説

偏差値というと試験の成績の評価のひとつとして定着してるけど、ほんとはどんな意味なのか、まとめてみました。

偏差値（standard score）とは、例えばテストの成績（点数）が集団の中でどのくらいの位置（順位ではありません）にあるかを示す無次元の値です。無次元ですから、点数ではありません。
“score”というのは「点数」とか「成績」という意味で日本語の“偏差値”（偏り・差）みたいな意味は英語には一切ありません。。。

ではさっそく、偏差値の具体例をみてみましょう。
国語と数学のテストを行った加藤さんの得点と偏差値です。

得点は、国語の方が良い点数でした。
ですが、国語と数学では全体の平均点や標準偏差が異なるため学年の中での位置付けはことなります。
それを偏差値を求めると国語と数学を同じ土俵にして位置付けを見ることができます。
その結果、国語よりも数学の方が偏差値は高かったことがわかりました。
つまり加藤さんは国語より数学の方が成績？実力？学力？が高いと言えます。

さて、詳しくみていきましょう。
"分散と標準偏差"で自分のテストの結果が分かっても全体の平均値や標準偏差が分からないと集団の中でどのくらいの位置にいるか分からないと言うことが分かりました。ところが、課目が違うテストや行った日にちが違う別のテストと比較したい場合、課目や試験によって平均値も標準偏差も違うため比較できなくなってしまいます。
そこで、まず前回説明したデータの標準化を行います。これで同じ状態で比較できるようになります。
ここで、大切な大前提は、テストの結果の分布は正規分布になるということです。（正規分布についてはこちらをご覧ください）

正規分布のデータを標準化したものを"標準正規分布"と言うわけですが、平均値が"0"、標準偏差が"1"と言うのはテストの結果を評価するにはちと分かり辛いですよね。
と言うことで平均を50、標準偏差を10にした正規分布にした訳です。このデータを偏差値、Z（大文字）得点（Zスコア）と言います。

z値（標準化データ）（この"z"は小文字です）とは、平均値とのばらつき（偏差）が標準偏差（σ：シグマ）の何倍かという値です。正規分布の場合よく「2σの範囲には95%含まれる」と言われている、あれです。これだけで、十分全体の中の位置が分かるわけですが、とりわけ試験の成績の場合やはり平均が"50"、満点が"100"という値の方が馴染みやすいので"偏差値"はz値を10倍して50を足してそうなるように補正しているだけです。つまり、z値が"2"の偏差値は"2x10+50=70"となります。この偏差値を"Z値"（大文字）と言ったりします。

まず平均を50に合わせます。平均値が違うテストで、得点だけで優劣は比較できないですよね。
平均値を合わせると言うのは、つまり平均の位置を横方向に移動（OFFSET）させるだけなので足し算、引き算で可能です。

次は、標準偏差を10にします。これもバラつきの分布が異なっていると、同じ平均値の同じ得点でも、集団の中での位置は異なってきます。

さて、この偏差値の値と集団（平均50、標準偏差10の正規分布）の中での位置づけがどうなるかというと、、、こうなる

ちなみに、偏差値が"100"っていうのはExcelの"NORMDIST関数"で計算してみると、400万人中1番の人になりますよ!!

ちなみに、東進の林先生のお弟子さんでかつ、「ミス日本コンテスト2015」の準ミス日本の東京大学医学部の秋山果穂さんは高校時代の東大模試で偏差値93．7だったとか！？

さて、ここでもう一度加藤さんに登場していただいて、国語の試験と数学の試験の結果の偏差値を実際に求めてみましょう。
加藤さんの試験の点数は国語が73点、数学が60点でした。国語の方が点数は良かったですが偏差値はどうなんでしょう？

まずそれぞれの平均値と標準偏差をExcelの関数で求めてみます。
平均値は"AVERAGE関数"で求めます。

標準偏差は"STDEVP関数"で求めます。

ちなみに、国語の試験のヒストグラムはこんな感じ

数学はこうでした

数学は平均点が低くまたばらつきは小さいことがわかります。
層別だとこうなります。

ではまず、z値を求めるために"偏差"（点数-平均）を求めます。

つぎはそれを"標準偏差"でわります。これで"z値"が求められました。

つぎは偏差値です。z値に10を掛けて50を足します。

で、加藤さんの国語の偏差値は"59.5"、数学は"68.2"と求められました。

数学の点数の方が低かったですが、偏差値は高かったことがわかります。しかもかなりの好成績！
実際に計算してみた方が分かりやすいですよね。(*^^)v

と、こうして、表されるのが「偏差値」です。実に合理的な数字ですよね。
でも、これって現状の試験、評価方法の問題を解決するために便宜的にあみだされた様な数字に見えてしまうのですが。。。

標準偏差と言うと、「学年ビリのギャルが1年で偏差値を40あげて慶應大学に現役合格した話」という本が書店に並んでいる。
偏差値30の女子高生が偏差値70の慶応大学に入学するという実話を描いた本。
偏差値30から70というと、ビリから2.3%の成績からトップ2.3%に躍り出るという信じられないような話。「この奇跡はあなたにも起こる」というスゴイことだ。
ちなみに表紙の女子高生の制服は今、夏季限定の夏服バージョンが並んでいました（なんでやねん!?）。あっ、この子はモデルで実在の女子高生ではありませんからね。。。

【楽天ブックスならいつでも送料無料】学年ビリのギャルが1年で偏差値を40上げて慶應大学に現役...
価格：1,620円（税込、送料込）

偏差値またはz値によって、各データが異なる集団の中での位置付けを相対的に比較出来ることが分かりましたが、集団そのもののばらつきの大小を異なる集団（データ）で比較するするには。。。？
次回は"変動係数"についてまとめてみました。

バックナンバー
データの標準化とは？
分散と標準偏差（ばらつき）についてまとめてみた

関連ページ
正規分布について
統計分析の基本中の基本、度数分布表についてまとめてみた
NORMDIST関数で正規分布の確率密度・累積分布を求めてみた

ラベル：偏差値 Z得点正規分布

posted by haku1569 at 23:03| データ分析の解説 |

2014年06月14日

データ分析の解説/メニュー

確率

条件付き確率（ベイズの定理）についてまとめてみた

確率変数についてまとめてみた

・ばらつきと誤差、精度や確度とか

独立変数（説明変数）と従属変数（目的変数）

平均値と代表値（特性値）

算術平均（相加平均）と加重平均の違いは？「重み」ってナニ！？

幾何平均（相乗平均）とは？

調和平均とは

異常値を除外するトリム平均とは？

中央値（median / メジアン）についてまとめてみた

四分位点、四分位範囲、四分位偏差についてまとめてみた

箱ひげ図についてまとめてみた

パーセント点（パーセンタイル）についてまとめてみた

異なる集団（データ）のばらつきを比較する変動係数についてまとめてみた

ローレンツ曲線とジニ係数についてまとめてみた

度数分布

統計分析の基本中の基本、度数分布表についてまとめてみた

数値データの分布をみるヒストグラムについてまとめてみた

ヒストグラムを層別にしてみると！？

主婦も納得？ABC分析（パレート分析）

正規分布

正規分布についてまとめてみた

コイン投げ（二項分布と中心極限定理の検証）

確率と正規分布の確率密度についてまとめてみた

相関関係

・相関関係で気をつけたいこと（散布図を画いて確認しよう！）

・散布図についてまとめてみた（どっちが横軸？）

・相関関係と因果関係、疑似相関と潜在変数についてまとめてみた

・回帰分析～相関関係と区別しましょう～の巻

ラベル：データ分析統計確率

posted by haku1569 at 22:10| データ分析の解説 |

正規分布についてまとめてみた / データ分析の解説

正規分布とは。。。
正規分布（Normal Distribution）、ガウス分布ともいいます。
その前に、統計分析の基本、"度数分布"や"ヒストグラム"についてのおさらいはコチラをどうぞ！

正規分布の形
正規分布というのは“分布”の形のことなので、度数分布のグラフつまり“ヒストグラム”の形が平均値を中心に釣り鐘状に分布していることを言います。
どんなデータの分布が正規分布になるかと言うと、例えば、人の身長の分布（と言っても、年齢や性別を限定する必要があります）とか、サイコロをたくさん振った時の出目の分布とか、製造現場では何か部品を加工した時の寸法のバラつきの分布とか。。。
ある自然現象、社会現象のデータの分布にも多くあると言われます。
具体的にはこんな形の分布になります。

但し、正式な意味では、グラフの縦軸はヒストグラムの場合の個数や件数ではなく、確率になります。しかも“確率密度”つまりグラフの全体の面積を“1”とした、単位幅当たりの“確率”。。。
例えばヒストグラムの縦軸の度数（個数、件数）を総件数で割ったもの（20%とか、50%とか）を相対度数と言いますがそれが“確率”に当たります（なのでグラフの面積が"1"になります）、それを更に横軸の幅で割ったものが単位幅当たりの確率で“確率密度”になります。（つまり確率を微分したものです、、よけい分からない！？）
“確率”と言うと、いきなり難しそうなので、“割合”だと考え方を変えてしまいましょう。。。

Excelの統計関数では、“NORMDIST関数”で正規分布の“確率密度”、“累積分布”を求めることができ、そこから正規分布のグラフを画くこともできます。また後から登場する尖度（せんど）を求める“KURT関数”、歪度（わいど）を求める“SKEW関数”、等もあります。

確率密度関数
んで、そろそろ本題ですがその正規分布の形というのを数式で描くとこうなります

ここで、平均値“μ（みゅー）”ってのが出てくるんですが、これは母集団つまり、サンプリングされる大元の全てのデータが存在する集団の平均値という統計学的な意味です。そこからサンプリングされるのが“標本”で、計測される平均値は標本の平均値なのでエックスバー（よく数学で出てくる平均値の記号）がつかわれます。つまり、サンプリングされた標本の平均値から大元の集団（母集団）の平均値を推定するために正規分布が使われるのです。
例えば、サンプリングされたテレビの視聴率から全世帯の視聴率を推定するとか。。。

んで、この式から分かるように、正規分布は平均値とばらつきを表す標準偏差でのみ決まります。決まるというのは、その形が決まります。
ちなみに、平均値が“0”、標準偏差が“1”の正規分布を“標準正規分布（z得点）”といいます。

平均値の大小でグラフが左右に移動し、標準偏差の大小で、中心部の高さ、裾の広がり具合が変わります。
もう一つ、xの範囲はマイナスもプラスも無限大（∞）ってことです。
正規分布の例として、テストの成績と書いてあったりしたりします。実際、テストの結果から評価される“偏差値”はテストの結果が正規分布である前提なのですが、この式からみると下は0点、上は満点（100点）で制限されるので、正確には正規分布とは言えないのですが、概ね（おおむね）正規分布とみなされるので問題ありません。
加工部品の寸法のバラつきなんかの場合は、ある許容値の範囲外はNG品としてはじかれてしまっていた場合は次工程に流された部品の寸法のバラつきは正規分布ではなくなるので、注意が必要です。。。
つまり、実際の分布の状況をグラフ等でよく確認する必要があるということですね。

ちなみに、入試の時によく出てくる“偏差値”というのはさっきの平均値“0”、標準偏差“1”の“標準正規分布”を10倍してから50を足して、平均値“50”、標準偏差“10”の正規分布（Z得点）にしたときの全体の中の位置づけのことになります。

んで、実際の計測されたデータがこの式にのっとった正規分布なのかどうかを判断するのは難しいことです。データがたーくさんあるならまだしも、限られたデータではなおさらです。。
そこで、登場するのが“尖度”と“歪度”。これらは、正規分布かどうかを判断する目安に用いられます（あくまで目安です）

また、あらかじめ正規分布になるとわかっている場合、もしそれが正規分布になっていなかったとすると何か異常事態が起こっている可能性があります。

正規分布の範囲と推定
さて、正規分布の場合に何が分かるか、何が推定できるかというと、
平均±標準偏差の範囲（俗に言う±σ）には全体の約68.26％のデータが含まれる。
平均±２×標準偏差の範囲（±2σ）には、全体の約95.44％のデータが含まれる。
平均±３×標準偏差の範囲（±3σ）には、全体の99.73％のデータが含まれる。
という特徴があります。
ので、平均値と標準偏差が分かっていると、あるデータが全体の中でどのくらいの範囲に入っているのかが分かります。
例えば、テストの平均点が60点で標準偏差が10点だったとすると約68%の学生の点数は50点から70点の間になることがわかります。
この、範囲と推定はExceの“NORMDIST関数”の累積分布で簡単に求めることができます。

ちなみに、－σ、＋σのポイントが確率密度関数の変曲点になります。あっ、変曲点っていうのは読んで字の如く、曲線の曲がる向きが変わるポイントのことです。

では、次回はサイコロ投げをExcelを使ってシミュレーションして正規分布になるかどうか実際にやってみましょう。

【楽天ブックスならいつでも送料無料】統計学が最強の学問である [ 西内啓 ]
価格：1,728円（税込、送料込）

関連ページ
尖度と歪度
統計分析の基本中の基本、度数分布表についてまとめてみた
数値データの分布をみるヒストグラムについてまとめてみた
ヒストグラムを層別にしてみると！？
確率の期待値についてまとめてみた
確率についてまとめてみた
データの変動と分散についてまとめてみた
分散と標準偏差について
Excelの統計関数で正規分布の確率密度・累積分布を求める / NORMDIST
Excelの統計関数で尖度を求める / KURT
Excelの統計関数で歪度を求める / SKEW
偏差値について

ラベル：正規分布ガウス分布標準偏差確率密度

posted by haku1569 at 21:53| データ分析の解説 |

<< 1 2 3 4 -