2015年02月11日

ヒストグラムを層別にしてみると!?/データ分析の解説

前回のヒストグラムの分布型で多峰性や非対称の場合、単峰性の別の集団が混在している可能性が考えられるわけなのですが、その要因をどうやって見つけるか。。。
それは、ヒストグラムを層別にしてみるということです。
"層別"というのは、それぞれのデータを要因毎に分けるということで、それらの要因がデータとして記録されていることが当然の前提になります。

例えば、このような機械加工品の検査データのヒストグラムがあります。
よく見ると全体的に右裾が長く"59-60"のところで2つ目のピークがあります。
20150210_11.JPG

よくデータを分析したところ、加工する機械が2台だったことが分かりました。
機械Aのヒストグラムはこうなりました。
20150210_12.JPG

機械Bのヒストグラムはこうなりました。
20150210_13.JPG

で、2つの単峰性のヒストグラムが混在した状態で層別にしてみるとこのようになります。
20150210_14.JPG
因みに、一番最初のヒストグラムは、この機械Aと機械Bの度数を足したものとなります。
と、このように層別にする要因を見つけだすことが肝になります。
まぁ、このサンプルは非常に分かりやすくなっていますが、現実はバラつきを発生させる要因はもっと沢山あったり、それらが複雑に影響しあったりします。
いずれにしても、要因分析できるように様々なデータを記録しておくのが肝心です。

おまけ。。。層別のもう一つの見方
さて、この機械Aと機械Bで加工された加工品の寸法ですが、今まで見てきたのは"L寸法"で、実は他に"H寸法"もあります。
で、この"H寸法"を層別のヒストグラムにしてみると、こうなりました。
20150210_15.JPG
つまり、"L寸法"よりも"H寸法"の方が、機械のバラつきを大きく反映してることが分かります。
このように要因を探すのも、1つのデータだけでなく、もし複数のデータがある場合は、他のデータがどうなっているのかも分析する必要があります。
ちなみに、Excelではピボットーブルを使うと層別のヒストグラムも簡単に作ることができます。


バックナンバー
統計分析の基本中の基本、度数分布表についてまとめてみた
数値データの分布をみるヒストグラムについてまとめてみた

関連ページ


posted by haku1569 at 22:47| データ分析の解説 | このブログの読者になる | 更新情報をチェックする
' + adSrc + '<' + '/body>'); d.close(); } loadAd(); window.setTimeout(loadAd, reloadSec * 1000); window.setTimeout(function() {adDiv.style.display = 'none'}, hideSec * 1000); }); }