2014年12月23日

相関関係と因果関係、疑似相関と潜在変数についてまとめてみた /データ分析の解説

4文字熟語が4つも並んだタイトルだけど、決して4文字熟語のサイトではありません。
ここは、データ分析のサイトです。。。悪しからず、(-_-;)
20141229_01.jpg

さて、いろいろと相関関係についてまとめてきましたが、相関関係を求めるというのはどういうことでしょう?
とここにきて根本的なところを自問自答してみましょう。

相関関係とは、2つの量(数値)の間に何かの関係性があるかないかを求めること。では、関係性を求めてどうするの?何故関係性を求めるの?と言うことだ。
答えは、関係性を求めることで、“1つの値からもう1つの値を推定(予想)”したいからだよねー。

んでここで、注意したいというか、勘違いしがちなのが、相関関係があると、2つの値の一方がもう1つの値の原因になっていると思ってしまうこと。つまり因果関係があると勘違いしがちなのだ。。。

“因果関係”と言うのは“原因”と“結果”の連続した関係があること言います。
よく例えに挙げられる「アイスクリームの売上と水の事故の件数」がある。
20141229_02.jpg

アイスクリームの売り上げが増えると水の事故件数も増えるという相関関係があった時に、“アイスクリームの売り上げ”と“水の事故の件数”に因果関係があるかというと。。。まぁ、普通に考えると「無い」と言えるでしょう。
このような因果関係の無い相関関係を“疑似相関”と言ったりします。
別に、相関関係を求めた時に、必ずしも因果関係を求めることを前提にする必要はありません。
だって、色々な相関関係を求めないと、本当の因果関係は見えてこない時が多いから。。。
ただ、“1つの値からもう1つの値を推定(予想)”するためには、最終的には正しく因果関係を求めなくてはならないですよね。

んで、話を「アイスクリーム」に戻すと、この疑似相関には何が見落とされているか。。。
アイスクリームの売り上げが増える原因は?気温ですよね。
すると、水の事故が増えるのも気温?ということで納得の因果関係が求められるわけです。
この時の“気温”のことを“潜在変数”と言います。

この潜在変数を見逃してしまうと、疑似相関にも関わらすそれが因果関係だと勘違いしてしまっちゃうんです。

バックナンバー
其の1 相関関係についてまとめてみた
其の2 相関関係で気をつけたいこと(散布図を画いて確認しよう!)
其の3 散布図についてまとめてみた(どっちが横軸?)

関連ページ
データ分析の解説/メニュー
posted by haku1569 at 19:17| データ分析の解説 | このブログの読者になる | 更新情報をチェックする