こんにちは、「Yahoo! JAPANビッグデータレポート」チームです。
以前ビッグデータレポートで掲載した「音楽CDが売れるとサバの漁獲量が増える?相関関係の不思議な話」はすでにご覧になりましたか?そもそも「相関」とは何なのか、そして擬似相関と呼ばれる現象の解説をしましたが、ありがたいことに多くの反響をいただきました。
そこで、今回はその続きとして、オープンデータを利用した擬似相関の面白い事例を紹介します。
今回使用するデータは「政党支持率」です。2014年4月から2016年3月までの各政党の支持率推移と一致するオープンデータがないか、約8,000件のオープンデータを集めて相関係数を計算し、波形が類似するデータを抽出したところ、思いもよらないデータが政党支持率と一致しました。
そのちょっと変わったにわかに説明が困難な事例を紹介します。
※なお、紹介している事例は実際のデータに基づいた相関関係にあるものですが、因果関係の有無を示す尺度ではありません。相関係数は2つの変数の動き方に線形の関連性の強弱を示す統計的な尺度です。また、最近誕生した政党については長期間の支持率データが存在しないため、分析対象外としています。
まずは自民党支持率の推移と相関係数が高く、かつ波形が類似するデータを抽出してみました。いったいどのようなデータが支持率と相関していたのでしょうか。
たらの漁獲量、ばれいしょ(じゃがいも)の卸売数量、運搬車の在庫台数、おそらくどれも自民党支持率の変化と関係がある理由が何も思いつかないのですが、波形を比較してみると見事に連動しています。
これら連動しているデータの間にもし関係があったとするとどういうものが考えられるのか。そんな想像をしてみるのも面白いかもしれません。
次にほかの政党も見ていきましょう。
民進党ですが、青森県の平均風速と支持率の相関など意外組み合わせが見つかりました。風が吹けば吹くほど支持率が上がる、そんな関係が実際にあったら大変興味深いですね。
公明党は相関係数はそれほど高くありませんが、波形はとてもよく似ているデータがいつくか存在しました。公明党はそもそも長期間においても支持率が大きく変動しないという特徴を持つため、波形では少しのズレに見えても相関が上がりにくくなってしまっていると考えられます。
ちなみに、擬似相関というものは見つけるのが意外と難しいです。というのも擬似相関に見えてちゃんと因果関係が存在してたり、相関係数だけでは判断できない事例があったりするためです。
共産党の支持率との相関が現れたのは、家賃支出やコーヒーの購入支出など、生活に密着した数値のものがいつくかありました。現時点ではこれらの関係性を明らかにできていませんがこれらは擬似相関ではなく、我々が気が付いていないだけできちんとした因果関係がある可能性もあります。このような思いもよらない事例が見つかることも、たくさんの相関を見る事の一つの面白さです。
いかがでしょうか。ここまで様々なデータの連動を見てきましたが、さらに面白い発見を考えるなら時系列を一ヶ月ずらして、支持率の先行指標となる擬似相関を探すのも面白いかもしれません。
繰り返しになりますが、今回紹介した相関事例は調査期間において事実ですが、擬似相関の事例の一つとしてお楽しみ頂けると幸いです。
これからも定期的に面白い事例を発見していきたいと思っています。
これからも、Yahoo! JAPANビッグデータレポートをよろしくお願いいたします。