シンデレラガールになると翌年の総選挙で順位が下がるのか?〜difference in differenceによる分析〜

はじめに

最初に結論を書くとシンデレラガールになることが順位に関して統計的に有意に負の効果を持つことが分かりました。

〜完〜

f:id:viola_voila:20200609224101j:plain

冗談です。difference in differenceを使った分析をやったことがないと思ったのでパッと思いついて練習としてちょうど良さそうなシンデレラガールになると翌年の総選挙で順位が下がるのか?というテーマを分析することにしました。
difference in difference使うの初めてなので間違っている部分があったら教えてください。

分析方法

過去9回分のシンデレラガールズ総選挙で1位だったアイドルと2位だったアイドルの翌年度の順位を比較し、difference in differenceを用いてシンデレラガールになると順位が下がるかどうかを検証しました。

データセット

アイドル名(回数) 1位経験 介入後 1位経験*介入後 票数 総投票数 得票率 順位
高垣楓(5回) 0 0 0 745932 30666504 0.0243 2
高垣楓(6回) 0 1 0 1063033 30671696 0.0347 1
高垣楓(6回) 1 0 0 1063033 30671696 0.0347 1
高垣楓(7回) 1 1 1 951207 69863741 0.0136 8
島村卯月(5回) 1 0 0 1066037 30666504 0.0348 1
島村卯月(6回) 1 1 1 244152 30671696 0.0080 24
渋谷凛(3回) 1 0 0 253329 8015329 0.0316 1
渋谷凛(4回) 1 1 1 107272 8989876 0.0119 9
神崎蘭子(1回) 0 0 0 60197 1574196 0.0382 2
神崎蘭子(2回) 0 1 0 391769 10532222 0.0372 1
神崎蘭子(2回) 1 0 0 391769 10532222 0.0372 1
神崎蘭子(3回) 1 1 1 82195 8015329 0.0103 14
前川みく(4回) 0 0 0 183742 8989876 0.0204 2
前川みく(5回) 0 1 0 396455 30666504 0.0129 8
安部菜々(3回) 0 0 0 202083 8015329 0.0252 2
安部菜々(4回) 0 1 0 116554 8989876 0.0130 7
安部菜々(7回) 1 0 0 2307719 69863741 0.0330 1
安部菜々(8回) 1 1 1 2789156 85707318 0.0325 51
アナスタシア(2回) 0 0 0 236701 10532222 0.0225 2
アナスタシア(3回) 0 1 0 72993 8015329 0.0091 18
本田未央(6回) 0 0 0 844017 30671696 0.0275 2
本田未央(7回) 0 1 0 1933964 69863741 0.0277 2
本田未央(7回) 0 0 0 1933964 69863741 0.0277 2
本田未央(8回) 0 1 0 3075522 85707318 0.0359 1
本田未央(8回) 1 0 0 3075522 85707318 0.0359 1
本田未央(9回) 1 1 1 3345788 509178071 0.0066 33
十時愛梨(1回) 1 0 0 79256 1574196 0.0503 1
十時愛梨(2回) 1 1 1 110828 10532222 0.0105 14
塩見周子(4回) 1 0 0 241011 8989876 0.0268 1
塩見周子(5回) 1 1 1 170514 30666504 0.0056 51
北条加蓮(8回) 0 0 0 2588753 85707318 0.0302 2
北条加蓮(9回) 0 1 0 16926974 509178071 0.0332 1

過去9回分のシンデレラガールズ総選挙で1位だったアイドルと2位だったアイドルの該当回の順位、得票数と翌年度の順位、得票数。
得票数があるものはその値を、データがない場合は先行研究を元にデータの
得票数=Y
順位=X
とした時、Y=αX^βとなるようなα、βを求めて順位を元に推定しました。QuizKnock最強!

偉大なる先行研究:【デレマス】京大生がシンデレラガール総選挙を数学的に分析

圏外の場合は51位としています。
総得票数は上記の推定を元に計算しました。得票率は得票数/総得票数。
1位経験はシンデレラガールになった回orその翌年は1となるダミー変数。
介入後はシンデレラガールor2位になった回=0、その翌年は1となるダミー変数。
1位経験*介入後は交差項。

一部ダブっているのは2位→1位となった場合は1位の年が2位の介入後かつ1位の介入前ということで2つにしています。
この方法が正しいのかは分からないので詳しい人教えてください。

結果

1.
目的変数:順位
説明変数:1位経験、介入後、1位経験*介入後
方法:OLS


OLS Regression Results
==============================================================================
Dep. Variable: 順位 R-squared: 0.566
Model: OLS Adj. R-squared: 0.520
Method: Least Squares F-statistic: 12.17
Date: Tue, 09 Jun 2020 Prob (F-statistic): 2.81e-05
Time: 13:12:11 Log-Likelihood: -114.86
No. Observations: 32 AIC: 237.7
Df Residuals: 28 BIC: 243.6
Df Model: 3
Covariance Type: nonrobust
==============================================================================

coef std err t P>|t| [0.025 0.975]
const 2.0000 3.312 0.604 0.551 -4.784 8.784
1位経験 -1.0000 4.684 -0.214 0.832 -10.594 8.594
介入後 2.8750 4.684 0.614 0.544 -6.719 12.469
1位経験*介入後 21.6250 6.624 3.265 0.003 8.057 35.193

==============================================================================
Omnibus: 13.151 Durbin-Watson: 1.994
Prob(Omnibus): 0.001 Jarque-Bera (JB): 15.946
Skew: 1.056 Prob(JB): 0.000345
Kurtosis: 5.739 Cond. No. 6.85
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.


1位経験*介入後はp=0.003なので統計的に有意に順位が下がると言えるでしょう。



2.
目的変数:票数
説明変数:1位経験、介入後、1位経験*介入後
方法:OLS
OLS Regression Results
==============================================================================
Dep. Variable: 票数 R-squared: 0.089
Model: OLS Adj. R-squared: -0.009
Method: Least Squares F-statistic: 0.9126
Date: Tue, 09 Jun 2020 Prob (F-statistic): 0.447
Time: 13:14:30 Log-Likelihood: -520.78
No. Observations: 32 AIC: 1050.
Df Residuals: 28 BIC: 1055.
Df Model: 3
Covariance Type: nonrobust
==============================================================================

coef std err t P>|t| [0.025 0.975]
const 8.494e+05 1.07e+06 0.794 0.434 -1.34e+06 3.04e+06
1位経験 2.103e+05 1.51e+06 0.139 0.890 -2.89e+06 3.31e+06
介入後 2.148e+06 1.51e+06 1.420 0.167 -9.5e+05 5.25e+06
1位経験*介入後 -2.232e+06 2.14e+06 -1.044 0.306 -6.61e+06 2.15e+06

==============================================================================
Omnibus: 55.634 Durbin-Watson: 0.943
Prob(Omnibus): 0.000 Jarque-Bera (JB): 392.147
Skew: 3.643 Prob(JB): 7.02e-86
Kurtosis: 18.525 Cond. No. 6.85
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.


有意な結果は出ていません。各回で票数のバラつきが大きいので調整しないとこんなもんでしょう。


3.
目的変数:得票率
説明変数:1位経験、介入後、1位経験*介入後
方法:Logistic regression

Logit Regression Results
==============================================================================
Dep. Variable: 得票率 No. Observations: 32
Model: Logit Df Residuals: 28
Method: MLE Df Model: 3
Date: Tue, 09 Jun 2020 Pseudo R-squ.: inf
Time: 13:16:16 Log-Likelihood: -0.98950
converged: True LL-Null: 0.0000
Covariance Type: nonrobust LLR p-value: 1.000
==============================================================================

coef std err z P>|z| [0.025 0.975]
const -3.5845 2.181 -1.643 0.100 -7.860 0.691
1位経験 0.2836 2.899 0.098 0.922 -5.399 5.966
介入後 -0.0602 3.130 -0.019 0.985 -6.194 6.074
1位経験*介入後 -1.0184 4.865 -0.209 0.834 -10.554 8.517

==============================================================================

有意な結果が出るかなと思ったら意外と出ませんでした。目的変数が0.02~0.05程度と小さすぎたのが原因なのでしょうか?
得票率だからロジスティック回帰が正しいのかなと思ったので難しい。詳しい人教えてください。

4.
目的変数:得票率
説明変数:1位経験、介入後、1位経験*介入後
方法:OLS

OLS Regression Results
==============================================================================
Dep. Variable: 得票率 R-squared: 0.521
Model: OLS Adj. R-squared: 0.469
Method: Least Squares F-statistic: 10.14
Date: Tue, 09 Jun 2020 Prob (F-statistic): 0.000109
Time: 13:18:36 Log-Likelihood: 109.31
No. Observations: 32 AIC: -210.6
Df Residuals: 28 BIC: -204.7
Df Model: 3
Covariance Type: nonrobust
==============================================================================

coef std err t P>|t| [0.025 0.975]
const 0.0270 0.003 8.987 0.000 0.021 0.033
1位経験 0.0085 0.004 2.009 0.054 -0.000 0.017
介入後 -0.0015 0.004 -0.362 0.720 -0.010 0.007
1位経験*介入後 -0.0216 0.006 -3.599 0.001 -0.034 -0.009

==============================================================================
Omnibus: 1.708 Durbin-Watson: 1.765
Prob(Omnibus): 0.426 Jarque-Bera (JB): 0.977
Skew: 0.422 Prob(JB): 0.613
Kurtosis: 3.146 Cond. No. 6.85
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

OLSだと得票率にも1位経験*介入後で有意な影響が見られました。
はたしてOLSの結果を採択して得票率に負の効果を及ぼすと言っていいのかは分からないです。

結論

シンデレラガールになると順位が下がるということが統計的に有意に示された。

感想

difference in difference面白いですね。
今回は1位と2位の集団に差がない(=サンプリングバイアスが存在しない)ということでシンプルに分析しましたが、傾向スコアマッチングとかも使ってみたいです。というか傾向スコア分析をやってみたいです。データが入手できて面白いテーマが思い浮かばないですが。