はじめに
VTuberすごいですね。
kai-you.net
ランキングから見て分かる通り、2020年のVTuber界はホロライブ躍進の年だったと言っても過言ではないでしょう。
今回はDID(Difference in Difference)を利用して2020年のホロライブの躍進をデータから示したいと思います。
間違っている部分があればコメントください。
データセット
playboard.co
上記サイトから2020年度のスーパチャットランキング上位のVTuberをホロライブから上位10名、にじさんじから上位10名選出
https://socialblade.com/のデータから上記VTuberの2020年1月の登録者数と2020年12月の登録者数を抽出。
※イブラヒムは2020年2月デビューのためランキング上位にいましたが今回は選出外としました。
DIDのやり方
今回はかなりシンプルに
目的変数:登録者数
説明変数:時期ダミー(1月のデータなら0、12月のデータなら1となるダミー変数)、ホロライブダミー(ホロライブ所属なら1、にじさんじ所属なら0となるダミー変数)、DIDダミー(時期ダミー×ホロライブダミー)
としてOLSで分析をしました。
結果
OLS Regression Results ============================================================================== Dep. Variable: Subscriber R-squared: 0.817 Model: OLS Adj. R-squared: 0.801 Method: Least Squares F-statistic: 53.41 Date: Mon, 04 Jan 2021 Prob (F-statistic): 2.46e-13 Time: 13:35:17 Log-Likelihood: -156.89 No. Observations: 40 AIC: 321.8 Df Residuals: 36 BIC: 328.5 Df Model: 3 Covariance Type: nonrobust ============================================================================== coef std err t P>|t| [0.025 0.975] ------------------------------------------------------------------------------ const 13.9010 4.074 3.412 0.002 5.638 22.164 Time 17.6190 5.762 3.058 0.004 5.934 29.304 Holo -3.2550 5.762 -0.565 0.576 -14.940 8.430 DID 47.0750 8.148 5.777 0.000 30.550 63.600 ============================================================================== Omnibus: 5.596 Durbin-Watson: 1.881 Prob(Omnibus): 0.061 Jarque-Bera (JB): 7.236 Skew: 0.082 Prob(JB): 0.0268 Kurtosis: 5.077 Cond. No. 6.85 ============================================================================== Warnings: [1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
簡単に統計分析の読み方を説明します。
まず今回は因果推論なので決定係数が高い必要はそこまでない認識ですが自由度調整済み決定係数を示すAdj. R-squaredは0.801となっており、このシンプルなモデルでデータの8割は説明できるということになっています。
因果推論と決定係数の話は以下のツイートの説明が分かりやすいです。
計量モデルで分析するときの目的を明示的に教わっていないのかもしれませんね。端的に言えば、予測が目的なら決定係数は高い方がよく、因果推論が目的なら必ずしも高い必要はないですね。伝統的な社会科学の実証分析の目的は後者なので、決定係数の高低はあまり気にしないことが多いですね。(続く) https://t.co/ntuu6BOo8M
— 高橋将宜 Masayoshi Takahashi (@M123Takahashi) 2020年12月23日
決定係数の解説はこちらが分かりやすいと思います。予測をする際のモデルの比較という意味ではAICを使うほうが多い気もしますが。
27-4. 決定係数と重相関係数 | 統計学の時間 | 統計WEB
因果推論として最も大事な部分はここです。
coef std err t P>|t| [0.025 0.975] ------------------------------------------------------------------------------ const 13.9010 4.074 3.412 0.002 5.638 22.164 Time 17.6190 5.762 3.058 0.004 5.934 29.304 Holo -3.2550 5.762 -0.565 0.576 -14.940 8.430 DID 47.0750 8.148 5.777 0.000 30.550 63.600 ※Time:時期ダミー、Holo:ホロライブダミー、DID:DIDダミー ※登録者数は(万人)
DIDで何を見るかといえば当然ですがDIDの項目です。
DIDの項目のP>|t|の値を見ると0.000となっています。これは”本当はDIDダミーはチャンネル登録者数に影響しないのに、偶然coefが47.0750なんて値が出てしまったという確率は0.000%”ということを意味しています。
いわゆる統計的に有意というやつです。
逆に言えばホロライブダミーのP>|t|の値は0.576と大きいため「ホロライブであるかどうかはチャンネル登録者数に影響があるとは言えない」ということになります。
ではDIDダミーが有意で47.0750ということはどういう意味でしょうか。
DIDダミーは時期ダミー×ホロライブダミーなので"ホロライブ所属かつ2020年12月のデータ"のみ1となるダミー変数です。
つまりここから言えることは「ホロライブ所属のVTuberは2020年の1月から12月でにじさんじのVtuberと比べて統計的に有意にチャンネル登録者数が増加した」ということです。
ちなみにTimeダミーも有意なので「スパチャランキング上位のVtuberは2020年の1月から12月で統計的に有意にチャンネル登録者数が増加した」ということも言えます。当たり前といえば当たり前ですが。
ただしcoefの値を見るとTimeが17.6190(万人)でDIDが47.0750(万人)なのでホロライブの伸びがすごいことは分かります。
あとがき
DID久しぶりに使ってみましたが簡単かつ分かりやすいのでいいですね。
※前回はこちら
viola-voila.hatenablog.com
対立煽りに使われると嫌なんで一応言っておきますが私は2年連続でにじさんじマリカ杯の分析記事を書いたり、おりコウの配信で年を越すくらいはにじさんじのオタクでもあります。(一番好きなVTuberは雨森小夜さんです)
viola-voila.hatenablog.com
viola-voila.hatenablog.com
今回は単純に2020年はホロライブがすごかったよねということをデータを用いて統計的に証明したというだけなのでそれ以上でも以下でもありません。
例えばスパチャランキング上位のライバーしかデータとして利用していないといった問題や、そもそも「並行トレンド仮定」を満たすのかといった問題もありますので一概にこの結果だけで何かを言えるとは思いませんが、チャンネル登録者数のグラフを貼っつけてホロライブすごいよねっていうだけよりは面白いかなと思います。
ちなみに20名しか分析していない理由はSocialBladeのスクレイピングが上手く出来ないからなので、誰かSocialBladeから簡単に登録者数推移をスクレイピングする方法を知っている方がいたらご教示ください。
わたしが"マネージャー"をしているVTuberは半年でチャンネル登録者数が0人→6人でした。
www.youtube.com