2020年はホロライブの年だったのか?

はじめに

VTuberすごいですね。
kai-you.net

ランキングから見て分かる通り、2020年のVTuber界はホロライブ躍進の年だったと言っても過言ではないでしょう。

今回はDID(Difference in Difference)を利用して2020年のホロライブの躍進をデータから示したいと思います。

間違っている部分があればコメントください。

DIDとは

tjo.hatenablog.com

わたしの説明より分かりやすい記事があるので読んでください。


データセット

playboard.co
上記サイトから2020年度のスーパチャットランキング上位のVTuberをホロライブから上位10名、にじさんじから上位10名選出
https://socialblade.com/のデータから上記VTuberの2020年1月の登録者数と2020年12月の登録者数を抽出。
※イブラヒムは2020年2月デビューのためランキング上位にいましたが今回は選出外としました。


DIDのやり方

今回はかなりシンプルに
目的変数:登録者数
説明変数:時期ダミー(1月のデータなら0、12月のデータなら1となるダミー変数)、ホロライブダミー(ホロライブ所属なら1、にじさんじ所属なら0となるダミー変数)、DIDダミー(時期ダミー×ホロライブダミー)
としてOLSで分析をしました。


結果

                            OLS Regression Results                            
==============================================================================
Dep. Variable:             Subscriber   R-squared:                       0.817
Model:                            OLS   Adj. R-squared:                  0.801
Method:                 Least Squares   F-statistic:                     53.41
Date:                Mon, 04 Jan 2021   Prob (F-statistic):           2.46e-13
Time:                        13:35:17   Log-Likelihood:                -156.89
No. Observations:                  40   AIC:                             321.8
Df Residuals:                      36   BIC:                             328.5
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         13.9010      4.074      3.412      0.002       5.638      22.164
Time          17.6190      5.762      3.058      0.004       5.934      29.304
Holo          -3.2550      5.762     -0.565      0.576     -14.940       8.430
DID           47.0750      8.148      5.777      0.000      30.550      63.600
==============================================================================
Omnibus:                        5.596   Durbin-Watson:                   1.881
Prob(Omnibus):                  0.061   Jarque-Bera (JB):                7.236
Skew:                           0.082   Prob(JB):                       0.0268
Kurtosis:                       5.077   Cond. No.                         6.85
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

簡単に統計分析の読み方を説明します。
まず今回は因果推論なので決定係数が高い必要はそこまでない認識ですが自由度調整済み決定係数を示すAdj. R-squaredは0.801となっており、このシンプルなモデルでデータの8割は説明できるということになっています。


因果推論と決定係数の話は以下のツイートの説明が分かりやすいです。


決定係数の解説はこちらが分かりやすいと思います。予測をする際のモデルの比較という意味ではAICを使うほうが多い気もしますが。
27-4. 決定係数と重相関係数 | 統計学の時間 | 統計WEB



因果推論として最も大事な部分はここです。

                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         13.9010      4.074      3.412      0.002       5.638      22.164
Time          17.6190      5.762      3.058      0.004       5.934      29.304
Holo          -3.2550      5.762     -0.565      0.576     -14.940       8.430
DID           47.0750      8.148      5.777      0.000      30.550      63.600

※Time:時期ダミー、Holo:ホロライブダミー、DID:DIDダミー
※登録者数は(万人)


DIDで何を見るかといえば当然ですがDIDの項目です。
DIDの項目のP>|t|の値を見ると0.000となっています。これは”本当はDIDダミーはチャンネル登録者数に影響しないのに、偶然coefが47.0750なんて値が出てしまったという確率は0.000%”ということを意味しています。
いわゆる統計的に有意というやつです。
逆に言えばホロライブダミーのP>|t|の値は0.576と大きいため「ホロライブであるかどうかはチャンネル登録者数に影響があるとは言えない」ということになります。

ではDIDダミーが有意で47.0750ということはどういう意味でしょうか。
DIDダミー時期ダミー×ホロライブダミーなので"ホロライブ所属かつ2020年12月のデータ"のみ1となるダミー変数です。
つまりここから言えることは「ホロライブ所属のVTuberは2020年の1月から12月でにじさんじVtuberと比べて統計的に有意にチャンネル登録者数が増加した」ということです。

ちなみにTimeダミーも有意なので「スパチャランキング上位のVtuberは2020年の1月から12月で統計的に有意にチャンネル登録者数が増加した」ということも言えます。当たり前といえば当たり前ですが。
ただしcoefの値を見るとTimeが17.6190(万人)でDIDが47.0750(万人)なのでホロライブの伸びがすごいことは分かります。

あとがき

DID久しぶりに使ってみましたが簡単かつ分かりやすいのでいいですね。
※前回はこちら
viola-voila.hatenablog.com


対立煽りに使われると嫌なんで一応言っておきますが私は2年連続でにじさんじマリカ杯の分析記事を書いたり、おりコウの配信で年を越すくらいはにじさんじのオタクでもあります。(一番好きなVTuberは雨森小夜さんです)
viola-voila.hatenablog.com
viola-voila.hatenablog.com

今回は単純に2020年はホロライブがすごかったよねということをデータを用いて統計的に証明したというだけなのでそれ以上でも以下でもありません。
例えばスパチャランキング上位のライバーしかデータとして利用していないといった問題や、そもそも「並行トレンド仮定」を満たすのかといった問題もありますので一概にこの結果だけで何かを言えるとは思いませんが、チャンネル登録者数のグラフを貼っつけてホロライブすごいよねっていうだけよりは面白いかなと思います。

ちなみに20名しか分析していない理由はSocialBladeのスクレイピングが上手く出来ないからなので、誰かSocialBladeから簡単に登録者数推移をスクレイピングする方法を知っている方がいたらご教示ください。






わたしが"マネージャー"をしているVTuberは半年でチャンネル登録者数が0人→6人でした。
www.youtube.com