【補足記事】「初音ミク」ブームに火をつけたのは、誰?(その2.5)で用いている統計知識について

コメントにて、その2.5の記事の「累乗曲線」や「決定係数」といったものがわからないといただいたので、補足的な説明をさせていただきます。
このあたりは、大学とかで統計学を学んだりすると知れたりします。

この研究室はあくまで文化論の研究をするところですが、いかに文系分野といえども、質的、量的なデータによる裏付けが必要です。
データによる裏付けがない文章など、ただの感想文でしかありませんからね。

まぁそのデータによる裏付け作業のうち、量的な方を主に担当するのがこの統計です。
統計のいいところは、いくらかサンプルとなるデータを集めれば、全体のデータのある程度の予測ができることです。
今回も、ニコ動の一日の総再生数を推定するために統計的手法を使っています。

今回使った統計的手法は、いろんなデータの分布を数式で簡単に表す、というもの。
この表を作るのに使っていますね。

簡単に言えば、実測値でいろんな値はでてるけど、これってだいたいこんな曲線引けば似たようなグラフになるんじゃない?ってことをやってるだけです。
で、その似たようなグラフ(これが「近似曲線」)が、どれだけ本来の実測値と似たものになっているかを計る指標が「決定係数」。
これは1に近づけば近づくほど実測値と「近似曲線」はそっくり。ということになります。

「近似曲線」にはいろいろな種類があって、今回使用したのが「累乗曲線」。
「累乗曲線」に関しては特にコメントしないので、調べたい人はググってください。
これを使用したは、そのいろいろな種類のなかで、「決定係数」や描ける見た目のグラフが一番よかったから。

まぁこんな感じでしょうか。以上補足でした。