Hatena::ブログ(Diary)

w84_yutoの日記 RSSフィード

2009-01-27

ニコニコ動画データ分析研究発表会に行ってきました。

| 03:42 |

Yoiさん主催の「ニコニコ動画データ分析研究発表会」に行ってきました。

発表者の方々さん、Yoiさん含め主催者の皆様お疲れ様でした。

ニコニコ動画のデータ分析研究発表会おつかれさまでした

http://nicovideo.g.hatena.ne.jp/Yoshikawa/20090126/1232902342

前々から、ニコ動のタグの定着や派生の流れは実に面白いなあと感心していた

自分にはジャストなイベントではないか!ということでホイホイと聴講しにいった次第です。


私はニコマス好きで Twitterアカウントも持ってるので、

発表者の方々にニコマスクラスタが多かったという部分でもこのイベントには興味がありました。

というか、そっちの方が大きかったw


研究会のスライドはHotDocsにアップされています。

ニコニコ動画データ分析研究発表会

http://www.hotdocs.jp/group/detail/172

以下、各発表の簡単な感想など。


■「アイドルマスター データマスターSP

発表者:てってってーPさん

名前の通りアイドルマスタータグに関する発表。

てっPはアイドルマスタータグのタグ検索のデータをスクレイピングしている

とのこと。


アイマスの動画はニコ動内の 3% を占めるらしい。

考えてみれば何でもありのジャンルにおいて、

3%といっても200万本中の3%だから、とてつもなく大きい。


ニコマスの平均投稿者数が約800人で推移していて、

視聴者も平均62500〜85000人いるというのは驚いたw

ゲームの売上本数から考えてもこの数字は異常。


ニコマスは何故ここまで人を惹きつけるのかという部分は、

データを除いても考察されるべき部分ですな。


■「動画投稿数のトレンドからみるコミュニティのライフサイクル

発表者:ksasao(ミクミンP)さん

ニコニコ技術部で活躍されている方。


タグごとに動画投稿数の変化を集計し、

移動平均を求めることで、コミュニティ

変化を調べるという手法。


確かにこの方法で特定のコミュニティの投稿動画数の

推移が分かるので、コミュニティの栄枯盛衰がある程度わかりますね。


アイマスタグが微妙に縮小傾向にあるのが図示されて

悲しかったw


また、統計情報では観測されない

権利者削除されるような動画が数分以内にアクセスされては

消えていると言う話は、

何か動画の栄枯盛衰が何らかの物理現象のようで面白かった。


■「χ2乗値を関連度としたニコニコ動画関連タグネットワークの解析

発表者:グニャラくん

ニコニコ大百科を作ってる人。

あとはPerldisってる?

http://www.nicovideo.jp/watch/sm2164173


「ジョーク枠です!」じゃねーよwww的な内容だった。

統計学的に各タグの近さを計る様々なアプローチだったので、

統計が苦手な私は単純に「へー」て感心するのみ。


おっさんホイホイ」はニコマス発祥だったのに、

すでに「初音ミク」カテゴリになっているということに驚いた。


発表を聞いている間、

オライリーの「集合知プログラミング」を読まないとなー、

とか考えながら聞いていた。


■ミニプレゼン

各10分程度のミニプレゼン

・「ニコニコ格差社会

発表者:日本野望の会 広木さん

ユーザーごとのコメント投稿率を元に自ニ係数を

割り出すというアプローチ。


特定ユーザのコメントが自演かどうかはともかく、

今回唯一コメントから意味を算出する

手法をとられていた。


コメントにも様々傾向があるから、分析のしがいはあるだろうな。

例えば動画の頭や尻にコメントが多い動画は〜〜な傾向にある、

みたいな分析も出来るかもしれない。


あと、2次会でチョコレートもらいました。


・「特定タグ付き動画データベースの収集と活用事例

発表者:AOI_CATさん


アイドルマスタータグのSQLデータを公開されている方。

収集されたデータはニコマスサーチ(http://nicomas.main.jp/

で使われているらしい。


・「ニコニコ動画におけるタグ間の階層性の解析

発表者:伊藤(kynbit)さん


タグの親子構造に注目し、

機構造をグラフ化していた。


今回の発表はとにかく統計グラフ理論を使った

データの可視化手法が数多く見られた。


こんな専門的な発表会になるとは思わなかった。


・「ニコニコ動画におけるタグ別動画郡の総再生数推定の方法について

発表者:myrmecoleonさん

「みゅるめこれおん」と読むということを始めて知った。

これまでBlogなどを見ても名前が読めないので、アリライオンさんという認識だった。


対数正規分布を使って各タグの総再生数を推定する手法の紹介。

比較的動画数の多いタグではかなり近い精度で総再生数を推定できる

というのは興味深い部分だった。


・「ニコニコ動画のタグに関するアーキテクチャ分析

発表者:濱野さん


思想地図 第2号の「ニコニコ動画の生成力」のサマリーで、

Fluxonomyという概念の提唱。

思想地図はすでに読んでいたので、すんなりと頭に入った。


ニコニコ大会議の時と同じくやる男を使ったプレゼンが面白い。


■「ニコニコ動画上の初音ミク動画間の引用関係を見てみた

発表者:濱崎さん


ユリイカ12月号臨時増刊号「総特集 初音ミク」内の

論考「初音ミク動画はどうやって作られたか」を元にした内容。


作曲者やイラストレーターや、調教者などを分類し、

クラスタ化することで、その引用関係をまとめるという発表。


ユリイカの内容に加えて、

「s.o.c.i.a.r.i.u.m」というツールを使って、

時系列のクラスタ生成状況が可視化できるというのが面白かった。


■個人的まとめ

今回はもっと文系的サブカルっぽい寄り合いかと思って参加してみたら、

発表内容がガチだったのでびっくりしました。


というか、自分は勉強不足なんだな、ということを痛感。

・大規模なデータの分析には、統計学の知識が必要

・データの可視化にはグラフ理論の知識が必要


というわけで、どちらも勉強していきたい。


それはさておき、

今回の発表ではどのようなデータ解析方法があるか、

どのような傾向があるかを、参加者全員初めて知った場所だったと思います。

だから、この先に2回、3回と発表会を続ければ、

発表者同士のネットワークやWebに公開したスライドをもとに、

外部の発表者の参加が増えてくることによって、

より有益なデータが出てくるような気がしました。


というわけで次回も開催されれば是非参加したいところです。