Hatena::ブログ(Diary)

武蔵野日記 このページをアンテナに追加 RSSフィード

2009-01-27

ニコニコ動画の大規模なデータに対するタグ付けとリンク解析

ニコニコ動画の大規模なデータに対するタグ付けとリンク解析を含むブックマーク ニコニコ動画の大規模なデータに対するタグ付けとリンク解析のブックマークコメント

ニコニコ動画データ分析研究発表会というのが開催されていたようだ。

タイトルや説明文はノイジーなので、動画につけられたタグを使うと割ときれいなデータとして可視化したりできる、という話は、はてなブックマークの関連エントリー機能のときも聞いたような話で、基本的にはインターネットユーザに無料でデータのタグ付けをしてもらっている、という話なんだろうな、と思う。以前紹介したRion Snow の論文 (彼は2005年に Microsoft Research でインターンし、2006年に Powerset (現在は Microsoft に買収済み)、2007年には Google でインターンした人物。ACL という自然言語処理のトップカンファレンスで2006年にベストペーパー受賞)で、

今年の Rion Snow のトークは、Amazon Mechanical Turkというシステムを使って、非常に安価・高速そして高精度にアノテーションをする、という話。Amazon がこんなサービスをしているのは知らなかったが、一般的には自然言語処理で使うデータ(辞書とかコーパスとか)は訓練した(言語学的知識を持つ)作業者がやらないと高精度にできない、と思われているが、全く訓練していない人にこのサービスを使って30単語20セントとかで作業してもらっても、10人の作業者にやらせて平均を取ると、驚くべきことに1人のいちばんよい専門の作業者より作業者間の一致率が高くなる、という結果になった(しかも速くて安い!)そうだ。依頼しているタスクがそこまで難しくない(構文解析や意味役割付与ほどではないが、語義曖昧性解消とか感情推定とか、それなりに難しいタスクだと思うけど……)、というのも一因だとは思うが、wisdom of crowds ってこういうところまで来ているのか−、と思った。こういう話を聞くと、専門の人を雇っておく必要があるのはかなり特殊なコーパスのアノテーションくらいなのかも?という気にもなる。

という話があったが、動画の分類(やブックマークするときの Web ページ・ブログエントリの分類)というのはそんなに人間に取っては難しいタスクではなく、多数の人につけてもらって多数決(voting)でタグを決めたりしたらそれだけで専門家がつけるより高品質なデータセットになる、そんな感じなのかなと思った。

2ページ目はニコニコ動画の時系列データの分析なのだが、ニコニコ動画のヘビーユーザでもないのでなにを言っているのか全然分からない……。(もちろんこの研究会の本来の参加者はこれ見たらなんのことだかすぐ分かるんだと思うし、分かって読めばおもしろいんじゃないかなとも思う)

変わって3ページ目は「(グラフ上で密に連結したノード、という意味での)コミュニティ」の分析で、どういうグラフマイニング(リンク解析)しているのか分からないが、ネットワークの可視化として「Voronoi Treemaps(重み付きボロノイ図)」という単語を初めて知ったので勉強になった(ボロノイ図はよく出てくるけど)。HatenarMapsでこういう図は見たことあったのだが、具体例で学ぶ! 情報可視化のテクニックによると HatenarMaps もこの Voronoi Treemaps を使っているらしい。なるほど。

しかしこういう分析とか可視化って1回だけ見るなら「へー、なるほど、おもしろいね」となるが、2回目以降継続的に使うかとなると、一気に利用率が下がるような気がする(自然言語処理のデモでも同様だけど)。たとえばこのグラフ見て書籍や記事の執筆を依頼できそうな人を発見できるとか、もしくはあやしい著作権的にグレーな投稿を続けるアカウントを自動で停止できるとか、そういう現実のアクションにつながりそうななにかが産まれないと、継続的にこの分野の技術が使われるようにはならないんじゃないかぁ……。

たぶんリンク解析で一番「役に立つ」のはスプログの解析やアダルトサイトの判定だと思うが、他にももっと使いどころはあるような気はする(Amazon とかあまりうまく行っていない事例はよく見るが)。個人的にはWhatToSeeで読みたい論文を推薦してもらったりしていて、読み逃していた論文をときどき推薦してもらえるのは大変便利(なぜかというと論文書くときは新規性が大事なので、見落としがあるとまずい。たぶん特許申請も同じ)なので、ものによってはこういうリンク解析(グラフマイニング)や情報推薦の技術でかなり役に立つタスクもあるので、そういうのを掘り起こしてこれらの技術を適用してみるというのは(研究的には微妙かもしれないが)応用としてもっと盛んになってもいいんでないかな? と思う。

研究的にはせっかくこれだけのタグ(ラベル)つきデータがあるんだから、リンク解析するにしてもクラスタリングするにしてもラベルの情報を使わない手はない、というところかな? 大規模データにスケールして(半)教師ありでクラスタリングするという話はわりかしやれることがありそう。

cf.

しましましましま 2009/01/27 21:41 かの昔,同じ式なのに,Excel と Lotus で,最後の方の数字が違うので,互いに乗り換えられなかったとか.
数値演算をするので,コンパイル時には,速度は犠牲になるけど -fno-unsafe-math-optimizations をつけてます.

mamorukmamoruk 2009/01/27 22:49 ひえ〜、そんなことがあったんですね。(Excel は Lotus に対抗するために Lotus の機能を実装していった、という話を読んだことがありましたが、浮動小数点演算で数値が変わってしまうのはかんとも……)

さすがに誤差があるとまずい場合は気をつけますよね……。そういう意味では awk ではなにか workaround があるんでしょうか。どうしようもないような気も。