UCI Machine Learning Repository をマイニングする(Machine Learning Advent Calendar 12日目)

Machine Learning Advent Calendar 2013 - Qiita
Machine Learning Advent Calendarです．
本来ならば，以前少しでも研究に興味がある人，面白いテーマを探している人は「研究に必要なたったN個の事」とかいう記事を読まずに今すぐに"How to do good research, get it published in SIGKDD and get it cited!"を読むべき - 糞ネット弁慶で昔触れたKeogh先生の面白データを使った論文について触れる予定でしたが，ここで予定を変更して，数式が一切出てこない日記を書こうと思います．そちらについてはいつかまとめて書きます．
今回は機械学習を行っている人ならば一度はアクセスしたことがあるであろう， UCI Machine Learning Repository について，どのようなデータが埋もれてるのかを簡単に見てみる事にします．

UCI Machine Learning Repository とは?

http://archive.ics.uci.edu/ml/index.html
その名の通り，カリフォルニア大学アーバイン校が運営している，機械学習やデータマイニングに関するデータの配布サイトです．
google scholarで検索してみると， UCI Machine Learning Repository のデータを使って書かれた論文(正確には引用している論文)は現在5121件あるようです．実際はその数倍のユーザがこのサイトで配布されたデータを利用してなんらかの分析やRのサンプルコードを動かしたことがあると思います．

代表的なデータとは?

Iris

UCI Machine Learning Repository: Iris Data Set
Rのサンプルデータでお馴染みのIris．アヤメに関するデータです．
詳細は昨年書かれたこちらのエントリで取り上げられています(irisの正体 (R Advent Calendar 2012 6日目) - どんな鳥も)．

Wine Quality

UCI Machine Learning Repository: Wine Quality Data Set
山形浩生「その数学が戦略を決める」や，最近では橋本愛主演のドラマ「ハードナッツ! 〜数学girlの恋する事件簿〜」でもネタにされていた，ワインの品質に関するデータセット．
詳細はこちらのエントリで取り上げられています(ワインの味（美味しさのグレード）は予測できるか？（１） - verum ipsum factum)．

掘り出し物はあるか?

現在264ものデータセットがある UCI Machine Learning Repository ，一つずつデータを見ていくには時間が無いので，

データ量が多く
あまり注目されていない

という，この二つの属性を満たすようなデータを探してみることにします．
幸いなことに，配布されているデータにはデータの次元数，データ数，及び Number of Web Hitsという項目があるので，

データの次元数 * データ数をデータ量として横軸
Number of Web Hitsを注目度として縦軸

にして散布図で描いてみることにします．

データ量に偏りがあるようなので，logを取ったものでもう一度．

それらしきデータが見えてきたようなので，右下あたりにあるデータを見ていくことにします．

掘り出し物?

URL Reputation

UCI Machine Learning Repository: URL Reputation Data Set
2396130次元，3231961個で構成されるデータ．
内容は，URLが偽物を売るサイトやフィッシング，マルウェアの配布サイトといった，悪意のあるサイトを示すものかどうかを判定するために，URLとそれに対する特徴量(Hostname，TLD，WHOIS info，IP prefixなど)で構成されているようです．
この手法を使って書かれた元論文(Identifying Suspicious URLs: An Application of Large-Scale Online Learning(ICML 2009))では，これらをCWなどのオンラインアルゴリズムを使って判別するタスクに取り組まれています．
元論文の感じ，次元数が多いのはそれぞれの次元についてbag-of-wordsのようにユニークな単語として扱っているからのように見えます．

YouTube Multiview Video Games Dataset

UCI Machine Learning Repository: YouTube Multiview Video Games Dataset Data Set
1000000次元，120000件で構成されるデータ．
公開されたのは今年10月．公開者はもちろんgoogle．
「詳細はREADME読んでくれ」とのことですが2.8Gのサイズのデータをダウンロードする時間も無いので，このデータを使った論文(On Using Nearly-Independent Feature Families for High Precision and Confidence)を読むことにします．
イントロレベルでしか読んでいませんが，内容としては，複数のソース(文書，音声，映像)などの特徴量がある時に，それぞれの特徴量をまとめて1つの学習器に突っ込むより(early fusion)，特徴量ごとに学習器を構築してやって最後に結合させる(late fusion)させる方が良い．しかもlate fusionして得られる結果のfalse positiveの上界とそれぞれの学習器でのそれとの関係が示せるので都合が良い，という感じに見えます．
肝心のデータについてはSection 3．youtubeにアップロードされたゲーム動画からそのタイトルを特定するタスク(このタスクの意味とは…?)を解くために音声と映像を使っているようです．論文中では1タイトル3000本の動画を30タイトル分 + 追加で負例を30000件集めたとあるので，公開されたデータセットとサイズは一致します．次元数については論文中では"The end result is roughly 13000 audio features and 3000 visual features"と書かれているのでこの対応については不明です．

Amazon Access Samples

UCI Machine Learning Repository: Amazon Access Samples Data Set
最後は少し変わったデータ．
20000次元，30000件で構成されるアマゾン内でのアクセス権の付与データです．
誰に対してどの情報にいつどのようなアクセス権限が与えられたのか，その人はどんな属性なのかが大量に付与されています．
AmazonはAmazon.com - Employee Access Challenge | Kaggleといったコンペティションも開催しているのでこういった社内的な取り組みがあるものと思われます．

まとめ

今回は UCI Machine Learning Repository について，ちょっと変わったデータを紹介してみました．
ネットには UCI Machine Learning Repository だけでなく，その他さまざまな人がさまざまなデータを公開しています．
手法からではなく，面白そうなデータを見ていればそこから新しいネタが浮かぶこともあるかもしれません．

糞糞糞ネット弁慶

読んだ論文についてメモを書きます．趣味の話は http://repose.hatenablog.com