報國挺身日記 このページをアンテナに追加 RSSフィード

2009/06/27

[] livedoor クリップ(2) 21:18

エントリの中で一番古いものは、2003-10-06。

ldclip_dataset_200812.csvは、2008-09-17までのデータがある。

ldclip_dataset_200906.csvは、2009-03-15までのデータがある。


エントリの総数

200812: 1,572,742件

200906: 2,108,349件


以下は、まともなタグのリストが書かれていない(例: JavaScriptのコードが書かれている)エントリを除く等の処理をして得られた結果。

タグの全種類(ボキャブラリ)

200812: 118,071個

200906: 153,345個


アルファベットの大文字小文字は変換しないでそのままにしている。単語の前に記号が付加されている場合もそのまま。

"+セキュリティ"
"*セキュリティ"

200906のデータで、出現頻度上位50のタグは以下のようになった。

29658, "web"
28748, "yuiseki"
27959, "javascript"
27840, "求人"
27120, "アルバイト"
23620, "ネタ"
22504, "google"
20013, "あとで"
19681, "キャッシング"
19669, "求人広告"
19274, "2ch"
19272, "ローン"
18836, "あとで読む"
18335, "tips"
17407, "まとめ"
15748, "blog"
15660, "CSS"
15216, "審査"
14797, "tool"
14729, "社会"
13919, "金融"
13818, "hatena"
13744, "design"
13545, "news"
13493, "エロ"
13481, "未カテゴリ"
12412, "mobile"
12242, "画像"
11714, "css"
11495, "アダルト"
11434, "ブログ"
11391, "動画"
11129, "ブラック"
10800, "perl"
10661, "software"
10354, "firefox"
10085, "仕事"
10076, "programming"
10076, "Firefox"
10010, "windows"
10004, "Google"
 9899, "価格"
 9593, "clip"
 9390, "融資"
 9388, "neta"
 9358, "カード"
 8859, "デザイン"
 8433, "webサービス"
 8403, "比較"
 8370, "toread"

2009/06/20

[] livedoor クリップ 23:26

今年の一月にlivedoor クリップ データセットが公開されたのでダウンロードしていたのだが、全く使うことなく放置していた。今月には新しいデータが公開されるというのを奇跡的に覚えていたので、今日ダウンロードした。

README.txtによると、

フィールドは順に user_id, 対象url, クリップした時刻,タグ

となっている。


cutコマンドでURLだけ切り出そうとすると、 Illegal byte sequenceエラーになる。(2008/12と2009/06の両方とも)

~/work/LD$ cut -d , -f 2 ldclip_dataset_200812.csv 
   ......
"http://www.nikkansports.com/general/p-gn-tp0-20060809-72814.html"
"http://www.nikkansports.com/general/p-gn-tp0-20060809-72814.html"
"http://www.nikkansports.com/general/p-gn-tp0-20060809-72814.html"
cut: ldclip_dataset_200812.csv: Illegal byte sequence

調べてみると、utf-8の不正なバイト列が含まれる行が一つあったので、タグの部分だけを削った。


URLの総数

~/work/LD$ cut -d , -f 2 200812.csv | uniq | wc -l
  217702
~/work/LD$ cut -d , -f 2 200906.csv | uniq | wc -l
  286220

エントリ数が多いURL

~/work/LD$ cut -d , -f 2 200906.csv | uniq -c | sort -r | head -n 10
1118 "http://clip.livedoor.com/register/finish"
 901 "http://clip.livedoor.com/bookmarklet/"
 560 "http://www.yahoo.co.jp/"
 444 "http://today-student-girl.blogspot.com/"
 444 "http://asian-erotic-girls.blogspot.com/"
 443 "http://thenudistbeaches.blogspot.com/"
 443 "http://japanese-idol-special.blogspot.com/"
 443 "http://hflickr.blogspot.com/"
 443 "http://h-animation.blogspot.com/"
 443 "http://animation-girls.blogspot.com/"

~/work/LD$ cut -d , -f 2 200812.csv | uniq -c | sort -r | head -n 10
 960 "http://clip.livedoor.com/register/finish"
 863 "http://clip.livedoor.com/bookmarklet/"
 489 "http://www.yahoo.co.jp/"
 444 "http://today-student-girl.blogspot.com/"
 444 "http://asian-erotic-girls.blogspot.com/"
 443 "http://thenudistbeaches.blogspot.com/"
 443 "http://japanese-idol-special.blogspot.com/"
 443 "http://hflickr.blogspot.com/"
 443 "http://h-animation.blogspot.com/"
 443 "http://animation-girls.blogspot.com/"