個人ニュースサイトのPageRank
「個人ニュースサイトのURLデータセット(2008年10月) - 鯨飲馬食コード」のデータ(nstesting.txt)を入力として用いて、各サイトのPageRankを調べてみた。APIとして「TRYNT Google Pagerank Web Service // Trynt Heavy Technologies」を利用してRubyで処理した。またサイト名はHTMLから機械的に抜き出し、その後人手で補完した。計測したのは2009年1月13日の14時40分前後。
分布は以下のとおり。計548サイト。
PageRank | サイト数 |
---|---|
6 | 14 |
5 | 86 |
4 | 240 |
3 | 171 |
2 | 35 |
1 | 2 |
全体的にPageRankは高めという印象である。ソーシャルブックマーク、特にはてなブックマークの影響がどれほどのものかも気になるところ。これもぱっと見の印象だが、外向きのリンクよりも内向きのリンクが多そうなサイトが高いPageRankをつけているようである。言い換えれば、外向きのリンクが比較的多いサイトはページビューなどが多い割にはPageRankは伸びないのかもしれない。
なお、前の記事でPageRankの変動中なのではないかと書いたのに、そのことをすっかり忘れていた。PageRankが0のサイトは除外したが一時的な変動のためだったのかもしれない。また今回はレスポンスとして301(Moved Permanently)を返してくれるサイトがいくつかあったので処理が楽だった。サイトの移転の際にはHTMLやJavaScriptで新しいページに移動することが多いが、HTTPのステータスコードを用いた方がいいと個人的には思う。こうするとPageRankの移行も速やかに行われるはずだ。
以下結果。