Hatena::ブログ(Diary)

利用者:おむこさん志望 このページをアンテナに追加 RSSフィード

2008-01-21

[]

せっかくなので英語版のログで昨日と同じことをやってみます。使ったログ2008年1月3日時点のものを使いました。

f:id:QtGqCwfDSA:20080121193152p:image

うーんなにこれ?傾向が全然掴めない。今日はあんまり元気が無いから理由とか考えるのパス

あと、英語版はログも異様にでかい。昨日使ったウィキペディア日本語版ログのサイズはgzip圧縮で18Mバイトだったが、英語版はgzip圧縮で370Mバイト・無圧縮で1.56Gバイト。20倍以上って何なんだろうね。d:id:QtGqCwfDSA:20071203 では英語版は人が多いから…ってコメントをいただいたんだけど*1、それでもちょっと多すぎる気がする。英語版はログの中身一切見てないからどうなってるのか後でまた見ないとね。

*1:いまさらながらお返事書かなくてごめんなさい。反応が帰ってくることは非常にうれしいです。

2008-01-20

QtGqCwfDSA2008-01-20

[]ウィキペディアで一日に削除されるページ

d:id:QtGqCwfDSA:20080119を書いて思い出したかのようにこのトピックを復活してみる。はいその通りです。

ウィキペディアから「消える」ページ

ウィキペディアの記事は増える一方ではなく、その裏では様々な事情で消えゆくページもあります。新たに立てられたものの短すぎて記事として成立しないもの、いたずらや露骨な宣伝行為で作られたものは、管理者によってページの存在そのものが消去されます*1。なお、後で詳しく述べるように、どの管理者が何時そのページを削除したかは記録されます

また、ウィキペディアが使っているMediaWikiは履歴も残るため、著作権侵害プライバシーなどの問題は単純に編集で解決することができず、それが書き込まれた途中の版は管理者によって消去する必要があります。ここでは、そのような「管理者」によって消去されたページを取り上げます。管理者が可能なオペレーションについては Wikipedia:管理者#どのようなことができるのかをごらんください。

データ

ウィキペディアでは、ページの削除ログもすべて公開しています。また、ウィキメディア財団が提供するデータベースダンプからもMySQLのダンプ形式でログを取得できます。

今回は、2007年11月21日時点のデータベースダンプを調査に使いました。

データフォーマットは次のようになっています。ここでは「脳年齢」の削除記録を例にします。

('delete','delete','20070825121721',29811,0,'脳年齢','内容: \'{{db|非常に短い記事・定義未満・即時削除歴あり}}脳年齢とは、脳の機能低下の程度、働きの能率などを元に算...\'3回目。もっと書くことないんですか?),

まあこういうのがずらずらと並んでるわけです。これをINSERT INTO `logging` VALUES でガシガシつっこんでくってのがデータベースダンプの中身になってます。

1つめと2つめのカラムは行った操作を示します。このログには削除だけでなく画像アップロードやページの移動なども記録しています。

3つめは削除された時間、4つめは削除を行った管理者のユーザID、5つめは下で詳しく述べる名前空間、6つめは記事名といった感じです。雰囲気で大体の内容は分かるとおもいます。

計測方法

今回は、一日あたりに行われた標準記事空間*2内にあるページの削除をカウントしました。期間はログの残っている2004年12月23日から2007年11月21日まで、一日の定義はUTCの0:00:00〜23:59:59に設定しました。

データベースダンプは自作のプログラムを使ってパースしました。Eclipseがちょうど起動してたからその勢いでJavaで書いちゃったけど、無圧縮で高々77Mバイト*3だからPythonでちゃちゃっとやってもよかったね。

結果

f:id:QtGqCwfDSA:20080120180714p:image

プロット結果の他に、線形回帰グラフもおまけでつけてみました。まあ大体線形増加って感じですね。

考察

じつは2007年って管理者は増えるどころか減ってる*4らしいんで、一人あたりの負担は増す一方っていう微妙な状況。2006年8月に異常なピークがあるのは、ポケモンのキャラクター記事で大量の転載への対処のようです。

ウィキペディアプロジェクト内の転載問題

転載といってもウィキペディア内の記事からなんですが、ウィキペディアの記事が採用しているGFDLは転載の際に「著者」を明記する必要があり、編集履歴が適切に継承されていないとGFDL違反行為になってしまいます。編集履歴継承されていないことによる削除は他言語Wikipediaからの翻訳でもよく発生しています。

*1:厳密には、表に現れなくなるだけでサーバのデータベースには残っており、管理者の操作でそれを復帰することも可能。もちろん公開されてるデータベースダンプ内にそのデータは入ってないです。

*2:いわゆる普通の記事ページはこの空間に属します。ウィキペディアプロジェクト文書や利用者の会話ページなど、別の空間に属するページもあります。詳細はWikipedia:名前空間を読んでください。

*3d:id:QtGqCwfDSA:20071127のときはさすがに厳しいけど

*4http://ja.wikipedia.org/wiki/Wikipedia:%E7%AE%A1%E7%90%86%E8%80%85%E3%81%B8%E3%81%AE%E7%AB%8B%E5%80%99%E8%A3%9C#.E5.88.A9.E7.94.A8.E8.80.85:Kiyok

2007-12-03 クライアントがいなくても考えることは自由ですから

[]各言語版における登録ユーザIPユーザの割合

ウィキペディア 多言語統計で記事の多い上位10言語ウィキペディアで、登録ユーザIPユーザそれぞれによる編集回数の比率を調べてみました。

データ

利用したデータWikimedia Downloads12月3日現在取得可能な中で最新のものを使用しました。具体的には、enとdeに関しては10月時点のダンプ、その他の言語は11月時点のダンプを用いました。

計測方法

言語版の??wiki-**-stub-meta-history.xml.gz内の"contributor"要素内に含まれる"id"要素および"ip"要素を数え、"id"要素の個数を登録ユーザ、"ip"要素の数をIPユーザとしました。"ip"要素に数えられたものの中には、そのIPアドレスが"Template namespace initialisation script"と書かれた特殊なもの*1が若干(<0.1%)含まれるため、IPユーザは実際より若干多くカウントされた可能性があります。

結果

この画像にはGNU Free Documentation Licenseを適用します。

f:id:QtGqCwfDSA:20071203204956p:image

この結果、jaにおけるIPユーザの割合は約43%で、他言語版の12%(nl)〜27%(es)に比べると頭一つ多いですね。

元の数値も下に示します。

言語IPユーザ編集回数登録ユーザ編集回数
de824462126010135
en38371444114584478
es31952878803408
fr325371317917998
it15611069575587
ja66527688962193
nl10936858325522
pl16461837864717
pt15656686145081
sv9016924288209

enの編集回数が桁外れに多いですね。他の言語版の記事数に対する比率を大きく越えてるのはなぜ?

*1MediaWiki側の都合かな?

2007-12-01 得をするのは常に二番手

[]ウィキペディアデータ

今日グラフは無しですごめんなさい。このほかにも書きたいプログラムが幾つかあるのでプライオリティは正直低めです。謝っててもしょうがないので、今回はダウンロードしてきた日本語版ウィキペディアの記事本体を含めた全編集履歴*1について取り上げます。

今までの編集履歴を含めた11月時点のデータはbzip2*2で圧縮して約7.4GB。この圧縮をためしにほどいてみたところ200909705582バイト*3、つまり200GB以上にふくらみます。もちろん中身がXMLだとかボットによる書き込みとかで人間自身が生成したテキストデータはそれ以下ですが、少なめに見積もって記事本文が100GBとしてもこの100GBに投入された人的資源を考えると気が遠くなりそうです。400字詰め原稿用紙に直したところで全然分かりません。

200GBのXML文書をどうやって扱おう... 複数台PCがあったらMPIなり使って並列処理させたい... そもそもディスクI/O帯域が足りないよ...

*1興味のある人はpages-meta-history.xml.(7z|bz2)をダウンロードしてください

*2:7zをダウンロードしなかったのは展開ツールにstdout出力機能がなさげだったから。

*3:この数字を一見して20GBか2TBか区別つく人いるんでしょうか?

2007-11-28

[]ウィキペディアが活発に編集されるのは何時?

今日のテーマは編集と時刻の関係について。2002年10月から2007年11月までの日本語版ウィキペディアで行われた編集回数を分ごとに区切ってカウントしたものをグラフにしました。

f:id:QtGqCwfDSA:20071128200811p:image

JPIXのトラヒックグラフを国内におけるインターネットトラヒックとして想定し、それとの比較を考えてみます。グラフの大まかな増減傾向は同じですね。23時あたりのピークと6時あたりのボトムとか、12時から13時のお昼休みと思しき微妙な盛り上がりとかは同じ。

大きな特徴の一つに、ピークとボトムの差があります。JPIXのトラヒックではピークとボトムの差が3倍弱ですが、ウィキペディアでは4倍以上の差があります。前者の場合、Peer to Peerファイル共有アプリなど人間がつきっきりで操作せずともトラヒックを発生するサービスが一定量あるのに対し、ウィキペディアは基本的に人間の手で編集しますから、人間のアクティビティとの相関関係がより大きく出てると思われます。