Hatena::ブログ(Diary)

naoyaのはてなダイアリー

November 11, 2008

KOF 2008 の発表資料

KOF 2008 での発表資料「はてな流大規模データ処理」を以下にアップロードしました。

一部参考文献からの引用 (Introduction to Information Retrieval から Vector space model の図、たつをの ChangeLog から転置インデックスの図) があります。この場を借りて感謝。

環境によってはおそらくフォントの表示がいまいちだと思いますが、ご了承ください。

追記

SlideShare にアップロードしました。

081108huge_data.ppt
View SlideShare presentation or Upload your own. (tags: linux mysql)


追記: メモリはディスクの 150 倍について

資料中に記載している「メモリはディスクの 150 倍」ですが、これはデータの転送速度の差を表しています。

一方、これは知人から教えてもらったのですが、ディスクとメモリのシークの差はディスクが ms 単位、メモリが ns 単位でその差は数十万倍にもなるそうです。

情報検索でインデックスをディスクから検索するのとメモリ上で検索するのとではこのシーク速度が支配的になり、結果としてメモリ上で計算できると数十万倍以上高速である、と言えるそうです。(CPU の L1, L2 キャッシュがあるので、更に差がつきます。)

大変勉強になりました。

なまえなまえ 2008/11/12 00:49 キングオブファイターズの2008年大会が開催されるのかと、ガチで
勘違いしちまった・・・

cougercouger 2008/11/12 12:06 恥ずかしながら同じく。
naoyaさんは興味があるのかなと思いましたよ…orz

なまえなまえ 2008/11/12 17:21 もんのすごく同感。
KOFが、それ以外に何があるの!?と本気で思ってます。
いまだにここでは何の略のことか分かりませんし、なんだかキングオブじゃないならまったく興味ありませぬー。

naoyanaoya 2008/11/12 19:35 Kansai Open Forum です

なまえなまえ 2008/11/13 11:48 キングオブファイターズの新作かと思って飛んできました。

ni-ponni-pon 2008/11/14 00:12 会場に行きました。
もう少し時間があればじっくりお話できたのかなと思いました。

行く途中の電車の中で横にいたのはここだけの話。。。

sh2sh2 2008/11/14 07:46 DB屋さんとしてはP50の処理はショックかもw
サーバをまたいだクエリはOracleならデータベースリンク、
PostgreSQLならcontrib/dblink、MySQLならFEDERATED ENGINEで
できると思います。速いとは限りませんが。
P50の実装は前提条件としてクエリを2つ投げる間にデータが更新
されない、あるいは更新されても問題ない業務である(はてブは
おそらくこっち)、という点がありますね。

矢吹真吾矢吹真吾 2008/11/15 13:45 草薙京、八神庵、キムカッファンが好きです。