November 11, 2008
■ KOF 2008 の発表資料
KOF 2008 での発表資料「はてな流大規模データ処理」を以下にアップロードしました。
一部参考文献からの引用 (Introduction to Information Retrieval から Vector space model の図、たつをの ChangeLog から転置インデックスの図) があります。この場を借りて感謝。
環境によってはおそらくフォントの表示がいまいちだと思いますが、ご了承ください。
追記
SlideShare にアップロードしました。
追記: メモリはディスクの 150 倍について
資料中に記載している「メモリはディスクの 150 倍」ですが、これはデータの転送速度の差を表しています。
一方、これは知人から教えてもらったのですが、ディスクとメモリのシークの差はディスクが ms 単位、メモリが ns 単位でその差は数十万倍にもなるそうです。
情報検索でインデックスをディスクから検索するのとメモリ上で検索するのとではこのシーク速度が支配的になり、結果としてメモリ上で計算できると数十万倍以上高速である、と言えるそうです。(CPU の L1, L2 キャッシュがあるので、更に差がつきます。)
大変勉強になりました。
トラックバック - http://d.hatena.ne.jp/naoya/20081111/1226395400
- 自堕落な投資ずきSEの日記 - はてブは酷いのか?
- PHP,MySQL,Flexな日々+イラストとか - 今日気になったページ
- hajime_kurita_accessup_orgの日記 - Hatenaには重要な技術が抜けて...
- ekurodaの日記 - KOF 2008での「はてな流大規模データ処理」by id:...
- まっちゃだいふくの日記★とれんどふりーく★ - KOF 2008 の発表資...
- おれさま新聞 - ●食べログ
- プログラマになりたい - 大量データの処理方法 はてなさんの場合
- WEB開発日記 - KOF 2008 の発表資料 - naoyaのはてなダイアリー
- tsimoの日記 - 「はてな流大規模データ処理」@関西オープンソース...
- naoyaのはてなダイアリー - CodeZine にて KOF 2008 の記事
- てーげー探訪 - データグリッド
- はてなブックマークの新着エントリーから好みの記事を表示
リンク元
- 1878 http://b.hatena.ne.jp/hotentry
- 1067 http://reader.livedoor.com/reader/
- 914 http://b.hatena.ne.jp/
- 902 http://d.hatena.ne.jp/
- 761 http://blog.mogya.com/2008/11/post-82.html
- 336 http://www.hatena.ne.jp/
- 260 http://secure.ddo.jp/~kaku/tdiary/
- 258 http://codezine.jp/article/detail/3315?p=4
- 248 http://www.ka.zuya.org/
- 220 http://blog.hacklife.net/archives/51788873.html

