unnonouno このページをアンテナに追加 RSSフィード

2007-03-13

[]大規模日本語データ 01:24 大規模日本語データを含むブックマーク 大規模日本語データのブックマークコメント

でましたね。英語版 5-gram データをこないだ研究室で買ったので、一昨日見ていたんですが、5 ってすごいですね。<bos> I like a ... でも 5 単語です。この日本語データ、詳細が書いてないけどやはり N-gram かなぁ。文字 N-gram かな?

ところでこのデータ、あったら簡単に使えるかというとそうもうまくいかない。英語版 5-gram が圧縮して DVD 6 枚組。ふつうに使おうとするだけで 10GB 単位メモリを消費する寸法。オンメモリDB を使った N-gram サーバーを立てますかねぇ。1台でメモリ足りるんかな。

トラックバック - http://d.hatena.ne.jp/u-no/20070313