品詞付きの形態素 N-gram コーパス

概要

せっかく形態素解析したのに品詞を捨ててしまうなんて勿体ないということで,品詞付きの形態素 N-gram コーパスを作成してみました.入力は同じなのですが,トークンが短いという想定で実装していたため,一時ファイルが巨大になって難儀しました.

ディスク容量が不足するから圧縮するより他にないけれど,圧縮するのに時間がかかって仕方がない,ついでにマージするのも極端に時間がかかるという状態で,もっと大きな入力を扱うには効率化が必要になりそうです.

ダウンロード

サイズ [bytes] 頻度 100 以上 - ファイル名(URL)
2,732,032 http://dist.s-yata.jp/2010/0815/over99/1gms/1gm-0000.xz
26,120,192 http://dist.s-yata.jp/2010/0815/over99/2gms/2gm-0000.xz
50,036,736 http://dist.s-yata.jp/2010/0815/over99/3gms/3gm-0000.xz
42,242,048 http://dist.s-yata.jp/2010/0815/over99/4gms/4gm-0000.xz
26,976,256 http://dist.s-yata.jp/2010/0815/over99/5gms/5gm-0000.xz
サイズ [bytes] 頻度 10 以上 - ファイル名(URL)
6,778,880 http://dist.s-yata.jp/2010/0815/over9/1gms/1gm-0000.xz
61,079,552 http://dist.s-yata.jp/2010/0815/over9/2gms/2gm-0000.xz
61,321,216 http://dist.s-yata.jp/2010/0815/over9/2gms/2gm-0001.xz
4,599,808 http://dist.s-yata.jp/2010/0815/over9/2gms/2gm-0002.xz
62,472,192 http://dist.s-yata.jp/2010/0815/over9/3gms/3gm-0000.xz
65,318,912 http://dist.s-yata.jp/2010/0815/over9/3gms/3gm-0001.xz
64,028,672 http://dist.s-yata.jp/2010/0815/over9/3gms/3gm-0002.xz
65,536,000 http://dist.s-yata.jp/2010/0815/over9/3gms/3gm-0003.xz
65,503,232 http://dist.s-yata.jp/2010/0815/over9/3gms/3gm-0004.xz
65,736,704 http://dist.s-yata.jp/2010/0815/over9/3gms/3gm-0005.xz
26,648,576 http://dist.s-yata.jp/2010/0815/over9/3gms/3gm-0006.xz
68,149,248 http://dist.s-yata.jp/2010/0815/over9/4gms/4gm-0000.xz
69,419,008 http://dist.s-yata.jp/2010/0815/over9/4gms/4gm-0001.xz
68,128,768 http://dist.s-yata.jp/2010/0815/over9/4gms/4gm-0002.xz
67,002,368 http://dist.s-yata.jp/2010/0815/over9/4gms/4gm-0003.xz
71,950,336 http://dist.s-yata.jp/2010/0815/over9/4gms/4gm-0004.xz
72,450,048 http://dist.s-yata.jp/2010/0815/over9/4gms/4gm-0005.xz
72,773,632 http://dist.s-yata.jp/2010/0815/over9/4gms/4gm-0006.xz
32,296,960 http://dist.s-yata.jp/2010/0815/over9/4gms/4gm-0007.xz
78,606,336 http://dist.s-yata.jp/2010/0815/over9/5gms/5gm-0000.xz
76,763,136 http://dist.s-yata.jp/2010/0815/over9/5gms/5gm-0001.xz
74,289,152 http://dist.s-yata.jp/2010/0815/over9/5gms/5gm-0002.xz
79,785,984 http://dist.s-yata.jp/2010/0815/over9/5gms/5gm-0003.xz
83,451,904 http://dist.s-yata.jp/2010/0815/over9/5gms/5gm-0004.xz
56,188,928 http://dist.s-yata.jp/2010/0815/over9/5gms/5gm-0005.xz

まとめてダウンロードするときは,wget が便利です.

$ wget -xnH -i over99.txt

フォーマット

N-gram を構成するトークンは空白区切り,頻度の前に水平タブという点は同じなのですが,トークン内部に水平タブが含まれているため,最後方の水平タブ以降を頻度として切り出した後で残りを空白により分割という処理が必要になります.

表層形 '\t' 品詞など ' ' 表層形 '\t' 品詞など ' ' 表層形 '\t' 品詞など '\t' 頻度

例:$ xz -cd 3gm-0000.xz | head -6000000 | tail
日本	名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 発つ	動詞,自立,*,*,五段・タ行,基本形,発つ,タツ,タツ	396
日本	名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 目指し	動詞,自立,*,*,五段・サ行,連用形,目指す,メザシ,メザシ	272
日本	名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 目指す	動詞,自立,*,*,五段・サ行,基本形,目指す,メザス,メザス	200
日本	名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 相手	名詞,一般,*,*,*,*,相手,アイテ,アイテ	137
日本	名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 知っ	動詞,自立,*,*,五段・ラ行,連用タ接続,知る,シッ,シッ	243
日本	名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 知ら	動詞,自立,*,*,五段・ラ行,未然形,知る,シラ,シラ	243
日本	名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 知り	動詞,自立,*,*,五段・ラ行,連用形,知る,シリ,シリ	138
日本	名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 知る	動詞,自立,*,*,五段・ラ行,基本形,知る,シル,シル	552
日本	名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 知ろ	動詞,自立,*,*,五段・ラ行,未然ウ接続,知る,シロ,シロ	102
日本	名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 破壊	名詞,サ変接続,*,*,*,*,破壊,ハカイ,ハカイ	454