品詞付きの形態素 N-gram コーパス
概要
せっかく形態素解析したのに品詞を捨ててしまうなんて勿体ないということで,品詞付きの形態素 N-gram コーパスを作成してみました.入力は同じなのですが,トークンが短いという想定で実装していたため,一時ファイルが巨大になって難儀しました.
ディスク容量が不足するから圧縮するより他にないけれど,圧縮するのに時間がかかって仕方がない,ついでにマージするのも極端に時間がかかるという状態で,もっと大きな入力を扱うには効率化が必要になりそうです.
ダウンロード
サイズ [bytes] | 頻度 100 以上 - ファイル名(URL) |
---|---|
2,732,032 | http://dist.s-yata.jp/2010/0815/over99/1gms/1gm-0000.xz |
26,120,192 | http://dist.s-yata.jp/2010/0815/over99/2gms/2gm-0000.xz |
50,036,736 | http://dist.s-yata.jp/2010/0815/over99/3gms/3gm-0000.xz |
42,242,048 | http://dist.s-yata.jp/2010/0815/over99/4gms/4gm-0000.xz |
26,976,256 | http://dist.s-yata.jp/2010/0815/over99/5gms/5gm-0000.xz |
まとめてダウンロードするときは,wget が便利です.
$ wget -xnH -i over99.txt
フォーマット
N-gram を構成するトークンは空白区切り,頻度の前に水平タブという点は同じなのですが,トークン内部に水平タブが含まれているため,最後方の水平タブ以降を頻度として切り出した後で残りを空白により分割という処理が必要になります.
表層形 '\t' 品詞など ' ' 表層形 '\t' 品詞など ' ' 表層形 '\t' 品詞など '\t' 頻度 例:$ xz -cd 3gm-0000.xz | head -6000000 | tail 日本 名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 発つ 動詞,自立,*,*,五段・タ行,基本形,発つ,タツ,タツ 396 日本 名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 目指し 動詞,自立,*,*,五段・サ行,連用形,目指す,メザシ,メザシ 272 日本 名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 目指す 動詞,自立,*,*,五段・サ行,基本形,目指す,メザス,メザス 200 日本 名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 相手 名詞,一般,*,*,*,*,相手,アイテ,アイテ 137 日本 名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 知っ 動詞,自立,*,*,五段・ラ行,連用タ接続,知る,シッ,シッ 243 日本 名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 知ら 動詞,自立,*,*,五段・ラ行,未然形,知る,シラ,シラ 243 日本 名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 知り 動詞,自立,*,*,五段・ラ行,連用形,知る,シリ,シリ 138 日本 名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 知る 動詞,自立,*,*,五段・ラ行,基本形,知る,シル,シル 552 日本 名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 知ろ 動詞,自立,*,*,五段・ラ行,未然ウ接続,知る,シロ,シロ 102 日本 名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 破壊 名詞,サ変接続,*,*,*,*,破壊,ハカイ,ハカイ 454