Hatena::ブログ(Diary)

はけの徒然日記 このページをアンテナに追加 RSSフィード

2005 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2006 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2007 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2008 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2009 | 01 | 02 | 04 | 05 | 08 | 09 | 10 | 12 |
2010 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 10 | 11 |
2011 | 01 | 02 | 03 | 04 | 11 | 12 |
2012 | 02 | 03 | 05 |
2014 | 02 | 03 | 04 | 05 | 12 |
2015 | 05 | 07 | 08 | 09 | 10 | 11 | 12 |
2016 | 01 | 02 | 04 | 05 | 08 | 09 | 11 | 12 |
2017 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 10 |
2018 | 02 | 03 | 04 | 05 |

2009-05-16(Sat)

ウィキペディアの辞書化 その2

半年ぶりにWikipediaデータEPWING辞書に変換しようとしたら、HONMONデータサイズが2GBを超えた影響でいろいろ手間取ったのでメモ

変換環境Ubuntu 8.04LTS on Virtualbox。変換時間は前回と同様に約4〜5時間くらい、HONMONサイズは2.2GBでEBShrinkで最大圧縮をかけて950MB


データとツールの入手

事前準備

Ubuntu 8.04LTSでは、後述のPerlのConfigureで

/usr/bin/ld:crt1.o:No such file:No such file or directory

というエラーがでるので、予めThe GNU Standard C++ Library v3 (development files)をインストールしておく(Ubuntu日本語フォーラム情報より)

$ sudo apt-get install libstdc++6-4.2-dev

Perlコンパイル

参考サイト記述より

perl -V等で、Compile-time optionsにUSE_64_BIT_INTとUSE_LARGE_FILESが存在している事を確認してください。

Ubuntuに入っているPerlはUSE_64_BIT_INTが無かったのでソースからPerlコンパイルする必要あり。

$ ./Configure -Duse64bitint    複数回問い合わせがあるのでEnterを押下
$ make
$ make test
$ sudo make install            デフォルトでは/usr/local/の下

変換作業

freepwingとwikipedia-fpwの使い方は前回と同じ、ただしwikipedia-fpw.confの内容を以下の様に修正

'enable_math' => 0,

これが1だと数式も収録できるようなんだけれども、他の準備がよく判らないので今回は見送り。

変換後

パッケージ作成($ fpwmake package)がVirtualboxの仮想HDDの容量不足の為失敗。う〜ん、これ以上データサイズが肥大化したらVirtualbox上でのデータ変換は無理?

今回は各単体のファイルWindows環境に持ってくる。ディレクトリ構成は以下のとおり。

WIKIP\WIKIP\DATA\HONMON
WIKIP\WIKIP\GAIJI\
WIKIP\CATALOGS
WIKIP\GFDL        このファイルが必要かは不明

あと、古いバージョンのEBWINだとサイズ肥大化関係検索が上手くできなかったので、現時点最新の3.02bに入れ直し。辞書圧縮も新しいバージョンEBWINの同梱品のEBShrinkで実施。

投稿したコメントは管理者が承認するまで公開されません。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証

Connection: close