Hatena::ブログ(Diary)

はけの徒然日記 このページをアンテナに追加 RSSフィード

2005 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2006 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2007 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2008 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2009 | 01 | 02 | 04 | 05 | 08 | 09 | 10 | 12 |
2010 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 10 | 11 |
2011 | 01 | 02 | 03 | 04 | 11 | 12 |
2012 | 02 | 03 | 05 |
2014 | 02 | 03 | 04 | 05 | 12 |
2015 | 05 | 07 | 08 | 09 | 10 | 11 | 12 |
2016 | 01 | 02 | 04 | 05 | 08 | 09 | 11 | 12 |
2017 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 10 |

2010-06-05(Sat)

Ubuntu 10.04の軽量化

Wikipedia辞書化の環境更新すべく、Ubuntu 10.04環境VirtualBox上に構築したら、動作が重くなったように感じるので軽量化を実施。参考サイトは、Viva!Ubuntu!!さんのこちらの記事です。

手順は簡単

$ sudo apt-get install lubuntu-desktop

デフォルトディスプレイマネージャを聞いてくるので、元のままのgdmを選択

2009-10-04(Sun)

ウィキペディアの辞書化 その4

変換環境は前回と変わらずです。元データは、9月27日版を使用しました。変化ツールは、Kazuhiro's blogさんからwikipedia-fpw-20090831-src.tar.gzを入手して使用しました。今回は読み(ひらがな)で検索できるようになりました。収録項目数とサイズは以下のとおり、圧縮後はEBwin 3.03付属のEBShrinkレベル5圧縮したデータです。

  • エントリー数  1216511
  • honmon     2498844672Byte
  • honmon(shrink) 1079081341Byte

wikipedia-fpw.confの設定(抜粋)

# 0にすると相互参照が無効になります。
# 1にすると相互参照が有効になります。
# 2にすると1ぺージ内からの参照先がユニークなもののみ有効にします。
#
  'enable_reference' => 1,

#
# 0 にすると数式を収録しません。
# 1 にすると数式を収録します。

  'enable_math' => 1,

#
# mimtex のコマンド名を指定します。
# パスが通っていない場合はフルパス名で指定してください。
#
  'mimetex' => '/home/user/mimetex/mimetex.cgi',
  # 'mimetex' => '/usr/pkg/libexec/cgi-bin/mimetex.cgi',

#
# 0 にすると数式を収録する際に白地に黒文字の画像にします。
# 1 にすると数式を収録する際に黒地に白文字の画像にします。
#
  'math_black' => 0,

#
# 1 にすると本文からよみがなを探して検索語への登録を試みます。
#
  'yomigana' => 1,

その3と同じ環境にも関わらず、変換時間が7時間半かかりました。サイズが増えたというのもあるのでしょうが、ひらがなのインデックス作成に時間がかかったのではないかと思います。読みによる検索が必要なければこの機能は無効にした方が良いかもしれません。

関連記事