zabbiたんAMIたん このページをアンテナに追加 RSSフィード Twitter

zabbiたん AMIたん

2012-11-15

大容量のDBデータを準備する

そこそこ大きいDBデータが欲しいと言われたら
あなたはどうしますか?

今回はMySQLWikipediaデータを使ってmysqlに突っ込んでみましょう。

xml2sqlのインストール

wikipediaで提供しているXMLフォーマットのデータをmysqlpostgresqlインポートできるxml2sqlというツールが用意されているので、これを利用します。

http://meta.wikimedia.org/wiki/Xml2sql


yum install expat-devel
wget http://ftp.tietew.jp/pub/wikipedia/xml2sql-0.5.tar.gz
tar zxvf xml2sql-0.5.tar.gz
cd xml2sql-0.5
./configure
make
cp xml2sql $HOME/bin/

wikipediaの全てのデータをダウンロード


wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
bzip2 -d jawiki-latest-pages-articles.xml.bz2

下記の形で展開


cat jawiki-latest-pages-articles.xml | sed -e 's/<ns>.*<\/ns>\|<ns.*\/>\|<parentid>.*<\/parentid>\|<parentid.*\/>\|<sha1>.*<\/sha1>\|<sha1.*\/>\|<model>.*<\/model>\|<model.*\/>\|<format>.*<\/format>\|<format.*\/>\|<redirect>.*<\/redirect>\|<redirect.*\/>//' | xml2sql



ll -h
5.8G 11月 13 01:39 2012 text.txt
139M 11月 13 01:39 2012 page.txt
189M 11月 13 01:39 2012 revision.txt

mysqlimportで展開


mysqlimport -d -L zabbio text.txt
mysqlimport -d -L zabbio page.txt
mysqlimport -d -L zabbio revision.txt

Air Max Pas CherAir Max Pas Cher 2013/05/31 18:51 私はそのような偉大な仕事のためのあなたの側の多くの感謝から、いくつかのより多くの偉大な作品をお待ちしております!

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証

トラックバック - http://d.hatena.ne.jp/zabbio/20121115/1352987514
リンク元