Hatena::ブログ(Diary)

そこはかとなく書くよ。

2012-05-08

blog移行しました

こっちに移行しました。やっぱりreStructuredTextで書けるほうがいいね。tinkererもかなり便利。

http://tdoc.info/blog/

2012-04-10

fluentdとfluent-plugin-pghstoreとpandorafmsでログ収集、可視化、監視を行う

前回の記事で報告したように、fluent-plugin-pghstoreでログをPostgreSQLに貯めることができました。

次は可視化と監視を行います。ここで、最近使ってみているPandora FMSを使います。

pluginを準備

まずは以下のスクリプトを保存し、pandora/etc/pandora/plugins以下に置きます。DBやTABLEは適宜書き換えてください。また、hostnameやportも適宜変更でお願いします。

上の方にあるSQLは過去5分間のcodeが2XXや3XXなどの割合を出してくれます。その後、PandraFMSでのplugin形式のXMLにするように整形します。

ちなみに、一つのSQLで複数を同時にcount()する方法については 複数同時にcount() をどうぞ。

#!/usr/bin/env sh

DB=logdb
TABLE=apache_log

SQL=`cat <<EOT
SELECT \
        ROUND(100 * (s.C_2XX::numeric / s.all::numeric), 1) AS C_2, \
        ROUND(100 * (s.C_3XX::numeric / s.all::numeric), 1) AS C_3, \
        ROUND(100 * (s.C_4XX::numeric / s.all::numeric), 1) AS C_4, \
        ROUND(100 * (s.C_5XX::numeric / s.all::numeric), 1) AS C_5, \
        s.all AS count \
FROM( \
        SELECT  \
              count(*) AS all, \
              count(CASE WHEN record->'code' LIKE '2__' THEN 1 END) AS C_2XX, \
              count(CASE WHEN record->'code' LIKE '3__' THEN 1 END) AS C_3XX, \
              count(CASE WHEN record->'code' LIKE '4__' THEN 1 END) AS C_4XX, \
              count(CASE WHEN record->'code' LIKE '5__' THEN 1 END) AS C_5XX \
        FROM $TABLE WHERE time > (CURRENT_TIMESTAMP - interval '5 min') \
)s
EOT`

RESULT=`psql -At -F " " $DB -c "$SQL"`

count=0
for p in $RESULT
do
  case $count in
     0)
       name="http_status_2XX"
       desc="HTTP Status Code percentage"
     ;;
     1)
       name="http_status_3XX"
       desc="HTTP Status Code percentage"
     ;;
     2)
       name="http_status_4XX"
       desc="HTTP Status Code percentage"
     ;;
     3)
       name="http_status_5XX"
       desc="HTTP Status Code percentage"
     ;;
     4)
       name="http_access_count"
       desc="access count"
     ;;
  esac
  echo "<module>"
  echo "  <name><![CDATA[${name}]]></name>"
  echo "  <type><![CDATA[generic_data]]></type>"
  echo "  <data><![CDATA[${p}]]></data>"
  echo "  <description><![CDATA[$desc]]></description>"
  echo "</module>"
  count=`expr $count + 1`
done

あとは、pandora_agent.conf に以下の一行を足してください。

module_plugin http_access_status.sh

はい、終わりです。module作成は簡単ですね。

グラフ化

ここまで出来ればあとはPandoraFMS側でできます。

レポート管理 -> グラフビルダー で各ステータスコードの塗り潰しの積み上げグラフを作成します。

そうすると、こんな感じのグラフがリアルタイムで出てきます。

f:id:rudi:20120410220903j:image

途中紫色が増えているのはアラートのテストを兼ねて試しに入れてみたものです。

監視

PandoraFMSは監視システムです。ですので、 4XXや5XXが25%を越えたら通知を出す、なんてことも簡単に出来ます。

ここでは詳しく述べませんので、 http://www.openideas.info/wiki/index.php?title=Pandora_3.0:Documentation_ja:Alerts こちらをご覧ください。

まとめ

fluentd + fluent-plugin-pghstore + PostgreSQL + Pandora FMSで

  • ログ収集
  • 可視化
  • 監視 + アラート

一気通貫で行えるようになりました。

今回試したものは、fluent-plugin-datacounter + out_growthforecast + growthforecast + nagiosで可能です。しかし、fluent-plugin-pghstoreを使った場合、SQLでいろいろな処理ができますので、アイデア次第で今回のStatus Code以外にも使えると思います。

2012-04-05

fluent-plugin-pghstoreを書きました

fluentdをPostgreSQLのhstoreに書き出せるようにした、 fluent-plugin-pghstore というpluginを作成しました。

hstoreについては 前記事 を参照してください。

install

gem install fluent-plugin-pghstore

apache_log

例えば、tail pluginを使ってapacheのaccess logをhstoreに出すようにする場合、こんなコンフィグを書きます。

<source>
  type tail
  path /var/log/apache/access_log_sym
  tag apache.access
  format apache
</source>

<match apache.*>
  type pghstore
  database test
</match>

そして、こんな感じになります。

       tag       |          time          |      record
 ----------------+------------------------+---------------------------------------
{apache,access} | 2012-04-01 22:55:15+09 | "code"=>"200", "host"=>"XXX.XXX.XXX.XXX", "path"=>"/", "size"=>"2608",
     "user"=>"-", "agent"=>"Mozilla/5.0 (Macintosh; Intel Mac OS X
     10_6_8) AppleWebKit/535.11 (KHTML, like Gecko)
     Chrome/17.0.963.83 Safari/535.11", "method"=>"GET", "referer"=>"-"

tagは"."でsplitして、配列として格納します。はい、PostgreSQLは配列を扱えますので。

hstore型のrecordカラムには、ちょっと見にくいですが、各種keyが値とともに入っています。

http

さらに、こんなコンフィグを追加して、

<source>
  type http
  port 9880
</source>

curlで叩いてみると、

curl -F 'json={"log":"hoge"}' "http://localhost:9880/apache.curl"
      tag       |          time          |      record
----------------+------------------------+---------------------------------------
{apache,access} | 2012-04-01 22:55:15+09 | "code"=>"200", "host"=>"XXX.XXX.XXX.XXX",
{apache,curl}   | 2012-04-01 23:28:44+09 | "log"=>"hoge"

同じテーブルに追加されましたね。 hstoreではkeyは動的に追加できますので、どんな形式のinput pluginでも大丈夫です。


例えば

一度PostgreSQLに入ってしまえばあとはSQLでいろいろなことができます。

UserAgentの数:

SELECT
  COUNT(*) AS c,
  record->'agent'
FROM apache_log
GROUP BY record->'agent'
ORDER BY c;

過去10分間のアクセス数:

SELECT count(*) FROM apache_log WHERE time > (CURRENT_TIMESTAMP - interval '10 min')

過去10分間のstatus codeの数:

SELECT
  count(CASE WHEN record->'code' = '200' THEN 1 ELSE NULL END) AS OK_200,
  count(CASE WHEN record->'code' = '301' THEN 1 ELSE NULL END) AS MOVED_301,
  count(CASE WHEN record->'code' = '302' THEN 1 ELSE NULL END) AS FOUND_302,
  count(CASE WHEN record->'code' = '304' THEN 1 ELSE NULL END) AS NOTMODIFIED_304,
  count(CASE WHEN record->'code' = '401' THEN 1 ELSE NULL END) AS UNAUTHORIZED_401
FROM apache_log
WHERE time > (CURRENT_TIMESTAMP - interval '10 min')

制限

ただし、こんな感じの多段のJSONを入れようとすると、だめです。

'json={"log":"hoge", "nest":{"a":"hoge", "b":"hige"}}'

hstoreが対応していないので難しいです。これは9.2のJSON型を待つのがいいのなあぁと思っているところです。

また、コネクションを一つだけしか使っていないので、おそらく高負荷環境では取りこぼしなどが発生する可能性があります。コネクションプールなどを使えばいいと思うので、patch大歓迎です!

こういう感じで

mongodbなどもいいですが、PostgreSQLもいいですよ。

2012-03-30

PostgreSQL hstoreでKVS

それPostgreSQLでできるよ、第二弾。

PostgreSQLにはhstoreという拡張があります。

これはkeyとvalueの対の集合を単一のレコードに格納することが出来るものです。 つまり、Key-Value-Storeですね。 これを使うと通常のテーブルのようにキーを事前に定義しておく必要がありません。

hstoreについては以下の資料をみてください。特に後者は今回書いていない、いろいろな演算子・関数を紹介していますのですごく参考になります。

そして、今回の記事はherokuのこの記事を元にしています。

herokuはpostgresユーザなんですよ。

hstoreを入れる

hstoreはcontribに入っています。今回はFreeBSDを使用したので、以下のように入れます。

% sudo portinstall databases/postgresql91-contrib

続いてDBにhstoreを入れます。9.1から簡単に拡張を入れられるようになりました。

% psql test -c "CREATE EXTENSION hstore;"

さて、これでhstoreを使う準備は出来ました。

hstoreのテーブルを定義

さっき定義する必要ないって言ってたじゃん、という声もありますが、hstoreという部分だけは定義する必要があります。 といっても、hstoreの中身を定義する必要はありません。

CREATE TABLE products (
  id serial PRIMARY KEY,
  name varchar,
  attributes hstore
);

今回はこうしてみました。herokuのblogのとおりですね。

データを入れる

INSERT INTO products (name, attributes) VALUES (
  'Geek Love: A Novel',
  'author    => "Katherine Dunn",
   pages     => 368,
   category  => fiction'
  );

データを入れるには key => value という構文を使 います。文字列は"で囲むと空白、=、>という記号も入れられます。

検索する

SELECT name as device
FROM products
WHERE attributes->'category' = 'fiction'

検索時はkeyを -> で指定します。

また、"?"を使うことで続く値がキーとしてあれば、という意味になります。

SELECT name, attributes->'pages'
  FROM products
  WHERE attributes ? 'pages'

その他

indexも作れます。

CREATE INDEX product_manufacturer
ON products ((products.attributes->'manufacturer'));

ただ、汎用転置インデックスのGINを使ったほうがいいという話もあります。

joinもできます。

SELECT manufacturers.country, products.name
FROM products, manufacturers
WHERE products.attributes -> 'manufacturer' = manufacturers.name;

今日はここまで

というわけで、PostgreSQLを使うと、こういう便利なことができるよ、という紹介でした。

次のネタに続く…

2012-03-19

それPostgreSQLで出来るよ - twitter_fdw

pyfesで「それPostgreSQLでできるよ」ってつぶやいた手前、ちゃんと試さなければなりません。

PostgreSQL 9.1から外部データラッパ(FDW) という規格がサポートされました。 またさらに、このFDWを使ってTwitterAPIを叩いて結果をテーブルとして出 してくれる twiter_fdw という拡張が 公開されています。

準備

% sudo apt-get install libcurl4-openssl-dev (libjsonもいるかも)
% curl -O http://api.pgxn.org/dist/twitter_fdw/1.0.0/twitter_fdw-1.0.0.zip
% unzip twitter_fdw
% cd twitter_fdw
% make
% sudo su
# export USE_PGXS=1
# make install

DBの作成して、twitter拡張をDBに入れます。

% createdb twitter
% psql -c "CREATE EXTENSION twitter_fdw" twitter

さて、これで準備は終わりです。

使ってみる

% psql twitter
twitter=# SELECT from_user, created_at, text FROM twitter WHERE q = '#pyfes';

from_user  |     created_at      |  text
----------------------------------------------------
tw_ox      | 2012-03-19 13:43:58 | RT @zusaar: 【新着イベント】Python Developers Festa (一般枠) #pyfes #pyspa http://t.co/X9SyQ0hg #zusaar #イベント #eventjp
inoshiro   | 2012-03-19 10:46:58 | RT @shomah4a: 少ないけど写真上げました https://t.co/aqvDAjrC #pyfes
shomah4a   | 2012-03-19 10:32:03 | 少ないけど写真上げました https://t.co/aqvDAjrC #pyfes
tcsh       | 2012-03-19 10:14:06 | RT @tk0miya: Sphinx ハンズオンの資料(サンプル)です。  http://t.co/TzokaIJ2 #sphinxjp #pyfes

中身はTwitter APIを叩いているだけなので、残念ながら WHERE from_user ='' とは書けません。投稿者を探すにはqの中にfrom:をつけます。 詳しくは https://dev.twitter.com/docs/using-search を見てください。

twitter=# SELECT from_user, text FROM twitter WHERE q = 'from:voluntas' limit 5;

from_user | text
-----------------------------------------------
voluntas  | @Surgo お、一口書いとくね
voluntas  | @turky や一口とか提示しなかったので、再度確認します。イメージは一口 1000 円で問題ないです。
voluntas  | @turky ちょw ブログにまとめます。
voluntas  | 支援は一人1000円として 15000 円位か。
voluntas  | 姉に Twitter Bot の作り方を聞かれている

ちなみにdefaultでは15件までしか出ませんが以下のようにしてあげると100件まで出るようになります。

  - appendStringInfo(&buf, "q=%s",
  + appendStringInfo(&buf, "q=%s&rpp=100",

いろいろしてみる

# SELECT to_user, count(to_user) FROM twitter WHERE q =
'from:voluntas' GROUP BY to_user ORDER BY count(to_user) desc limit 10

      to_user     | count
----------------+-------
 tokoroten      |     8
 Seasons        |     7
 heavenshell    |     6
 sawonya        |     4
 turky          |     3
 tokibito       |     3
 yokatsuki      |     3
 mkouhei        |     3
 mopemope       |     3
 Surgo          |     2

fdwいいよfdw