by shigemk2

当面は技術的なことしか書かない

サーバ/インフラを支える技術5 サービスの稼動監視 1 稼動監視の種類

前回
サーバ/インフラを支える技術4 MySQLのチューニングのツボ - by shigemk2

安定したサービスの運営にはサービスの稼動監視が欠かせない

OSSのサービスの稼動監視ツールで有名なのはNagiosである。

稼動監視の種類

  1. ホストやサービスの稼動状態といった死活状態の監視
  2. ホストのCPU使用率やサービスの同時処理数などの負荷状態の監視
  3. 一定期間(1ヶ月や1年など)でのサービス提供ができていた割合である稼働率の計測

1. 死活状態の監視
pingを投げてサービスに対してTCPコネクションが張れているかどうか
対象となるサービスの基本的なプロトコル処理が出来るかどうかをチェックする

正しく応答が返ってこない場合は、そのホストやサービスが停止していると
判断し、管理者に通知する。
それを受けて、管理者はホストやサービスの再起動や、代替ホストの用意など
の復旧手段などを迅速に行う

サービスが冗長化されていたら、冗長化されたあとのVIPに対しても監視を行
うことで、最終的なユーザからの観点から正常にサービスができているかどう
かを監視できる。

2. 負荷状態の監視
過剰な負荷をチェックする。具体的には、

  1. Dos攻撃
  2. Slashdot効果などによる突発的なリクエストによる負荷
  3. サービスの人気向上による恒常的なリクエストによる負荷

が挙げられる。
1の場合は、リクエストの遮断
2の場合は、コンテンツの一時的なキャッシュ
3の場合は、ホストの増設

など、パターンによって別々の対策が必要となる。
死活状態の監視と違って、「使えるけど遅い」という問題である。

3. 稼働率の計測
1 や 2 と違って、中長期的な解析となるため、中長期的な
システムの改善につなげられる。

これにより、どのホストが落ちやすく不安定なのかを把握したり、
そもそもシステムの構成が不安定であることを認知したりできる
ようになる。それにより、システム全体の冗長化のレベルや保守体制
へのフィードバックをかけられる。

次回
サーバ/インフラを支える技術5 サービスの稼動監視 2 Nagiosの概要 - by shigemk2

[24時間365日] サーバ/インフラを支える技術 ?スケーラビリティ、ハイパフォーマンス、省力運用 (WEB+DB PRESS plusシリーズ)

[24時間365日] サーバ/インフラを支える技術 ?スケーラビリティ、ハイパフォーマンス、省力運用 (WEB+DB PRESS plusシリーズ)