コンピューター用語。 実行待ちプロセス数の平均数を表す値。負荷平均のこと。エンジニア・プログラマーが気にする数字。 通常、サーバー負荷の指標として使われる。この値が大きければ負荷が大きく、小さければ負荷が小さい。
Linuxでは、
cat /proc/loadavg
または
uptime
で確認できる。 ロードアベレージが1以下であれば正常といわれていたが、最近のマルチコアCPUにおいては読み方が変わってきている。
マルチコア時代のロードアベレージの見方 - naoyaのはてなダイアリー
本を読んで学んだことのメモ。序文から一章まで。深い見識がないと、単純なトピックでラベル化されカプセル化され、本質を理解できないと書いてあった(耳が痛い。。) だからこそ、ソフトウェアシステムにおけるオブザーバビリティに対する正しい理解が大事。 遭遇するシステムの不具合が、過去に発生した不具合の類型であるならば、従来のモニタリングといったアプローチで充分だった。システムが複雑化してきて従来のアプローチでは不十分になり、オブザーバビリティが注目されるようになったのだなと読み取った。 システムが単純でありどこに問題があるか推測しやすいものであれば、モニタリングで充分と書いてあった。 オブザーバビリテ…
メトリクス監視や APM を入れる (ほどでもない|環境整備する時間がない) みたいな状態のときあると思います。 とりあえず Slack に投げて監視体制はごまかそう、という趣旨。 こんな感じで通知される 実行例 実環境でテストしていたのでちょいちょいモザイク入れています。 やってること BOOL_LA で指定した値よりロードアベレージの値が大きければ、指定した Slack のチャンネルに通知する。 設置 シェルスクリプトとして作成して chmod a+x して実行権を付与したら、あとは crontab に任意のタイミングで実行させてください。 クソ雑魚なので 1 分感覚で回しても大丈夫でしょ…
TL;DR 正しく設計するとキャパシティは常にカツカツになる これはpyspaアドベントカレンダーの8日目の記事です。前日はShibukawaさんです。 世はクラウド時代、ソフトウェアはひとたび作られたら何億回実行されても摩耗するものではないので、どんな間抜けなロジックであろうと動く以上は別のどこかで瑕疵が出てくるまで使い倒されるのは日常茶飯事である。 サービスを負荷の前提の上に定義する クラウドより前の時代においてサービスを支えるマシンは「ロードアベレージが1.0を超えてなければとりあえずOK、超えたらマシンを増やして負荷を分散する」というノリのベストプラクティスがよく言われていたがそれはサ…
年齢が上がってくると仕事の負荷が増えてくるのに対して家庭に費やす時間は増える一方です。自分のスキルや体力を向上させる時間がだんだん少なくなってきています。ブログを書くアウトプットする時間も週末になんとか捻出しています。今、子どもの面倒を見ながらこの記事を書いています。20代なら仕事が間に合わないときはほぼ徹夜や土日をつかって挽回することも容易でしたが、今は体力と時間で難しくなってきました。 やらなければならないことが増えていく一方で費やす時間が取れなくなってくると気持ちの余裕がなくなってきます。平常時なら軽く流せる嫌なことも心に突き刺さったりイライラしてよくない反応をしてしまうこともしばしばあ…
■サービスの監視 ・URL応答監視:応答コード、応答文字列、応答時間 ・画面遷移監視:画面遷移(シナリオ)の正常性、応答時間■インフラの監視 (1)リソース監視 ・メモリー:メモリー利用情報(実メモリ使用量、スワップ使用量など) ・ネットワークトラフィック:送受信byte/sec ・CPU関連:ロードアベレージ、CPU使用率 (I/Oウエイト、システムCPU使用率、ユーザCPU使用率など) ・ディスク:ディスク空き容量、ディスク使用率、ディスク使用量、ディスク容量 (2)プロセス監視 ・プロセス所在:syslog, crond, ntpd, xinetd, sshd, httpd, mysql…
www.koikikukan.com つまりこういうことだった。 $((hoge)) -gt $((fuga)) みたいにしたりしてもだめだし、じゃあ片側数字ならええんか? と思ってたけど、単純にダメなやつであった。 ATAI="0.40" <200b> LOAD_NOW=`uptime | grep "load average" | sed -e 's/^.*load\saverage:\s//g' | awk '{print $2}' | sed -e 's/,//g'` MESSAGE="${INSTANCE} が重いかもしれん、ロードアベレージは ${LOAD_NOW} だ……" <2…
皆さんは、難題を目の当たりにした時にどうしてますか?難題の種類といしては、・問題が大きすぎて全体像がよく見えない・体験した事が無いのでよく分からない・色んな情報が錯綜していて問題の本質が見えない等があると思います。 そんな時は、難題を切り刻め! 中学でならった因数分解。これの目的って覚えてますか?因数分解は、2次方程式や3次方程式等の方程式を解くための前準備でした。公式に当て込む事が出来れば解を求める事が出来ますが、問題に出てくる式は、そのままでは利用出来ません。そのため、事前に因数分解をやって、公式に当てはまる形に変換して公式をときます。これと同じで、難題も小さく分解していけば、実は過去に扱…
GoにハマってるのでGoで色々小さいツールを書いていたので一気に紹介してみる エラーバジェットをMackerelで見るやつ github.com 指定したSLOの違反件数とエラーバジェットをいい感じに見れる。shimesabaというツールを参考に作ってみた。違いとしてはyamlなしでCLIのオプションから実行する形にしてある。 techblog.kayac.com Mackerelからメトリクスを取得してリソースの使用率をいい感じに出すやつ github.com ホストごとのCPU使用率やロードアベレージの数値を指定された期間でmax, min, avg, med, p90と出してくれるやつ。…
はじめに EXNOA プラットフォームインフラ部の角です。 私たちのチームではEKSを2年ほど前から運用しており、モニタリングやセキュリティ対策の強化を継続して行っています。最近では2022年の4月初旬に、EKSの1.22へのアップグレードが提供されるようになり、われわれも1.22へのアップグレードを完了させました。 今回の投稿では、EKSを運用して得た知見として 運用していて大変だったこと 運用で工夫していること セキュリティ対策 を紹介したいと思います。 なお、対象のシステムの構成やモニタリングの取り組みについては過去の記事で紹介していますので、合わせてご覧ください。 inside.dmm…
みなさま、こんにちは。ユーザ・リレーションズ・チーム(以下UR)の木村です。 先日よりお客様向け Web サイト fusion_place マネジメントコンソール(以下FMC) のクラウド稼働状況確認機能のご紹介をしております。 過去のご紹介ブログはこちら ・FMC のクラウド稼働状況確認機能のご紹介①~全般~ ・FMC のクラウド稼働状況確認機能のご紹介②~サービスステータス~ ・FMC のクラウド稼働状況確認機能のご紹介③~ログ~ 今回は、FMC の機能の中から、メトリクスについて詳細をご紹介いたします。 fusion_place cloud はお客様(ご契約)ごとにシングルテナントでご提…
みなさま、こんにちは。ユーザ・リレーションズ・チーム(以下UR)の出口です。 お客様向け Web サイト fusion_place マネジメントコンソール(以下FMC)の新機能を 2022/6/30(木)にリリースいたしました! 過去の関連記事はこちら → 開発中の機能のご紹介(2022/6) fusion_place cloud はお客様(ご契約)ごとにシングルテナントでご提供しておりますので、お客様のご利用状況やご要望にあわせてリソースを拡張することができます。 新機能として、fusion_place cloud の稼働状況を現在・過去含め確認できる各種画面をご用意しております。快適なご利…
結論から言うと諦めてSurfaceを買ったのですが、何をドコまでやったかまとめておかないと思い出したときに同じことを繰り返すと思ったのでやったことだけまとめました。
問題111 ロードアベレージの調査
今回はサーバー監視について書いていこうと思う。 先輩から教わった基本的なリソースの監視項目はCPU, memory使用率、IOPS、ロードアベレージをとのこと。 CPU使用率 文字通り、CPUがどれだけ使用されているかを監視している。 基本的にtopコマンドで確認ができる。 us + syを合わせたものがCPU使用率になる。 cloudwotchだとよしなに、値を取得してくれている。 現場ではCPUが80%とかでアラート設定している。ただし、CPUが80%だからといってすぐに対応しないといけない訳ではない。実際にはアラート踏んでオートスケール発火しそうだけど。 というのも、この状態にサイトに影…
grafana+prometheus でロードアベレージを監視してもいいんだけど ちょっとログを集めたいのに、あまりにもヘビィだと思うの。 sysstat / sar を使う 古のパッケージ sar コマンドで、CPU利用率を集計する sar / sysstat で cpu 利用率を詳しく調査する インストール apt でインストールが可能 sudo apt install sysstat 楽ちん 起動 と設定とタイマー マニュアル起動(ログ書いて終了する) sudo systemctl start sysstat-collect.service タイマー開始 sudo systemctl s…