仕事
2007年二日目の仕事。年末に下調べをしていたISA2006のチェックをさらにやろうと、ボチボチ仕事をしていたら…。
DLT死亡
関西の事務所に置いてあるサーバ機(サーバ名マグロ)の、5連装DLTがジャムってぶっ壊れた。
まぁ、サーバ管理はしていないので他人事としてスルーしていたが…。
ドメインコントローラ死亡
呼ばれて現象をチェックすると以下の症状があった。
・他のドメインコントローラと複製ができない。
・親ドメインとの信頼関係が確認できない。
・そのドメインなコントローラで認証ができない。
特に、一番最初の複製ができないのがきつい。このサーバをNTからWindows Server 2003へアップグレードをしたときに、ちょこっとかかわっており、アップグレードしてから3年ほどになるが、いままで問題なかったので構成ミスなどではなく明らかに何らかのトラブルが発生している。
特に、イベントログに出ていた「ドメインコントローラのコンピュータオブジェクトがTombstone期間を超えて削除されました」と言うのが致命的。
実際に、FSMOの役割を担当しているDCのActive Directoryを確認してみると、マグロ鯖のコンピュータオブジェクトが失われている。この時点でもうだめポなので、FSMOのバックアップからオブジェクトを復元しようと提案するが、なぜかFSMOのバックアップは取っていないらしい…orz。
しかも、ドメインコントローラとしてFSMOから切断されているマグロ鯖に対して、新しいコンピュータオブジェクトが多数登録されている状態*1だった。もちろん、FSMO側にもいくつか登録されている状態で、ついでにマグロ鯖のCドライブの容量も底をついているみたいで…。
このカオスをどうしたものかとOさんと悩みつつ、マグロ鯖を降格してから昇格させようとした。
流れ
① FSMOと追加DCのw32timeサービスが社内の親会社の管理するNTPをFQDNで参照していた。
② NTPサーバの名前が、いつのころか(かなり前と推定される)名前が変更されて時刻の同期ができなくなる。
③ 各DCの時刻の管理が内蔵バッテリに切り替わり、各DCの時刻がズレ始める。
④ Active Directoryの時刻同期のズレの許容範囲である5分を超えてしまう。
⑤ 時刻同期の許容範囲を超えたDC(マグロ鯖)のコンピュータオブジェクトが、FSMO上で削除される。(削除フラグが立つ)
⑥ 60日後に削除フラグの立ったオブジェクトがADから完全に削除される。
兆候
こうなるまでに障害を予感するポイントがいくつかあったと思われる。
1・②のNTPサーバ名の変更時に、変更しておけばよかった。(社内のドメイン名変更が行われた時期)
2・③時刻同期ができないというエラーログが出力されていた。
3・⑤削除された時点でFSMO上から失われたとエラーログが出力されていた。
4・⑥Tombstone期間を超えたので完全削除されたとエラーログが出力されていた。
5・サーバー管理の担当者は、かなり以前からDCの複製ができないことに気づいていた。
うーん…5番目が……。5番目の時点で対処を取っていればよかったし、何もDLTがぶっ壊れてから…と思ったが、起きてしまった事に関して問い詰める時間がもったいないし、そこから得られるものを吸収すれば良いので、5はとりあえず置いておくことに。
また、監視システムが皆無だったことも…どうしようもありません。なぜこうなったかと言うのが、会社の仕組みにもつながる部分になるので、こればっかりは担当者レベルではどうにもならない。けど、そんなことであきらめていては意味が無いので、サーバ管理をこっちが貰う事にしようとリーダーと話しをした。この部分に関してはどうなるかは分からないが、今回得られたものを生かせればよいかと思う。
とりあえず、やれやれな一日だった。