マグロ鯖が…

ワシの席の後ろにいる、情報システム部の人がてんてこ舞いしているのを尻目に、仕事に励んでいたら…。


担当「あれ?信頼関係がおかしくなっている…どうしよう…」
担当「………(あれこれ作業)………」
ワシ「(知らんふり、知らんふり)」
担当「あのーevesystemさん、マグロ鯖なんですけどね」
ワシ「は、はい…(うげ、きた)」
担当「ドメインの信頼関係がおかしくなったみたいで、ちょっと見てくれませんか?」


と言うことでも、仕事でWindowsのサーバ構築をしまくっているので、呼ばれてしまいますた。

ドメインコントローラ死亡

呼ばれて現象をチェックすると以下の症状があった。
・他のドメインコントローラと複製ができない。
・親ドメインとの信頼関係が確認できない。
・そのドメインなコントローラで認証ができない。
特に、一番最初の複製ができないのがきつい。このサーバをNTからWindows Server 2003へアップグレードをしたときに、ちょこっとかかわっており、アップグレードしてから3年ほどになるが、いままで問題なかったので構成ミスなどではなく明らかに何らかのトラブルが発生している。
特に、イベントログに出ていた「ドメインコントローラのコンピュータオブジェクトがTombstone期間を超えて削除されました」と言うのが致命的。
実際に、FSMOの役割を担当しているDCのActive Directoryを確認してみると、マグロ鯖のコンピュータオブジェクトが失われている。この時点でもうだめポなので、FSMOのバックアップからオブジェクトを復元しようと提案するが、なぜかFSMOのバックアップは取っていないらしい…orz。
しかも、ドメインコントローラとしてFSMOから切断されているマグロ鯖に対して、新しいコンピュータオブジェクトが多数登録されている状態*1だった。もちろん、FSMO側にもいくつか登録されている状態で、ついでにマグロ鯖のCドライブの容量も底をついているみたいで…。
このカオスをどうしたものかとOさんと悩みつつ、マグロ鯖を降格してから昇格させようとした。

*1:NTドメインの頃に、マスタドメインモデルでシステムを組んでいたため、関西のドメインにはクライアントのコンピュータのみが登録されている

ゴタゴタしたが…。

FSMOと通信できないので、普通ではADを削除することができず、DCPROMO /forceremoval で強制削除して、FSMO側でntdsutil metadata cleanupで手動削除。DNSからマグロ鯖のレコードを全部削除して完了のはずが…うまくいかないので、急遽実験用マシンの2003を追加して万が一に備えつつ、マグロ鯖から上記の強制削除の手順をもう一回行って、ただのメンバサーバに降格した。
年明けからハードやのぉ…と思いつつ、今回の原因を。

流れ

① FSMOと追加DCのw32timeサービスが社内の親会社の管理するNTPをFQDNで参照していた。
② NTPサーバの名前が、いつのころか(かなり前と推定される)名前が変更されて時刻の同期ができなくなる。
③ 各DCの時刻の管理が内蔵バッテリに切り替わり、各DCの時刻がズレ始める。
Active Directoryの時刻同期のズレの許容範囲である5分を超えてしまう。
⑤ 時刻同期の許容範囲を超えたDC(マグロ鯖)のコンピュータオブジェクトが、FSMO上で削除される。(削除フラグが立つ)
⑥ 60日後に削除フラグの立ったオブジェクトがADから完全に削除される。

兆候

こうなるまでに障害を予感するポイントがいくつかあったと思われる。
1・②のNTPサーバ名の変更時に、変更しておけばよかった。(社内のドメイン名変更が行われた時期)
2・③時刻同期ができないというエラーログが出力されていた。
3・⑤削除された時点でFSMO上から失われたとエラーログが出力されていた。
4・⑥Tombstone期間を超えたので完全削除されたとエラーログが出力されていた。
5・サーバー管理の担当者は、かなり以前からDCの複製ができないことに気づいていた。
うーん…5番目が……。5番目の時点で対処を取っていればよかったし、何もDLTがぶっ壊れてから…と思ったが、起きてしまった事に関して問い詰める時間がもったいないし、そこから得られるものを吸収すれば良いので、5はとりあえず置いておくことに。
また、監視システムが皆無だったことも…どうしようもありません。なぜこうなったかと言うのが、会社の仕組みにもつながる部分になるので、こればっかりは担当者レベルではどうにもならない。けど、そんなことであきらめていては意味が無いので、サーバ管理をこっちが貰う事にしようとリーダーと話しをした。この部分に関してはどうなるかは分からないが、今回得られたものを生かせればよいかと思う。

とりあえず、やれやれな一日だった。