久しぶりの休暇から戻ってみたら、待っていたかのように、お客さんのシステムが落ちまくりました。
- RAID-5ディスク障害。HS稼働済み、連続破損。
- OS パニック、サービス停止
- FireWall 管理テーブル破損、通信断
それぞれ別のサイトで同時多発。
監視システムはアラートを出しまくってるし、スタッフもげんなりという感じ。
かなり片付いてきましたが、それでもサービスのダウンタイムがかなりあったので、復旧対策の見直しが必要だよな~
で、引っ越しの時に見つけた書籍を引っ張り出してきて資料を作成中。
この本、サーバの設定方法ではなく、ネットワーク障害や災害の予防の方法と対策策定のための考え方を説明しています。OSの説明がNetWareなど古くなってしまった部分はありますが、考え方など非常に勉強になります。
#すでに絶版ですね・・・
Linuxなどでも同じような予防と対策が必要なんですけど最近の書籍はハウトゥものばかりで、一番重要な説明や考え方が抜け落ちてるんですよね。
身内向けですけど、この本をもとにして、Linux環境でのネットワーク予防と対策のドキュメント作ってます。
汎用化したドキュメントにして、関係するお客さんにも配ろうかしら・・・