http://q.hatena.ne.jp/1230133898
question:1230133898
一定規模以上のWebサイトを運営しているエンジニアの方、業務時間外の障害対応ってどういう風にやっていますか?
ルールとか体制とかを中心に教えてほしいです。
ちなみにぼくの会社では、監視ツールや自作監視スクリプトでアラートをエンジニア社員全員に送って、誰かが対応することになっています。(たまに誰も対応やレスをしなくて上司に怒られます)
僕たちの仕事では緊急の障害対応は、いつになっても課題ですね。
規模が大きくなって、台数も増えると、故障率が高くなりハード障害によるサービスへの影響。
アプリケーション面でもいろいろなサーバや、プログラムが複雑になったりして、障害が起きやすくなりますね。
両者が歩み寄りながら、1、2台落ちても平気なようにインフラ、
再発する問題は、自動処理とかで何とかなりそうであれば、
将来起きないようにつくっていくのが、
開発者が自分の為に、会社、サイトを利用するユーザのためになるんじゃないかな。
絶対にいい経験ですよ。
完成してしまった仕組みだとそういう悩みもないですからね。
そういう状況に携われている事に喜びを感じるといいんじゃないかな。