2009-02-22

http://q.hatena.ne.jp/1230133898

http://q.hatena.ne.jp/1230133898

question:1230133898

一定規模以上のWebサイトを運営しているエンジニアの方、業務時間外の障害対応ってどういう風にやっていますか?

ルールとか体制とかを中心に教えてほしいです。

ちなみにぼくの会社では、監視ツールや自作監視スクリプトアラートエンジニア社員全員に送って、誰かが対応することになっています。(たまに誰も対応やレスをしなくて上司に怒られます)

これはぼくら社員にとって正直ストレスになるので、なにかよいルールや体制を上司に提案したいなと考えています。

インターネットサービスだけじゃなく

僕たちの仕事では緊急の障害対応は、いつになっても課題ですね。

規模が大きくなって、台数も増えると、故障率が高くなりハード障害によるサービスへの影響。

アプリケーション面でもいろいろなサーバや、プログラムが複雑になったりして、障害が起きやすくなりますね。

インフラの事をよくわかっていない開発者

アプリケーションの事をよくわかっていないインフラ担当

両者が歩み寄りながら、1、2台落ちても平気なようにインフラ

アプリケーションをあわせて構想するところからが重要ですね。

再発する問題は、自動処理とかで何とかなりそうであれば、

将来起きないようにつくっていくのが、

開発者自分の為に、会社サイトを利用するユーザのためになるんじゃないかな。

絶対にいい経験ですよ。

完成してしまった仕組みだとそういう悩みもないですからね。

そういう状況に携われている事に喜びを感じるといいんじゃないかな。

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん