2021-06-19

運用時の障害は握りつぶせ!みずほ銀行から教訓を得て今日を生き延びよう。

運用監視現場で週末も心休まらない皆さんこんばんは。一人運用チームです。

さて、世間ではDevOpsだのイケてるクラウド監視ツールだの楽しそうですが、そうでない人もいますよね。

もちろん、「運用チーム(実態は俺1人)」なんてのは、ペイグレードに応じた責任感で粛々と業務を進めて理不尽には応じないのがプロフェッショナルな態度ですが、

お銭を稼がなければ生きていけないのも渡世の世知辛いトコロです。

そこで、みずほ銀行レポートから学ぼうではありませんか。

金を生まないサービスには、リソースは降ってこない

これから金を生むんだ!という強烈な人間が金を引っ張ってこない限り、コスパの悪いサービスリソースは割り振られません。

まり、今もし運用監視体制限界ギリギリで踏ん張っている場合、拡充される可能性はありません。諦めましょう。

今回のみずほ銀行調査報告書2021年6月15日発行分)p114-p116におけるヒアリング結果が悲哀に満ちているのも当然と言えるでしょう。

教訓は、「維持メンテ人員が不足したら、それ以上増えない」というものですね。

維持されている(ように外部から見える)場合、余剰人員不要コストです。

顧客に影響のある障害があっても、リソースは降ってこない

さて、みずほ銀行調査報告書を読むと、今回大ごとになっている「通帳の取り込み」というのは何度か起きていますが、改善されていません。

まあ、やりたくないよね、「障害が起きた時の顧客影響を抑える」なんて後ろ向きな投資

なお、盛大な怒られが発生した結果、再発防止策として、今回の通帳取り込み5244件のうち4915件をなくせる仕様変更が入りました。

直せないのではないのです。直さないのです。

教訓は、「障害が発生しても、予算を握ってる人に被害が及ばない限り、リソースは降ってこない」というものですね。

過ぎたことは過ぎたこと。いま維持メンテギリギリのところに新たにリソースが投入されることは基本的にありません。

外圧があれば別ですが。

運用時の障害を握りつぶせ!

さて、ここまででわかる通り、いま1人運用やそれに近い運用をしている皆さんに、追加人員は来ません。

リソースは降ってきません。予算は通りませんし、人員は増えませんし、なんなら残業代も出ません。

もうわかりますね?障害は握りつぶしましょう。出しても一つも良いことないんですから

障害の握りつぶし方その1:「そのエラー大丈夫なやつ」を無くそう。

慢性的時間がない皆さんに朗報です。実は時間を生む画期的テクニックがあります

業務について最初に、毎日1時間を「斧を研ぐ時間」にするのです。

大丈夫分かっています。今あふれんばかりに仕事があって実際あふれているんでしょう?

どうせあふれるんです。あふれさせましょう。どうせ怒られるなら「仕事」したいじゃないですか。

WARNINGERRORまみれのログが定常的に出ている状態は、たいへんよろしくないです。

握りつぶしましょう。

「そのエラーは概ねもっと深刻なエラーが吐かれるまでは気にしなくて良いヤツ」みたいなのがあるでしょう?

消し去りましょう。痕跡すら残さずに。

そのために、運用監視用のログ必要なら、生成しましょう。その生成途中で握りつぶせば良いのです。

障害の握りつぶし方その2:「飽和攻撃」を無くそう。

「ドラえも~ん、大量にエラーが出たら処理しきれないよ~」「のび太君それ全部処理するの?」「え?」「え?」

当たり前のことなんですが、人間には概ね4本以下の手しかありません。俺は2本派です。

運用チームの対応者が一人の場合対応できる時間当たりの処理能力には上限があります人間はオートスケールしないんで、当たり前ですね。

まり、「同じようなエラーで同じような処理をしないといけないが、違うエラーメッセージ」というのは、無意味です。

さっき、自分理解ってるエラー握りつぶすことを日課しましたね?

次の段階です。対応できるエラーだけ残して握りつぶしましょう。

もちろん、裏では垂れ流しで大量のエラーログは取っておく必要はあります。見るエラーは一つで良いはずです。だってまずそれ対応するんだもの

例えば、1人の時に100件のエラーが出ても、3人の時に6000件のエラーが出ても、処理できないことに変わりはありません。

まり、それは「記録には残すエラー」ですが「対応トリガーにするエラーメッセージ」じゃ無いんです。

例えば、幸せなことにショートメッセージメール自動発砲できる場合、初手だけ発砲して残りは握りつぶしましょう。

飛行機宇宙船で機長が言うでしょう?事故が起きてアラーム鳴ってたら、アラームを切れって。

アラームは気が付かないと困るからワーワー言うんであって、処理してる最中邪魔なだけです。

握りつぶしましょう。

障害の握りつぶし方その3:「もぐらたたき」を無くそう。

そのモグラ自動でたたけませんか?

多少手荒でも良いんです。エラー再起動みたいな乱暴な奴でもオッケーです。

思い出してください。リソースは無く、対応するのはあなただけ、維持管理出来て当たり前。

どうせクレーム電話がかかってくるなら、一人一人に真摯に向き合って丁寧に応対するのも良いかもしれません。

身命を賭してクレームに寄り添って慚愧に堪えぬその思いを真剣に伝えましょう。

その間に、システム自動的に再起動し、他のクレーム電話は保留音を聞くことに飽きてきます

慣れてくると、鼻をほじりながら「誠に申し訳ございません、今誠心誠意全力で復旧に」と喋りながらチャートを引っ張り出して手順を追えるようになります

復旧手順RTAチャートの作り方は、珍しく潰しの効く能力になるので磨きましょう。

RTAリアルタイムアタック必要なのは何ですか?

しっかりとしたチャート、常にチャートを見直す向上心、日々の走り込み、本番での平常心。

出てきたモグラを叩くのではないのです。モグラの出現順序を覚え、練習し、効率良く叩くのです。

ガバプレイの走者に歓声は送られません。

障害の握りつぶし方その4:「複数の連絡先」を無くそう。

さて、最近陰謀話題になりましたが、情報を知るものが増えれば握りつぶすことは難しくなります

人を減らしましょう。

レポートラインは一本に絞り、その障害が起きたことになると給料が下がるタイプ相手に連絡を取りましょう。

握りつぶすのに協力してくれます

うっかりミスからメールCCから落とすのでも、手順書を作ったときに気が付いたら項目が無くなっていたのでも問題ありません。

残念ながら、その時不思議なことが起こって、連絡先が増えることもあるかもしれませんが、そういう時も諦めましょう。

出来ることは変わりません。

みずほ銀行場合、A2以下の障害ランク場合頭取別にニュースで初めて情報を知っても良いのです。

障害の握りつぶし方その5:「障害」を無くそう。

システム障害というから、なんか大変なことになるのです。インシデントだの障害だのは無くしましょう。

それは「予定されていた手順」なのです。

納品されたハードウェアには不備があり、雷は落ちてコンセントまで到達し、ケーブルは間違えて刺さり、ココしかないというタイミング停電になります

ただでさえ維持メンテ人員が足りてないのに追加機能新規バッチが走ったりすることもあるでしょう。

必要ものは何ですか?

チャートです。RTAチャートです。復旧RTAチャートを作るのです。

そのチャートには不足しかいかもしれません。ハードウェア故障上司電話停電上司電話、みたいなチャートもよくあることです。電話しましょう。

判断は敵です。判断しなくて良いためにチャートがあるのです。

それは障害ではありません。事前に探しておいたルートを走る競技です。

運用時の障害は握りつぶせ!

李下に冠を正さず。

例えカンムリが傾いてると分かっていても、問題になりそうな場所で手をあげてはいけないのです。

繰り返しになりますが、ペイグレードに応じた態度がプロフェッショナルには求められるのですが、お給料はいただきたい。

必要なのは、まず個別最適化です。あなた仕事を減らしましょう。

余裕が生まれたら「この仕様修正した方が」とか「週末にバッチあてるなら前の週末に復旧訓練をしましょう」とか言い出せば良いのです。

まあ、次にみずほ銀行が日曜に新規バッチを当てるときに、その2週間前の日曜に頭取を含んだS懸念の緊急対策本部を立てた訓練をするかっていうと、しないんじゃないかな。

まり、そういうことです。

我々は、日々斧を研ぐ時間を作り、RTAチャート更新を怠らないようにしましょう。

エラー対応するものだけを出す、出たエラーには対応する。それ以外は握りつぶす」覚えて帰ってください。

  • こうしてイタリアのロープウェイは超加速で後戻りして行ったのでした チャンチャン

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん