2020-10-21

東証障害富士通はケシカラン!

品質どうなってんだ。

全然関係ないですが、cf.takeover.on_panicというパラメータについてNetApp社のサイトを調べました。

すると、リリース日が違うけどタイトルが同じな2つのマニュアルを見つけました。

富士通東証の人が信じていた挙動

https://megalodon.jp/2020-1021-2016-08/https://library.netapp.com:443/ecm/ecm_download_file/ECMP1210206

Data ONTAP(R) 8.2 High Availability and MetroCluster Configuration Guide For 7-Mode

Part number: 215-07985_A0

May 2013

Enable or disable automatic takeover on panic by entering the following command:
options cf.takeover.on_panic {on|off}

on  enables immediate takeover of a panicked node. This is the default value.

off disables immediate takeover of a panicked node. If you disable this option, normal takeover
procedures apply: if a node panics and stays down without sending messages to its partner for 15
seconds, the partner then automatically takes over the failed node.

オフでも15秒後には切り替わるよ!

実際の挙動

https://megalodon.jp/2020-1021-2017-57/https://library.netapp.com:443/ecm/ecm_download_file/ECMP1368831

Data ONTAP(R) 8.2 High Availability and MetroCluster Configuration Guide For 7-Mode

October 2020 | 215-08524_B0

Enable or disable automatic takeover on panic by entering the following command:
options cf.takeover.on_panic {on|off}

If the cf.takeover.on_panic option is set to on, a node panic will cause an automatic takeover.

If the cf.takeover.on_panic option is set to off, a node panic will not cause an automatic takeover.
You should not turn this option off unless you are instructed by technical support to do so.

オフだと切り替わらないぞ! オフにするな!

ちなみに、下のあたらしいマニュアルは、2020年10月リリースされている

  • オフでも切り替わるって言ってもオフにしておく意味がわからない 気づいていても言わなかったんだろうな。面倒なことになるし

  • これってどれぐらいありえない話なんですか? 誰か、このありえなさ加減を牛丼屋に例えてもらえると助かる

    • 汁だく牛丼頼んだのに店員がハシで具をよそってる感じか?

      • なにいっ? そりゃさすがにありえんな! 事故るのも納得だわ😅

    • チーズが切れてるのにチーズ牛丼売り切れですと食券販売機が対応しなくてノーチーズ牛丼になったレベル

    • つゆの味見してない牛丼を毎日届けるサービスを始めた

  • 言っちゃ悪いが、NetApp 使った富士通も馬鹿なんだろ。次期システムからは Kubernetes 上で動く OSS のストレージを使ってソースコードから精度高めるしかないんじゃね?

    • はーい雑魚くんw 富士通はあのアローヘッドを作った天才だぞ

    • Kubernetes 上で動く OSS のストレージを使ってソースコードから精度高めるしかないんじゃね? 本気で言ってるの?

      • クラウド脳のヤバさを垣間見た気がする

        • Kubernetes がクラウドってバカだろ。オンプレミスでもできるやつじゃん。

      • 今回は NetApp というブラックボックスのコードを見ないで起きた事故だろ?

  • カワイソすぎぃ

  • この説明を見ると以前のものでも振る舞いとしては on にしておくのが筋だと思えるし、デフォルト on だね。 それをわざわざ off にしないといけない状況ってなんだ?って話のように思え...

    • ほんこれ

    • 即時に落ちるとクラッシュダンプが取れないって話(?)

      • 自分はそうだと思う。ログないと、原因わからないし。 ところで、東証のシステムって 15sec もとまっても大丈夫なんだろうか?株取引って、リアルタイムでなくてバッチ処理みたいな...

        • 東証の営業は1日5時間 1日の取引金額は2兆6000億 1秒止まるとだいたい1.4億影響があるね

          • そう考えると「秒収30億の爆風」ってとんでもねえなwww

          • やばいね。 ところで 15sec のズレは、仮に切り替えがうまく行っていたとして問題にならなかったのだろうか?実際問題、システムが切り替わっても、それはそれで問題だったのでは?

  • 事故が起きるまでマニュアル更新するの忘れてたって事?そうなら賠償請求できるんじゃ?

  • これだけの金の掛かった大規模システムで、バックアップへの切り替えはストレージ付属の機能のみ。しかもテストもロクにしてない。本当にそんないい加減なものなの???

    • いや、テストはやっているから今まで問題なかったんでしょ。普通に考えてかなり重点的にテストやるところだよこのポイント。 NetAppがUpdateの影響範囲が少し考えたらわかるのに顧客に...

      • バックアップは5年間オフだったって報道されてるけど。5年間テストしてなかったの?テストしたけど気づかなかった?どっちにしてもやばい。

    • コケてもサービス提供に影響ないって扱いだったんだろ

  • マニュアルや手順外で弄り倒してチューンする余裕もなくなったからな

  • これ、説明文が変わってるからまだいい方で、しらっと削除してるとかあると発狂するよな

  • OEMってことで検索したらIBMで同じの見つけたんだけど、 完全に上の表記ですね NetAppふつうにやらかしてるっぽいが Modified date: 17 June 2018 になってるし https://www.ibm.com/support/pages/sites/defaul...

  • 構築直後のテストの時は前述の挙動してたのに、運用中にファームが上がって下の挙動になったってこと?しかもNetAppのマニュアルにはなってない状態で? 一個ファーム上がるたび全部...

  • 富士通の今の社長には期待してる

  • これを匿名じゃないと言えない世の中よ ツイッターの自称エンジニアどもがこれだけはだんまりなの笑える

  • 富士通です 初めてあったような 不思議顔

  • はてなーには難しすぎた皮肉

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん