2022-01-03

ミラーリングバックアップではない

京都大学でも意外とITの深いところまでは掘り下げないのね

スーパーコンピュータシステムファイル消失のお詫び

2021年12月28日火曜日掲載

京都大学学術情報メディアセンター

センター岡部 寿男

2021年12月14日 17時32分 から 2021年12月16日 12時43分にかけて,スーパーコンピュータシステムストレージバックアップするプログラム(日本ヒューレット・パッカード合同会社製)の不具合により,スーパーコンピュータシステムの大容量ストレージ(/LARGE0) の一部データ意図せず削除する事故が発生しました.

皆さまに大変なご迷惑をおかけすることになり,深くお詫び申し上げます.

今後,再びこのような事態の生じることのないよう再発防止に取り組む所存ですので,ご理解いただきますよう,どうぞよろしくお願いいたします.

ファイル消失の影響範囲

対象ファイルシステム:/LARGE0

ファイル削除期間:2021年12月14日 17時32分 ~ 2021年12月16日 12時43分

消失対象ファイル:2021年12月3日 17時32分以降,更新がなかったファイル

消失ファイル容量:約 77TB

消失ファイル数:約 3400万ファイル

・影響グループ数:14グループ (うち,4グループバックアップによる復元不可)

障害情報:【スパコンストレージデータ消失について

http://www.iimc.kyoto-u.ac.jp/ja/whatsnew/trouble/detail/211216056978.html

ファイル消失の原因

スーパーコンピュータシステムの納入会社である日本ヒューレット・パッカード合同会社によるバックアッププログラム機能改修において,不用意なプログラム修正とその適用手順に問題があったことで,本来不要になった過去バックアップログファイルを削除する処理が,/LARGE0 ディレクトリ配下ファイル群を削除してしまう処理として誤動作しました.

日本ヒューレット・パッカード合同会社から提出された報告書掲載します.

Lustreファイルシステムファイル消失について (日本ヒューレット・パッカード合同会社)

今後の取り組み

現在バックアップ処理を停止しておりますが,プログラム問題改善し,確実に再発しない対策をした上で1月末までにはバックアップを再開する予定です.

ファイル消失後にバックアップが実行されてしまった領域ファイル復元ができない状況となったこから,将来的にはこれまでのミラーリングによるバックアップだけでなく,1世代分の増分バックアップを残す等の機能強化を検討いたします.機能面だけでなく,再発防止に向けた運用管理についても改善に取り組みます.

一方で,機器故障災害等によるファイル消失可能性も含めて完全な対策は困難であるため,利用者の皆様におかれましても,重要ファイルについては別システムへのバックアップをお願い致します.

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん