タグ

システム障害に関するkaitonのブックマーク (3)

  • ファーストサーバ最終報告書、ベテラン担当者のマニュアル無視を黙認

    ヤフー子会社のファーストサーバは2012年7月31日、6月20日に発生した大規模障害(関連記事)についての調査報告書(最終報告書)を公表した(写真)。報告書は、ファーストサーバに利害関係のない3人の委員による「第三者調査委員会」(関連記事)が作成した。同社Webサイトに「要約版」を掲載している。 報告書は調査対象とする事故を、6月20日に発生した「第1事故」と、第1事故で消失したデータが想定外の場所に復元された「第2事故」(関連記事)の2つとしている。 1人だけ自作プログラムでメンテナンス 報告書は、第1事故の事実関係について次のように言及している。ファーストサーバではシステム変更を実行する際、社内マニュアルに沿って実行することになっており、第1事故の原因となったシステム変更の担当者(A氏)以外は社内マニュアルに従っていた。 ところが、A氏だけはマニュアルに従わず、自作の「更新プログラム」

    ファーストサーバ最終報告書、ベテラン担当者のマニュアル無視を黙認
    kaiton
    kaiton 2012/07/31
    A氏はマニュアルを作る能力も、想定外が起こっても解決するスキルは少なからずあるのだろう。けれど、業務用サーバを私的サーバと同じような考えでメンテナンスするべきでない。
  • Amazonクラウド先週のシステム障害、原因は電源トラブル。二重三重の防護策が次々と倒れる

    先週6月14日に発生したAmazon Web Servicesの米国東部リージョンでのシステム障害は、HerokuPinterestなど大手のサービスにも影響を与えたようです。その障害報告が、Service Health Dashboardで公開されています(現在はRSS内の記述として読めます)。 障害は米国東部リージョンでの特定のアベイラビリティゾーンで発生したもの。報告によると、プライマリの電源ケーブルのトラブルをきっかけにバックアップとしての発電機へ移行したものの、そこでもまたトラブルが発生し、二重、三重の防護策が次々に倒れていったことが示されています。 Amazonクラウドの多重の防護策の一端が分かると共に、これだけバックアップ策が用意されていても、わずかなトラブルによって防護策が倒れることの教訓を得ることができます。 一方で、障害は特定のアベイラビリティゾーン内だったため、マル

    Amazonクラウド先週のシステム障害、原因は電源トラブル。二重三重の防護策が次々と倒れる
  • みずほ銀障害に見る、人災と人為ミスの違い

    みずほ銀行が3月に引き起こした大規模システム障害は、東日大震災の義援金が引き起こした「天災」ではなく、明らかに「人災」だ。しかもシステム障害の原因は、現場の担当者の不手際といった人為ミスにあるのではなく、経営陣のITガバナンスの欠如にある。同行が5月に発表した調査報告書(pdf)が、そのことをはっきりと物語っている。 日経コンピュータでは6月9日号で、みずほ銀行が第三者委員会「システム障害特別調査委員会」に依頼して作成した調査報告書を独自に読み解き、分析した。その結果、みずほ銀行のシステム障害は、30の「不手際」が積み重なることで長期化したことが分かった(表)。 30の不手際の詳細は、日経コンピュータ6月9日号の「緊急特集」としてまとめたほか、同記事は6月13日から1週間に分けてITproにも転載する予定である。みずほ銀行のシステム部門が、多くの人為ミスを犯したのは事実だ。混乱のさなか、

    みずほ銀障害に見る、人災と人為ミスの違い
  • 1