タグ

関連タグで絞り込む (313)

タグの絞り込みを解除

障害に関するwasaiのブックマーク (402)

  • 国内の複数組織に影響が及んだSalesforceのシステム障害についてまとめてみた - piyolog

    2024年11月15日、Salesforceは、同社のサービスでシステム障害が発生したと公表しました。その後17日に暫定の調査結果を公表し、システム障害が2回発生していたことや根原因(完全な分析結果は11月17日時点で進行中)について明らかにしました。さらにこの障害の影響により、同社のサービスを利用する複数の組織から関連する障害公表が行われています。ここでは関連する情報をまとめます。 【1つ目の障害】 DB接続増加による障害、誤ったコマンドが誘発 Salesforceのシステム障害は2回発生している。1回目は2024年11月15日14時55分頃に90(当初19と記載)*1のコアサービスインスタンスで発生。この影響でユーザーが同社のサービスへアクセスできない(ログインができない)状況となった。障害の影響は対応含め翌日16日0時22分頃まで継続した。同社公表によれば、障害影響時間は9時間27

    国内の複数組織に影響が及んだSalesforceのシステム障害についてまとめてみた - piyolog
  • 資料生成AI「Napkin」がマジすごすぎる。

    以下の記事などで既にかなり話題になっていますが、ぼくも触ってみました(使い方などの詳細はこちらの記事を参照してください)。 結論としては、マジすごくてかなり衝撃的です。すべてのホワイトカラーワーカーにとって、かなりディスラプティブなツールになるのではないでしょうか。 自分はコンサルタントでして、これまでにたくさんの資料を作ってきてスキルを磨いてきたつもりだったので、AIポン出しでここまでのものが出てきてしまうと、正直、人生について考えさせられちゃいますね。 この記事では、Napkinを使ってどういう資料ができたのか共有したいと思います。 ポストモーテムの勉強会をしたいなと思っていたので、まずはChatGPTで資料の骨子を出力し、それをNapkinに入力してみました。それで得られたのが、以下の資料です。 スライド1: タイトルスライド タイトル: ポストモーテムの教科書 副題: SREにおけ

    資料生成AI「Napkin」がマジすごすぎる。
  • Failure Analysis Assistant – AIOps で障害分析を効率化してみよう – | Amazon Web Services

    Amazon Web Services ブログ Failure Analysis Assistant – AIOps で障害分析を効率化してみよう – システムやサービスを提供する上で、障害はつきものです。障害を迅速に分析し対処することがユーザビリティやサービス信頼性を向上し、結果顧客満足度につながります。一方で近年システムは複雑さを増しており、障害特定が従来に比べて難しくなっています。したがって障害分析の効率化や高度化が重要になっています。 従来の手動による障害分析では、膨大なログデータの中から問題の根原因を特定するのに多大な時間と労力を要し、ダウンタイムの長期化やサービス品質の低下につながる可能性がありました。そこで注目されているのが、人工知能 (AI) や機械学習 (ML) を活用した障害分析です。 AI/ML による高度な分析技術を用いることで、障害の早期発見、迅速な原因特定、さ

    Failure Analysis Assistant – AIOps で障害分析を効率化してみよう – | Amazon Web Services
  • 任天堂とアクセシビリティ

    先日、任天堂の株主総会が行われた。例によって詳細をまとめているので前回の記事をご覧いただきたい。 任天堂株主総会レポート2024 | N-Styles 株主総会レポートでも記載したが、質疑応答で最初に指名された質問者が「任天堂は視覚障害者対応が遅れているのではないか」と指摘し、私はこの質問に非常に驚いた。 なぜなら、私自身が株主総会参加の半年以上前から用意していた質問とほぼ同じだったからだ。 この質問内容を7月1日に任天堂が掲載した議事録から引用する。 Q1 ゲームを遊びたいと思っている視覚障がいを持つ人も、世の中にはいると思う。任天堂がこうした方に向けて取り組んでいることがあれば説明してほしい。 A1 代表取締役社長 古川俊太郎: 当社では、世界中の多くの方々に当社のゲームを遊んでいただきたいと考えています。この場で具体的な取り組みを申し上げることは控えさせていただきますが、視覚障がいの

  • Google Cloud、顧客のシステムを間違って全削除した大規模障害の原因を報告。プライベートクラウドの期間を1年と設定ミス

    Google Cloudは、同クラウドユーザーであるオーストラリアの年金基金「UniSuper」で発生した大規模障害の原因について報告する記事「Sharing details on a recent incident impacting one of our customers」を公開しました。 今月(2024年5月)初旬、Google Cloud上で稼働していた数百の仮想マシン、データベース、アプリケーションを含むUniSuperのプライベートクラウドが突如として原因不明のまま削除され、復旧されるまでの数日にわたってシステムが利用できなくなるという大規模障害が発生しました。 今回の報告では、実際になぜこのような大規模障害が発生したのか、その原因と復旧の経緯について明らかにされています。その概要を紹介しましょう。 Google Cloud VMware Engineの設定を間違う UniS

    Google Cloud、顧客のシステムを間違って全削除した大規模障害の原因を報告。プライベートクラウドの期間を1年と設定ミス
  • 江崎グリコの基幹システム移行トラブルについてまとめてみた - piyolog

    2024年4月5日、江崎グリコは基幹システムの切り替え後にシステム障害が発生し、同社や販売委託を受けている一部の冷蔵品の出荷に影響が生じていると公表しました。ここでは関連する情報をまとめます。 障害後緊急対応するも在庫数合わず業務停止 今回システム障害が起きたのは江崎グリコの基幹システムで2024年4月3日の新システムへの移行に伴い発生した。物流、販売、会計などを一元管理するERPパッケージ SAP社製「SAP S/4HANA」で構築されており、「顧客への継続的価値創出を可能にするバリューチェーン構築と経営の迅速な意思決定を目的とした、調達・生産・物流・ファイナンスなどの情報を統合する基幹システム」と同社では説明している。障害原因の詳細は同社から開示されてはいないが、システム障害の問題個所の特定は済んでいる。なおサイバー攻撃によるものではないと取材に答えている。*1 システム障害の影響に

    江崎グリコの基幹システム移行トラブルについてまとめてみた - piyolog
  • 大田区、NECに賠償金480万円を請求 10月のシステム障害巡り SSD3台の同時故障想定できず

    大田区は4月17日、2023年10月に発生したシステム障害の検証結果を公開し、システムの運用・保守を担っていたNECに対し損害賠償金486万8437円を請求すると発表した。障害の原因はNECによる情報共有の不足と結論付けている。同社も結果や損害賠償に同意しているという。 障害が発生したのは、23年10月9日から10日未明にかけて。システムを構成していたSSD3台がほぼ同時に故障し、データが全損して使用できない状態になった。これにより、大田区の住民記録システムや国保年金システム、税務システムなどが影響を受け、18日の完全復旧まで、区の業務に支障をきたした。 大田区は障害の原因について、SSD3台の同時故障を想定していないシステム構成にあったと説明。「システム基盤は19年に構築し、構築当時からSSDの故障について2までは耐えうる構成をとっていたが、今回はその想定を大幅に上回る障害が発生したた

    大田区、NECに賠償金480万円を請求 10月のシステム障害巡り SSD3台の同時故障想定できず
  • 障害対応で大切だと感じていることのまとめ - Qiita

    私個人の障害対応の経験と 一昨日参加したIncident Response Meetup vol.1での学びから 障害対応において大切だと感じていることをまとめる。 障害とは リリース後のシステムにおいてシステムの不具合やユーザーの操作ミスによってユーザー業務に影響が出ているもしくは出る恐れがあるもの。 障害対応の目的 システムを直すことではなく、ユーザー影響の回避・低減・早期回復をすること。 障害対応に対する心構え システムの信頼性の要である 障害への対応の仕方でユーザー影響が大きく変わる いつ発生するかわからないため特定の人が常に障害対応をするということは不可能である 素早く適切に行動するための備えが重要である 役割分担 障害対応では復旧対応、原因調査、ユーザーへの説明、社内調整などたくさんのことをやる必要がある。 またそれぞれの作業の難易度が高いことも多い。 一人の人間にできることは

    障害対応で大切だと感じていることのまとめ - Qiita
  • 雑誌「幼稚園」の付録にほぼ実物大の「こうしゅうでんわ」 NTT東日本が協力 テレカ付き

    公衆電話は非常時の代替インフラ ピークの1984年には日全国に93万4903台もあった公衆電話だが、携帯電話の普及によって利用者は減少。現在は災害発生時などの緊急連絡手段として、およそ10万9000台(23年9月時点)を維持している状況だ。 こうした事情もあり、若年層を中心に公衆電話の使い方を知らない人も増えた。ITツールの比較サイト「STRATE」を運営するSheepdog(東京都品川区)が22年6月に発表した調査結果では、公衆電話を使ったことがないユーザーが10代後半で35.3%、20代前半でも25.8%に達した。 22年7月に発生したauの通信障害の際には、受話器をとる前にお金を入れる人が続出。Twitter(当時、現在はX)で「まず、受話器を取れ!!金はそれからだ」と使い方を指南するツイートが広く拡散した。 関連記事 「公衆電話」ますます見つけにくく 数年後には現在の3分の1に

    雑誌「幼稚園」の付録にほぼ実物大の「こうしゅうでんわ」 NTT東日本が協力 テレカ付き
  • 『SASUKE』ついに五輪競技へ 2028年ロス大会の近代五種に障害物レースが採用

    【写真】その他の写真を見る 近代五種は水泳、フェンシング、馬術、レーザーラン(射撃とランニング)の5種目で争う競技。このうち馬術については、国によって競技環境整備の問題や安全面が課題となっており、国際近代五種連合(UIPM)は2028年のロサンゼルス大会までに、馬術に代わる別の種目に変更することを検討してきた。 障害物レースについては、昨年テスト大会が4度実施された。TBSから『Ninja Warrior』の撮影セットを貸し出し、大会によっては雲梯(うんてい)に似た器具や、反り返った壁などが障害物としてコース設定され、タイムを競う形式で行われた。この新しい種目を取り入れたことにより、近代五種はオリンピック競技の中で最もエキサイティングで親しみやすく、人気のある競技のひとつとなる可能性を秘めている。 ■国際近代五種連合(UIPM) 専務理事 Shiny Fangコメント テレビにおける『Ni

    『SASUKE』ついに五輪競技へ 2028年ロス大会の近代五種に障害物レースが採用
  • 「説明を聞けば聞くほど不穏な空気が漂ってきたよ」全銀ネットの障害、原因説明の会見で謎がさらに深まった模様

    J @j17sf 概要については主に先週の記事で紹介したので、QAになるまではメインのツリー伸ばしません。興味ある方は記事を参照ください watch.impress.co.jp/docs/series/su… 2023-10-18 16:13:29 リンク Impress Watch 全銀システム障害と、同システムが目指す将来像【鈴木淳也のPay Attention】 10月10日から全国銀行資金決済ネットワーク(全銀ネット)が運用する「全国銀行データ通信システム(全銀システム)」で発生していたシステム障害は、12日朝8時半の営業開始時間(コアタイム)をもって解消された。一部、10日と11日に行なわれた“仕向”の取引データに未処理のものが残っていたが、12日午前10時50分をもって全件処理が完了しており、通常状態へと戻っている。 65 users 114

    「説明を聞けば聞くほど不穏な空気が漂ってきたよ」全銀ネットの障害、原因説明の会見で謎がさらに深まった模様
  • 全国銀行データ通信システムのシステム障害についてまとめてみた - piyolog

    2023年10月10日、全国銀行資金決済ネットワークは、同社が運用している全国銀行データ通信システムでシステム障害が発生したことを公表しました。この障害の影響により一部の金融機関で送金遅延などが生じました。ここでは関連する情報をまとめます。 560万件の取引に影響 障害が起きたのは全国銀行資金決済ネットワーク(全銀ネット)が運用する全国銀行データ通信システム(全銀システム)のうち、平日8時半から15時半まで稼働するコアタイムシステムで金融機関との接続に使用される中継コンピューター(RC)。障害は10月10日8時半に発生し、10月12日未明に復旧に向けた対応が完了、同日8時半の切替完了したことで復旧した。*1 全銀システムは1,000超の金融機関が参加しており、1営業日当たりの取引件数は2022年実績で約806万件、約14兆円。*2 今回のシステム障害により金融機関間で行われる送金に遅延や取

    全国銀行データ通信システムのシステム障害についてまとめてみた - piyolog
  • 次期全銀システムに影響か、1973年の稼働以来初の大規模システム障害

    全国銀行資金決済ネットワーク(全銀ネット)は2023年10月10日午前、銀行間送金を担う「全国銀行データ通信システム(全銀システム)」で他行宛ての振り込みができないトラブルが発生したと発表した。計画停止を除き、全銀システムで顧客に影響が出るシステム障害が発生したのは、1973年の稼働以来、初めて。2027年の稼働を見込む次期全銀システムの開発にも影響を与えそうだ。

    次期全銀システムに影響か、1973年の稼働以来初の大規模システム障害
  • 手順書の記載ミスで発生したJR東日本のシステム障害についてまとめてみた - piyolog

    2023年6月26日、JR東日は6月24日に発生したシステム障害の原因が電源工事の操作手順に誤りだったと公表しました。システム障害の影響により、Webページの閲覧不可やモバイルSuicaのアプリが利用できないなどが生じました。ここでは関連する情報をまとめます。 4つのシステムに最大半日の影響 システム障害は2023年6月24日0時37分頃発生。電源供給断により各システムのサーバーが停止しシステムの異常を知らせるアラートが相次ぎ発報。*1 夜間処理中に強制的な停止が生じたことで、ハード故障、データ不整合が発生。JR東日は次の4つのシステムに電源断の影響が及んだとしている。 影響を受けたシステム 障害発生時間 障害発生による具体的な影響 JR東日Webシステム 2023年6月24日0時37分~6時33分 Webサイトの閲覧不可 ビューカードシステム 2023年6月24日0時37分~9時2

    手順書の記載ミスで発生したJR東日本のシステム障害についてまとめてみた - piyolog
  • モバイルSuica障害…原因は操作手順書に誤り JR東日本(日テレNEWS) - Yahoo!ニュース

    JR東日は、「モバイルSuica」のアプリなどで24日に不具合が発生したことについて、電源工事の操作の手順書に誤った記載があり、計画と異なるブレーカーを切ったことが原因だと明らかにしました。 JR東日によりますと24日、「モバイルSuica」のアプリ上でチャージができなくなったりインターネットで新幹線などのチケットを購入できる「えきねっと」でも予約や変更ができないなどのシステム障害が発生しました。 その原因について26日、JR東日はシステム強化の一環で行っていた電源工事の際に計画と異なるブレーカーを切断したことが原因だと明らかにしました。 操作の手順書に誤った記載があったうえ、手順書を作った社員と現地で作業にあたった社員が同じだったことから操作時にもその誤りに気づかなかったということです。 対策として、データシステムにつながるブレーカーが設置してある電源盤に取り扱い注意と明示したほか

    モバイルSuica障害…原因は操作手順書に誤り JR東日本(日テレNEWS) - Yahoo!ニュース
  • JR東日本のシステムが復旧、電気工事で誤って切ったブレーカーが原因か

    JR東日2023年6月24日、午前0時37分ごろから発生していたシステム障害は午後1時ごろにすべて復旧したと発表した。JR東日によれば「詳しい原因は調査中だが、屋内電源設備の工事の際に誤って予定していなかったブレーカーを切ってしまったためと思われる」(コーポレート・コミュニケーション部門)という。 障害発生当初は、みどりの窓口や発券機でのクレジットカード利用ができなくなった。また交通系ICカード「Suica(スイカ)」をスマートフォンなどで使える「モバイルSuica」や、インターネット切符予約サービス「えきねっと」にログインできない状態だった。 交通系ICカード「PASMO(パスモ)」でも同日午前0時30分ごろに電源トラブルによる障害が発生し、午後1時14分ごろに復旧した。障害発生中はモバイルPASMOの利用や、ICカードの再発行/払い戻しができなかった。 関連記事 JR東日でシス

    JR東日本のシステムが復旧、電気工事で誤って切ったブレーカーが原因か
  • JR東日本システム障害すべて復旧 一時モバイルSuicaなど不具合 | NHK

    24日未明、JR東日でシステム障害が発生し、券売機などでクレジットカードが使えなかったり、「モバイルSuica」でアプリでのチャージができないなどの不具合が起きたりしましたが、会社は午後1時ごろまでにすべて復旧したと発表しました。 JR東日によりますと、24日午前0時半すぎにシステム障害が発生し、駅の構内や駅ビルの店舗、それに駅の券売機やみどりの窓口でクレジットカードを使うことができなくなりました。 復旧作業を進めた結果、会社は午前10時15分ごろに復旧したと発表しました。 その後も運賃の支払いなどを行う「モバイルSuica」でアプリでのチャージができなかったり、ネット上で指定席などを予約する「えきねっと」が利用できなかったりする不具合が続いていました。 この不具合についてJR東日は、発生から12時間余り後の午後1時ごろに復旧し、システム障害はすべて解消されたと発表しました。 JR

    JR東日本システム障害すべて復旧 一時モバイルSuicaなど不具合 | NHK
  • 相次ぐ住民票誤交付トラブル、富士通Japanのシステムに何が起こっているのか

    コンビニの証明書交付サービスで住民票の写しを取得しようとしたら他人のものが出てきたーー。2023年3月以降、同様のトラブルが横浜市や東京都足立区、川崎市で相次ぎ発覚し、注目を集めている。開発元はいずれも富士通Japanだ。 最初に発覚したのは横浜市だった。2023年3月27日昼ごろ、磯子区役所に誤発行の報告が寄せられると、青葉区役所や横浜市のマイナンバー専用コールセンターなどにも同様の連絡が相次いだ。最終的に同市で誤発行したのは、住民票の写し6件(12人分)、住民票記載事項証明書2件(4人分)、印鑑登録証明書2件(2人分)の計10件(18人分)である。このうち、1件はマイナンバー入りの住民票の写しだったことが判明し、個人番号の変更まで余儀なくされた。 続いて発覚したのは東京都足立区だ。富士通Japanが横浜市でのトラブル後、コンビニ交付サービスを利用する他の自治体について調べたところ、トラ

    相次ぐ住民票誤交付トラブル、富士通Japanのシステムに何が起こっているのか
  • 複雑なシステムでは、すべての要素が正しくても障害が起きる。カオスエンジニアリングから継続的検証へ(前編)。JaSST'23 Tokyo基調講演

    複雑なシステムでは、すべての要素が正しくても障害が起きる。カオスエンジニアリングから継続的検証へ(前編)。JaSST'23 Tokyo基調講演 Netflixが始めた「カオスエンジニアリング」は、現在では大規模なシステムにおける可用性向上の手法のひとつとして確立し、広く知られるようになりました。 そのカオスエンジニアリングという手法を定義したのが、元Netflixカオスエンジニアリングチームのエンジニアリングマネージャーを務めていたCasey Rosenthal(ケイシー ローゼンタール)氏です。 そのローゼンタール氏が、ソフトウェアのテストに関わる国内最大のイベント「ソフトウェアテストシンポジウム 2023 東京」(JaSST'23 Tokyo)の基調講演に登壇し、「Chaos Engineering to Continuous Verification」(カオスエンジニアリングから継続

    複雑なシステムでは、すべての要素が正しくても障害が起きる。カオスエンジニアリングから継続的検証へ(前編)。JaSST'23 Tokyo基調講演
  • 「Fujitsu MICJET コンビニ交付」サービスで発生した印刷障害について

    「Fujitsu MICJET コンビニ交付」サービスで発生した印刷障害について2023年3月27日に当社「Fujitsu MICJET コンビニ交付」(以下、当該サービス)にて印刷障害があり、自治体様の証明書交付サービスで申請された方とは異なる住民の方の証明書が発行されるという事象が発生いたしました。 自治体様ならびに証明書交付サービスをご利用の皆様に多大なるご迷惑ご心配をおかけいたしましたことを深くお詫び申し上げます。 既に事象に関する対処は行っておりますが、今後こうした事象を二度と起こさぬよう、全力を挙げて再発防止に努めてまいります。 なお、当該サービスによる証明書交付の際に印刷障害が発生する可能性のあった自治体様には個別にご報告を行っております。また、3月27日に確認された障害以外に同様の事象は発生しておりません。 1. 発生事象について3月27日(月)、11:40頃、当該サービ

    「Fujitsu MICJET コンビニ交付」サービスで発生した印刷障害について