日本とアメリカで大障害発生!AWS大丈夫か…
2019年8月23日、AWS東京リージョンで障害が発生しました。
RDSやEBS、EC2インスタンスが一部使えなくなったようです。これには我が社のインフラ組も、若干ざわついてましたね…
AWSの大規模障害、エンジニアとしての力量が試されるようで他人事と思えない。「たまたま」私の周囲は大丈夫だったけど、障害に直面した時に何をすればいいのか?事前に出来ることは何があるのか?どんな構成だったら防ぐことができるのか?そういったことを今回学ぼうと思った。#障害発生
— Meihon@インフラエンジニア (@Engineer_Meihon) August 23, 2019
私魔女のキキ!こっちはAWSの障害で死んだ職場!
— あいね (@AI7020) August 23, 2019
【重要】AWS障害によるアプリへの影響について
いつも「イケメン源氏伝 あやかし恋えにし」をご利用いただきありがとうございます。
2019/08/23 13:00頃より発生しているAWS通信障害の影響で、一部のお客様にて本サービスにアクセスしづらい状況が発生しております。(1/2)#源氏伝— 【公式】イケメン源氏伝 (@ikemen_genjiden) August 23, 2019
そして2019年8月31日、アメリカでも障害が発生しました。
Amazon AWS had a power failure, their backup generators failed, which killed their EBS serversl, which took all of our data with it. Then it took them four days to figure this out and tell us about it.
Reminder: The cloud is just a computer in Reston with a bad power supply.
— Andy Hunt (@PragmaticAndy) September 3, 2019
AWSは高い可用性を謳っているサービスが多く、安心して使っている企業が多いです。そんなAWSがこの短期間に、2回も障害を発生させてるわけです。
これは一体どういうことなんだと、全世界のAWSユーザーが疑問に思っているでしょう。
今回はこの事件の原因を知り、クラウドとAWSの使い方について改めて考えてみましょう。
AWS障害の原因
東京 (2019/8/23)
東京で起こった障害は、空調機器の故障によって一部サーバーが熱で落ちたことが原因のようです。
難しいことはなく、かなり物理的なんですよね…
また、同じ日にアマゾンの森林で火災があったみたいで、Amazonデータセンターが燃えたと勘違いしている人も多かったようです。
アマゾン火災が起きてるときにAmazonのAWSが大規模障害って、すごいタイミング pic.twitter.com/uhOVLVrr8R
— むろす (@murosu407) August 23, 2019
アマゾンの森林火災とAmazon AWSの障害同時に起こってんのwwwwwwww
— 🐟💪ヒラメ筋💪🐟 (@mpyw) August 23, 2019
アメリカ (2019/8/25)
アメリカでは、Amazonのデータセンターで停電が発生したようです。
だがその程度で慌てないのがAmazon!何と自動のバックアップ用発電機が作動するようになっていました。
ですが、1時間30分で発電機も故障したみたいです。何じゃそりゃ😅
まとめ
これだからクラウドはダメなんじゃ、信用ならないねぇ!
違うんです、こんな障害が大ニュースになるくらいクラウドはすごいんです…
データセンター1個で成り立つオンプレと違って、クラウドは規模がすごいんです。なので障害が多く見えるだけで、データセンター単位で見ればその可用性はオンプレと似たようなものです。
そもそもAWSの一番の強みは、複数のデータセンターに同じサーバーを構築できることです。これにより一つのデータセンターで障害が発生してもサービス自体には何ら問題は発生しないはずです。
今回の件で障害が発生したIT企業は、AWSの強みを完全に生かし切れていなかったのではないでしょうか?
クラウドは使うだけじゃなく、常に使って学び続けることが必要だとわかる事件でした。
では!