情シス野郎チラシの裏【37】　クラウド障害（１）

【情シス野郎　チラシの裏】は、「情報処理安全確保支援士」資格を持つ情シス担当が、仕事を通して得た知識や技術を、技術面に詳しくない人でも読みやすいよう「チラシの裏」に書くかのごとく書き散らす！というシリーズです。

今回は、この夏、列島を震撼させた「AWS停止！」という大事件を振り返ります。使えなくなって初めて「こんなに依存してたんだ」と気づくなんて、もはやクラウドは確実に社会インフラのひとつになりました。

2019年8月23日、IaaSサービスの最大手「Amazon Web Services（AWS）」において、同環境で稼働する多数のサービスが数時間にわたって停止する大規模障害が発生した。

当社社内システムもいくつかがダウンし、復旧まで3～4時間を要した。

AWSは世界一の利用者数を誇るIaaSサービスであり、国内に限定しても何百万人という会員を抱えたECサイトやゲームサイトが多数稼動している。

こちらも他人事ではなく、その時は「オイオイ勘弁してくれよ」という焦燥感と、「どうなるんだ、これは！！」という謎の高揚感を感じたが、ネット記事やSNSへの書き込みで何が起こっているかを知るにつれ、「すげーなAWS」という感想に変化した。

AWSで何が起こったのか。

公開されている情報によると、障害内容は
「AWSの東京リージョンで運用される空調設備の一部の管理コントローラー故障と、それに伴う
多数のサーバーハードの電源停止」
である。

簡単に言い替えると、
「超大きなサーバールーム（推測）の一部冷房の制御が効かなくなり、加熱によって大量のシステムが停止した」
となる。

AWSに限らず巨大なデータセンターであれば空調設備も当然冗長化されているだろうが、その仕組みは複雑であり、おそらくは障害原因の特定も簡単ではないと推測する。同じ時期におれの6畳間のエアコンがタバコのヤニで故障したのとはワケが違うのだ。

また冒頭に記した通り、AWSでは少なくともユーザー企業にとってはミッションクリティカルなシステムが多数稼動している。プレッシャーを感じながらの対応であっただろう。

このような状況下で、担当者は何が起こっているかを事細かに報告し、どうすべきかについて指示を仰ぎ、的確かつスピーディに判断を下す。

結果、2時間で復旧に向かわせるだけの事前準備と体制が整備されていることがが、まず1つ目の「すげー」である。

2つ目の「すげー」は、今回の障害について、一般・識者を問わず、矛先がAWSにほとんど向かなかったことである。

矛先が向いていない理由は、

・前述の通り、発生した障害のクリティカル度合いに比して迅速と言える対応速度
・障害中も都度情報を公開するというユーザーフレンドリーな対応
・こういった事態に備えた構成（マルチリージョン、マルチAZ）を以前より推奨していた事実
（実際は影響を受けた可能性はあったようだが、そもそもその構成を取っていないサービスが多かったからか、指弾されなかった）
・AWSで起きたなら仕方ない、という積み上げてきた信頼
・事後も淡々と事実と課題について技術的な説明を公開し、簡単ではあるがユーザーの心情を理解した謝罪を公開するという、ある種割り切った態度

といったあたりであろう。

さすが、と言わざるを得ないと同時に、リスクヘッジはユーザー（AWS等を利用する側）がしっかりと考える必要があるということを改めて感じた次第である。

今はまだ「AWS側のトラブルなら仕方ない」と言ってもらえる世の中かも知れない。

しかしあと数年もすれば「クラウド障害に影響されない構成を取ってないお前が完全に悪い」とみんな気付いてしまうだろう。

ということで、次回はユーザーがクラウドを利用する際に注意すべき点や意識すべき点について考える。