クラウドは止まる!それでも使い続ける理由と「できる備え」|AWSやAzureの障害から事業を守るための運用管理

公開日 : 

備えの方針:二重化と縮退、そして早期検知

備えの方針:二重化と縮退、そして早期検知

クラウド障害に備えるためには、以下の三つの方針を定める必要があります。

1.別リージョンでの二重化

AWSの東京リージョンが停止しても、大阪リージョンが稼働していればサービスを継続できます。東京を主系統、大阪を待機系統とする構成などは現実的な対策です。

データは定期的に複製し、系統の切り替えはDNS(ドメインネームシステム)を利用して行います。この際、RTO(Recovery Time Objective:目標復旧時間)とRPO(Recovery Point Objective:目標復旧時点、許容されるデータ欠損の量)を事前に決定し、文書化しておくことが重要です。

2.別クラウドでの縮退環境

AWSが広域で停止した場合に備えて、Azureなどの別のクラウドに「縮退環境」を構築します。この環境では、すべての機能の実装は求めません。顧客との接点を維持するため、商品閲覧ページ、問い合わせフォーム、静的なページだけでもサービスを継続できるように設計します。

データ同期は1日1回で十分な場合もあります。認証は、外部サービスへの依存を減らした簡易な方式を採用します。「細く長く」サービスを確実に継続させるという設計思想が不可欠です。

3.運用管理による早期検知の仕組み化

この項目は、クラウド障害対策において最も重要な点です。障害の被害規模を左右する最大の要因が、「異常に気づくまでの時間」であるためです。

クラウド事業者の公式発表を待っていると、対応が遅れる可能性があります。SNSなどで話題になってから企業が気づくようでは、顧客対応が後手に回ってしまうと考えられます。

一例として、ECサイトで障害が発生した場合、気づきが10分遅れただけで、数百件の注文キャンセルが発生する事例もあります。金融サービスであれば、数分の遅れが直接的に信用問題へと発展する可能性が高いでしょう。

このため、企業自身で早期に異常を検知できる仕組みを構築することが求められます。

どうやって早期検知するのか?

早期検知を実現するためには、以下の対策が挙げられます。

  1. 外部から自社サービスにアクセスして「ログインできるか」「検索できるか」を定期的に確認する仕組みを導入する。これは専門的な監視ツールを使わずとも、簡易的な外形監視サービスで開始できる
  2. 内部の状態を監視する。サーバーやデータベースの応答時間、エラー率をチェックするだけでも、異常の兆候を早く把握できる
  3. AWSやAzureの公式ステータスページを自動で取得し、チャットやメールに通知する仕組みを構築すると、情報の遅れを防ぐことが可能になる

通知と初動対応の重要性

異常を検知したら、次は「誰が何をするか」を明確にしておくことが不可欠です。通知の経路は一本化し、メール、チャット、電話など複数に分散することを避け、緊急時に「ここを確認する」場所を定めておくことが肝心です。

そして、Runbook(手順書)を整備します。障害の判定から縮退モードへの切り替え、顧客向け案内発信までの流れを時間軸で決定しておく必要があります。

例えば、

  1. 5分以内に障害を判定
  2. 15分以内に案内を発信
  3. 60分以内に代替導線を全面に押し出す

こういった具体的な時間軸の目標を設定します。この時間軸の目標を定めるだけで、現場の対応速度は格段に向上するものです。

演習による精度向上

手順書を机上で読むだけでは不十分です。これを補うには、年に2回程度の計画停止時に、模擬的な切り替え演習を実施することで、通知の遅れや手順の抜けを確認できるでしょう。備えは一度きりの作業ではなく、反復によって磨かれる習慣です。こうした反復の習慣こそが、組織の強さを育てるのです。

運用管理ツールで仕組みに変える

運用管理ツールで仕組みに変える

ここまで読んだ読者の中には、「仕組みを作ることは理解したが、実際にどのように監視や通知を運用するのか」という疑問を持つ方がいるでしょう。実は、こうした早期検知や通知の仕組みは、運用管理ツールを活用することで格段に容易になります。

例えば、ZabbixやDatadogのようなツールであれば、外部からの確認である外形監視と、内部の状態確認である内部監視を一元化することが可能です。また、AWSにはCloudWatch、AzureにはMonitorが標準で用意されています。これらを組み合わせると、障害の兆候を数分で検知し、チャットやメールに自動通知できるでしょう。

さらに、JP1やTivoliのような統合運用管理ツールを導入すれば、複数クラウドやオンプレミス(自社保有のITインフラ)をまたいだ監視も可能になります。これにより、障害発生時の自動切り替えや手順書実行を組み込むこともできるのです。

「早く気づく」

「すぐに行動する」

これを、人力で実施するには限界があります。だからこそ、運用管理ツールを活用し、監視・通知・初動対応を自動化することが、クラウド時代のBCP(Business Continuity Plan:事業継続計画)に直結するのです。

まとめ:運用管理ツールによる早期検知・迅速対応こそが、クラウド活用の要諦

クラウドサービスは停止する可能性があります。しかし、停止しても事業を継続できる仕組みを構築すれば、企業の事業は保護されます。企業が目指すべきは、「停止しないことを祈る」のではなく、「停止する前提で設計する」ことです。

そして、運用管理ツールを活用して、早期検知と迅速な対応を仕組みとして確立する。これこそが、クラウドを賢く使い続けるための最良の道筋となります。

本記事で解説したように、クラウドを「止まる前提」で設計し、運用管理を自動化する習慣こそが、組織の事業継続能力を強固なものにするでしょう。

帯邉 昇

執筆者

株式会社MU 営業部

帯邉 昇

新卒で日本アイ・ビー・エム株式会社入社。ソフトウェア事業部でLotus Notesや運用管理製品Tivoliなどの製品担当営業として活動。その後インフォテリア株式会社、マイクロソフト株式会社で要職を歴任した。キャリア30年のほとんどを事業立ち上げ期のパートナーセールスとして過ごし、専門はグループウェアやUC、MA、SFA、BIなどの情報系で、いわゆるDXの分野を得意とする。(所属元)株式会社エイ・シームジャパン。