ITインフラ障害から考える、網羅性を持ったBCPと単一障害点を特定する重要性

Technology, Media & Telecommunications (TMT) システム障害 ITインフラ障害通信業界テクノロジー

公開日：2024/08/28

1. はじめに－CrowdStrike事件による世界的なパニック－

2024年7月、米CrowdStrike (クラウドストライク) 社のセキュリティソフトウェアのアップデートトラブルにより、同社のソフトウェアがインストールされているシステム約850万台が起動しなくなり、世界的なITシステム障害が発生した。（注1）

日本でも同社のサービスを導入している企業は多く、復旧に長時間かかるといった被害が発生した。（注2）
さらに、障害が発生してから数日後、同社がお詫びとして関係会社に$10相当の出前クーポンを送ったことが発覚し、批判の声が強まっている。（注3）
障害発生後に行った分析および情報公開で、本来デプロイ前に行うべき基本的なコード・データ検証を同社が怠っていたことがわかった。
さらに、テスト環境への事前デプロイも行っておらず、最初から本番環境にアップデートしていた。それも複数段階に分けて行う一般的な方法ではなく、全てのエンドポイントに対して一斉にアップデートしたという。（注4）

同社のソフトウェアを使っていたクライアントには、事件発生後に自社のITインフラが一斉にダウンし、原因を把握するだけでもかなりの時間を要したというところもあった。
また、今回のトラブルを解消するには影響を受けたデバイスごとに一つずつ手動で修正ソフトを入れる必要があり、特に無人での動作を前提としているデバイスを多数持つ企業では、人手が足りず対応に多くの時間を要した。

2. 適切なBCPとは

一連の事態を受け、我々が普段当たり前のように利用しているITインフラは、ごく簡単に崩壊する可能性があることを改めて実感させられた。過去事例を振り返ると、ウイルスやランサムウェアなどが原因で多くのシステムが使えなくなる事態は発生しており、おそらくこれからもなくなることはないだろう。

一方、同じインシデントに見舞われても、収束までにかかる時間やビジネスへの影響は組織ごとに差がある。先日Microsoft社は本件の収束対応において、特に問題解決が早かった組織の特徴を分析し、今後に向けたガイドラインとして公開した。（注5）
その中で、バックアップを頻繁に行うこと、アップデートは段階的に行うこと、クラウドシステムを導入することなど、計6つの施策が提示されたが、中でも1番目の事項として掲げられたのが「事業継続計画 (BCP) および主要事態対応計画 (MIRP) を定めること」だ。

日本におけるBCPの現状はどうだろうか。BCPの必要性は以前から語られており、大企業の70%以上、中小企業の25%以上がBCPを策定している。（注6）
一方、策定されたBCPの9割以上は地震発生時の対応計画をまとめたものに限られており、あらゆる災害に備えられるように定められたBCPは全体の12.8%に過ぎなかった。
戦争やサイバー攻撃など、自然災害以外の事態に対する対策もBCPのごく一部にしか反映されていない。
特に今回の事件は誰かが意図をもって行った攻撃ではないため、BCP上で対策を準備していた組織の数はさらに少ないと思われる。

つまり、BCPを持っている組織であっても、対応範囲が狭いことから、効果を発揮することができなかったということだ。
BCPは、緊急事態などの危機的な状況下でも事業を継続できるように備えるためのものだ。言い換えると、各種の異常事態を幅広く想定したうえで検討しないと、意味を持たない。執務室へのテロやサイバー攻撃、自然災害などといった深刻な事態だけが注目を浴びやすいが、今回のようなシステム一斉停止やインターネット障害、交通機関の運転見合わせ、執務室の電気や水道の停止など、あらゆる要素が事業における潜在的な脅威となる。

事業というものは単独で完結するものではなく、複数の要素が組み合わさって成り立っている。またそれらが外部の様々な要素と結びついて、初めて動いていく。
つまり、事業は社員や執務室といった目に見えるものだけでなく、執務室に向かうための交通手段や会社のITインフラ、社員が業務中に飲む水といった細かな要素も含めて成り立っており、そのどれかで問題が起きると、事業全体に影響が出ることになる。

3. 単一障害点の重要性

事業を成り立たせる要素の中でも特に重要なのは、ある一つの要素に問題が生じると事業全体が停止する恐れがあるもの、つまり単一障害点 (single point of failure)だ。
単一障害点は、事業全体を構成する要素の一つに過ぎないにもかかわらず、一度問題が生じれば事業全体が停止・崩壊するリスクがある。

今回の事件では、同社のセキュリティソフトが止まった瞬間、事業全体の機能が停止してしまった。単一障害点は、CrowdStrike社のセキュリティソフトであった。
単一障害点の管理では、存在を改めて認識することが重要だ。単一障害点そのものを完全になくすことはできないが、どのような単一障害点があるかを事前に知っておくと、万が一の時に備えて別の手段を用意しておくことができる。

また、障害発生時の対応をあらかじめ考えておくことで、実際に障害が発生した際に原因を速やかに特定し、対応と復旧にかかる時間を短縮できるなど、被害の最小化に繋げられる。また、より網羅性の高いBCPを定めることができ、事業の持続性を保証できるようになる。
単一障害点を含むBCP内での各対策を定めるときは、特にその簡便性と実施可能性に留意する必要がある。
BCPが発動する状況では、社員が混乱している可能性が高く、各種会社資産に通常通りアクセスできる保証が必ずあるとは限らない。
例えば会社の規則で「会社の資産を紛失したら自分の上司と総務部の資産担当者に電話で速やかに報告すること」と定められている企業の社員が、社用パソコンと携帯電話をなくした場合に、資産担当者の電話番号を記憶している可能性は低い。

BCPにおいての対策は、会社の資産が使えない場合でも実行でき、かつ必要以上に複雑でないことが必須だ。
したがって、上記の例であれば、連絡先を覚えやすい形にして一つに絞り、事前に社員トレーニングで伝えておくことで、万が一の時に対策を実行できる確率を高められるだろう。

4. 最後に－迫っている次の脅威－

どんなに普段安定して見えるビジネスでも、いつかは必ず危機が訪れる。

今回はITインフラの障害だったが、次は水道の汚染や取引先地域での紛争かもしれない。あるいは執務室へのエレベーターが故障するといった小さな問題かもしれない。
直近では、南海トラフ地震臨時情報の発表を受け、様々な企業が改めて自社の災害対策の検討・見直しを進めている。

次の危機は「いつ」「どこ」になるかわからない。これを機に、自社の単一障害点を特定し、網羅的なBCPを改めて策定し、頑丈な準備体制を整えることが必要だ。

参考文献 :

1. The Verge, CrowdStrike blames test software for taking down 8.5 million Windows machines
https://www.theverge.com/2024/7/24/24205020/crowdstrike-test-software-bug-windows-bsod-issue 2024年7月24日

2. 日経クロステック、数百台のPOSレジを手作業で復旧、多くの国内企業がWindows大規模障害に直面
https://xtech.nikkei.com/atcl/nxt/column/18/00001/09576/ 2024年7月22日

3. BBC, CrowdStrike backlash over $10 apology voucher
https://www.bbc.com/news/articles/ce58p0048r0o 2024年7月25日

4. CrowdStrike, Remediation and Guidance Hub: Falcon Content Update for Windows Hosts
https://www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/ 2024年7月24日

5. Microsoft, Windows resiliency: Best practices and the path forward
https://techcommunity.microsoft.com/t5/windows-it-pro-blog/windows-resiliency-best-practices-and-the-path-forward/ba-p/4201550 2024年7月25日

6. 東京商工会議所、会員企業の災害・リスク対策に関するアンケート
https://www.tokyo-cci.or.jp/page.jsp?id=1200785 2023年8月28日

執筆者

成承炫 (ソン・スンヒョン)
Manager
TMT

日系総合シンクタンクを経験したのち、ライズ・コンサルティング・グループに参画。人工知能からなる先端技術を活用した業務改革や、情報通信・テクノロジー分野を中心とする動向調査から戦略立案・政策提言、実行支援まで、一連のコンサルティング業務に従事。
製造業、ヘルスケア、エネルギー、ITなど様々な業界でのプロジェクト経験を持ち、特に海外との連携を前提とした支援実績を多数有する。