画像:pixabay
ファーストサーバが提供するホスティングサービス「Zenlogic」が、Webサーバーやメールなど提供しているサービスを停止して緊急メンテナンスを行い、終了予定から遅れて復旧する、という大規模障害がありました。
障害の経緯は以下のような感じだったようです。
6月19日からストレージシステムが不安定となりサーバーが高負荷状態に陥り、サービスが利用困難な状態が断続的に発生。
7月6日(金)20時ごろから7月9日(月)8時ごろまでの予定で、メール送受信、サイト閲覧、サーバーへのファイル転送、コントロールパネルの利用ができなくなくなる。
7月9日(月)8時に復旧せず、同日23時ごろにサービス復旧。
サービス停止の連絡が緊急メンテナンスだったからなのか直前だったそうです。
歌舞伎座やエレコム、YCATなど大企業も利用しており、Zenlogicを利用しているサイトは対応が間に合わず、メンテナンス期間中サイトが落ちている状態が続いていました。
今回障害が発生したのはヤフーのインフラ上に構築されたZenlogicであり、分散ストレージCephのキャパシティプランニングのミスが発端で高負荷状態となっていた、とのこと。
このニュースを見て、障害を被ったサイト運用をしていた方は「なんとかしろっ!」と言われ続けたのかも・・・と思い、胃がきゅーっとなってしまいました。
レンタルサーバーや外部システムを利用してサービスを提供している以上、いつ自分の身に降りかかってもおかしくないかも、と思います。
たとえば、メールとWebは分けておく、DNSサーバーを分けておく、バックアップをとっておく、など事前にできる対策もあります。
対策にかかる費用やサービスレベルなど、万が一のときを考えてリスク対策をやっておかないといけないとあらためて感じた事案でした。
ファーストサーバのZenlogic、ストレージ障害の原因は想定以上の負荷、対策したはずの設定にミスがあったため長期化 - Publickey