Platform Updates
原文:Postmortem: Downtime, 19 May 2020
5月19日、BitMEXの取引エンジンにおいて予期せぬサーバーの再起動の結果、日本時間21:00から22:40の間に予定外のダウンタイムが発生することとなりました。調査の詳細を共有する前に、今回に出来事に影響を受けたすべての方々に改めてお詫びを申し上げます。このようなイベントがお客様に与える影響は非常に大きいことを十分に理解しております。このブログ記事では、今後のダウンタイムのリスクを最小限に抑えるために、可能な限りのことを行っていることを確認するため、当社が継続して行っている手順を概説しています。また、ユーザーがダウンタイムイベントに関連するリスクをどのように管理することができるかについても、いくつかのガイダンスを提供しています。
また、今回のイベント中にお客様の資金が危険にさらされたり、取引所がオフラインの間に清算が行われたりすることはなく、保留中ならびに新規のお客様の出金依頼はすべてオンラインに戻ってから90分以内に処理されたことを改めてお伝えします。
以下は何が起こったか、当社がどのように対応したかの要約です。
21:00 JST 取引エンジンのサーバーが予期せず再起動しオフラインに
21:01 JST 当社のエンジニアリングおよびDevOpsチームが、インシデント対応を開始
21:13 JST 当社のお客様は https://status.bitmex.com とBitMEXの公式 Telegramチャンネルでライブアラートを受信。その後、一連の更新メッセージが出来事の発生中にすべてのプラットフォームで発行
21:20 JST 取引エンジンのサービスが部分的に復旧し、当社のチームが業務再開に必要な次のステップを開始
21:38 JST 取引エンジンサーバーが突然再起動したため、当社のチームは取引エンジンをスタンバイサーバーに移行するための別の復旧手順を開始
21:41 JST 当社のクラウドプロバイダーは、両方のサーバーの再起動が基礎となるハードウェアの問題に関連していることを確認
22:04 JST 取引エンジンのサービスが正常に復旧
22:23 JST 取引プラットフォームは「市場は一時停止し、キャンセルのみのモード」でオンラインに戻り、22:40 JSTにすべての取引業務の再開に関する通知が顧客に送信
22:40 JST 取引が正常に再開
出金は23:00...