2018年5月17日のサービス一時停止について

2018年5月17日、本日BitMEXの取引エンジンにおいて、これまでに前例がなく、また予測できないいくつかの問題が発生し、一日を通して注文の遅れとサービスの停止を生じさせました。

同日世界標準時10:00頃、メインの取引エンジンハードウェアに取り付けられているディスクのパフォーマンスが、急激に低下しました。これによりフィードへのアーカイブや、再掲載に遅れが生じ、これが重大な後方圧力となりました。ディスクの入力/出力オペレーションは、期待値の1/20ほどになりました。

BitMEXは予備のドライブも運用していますが、今回のケースでは、両方においてパフォーマンスの低下が同時に生じました。我々はこれらを交換するためにメンテナンスによるサービス停止時間を持つことを余儀なくされました。残念なことに、後方圧力は我々の予想を数段上回る速さで積み上がったため、我々は予定を早めました。

この問題によりデータの信頼性が失われたということはありません、しかし、マシンを通常のパフォーマンスに戻すために、予想よりも長い時間が費やされました。

これが完了した後、我々は取引を再開しました。残念なことに、別の問題がデータ保存の最中に発生しました。再インデックスと希少リクエストパターン領域において、特定のデータで予期しないインデックスの再生成とシンボルの再有効化が発生したためです。これが新たな後方圧力につながり、再度同様の症状を発生させました。

我々は上記の問題に対し、複数の原因を突き止め改善しました。現在取引エンジンチームは一日中、注意深くエンジンのパフォーマンスを観察しており、同時にこの減速の根本原因を調査しています。