BitMEX 停机时间, 2018 年 5 月 17 日

今天, 2018 年 5 月 17 日, BitMEX 交易引擎遇到了几个独立的之前不可提前预测的问题,导致反馈时间延迟和停机时间突然增加。

 

大约在北京时间 18:00 ,安装在主要交易系统硬件上的磁盘的性能急剧下降。这种性能下降会导致预定归档和重新索引作业期间的进度延迟,从而导致系统承受严重的压力。磁盘 I/O 操作的运行时间降至其预期速率的 1/20 。

 

BitMEX 运行着后备的驱动器,但在上述情况下,两个驱动器同时表现出这种退化行为。我们别无选择,只能安排停机时间来维护和替换它们。背压达到临界点的时间比预期的要快,于是我们提前了时间表。

 

在任何时候,数据完整性都没有因这个问题而受到影响,但是将系统恢复到本来磁盘的性能状态需要比预期更长的时间。

 

该维护完成后,我们重新开放了交易。不幸的是,在下一个存档期间我们发现了另一个问题,即 reindex 作业与以前罕见的请求模式相结合,导致在特定图表上出现意外的索引生成和符号重新认证。这导致了另一种系统压力且造成类似的症状。

 

我们已经确定并修复了造成上述问题的成因。交易系统团队将 24 小时密切留意系统性能,同时继续对性能下降进行根本原因分析。

 

 

欢迎转载,请注明文章来自

BitMEX (www.bitmex.com)