2018년 5월 17일, 비트멕스 거래 엔진 정지 이슈

2018년 5월 17일 금일, 비트멕스 거래엔진에 피드 대기시간 지연과 온 종일 단발적으로 엔진 작동이 중  단되는 몇 가지 개별적이며 이제까지 예측하지 못한 문제가 발생했습니다.

주 거래엔진 하드웨어에 장착된 디스크는 대략 10:00 UTC경에 성능이 급격히 저하되었습니다. 해당 디스크 성능 저하는 미리 예정된 보관 및 재 색인 (reindex) 작업동안 심각한 엔진 역압 (backpressure)을 일으킨 피드 대기시간 지연 현상을 발생시켰습니다. 디스크 인풋 / 아웃풋 작업은 예상 속도의 20분의 1 수준에서 이루어졌습니다.

비트멕스는 중복 드라이브 (redundant drive)를 실행하고 있습니다. 그러나 이번 사태의 경우, 두 개의 중복 드라이브에 동시다발적으로 성능 저하현상이 발생했습니다. 따라서 저희는 문제 해결을 위해 선택의 여지없이 드라이브 유지보수를 위한 엔진 작동 정지 조치를 취할 수 밖에 없었습니다. 불행히도 엔진 역압 (backpressure)이 예상보다 더 빠른 속도로 심각한 수준에 도달하여 저희는 원래의 계획을 앞당겼습니다.

이번 문제로 인해 데이터 완전성에 결함이 생기지는 않겠지만, 저성능의 디스크로 엔진 기능을 정상적으로 복구시키는 일은 실행 및 검증 과정으로 인해 예상보다 오랜 시간이 걸렸습니다.

이 작업이 완료된 후, 거래가 재개되었습니다. 하지만 불행히도 다음 보관 작업 도중, 재 색인 작업과 특정 테이블 상에서 예기치 못한 색인 재생성 (index regeneration)과 기호 재검증 (symbol revalidation)을 일으킨 굉장히 드문 요청 패턴이 결합하며 또 다른 문제가 발생했습니다. 이는 비슷한 현상을 보이는 다른 엔진 역압 문제 시나리오를 만들었습니다.

저희 비트멕스는 위 문제의 다양한 원인들을 규명하고 이를 해결했으며, 거래 엔진 담당 팀은 속도 저하에 대한 근본 원인 분석을 계속하면서 24시간 동안 엔진성능을 면밀히 관리 및 감독하고 있습니다.