В опубликованном заявлении компания приносит извинения пользователям и дает объяснение случившемуся.

Неполадки были вызваны работой автоматической системы проверки конфигурации. Эта система проверяет различные конфигурационные параметры в буферной памяти и, если значение параметра кажется ей некорректным, заменяет его актуальным значением из постоянной базы данных. Однако разработчики системы не учли, что значение, взятое из базы, тоже может быть интерпретировано как некорректное — что и произошло, когда администраторы сайта изменили одно из значений в базе. Процессы системы увидели в памяти некорректное значение и попытались его исправить. Но для этого необходимо выполнить запрос к кластеру баз данных. На кластер стали поступать сотни тысяч запросов в секунду, и в результате многие процессы не смогли получить ответ от базы, что, в свою очередь, приводило к отправке новых запросов. Единственным способом восстановления работы оказался перезапуск кластера, а вместе с ним — и всего сайта.

Поделитесь материалом с коллегами и друзьями