Sanshalay

Что произошло со Splinterice.com?

2 posts in this topic

Доброго времени суток!

Хочу начать небольшой рассказ от том, как мы докатились до такой жизни и почем форум пуст.

В субботу 7 февраля Splinterice.com оказался недоступен. Перерывы в работе сайта были и раньше, но это было довольно редко и максимум на 10 минут. Моё стандартное действие в такой ситуации - написать в техническую поддержку нашего хостинга (компании, которая предоставляет нам место на своих серверах). После довольно длительного ожидания мы получили короткий ответ - "Здравствуйте, разбираемся". На вопрос о том, когда работа сайтов восстановится был получен ответ "Скоро исправим, ориентировочно в течение получаса". Зная, что от меня больше ничего не зависит, я спокойно пошёл заниматься своими делами. Однако работа сайта не была восстановлена ни через пол часа, ни через час, ни даже через сутки.

Днём воскресенья я начал понимать, что случилось что-то серьёзное. Т.к. ни один сервер на хостинге не работал, а сам хостинг закрывался за день около 6 раз. Но того, что случилось на самом деле, я думаю, никто не ожидал. Ближе к вечеру 8 февраля в панель хостинга приходит вот такое сообщение.

Уважаемые пользователи, в результате аппаратного сбоя были утеряны все данные виртуальных машин, включая их бекапы. И как следствие, мы вынуждены были удалить все виртуальные машины в облаке.

На данный момент, мы нашли точку сбоя и исправили ее. В дальнейшем подобная ситуация уже не повторится, так как мы нашли источник проблем и приняли меры.

Нашему проекту уже полгода. У нас зарегистрировались более 22 000 пользователей. Мы сами занимаемся разработкой панели управления и облачной инфраструктурой. За это время мы получили колоссальный опыт и постоянно внедряем новые и современные решения.

Да, те кто с нами с самого начала, могут заметить что сначала uptime серверов был низкий, но последние месяцы ситуация изменилась в лучшую сторону и они стали доступны в любое время.

Мы приносим извинения, и понимаем что в результате этого, многие ваши проекты не работали и многие из них потребуется время, чтобы восстановиться. Нам искренне жаль и конечно же мы понимаем весь масштаб трагедии. Мы сделали очень много выводов, и очень многое изменили в работе облака.

Другими словами, с сегодняшнего для доступна версия cloudmouse 2.0, и в ней все ошибки, баги, потери данных - исправлены!
На данный момент все технические работы закончены, мы многое изменили в архитектуре облака для гарантированной стабильности и надежности ваших виртуальных серверов.

Мы так же увеличили скорость работы виртуальных серверов, примерно в 10-40 раз по сравнению с теми, что были раньше. Несмотря на трагедию с потерей данных, мы продолжаем работы над проектом.

Поверьте нам еще раз, то что случилось однажды, у нас уже не повторится, мы исправили ошибки и получили огромный опыт, который в будущем поможет нам избежать любых подобных проблем.

Создавайте новые сервера, если вам нужна помощь в настройке, напишите нам тикет.

Еще раз приносим Вам свои извинения, и уверяем, что это программно-аппаратная ошибка и мы ее исправили.
С уважением, команда разработчиков CloudMouse

Для тех, кто не понимает таких слов объясню саму суть немного проще. Представьте, что у вас 3 компьютера, которые соединены в сеть. И по сети пошёл какой-то сбой, который вывел из строя сразу все жёсткие диски на всех серверах. Похожее произошло и на нашем хостинге. А вот ещё одно объяснение от представителя хостинга (для тех, кто понимает, т.к. лично я ничего не понял)

По поводу СХД, мы используем как минимум 8, с 3х кратной репликацией данных. Те "кусочек данных размером 1мб" хранится на 3х разных дисках на 3х СХД. А все данные хранятся примерно на 300+х дисках. Как мы ранее сообщали, проблема потери данных была связана с аппаратно-програмным сбоем в связки: ceph+rbd+osd+pg. Другими словами, все связи между блоками данных в кластере были утеряны.

Вина хостинга в том, что они не хранили бекапы на отдельных независимых серверах. Моя вина в том, что я не хранил бекапы вне хостинга. В итоге, такое крайне редкое явление, как полная потеря хостингом всех данных, затронуло и наш сайт. В результате этого полностью был потерян весь форум со всем содержимым. А самое обидное это то, что мы ничего не могли с этим сделать т.к. всё пропало за пару секунд.

Команда CloudMouse и лично я приносим свои извинения всем пользователям форума.

Информация о нашем новом сайте будет в другой теме...

 

Share this post


Link to post
Share on other sites

Создайте аккаунт или войдите в него для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйтесь для получения аккаунта. Это просто!

Зарегистрировать аккаунт

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас