Sanshalay

Что произошло со Splinterice.com?

В теме 2 сообщения

Доброго времени суток!

Хочу начать небольшой рассказ от том, как мы докатились до такой жизни и почем форум пуст.

В субботу 7 февраля Splinterice.com оказался недоступен. Перерывы в работе сайта были и раньше, но это было довольно редко и максимум на 10 минут. Моё стандартное действие в такой ситуации - написать в техническую поддержку нашего хостинга (компании, которая предоставляет нам место на своих серверах). После довольно длительного ожидания мы получили короткий ответ - "Здравствуйте, разбираемся". На вопрос о том, когда работа сайтов восстановится был получен ответ "Скоро исправим, ориентировочно в течение получаса". Зная, что от меня больше ничего не зависит, я спокойно пошёл заниматься своими делами. Однако работа сайта не была восстановлена ни через пол часа, ни через час, ни даже через сутки.

Днём воскресенья я начал понимать, что случилось что-то серьёзное. Т.к. ни один сервер на хостинге не работал, а сам хостинг закрывался за день около 6 раз. Но того, что случилось на самом деле, я думаю, никто не ожидал. Ближе к вечеру 8 февраля в панель хостинга приходит вот такое сообщение.

Уважаемые пользователи, в результате аппаратного сбоя были утеряны все данные виртуальных машин, включая их бекапы. И как следствие, мы вынуждены были удалить все виртуальные машины в облаке.

На данный момент, мы нашли точку сбоя и исправили ее. В дальнейшем подобная ситуация уже не повторится, так как мы нашли источник проблем и приняли меры.

Нашему проекту уже полгода. У нас зарегистрировались более 22 000 пользователей. Мы сами занимаемся разработкой панели управления и облачной инфраструктурой. За это время мы получили колоссальный опыт и постоянно внедряем новые и современные решения.

Да, те кто с нами с самого начала, могут заметить что сначала uptime серверов был низкий, но последние месяцы ситуация изменилась в лучшую сторону и они стали доступны в любое время.

Мы приносим извинения, и понимаем что в результате этого, многие ваши проекты не работали и многие из них потребуется время, чтобы восстановиться. Нам искренне жаль и конечно же мы понимаем весь масштаб трагедии. Мы сделали очень много выводов, и очень многое изменили в работе облака.

Другими словами, с сегодняшнего для доступна версия cloudmouse 2.0, и в ней все ошибки, баги, потери данных - исправлены!
На данный момент все технические работы закончены, мы многое изменили в архитектуре облака для гарантированной стабильности и надежности ваших виртуальных серверов.

Мы так же увеличили скорость работы виртуальных серверов, примерно в 10-40 раз по сравнению с теми, что были раньше. Несмотря на трагедию с потерей данных, мы продолжаем работы над проектом.

Поверьте нам еще раз, то что случилось однажды, у нас уже не повторится, мы исправили ошибки и получили огромный опыт, который в будущем поможет нам избежать любых подобных проблем.

Создавайте новые сервера, если вам нужна помощь в настройке, напишите нам тикет.

Еще раз приносим Вам свои извинения, и уверяем, что это программно-аппаратная ошибка и мы ее исправили.
С уважением, команда разработчиков CloudMouse

Для тех, кто не понимает таких слов объясню саму суть немного проще. Представьте, что у вас 3 компьютера, которые соединены в сеть. И по сети пошёл какой-то сбой, который вывел из строя сразу все жёсткие диски на всех серверах. Похожее произошло и на нашем хостинге. А вот ещё одно объяснение от представителя хостинга (для тех, кто понимает, т.к. лично я ничего не понял)

По поводу СХД, мы используем как минимум 8, с 3х кратной репликацией данных. Те "кусочек данных размером 1мб" хранится на 3х разных дисках на 3х СХД. А все данные хранятся примерно на 300+х дисках. Как мы ранее сообщали, проблема потери данных была связана с аппаратно-програмным сбоем в связки: ceph+rbd+osd+pg. Другими словами, все связи между блоками данных в кластере были утеряны.

Вина хостинга в том, что они не хранили бекапы на отдельных независимых серверах. Моя вина в том, что я не хранил бекапы вне хостинга. В итоге, такое крайне редкое явление, как полная потеря хостингом всех данных, затронуло и наш сайт. В результате этого полностью был потерян весь форум со всем содержимым. А самое обидное это то, что мы ничего не могли с этим сделать т.к. всё пропало за пару секунд.

Команда CloudMouse и лично я приносим свои извинения всем пользователям форума.

Информация о нашем новом сайте будет в другой теме...

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Well it could happen - not good, but sometimes it happens. But:

Great to see the best forum back. Have to learn to handle the new style but I will do.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Для публикации сообщений создайте учётную запись или авторизуйтесь

Вы должны быть пользователем, чтобы оставить комментарий

Создать учетную запись

Зарегистрируйте новую учётную запись в нашем сообществе. Это очень просто!

Регистрация нового пользователя

Войти

Уже есть аккаунт? Войти в систему.

Войти