Jump to content
Sign in to follow this  
Sanshalay

Что произошло со Splinterice.com?

Recommended Posts

Доброго времени суток!

Хочу начать небольшой рассказ от том, как мы докатились до такой жизни и почем форум пуст.

В субботу 7 февраля Splinterice.com оказался недоступен. Перерывы в работе сайта были и раньше, но это было довольно редко и максимум на 10 минут. Моё стандартное действие в такой ситуации - написать в техническую поддержку нашего хостинга (компании, которая предоставляет нам место на своих серверах). После довольно длительного ожидания мы получили короткий ответ - "Здравствуйте, разбираемся". На вопрос о том, когда работа сайтов восстановится был получен ответ "Скоро исправим, ориентировочно в течение получаса". Зная, что от меня больше ничего не зависит, я спокойно пошёл заниматься своими делами. Однако работа сайта не была восстановлена ни через пол часа, ни через час, ни даже через сутки.

Днём воскресенья я начал понимать, что случилось что-то серьёзное. Т.к. ни один сервер на хостинге не работал, а сам хостинг закрывался за день около 6 раз. Но того, что случилось на самом деле, я думаю, никто не ожидал. Ближе к вечеру 8 февраля в панель хостинга приходит вот такое сообщение.

Уважаемые пользователи, в результате аппаратного сбоя были утеряны все данные виртуальных машин, включая их бекапы. И как следствие, мы вынуждены были удалить все виртуальные машины в облаке.

На данный момент, мы нашли точку сбоя и исправили ее. В дальнейшем подобная ситуация уже не повторится, так как мы нашли источник проблем и приняли меры.

Нашему проекту уже полгода. У нас зарегистрировались более 22 000 пользователей. Мы сами занимаемся разработкой панели управления и облачной инфраструктурой. За это время мы получили колоссальный опыт и постоянно внедряем новые и современные решения.

Да, те кто с нами с самого начала, могут заметить что сначала uptime серверов был низкий, но последние месяцы ситуация изменилась в лучшую сторону и они стали доступны в любое время.

Мы приносим извинения, и понимаем что в результате этого, многие ваши проекты не работали и многие из них потребуется время, чтобы восстановиться. Нам искренне жаль и конечно же мы понимаем весь масштаб трагедии. Мы сделали очень много выводов, и очень многое изменили в работе облака.

Другими словами, с сегодняшнего для доступна версия cloudmouse 2.0, и в ней все ошибки, баги, потери данных - исправлены!
На данный момент все технические работы закончены, мы многое изменили в архитектуре облака для гарантированной стабильности и надежности ваших виртуальных серверов.

Мы так же увеличили скорость работы виртуальных серверов, примерно в 10-40 раз по сравнению с теми, что были раньше. Несмотря на трагедию с потерей данных, мы продолжаем работы над проектом.

Поверьте нам еще раз, то что случилось однажды, у нас уже не повторится, мы исправили ошибки и получили огромный опыт, который в будущем поможет нам избежать любых подобных проблем.

Создавайте новые сервера, если вам нужна помощь в настройке, напишите нам тикет.

Еще раз приносим Вам свои извинения, и уверяем, что это программно-аппаратная ошибка и мы ее исправили.
С уважением, команда разработчиков CloudMouse

Для тех, кто не понимает таких слов объясню саму суть немного проще. Представьте, что у вас 3 компьютера, которые соединены в сеть. И по сети пошёл какой-то сбой, который вывел из строя сразу все жёсткие диски на всех серверах. Похожее произошло и на нашем хостинге. А вот ещё одно объяснение от представителя хостинга (для тех, кто понимает, т.к. лично я ничего не понял)

По поводу СХД, мы используем как минимум 8, с 3х кратной репликацией данных. Те "кусочек данных размером 1мб" хранится на 3х разных дисках на 3х СХД. А все данные хранятся примерно на 300+х дисках. Как мы ранее сообщали, проблема потери данных была связана с аппаратно-програмным сбоем в связки: ceph+rbd+osd+pg. Другими словами, все связи между блоками данных в кластере были утеряны.

Вина хостинга в том, что они не хранили бекапы на отдельных независимых серверах. Моя вина в том, что я не хранил бекапы вне хостинга. В итоге, такое крайне редкое явление, как полная потеря хостингом всех данных, затронуло и наш сайт. В результате этого полностью был потерян весь форум со всем содержимым. А самое обидное это то, что мы ничего не могли с этим сделать т.к. всё пропало за пару секунд.

Команда CloudMouse и лично я приносим свои извинения всем пользователям форума.

Информация о нашем новом сайте будет в другой теме...

 

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Sign in to follow this  

2015-2019 © «Splinterice». All rights reserved.
When using the materials link to the site is required.
© 2019 Powered By Invision Community version 4.4.4

Яндекс.Метрика
×
×
  • Create New...