Горбушка
Ищу её...
- Регистрация
- 2 Май 2008
- Сообщения
- 3.444
- Реакции
- 2.524
- Автор темы
- #1
В соседней теме выложил пример классических ошибок хостера... Думаю, многим будет полезно, дабы не повторять, поэтому выкладываю здесь отдельно... Может кто ещё что-то расскажет
Дело было так.
Работал я в небольшой хостинг-компании (не будем говорить название - не прилично). Вроде как и уровень резервирования был, и качественные железки, да и назвать людей нубами язык не поворачивался - у всех опыт по 3-5 лет минимум в сфере.
В один прекрасный день развалился рейд на одном из серверов (к счастью служебном - под сайт хостера, биллинг и прочее). Вызвали инженера, тот подключился, начал пересобирать рейд, но из-за системного сбоя были потеряны данные (подробности не дело этого топика). Естественно, инженер начал нервничать, боевой сервер же убил. Восстановил файловую систему насколько мог и побежал срочно восстанавливать резервную копию
Кем был разработчик ПО по резервному копированию доподлинно не известно, но икалось ему долго, а его руки запихивались мысленно настолько глубоко, насколько это было возможно. Так вот, одной из кнопкой была "Сохранить принудительно", которая удаляла резервную копию (предположительно битую, кривую и т.д.) и делала новую поверх. Предполагалась её использовать при зависании процесса и т.д. Но вот этот идиот её расположил рядом с кнопкой "восстановить"... Ну действительно, чем хуже подчерк у врача, тем он профессиональнее... Исходя из этого наш кодер был гуру юзабилити... Даже кнопки "Да/нет" не было... Через секунду бекап уже плавно стирался с хардов...
С одной стороны, явная ошибка инженера (поверьте, ругать его не надо было, он сам не знал куда деться после этого - убить всю базу клиентов), с другой - разработчик просто криворукий, с третьей - а какой идиот принял такую систему, какой тестировал? В общем, виновных как всегда было море, а уволили уборщицу (ну во-первых, чтобы не нарушать традицию перевода стрелок, а во-вторых, она за 2 недели до этого заявление написала - к дочке переезжала в другой город)...
Восстановить всё это дело удалось через несколько часов, когда кто-то вспомнил, что я в далёком прошлом нарушил инструкции и использовал сервер бекапов для своих тестов. А тестировал я SVN... Именно в нём и сохранилась та спасительная ревизия файлов, которая и была восстановлена на сервер. Общий простой составил около 10 часов. А из-за третьей ошибки потери составили 3 картинки на главной странице, впрочем, они остались у дизайнера, который их как раз выкладывал во время всего этого сбоя.
Мораль всего этого дела содержится в следующих событиях:
1) Введён полный запрет на сколь-угодно критичные операции на серверах без предварительного резервирования. Пока сервер не зарезервирован, не забекаплен и не выведен из эксплуатации как положено - никто к нему не прикоснётся.
2) На все сервера резервных копий был установлен SVN с правилом "хранить ревизию минимум 3 суток". И как бы тебе не хотелось удалить неприличную картинку своей пьяной морды на ночном дежурстве под новый год, до 3 января ты этого не сделаешь
3) Были введены ещё ряд инструкций, правил и ограничений, которые не позволили бы этой ситуации повториться. Закуплено дополнительное оборудование на случай резервирования (на которое временно переносилось зеркало ремонтируемого сервера), переписана система бекапа и т.д. Все кнопки теперь имеют подтверждение "Да/нет", а злополучная "Да/Нет", "Точно?", "Уверены?", "Вы бухали?", "Курили?", "Ну ладно, а может быть ..."
К чему я всё это рассказываю? К тому, что даже профи могут ошибаться и очень сильно. Всю эту историю я отписывал в ответ на просьбу рассказать как создать своего хостера.
Есть ещё одна поучительная история, но на этот раз глупее... Купили знакомые в офис стойку под сервера, повесили несколько сервачков для 1C, файликов и прочего. Ну в общем, решили выйти на новый уровень организации IT... Кульминацией должен был стать сервер U4 за овер 100500 $$ с 2 камнями, кучей рамы и т.д. Сервер должен был заменить сразу несколько древних серверов, которые давно пара было выкинуть... Когда покупали, обратили внимание, что он заметно тяжелее максимальной нагрузки на стойку и явно длиннее... Взяли рулетку, нет, проходит. Видимо документы перепутали - бывает. Повесили полку, посадили на неё двух админов - выдерживает... Отчитались начальству, тот скрипя сердцем подписал платёжку, бухгалтер, обливаясь слезами в преддверии зарплаты, провела её...
Через неделю доставляют аккуратно упакованную красивую коробку раза в 2 больше сервера... Внутри куча пенопласта, корпус обернут 3 слоями антидепрессанта (да, да, той самой плёнки лопающейся),покрыт плёнкой от царапин и все дырки заклеены от пыли... В общем, его до этого явно кто-то сильно любил и не хотел отдавать с завода =)
Вскрыли, достали, скрепя сердцем запихнули в стойку (дрожащими руками - не царапать же его в первый день). Встал, идеально встал... И смотрелся красиво... Сидят, любуются... Тут один из "инженеров" заходит с сзади к серверу и на глазах белеет... Наблюдает он картинку: серввер стоит идеально, а штекеры блоков питания (их там было аж 3) закрывает та самая стойка... Один из металлических уголков, которые усиливали конструкцию, проходил аккурат там, где надо было вставлять кабеля... До всех дошло, что ошибок в документах не было... Ну берут ножовку, пропиливают дырку под кабеля - не выкидывать же теперь сервер... Встал, отлично встал...
Проходит пару месяцев и в серверной вырубается автомат... На попытки включить не реагирует - вышибает снова. спустя несколько часов поисков увидели, что стойка заметно просела под тяжестью сервера и тот самый распиленный уголок весьма красиво "коротит" наполовину перерезанный кабель питания...
К великому счастью, сервер не пострадал, блок питания имел какую-то внутреннюю защиту и просто вырубился. Да и автоматы в щитке сработали как и должны.
Сейчас этот сервер стоит на подоконнике... А у админов отобрали все кактусы, чтобы поливая, случайно не полили и сервер... Все же следующие сервера были в обычных корпусах, как и офисные компы. Уже купленные сервера лежат друг на дружке на обычном строительном стеллаже, а погнутая и никуда не годная стойка стоит пустая в углу.
Так что товарищи... Надеюсь из этих двух историй Вам стало ясно что отличает профи от начинающих - умение делать выводы и принимать меры по недопущению повторения.
Дело было так.
Работал я в небольшой хостинг-компании (не будем говорить название - не прилично). Вроде как и уровень резервирования был, и качественные железки, да и назвать людей нубами язык не поворачивался - у всех опыт по 3-5 лет минимум в сфере.
В один прекрасный день развалился рейд на одном из серверов (к счастью служебном - под сайт хостера, биллинг и прочее). Вызвали инженера, тот подключился, начал пересобирать рейд, но из-за системного сбоя были потеряны данные (подробности не дело этого топика). Естественно, инженер начал нервничать, боевой сервер же убил. Восстановил файловую систему насколько мог и побежал срочно восстанавливать резервную копию
Кем был разработчик ПО по резервному копированию доподлинно не известно, но икалось ему долго, а его руки запихивались мысленно настолько глубоко, насколько это было возможно. Так вот, одной из кнопкой была "Сохранить принудительно", которая удаляла резервную копию (предположительно битую, кривую и т.д.) и делала новую поверх. Предполагалась её использовать при зависании процесса и т.д. Но вот этот идиот её расположил рядом с кнопкой "восстановить"... Ну действительно, чем хуже подчерк у врача, тем он профессиональнее... Исходя из этого наш кодер был гуру юзабилити... Даже кнопки "Да/нет" не было... Через секунду бекап уже плавно стирался с хардов...
С одной стороны, явная ошибка инженера (поверьте, ругать его не надо было, он сам не знал куда деться после этого - убить всю базу клиентов), с другой - разработчик просто криворукий, с третьей - а какой идиот принял такую систему, какой тестировал? В общем, виновных как всегда было море, а уволили уборщицу (ну во-первых, чтобы не нарушать традицию перевода стрелок, а во-вторых, она за 2 недели до этого заявление написала - к дочке переезжала в другой город)...
Восстановить всё это дело удалось через несколько часов, когда кто-то вспомнил, что я в далёком прошлом нарушил инструкции и использовал сервер бекапов для своих тестов. А тестировал я SVN... Именно в нём и сохранилась та спасительная ревизия файлов, которая и была восстановлена на сервер. Общий простой составил около 10 часов. А из-за третьей ошибки потери составили 3 картинки на главной странице, впрочем, они остались у дизайнера, который их как раз выкладывал во время всего этого сбоя.
Мораль всего этого дела содержится в следующих событиях:
1) Введён полный запрет на сколь-угодно критичные операции на серверах без предварительного резервирования. Пока сервер не зарезервирован, не забекаплен и не выведен из эксплуатации как положено - никто к нему не прикоснётся.
2) На все сервера резервных копий был установлен SVN с правилом "хранить ревизию минимум 3 суток". И как бы тебе не хотелось удалить неприличную картинку своей пьяной морды на ночном дежурстве под новый год, до 3 января ты этого не сделаешь
3) Были введены ещё ряд инструкций, правил и ограничений, которые не позволили бы этой ситуации повториться. Закуплено дополнительное оборудование на случай резервирования (на которое временно переносилось зеркало ремонтируемого сервера), переписана система бекапа и т.д. Все кнопки теперь имеют подтверждение "Да/нет", а злополучная "Да/Нет", "Точно?", "Уверены?", "Вы бухали?", "Курили?", "Ну ладно, а может быть ..."
К чему я всё это рассказываю? К тому, что даже профи могут ошибаться и очень сильно. Всю эту историю я отписывал в ответ на просьбу рассказать как создать своего хостера.
Есть ещё одна поучительная история, но на этот раз глупее... Купили знакомые в офис стойку под сервера, повесили несколько сервачков для 1C, файликов и прочего. Ну в общем, решили выйти на новый уровень организации IT... Кульминацией должен был стать сервер U4 за овер 100500 $$ с 2 камнями, кучей рамы и т.д. Сервер должен был заменить сразу несколько древних серверов, которые давно пара было выкинуть... Когда покупали, обратили внимание, что он заметно тяжелее максимальной нагрузки на стойку и явно длиннее... Взяли рулетку, нет, проходит. Видимо документы перепутали - бывает. Повесили полку, посадили на неё двух админов - выдерживает... Отчитались начальству, тот скрипя сердцем подписал платёжку, бухгалтер, обливаясь слезами в преддверии зарплаты, провела её...
Через неделю доставляют аккуратно упакованную красивую коробку раза в 2 больше сервера... Внутри куча пенопласта, корпус обернут 3 слоями антидепрессанта (да, да, той самой плёнки лопающейся),покрыт плёнкой от царапин и все дырки заклеены от пыли... В общем, его до этого явно кто-то сильно любил и не хотел отдавать с завода =)
Вскрыли, достали, скрепя сердцем запихнули в стойку (дрожащими руками - не царапать же его в первый день). Встал, идеально встал... И смотрелся красиво... Сидят, любуются... Тут один из "инженеров" заходит с сзади к серверу и на глазах белеет... Наблюдает он картинку: серввер стоит идеально, а штекеры блоков питания (их там было аж 3) закрывает та самая стойка... Один из металлических уголков, которые усиливали конструкцию, проходил аккурат там, где надо было вставлять кабеля... До всех дошло, что ошибок в документах не было... Ну берут ножовку, пропиливают дырку под кабеля - не выкидывать же теперь сервер... Встал, отлично встал...
Проходит пару месяцев и в серверной вырубается автомат... На попытки включить не реагирует - вышибает снова. спустя несколько часов поисков увидели, что стойка заметно просела под тяжестью сервера и тот самый распиленный уголок весьма красиво "коротит" наполовину перерезанный кабель питания...
К великому счастью, сервер не пострадал, блок питания имел какую-то внутреннюю защиту и просто вырубился. Да и автоматы в щитке сработали как и должны.
Сейчас этот сервер стоит на подоконнике... А у админов отобрали все кактусы, чтобы поливая, случайно не полили и сервер... Все же следующие сервера были в обычных корпусах, как и офисные компы. Уже купленные сервера лежат друг на дружке на обычном строительном стеллаже, а погнутая и никуда не годная стойка стоит пустая в углу.
Так что товарищи... Надеюсь из этих двух историй Вам стало ясно что отличает профи от начинающих - умение делать выводы и принимать меры по недопущению повторения.