Как работают инциденты в Monisite
Инцидент в Monisite — это период когда сайт был недоступен или возвращал ошибку. Каждый инцидент имеет момент начала (DOWN), момент окончания (UP) и длительность. По инцидентам строится статистика uptime, история падений и публичная страница статуса.
Как мы выявляем инцидент
Section titled “Как мы выявляем инцидент”Цепочка проверок одной проверки:
- Три региона одновременно делают HTTP-запрос на ваш URL (Москва, Амстердам, США)
- При сетевой ошибке агент пробует ещё раз через 1 секунду (защита от моргнувшей сети)
- При полученной ошибке мы запускаем двойную проверку через curl — если curl видит UP, считаем что httpx ошибся, и алерт не идёт
- Решение об инциденте: если все ответившие агенты согласны что сайт упал — открываем инцидент и отправляем DOWN-уведомление
Подробнее о защите от false-positive — в статье Защита от ложных срабатываний.
Что показывается в кабинете при падении
Section titled “Что показывается в кабинете при падении”На дашборде у каждого сайта в момент падения видно:
example.com 🔴 503 🇷🇺 503 · 🇳🇱 503 · 🇺🇸 503 3 мин назад- Код ответа сервера — главный сигнал, что случилось (см. справочник кодов ниже)
- Регионы — кто видит падение, кто нет
- Время — сколько прошло с момента начала инцидента
Кликнув по сайту, открываете подробную страницу с историей всех проверок: что отвечал сайт каждую минуту, в какой момент конкретно перестал работать, когда восстановился.
Что приходит в уведомлении
Section titled “Что приходит в уведомлении”🔴 DOWN · example.com
Сайт недоступен с 14:23:05Код ответа: 503 Service UnavailableРегионы видят падение: 🇷🇺 🇳🇱 🇺🇸При восстановлении приходит UP с длительностью:
🟢 UP · example.com
Сайт снова работаетПростой: 4 минуты 12 секундДлительность инцидента
Section titled “Длительность инцидента”Считается от момента первой проверки с ошибкой до момента первой следующей проверки с успехом. То есть точность — минута (обычная частота) или 5 секунд (если запущен fast-recovery после падения).
Справочник кодов ошибок
Section titled “Справочник кодов ошибок”Когда видите конкретный код в дашборде или уведомлении — кликните на код ниже, чтобы понять что он значит и как чинить:
5xx — ошибки сервера (что-то сломалось на стороне сайта):
- 500 Internal Server Error — общая ошибка приложения
- 502 Bad Gateway — upstream-сервер не отвечает
- 503 Service Unavailable — сервис временно недоступен
- 504 Gateway Timeout — upstream не успел ответить
4xx — ошибки клиента (запрос некорректен или ресурс не найден):
- 404 Not Found — страница не найдена
Сетевые ошибки (сервер вообще не отвечает):
- Таймаут соединения — сервер не отвечает за 15 секунд
- Ошибка DNS — домен не резолвится в IP
- Ошибка SSL — проблема с сертификатом
Что дальше
Section titled “Что дальше”- Защита от ложных срабатываний — как мы избегаем ложных алертов
- Настройка уведомлений — куда приходят алерты
- Проверки из 3 регионов