Интеграция с PagerDuty
Автоматизация реагирования на инциденты: от обнаружения сбоев StatusSentry до вызова дежурного инженера PagerDuty за секунды.
Настройка подключения
Свяжите ваш мониторинг с системой управления инцидентами. Это позволяет автоматически создавать тикеты в PagerDuty при падении критических сервисов.
1. Получите ключ API
В панели управления StatusSentry перейдите в раздел Настройки → Интеграции. Включите модуль PagerDuty и скопируйте сгенерированный уникальный Webhook URL.
2. Создайте интеграцию в PagerDuty
В вашем аккаунте PagerDuty выберите Services → Add New Service. Выберите Use our API directly (или Generic API v2) и вставьте URL из предыдущего шага.
3. Карта сервисов
Привяжите конкретные мониторы StatusSentry к сервисам PagerDuty. Например, монитор api.production.sentry.io может быть связан с сервисом Backend Core.
Логика эскалации
Мы не просто отправляем уведомления. StatusSentry анализирует статус кодов HTTP и время отклика, чтобы передать контекст дежурной команде.
Умное распознавание сбоев
Если монитор возвращает 5xx более 3 раз подряд в течение 60 секунд, создается инцидент с приоритетом P1 (Critical). Временные задержки (TTL > 2с) генерируют P3 (Low).
Обогащение данных
Каждый вызов содержит:
- Точное время начала инцидента
- Локацию мониторинга (например, Frankfurt или Tokyo)
- Ссылку на прямой лог проверки
- Текущий статус кода и тело ответа
Дедупликация
Мы используем dedup_key на основе ID монитора. Повторные проверки в течение периода инцидента не создают дублирующихся тикетов, а лишь обновляют статус существующего.
Автоматическое разрешение
Замкните цикл управления инцидентами. StatusSentry автоматически закрывает тикеты PagerDuty, когда сервис восстанавливается, экономя время вашей команды.
Триггер восстановления
Как только монитор получает 200 OK в течение установленного порога стабильности (по умолчанию 2 успешных проверки), отправляется событие resolve в PagerDuty.
Расчет времени простоя
В сообщение о закрытии автоматически вставляется расчетное время недоступности (например, "Инцидент завершен. Время простоя: 4 мин 12 сек"), что упрощает пост-мортем анализ.
Уведомления о статусе
Опционально отправляйте статус в Slack или Microsoft Teams канал вашей команды при закрытии инцидента, чтобы подтвердить нормализацию работы сервисов.