Интеграции

Интеграция с PagerDuty

Автоматизация реагирования на инциденты: от обнаружения сбоев StatusSentry до вызова дежурного инженера PagerDuty за секунды.

Настройка подключения

Свяжите ваш мониторинг с системой управления инцидентами. Это позволяет автоматически создавать тикеты в PagerDuty при падении критических сервисов.

1. Получите ключ API

В панели управления StatusSentry перейдите в раздел Настройки → Интеграции. Включите модуль PagerDuty и скопируйте сгенерированный уникальный Webhook URL.

2. Создайте интеграцию в PagerDuty

В вашем аккаунте PagerDuty выберите Services → Add New Service. Выберите Use our API directly (или Generic API v2) и вставьте URL из предыдущего шага.

3. Карта сервисов

Привяжите конкретные мониторы StatusSentry к сервисам PagerDuty. Например, монитор api.production.sentry.io может быть связан с сервисом Backend Core.

Логика эскалации

Мы не просто отправляем уведомления. StatusSentry анализирует статус кодов HTTP и время отклика, чтобы передать контекст дежурной команде.

Умное распознавание сбоев

Если монитор возвращает 5xx более 3 раз подряд в течение 60 секунд, создается инцидент с приоритетом P1 (Critical). Временные задержки (TTL > 2с) генерируют P3 (Low).

Обогащение данных

Каждый вызов содержит:

  • Точное время начала инцидента
  • Локацию мониторинга (например, Frankfurt или Tokyo)
  • Ссылку на прямой лог проверки
  • Текущий статус кода и тело ответа

Дедупликация

Мы используем dedup_key на основе ID монитора. Повторные проверки в течение периода инцидента не создают дублирующихся тикетов, а лишь обновляют статус существующего.

Автоматическое разрешение

Замкните цикл управления инцидентами. StatusSentry автоматически закрывает тикеты PagerDuty, когда сервис восстанавливается, экономя время вашей команды.

Триггер восстановления

Как только монитор получает 200 OK в течение установленного порога стабильности (по умолчанию 2 успешных проверки), отправляется событие resolve в PagerDuty.

Расчет времени простоя

В сообщение о закрытии автоматически вставляется расчетное время недоступности (например, "Инцидент завершен. Время простоя: 4 мин 12 сек"), что упрощает пост-мортем анализ.

Уведомления о статусе

Опционально отправляйте статус в Slack или Microsoft Teams канал вашей команды при закрытии инцидента, чтобы подтвердить нормализацию работы сервисов.