Модуль 11Урок 3

Урок 3. Мониторинг: как следить за здоровьем агента

Практика: n8n

Урок 3. Мониторинг: как следить за здоровьем агента#

Цель: настроить простой мониторинг, чтобы знать, когда агент сломался или работает неправильно.

Что такое мониторинг#

Мониторинг — это постоянное наблюдение за работой агента, чтобы вовремя заметить проблемы:

  • агент перестал отвечать
  • агент отвечает с ошибками
  • агент работает медленно
  • агент превысил лимиты API

Базовые метрики для мониторинга#

1. Uptime (доступность)

Процент времени, когда агент работает.

Пример:
Если агент работал 23 часа из 24 → Uptime = 95.8%

Цель: стремиться к 99%+ (менее 1% времени на сбои)

2. Response Time (время ответа)

Сколько времени агент тратит на обработку запроса.

Пример:
Пользователь написал вопрос → агент ответил через 3 секунды → Response Time = 3s

Цель: менее 5 секунд для текстовых запросов

3. Error Rate (частота ошибок)

Процент запросов, которые завершились с ошибкой.

Пример:
Из 100 запросов 5 завершились с ошибкой → Error Rate = 5%

Цель: менее 1% (99% запросов успешны)

4. Request Rate (количество запросов)

Сколько запросов обрабатывает агент в час / день.

Пример:
Агент обработал 500 запросов за день → Request Rate = 500/день

Цель: отслеживать рост (если запросов становится слишком много, нужно масштабировать)

Как настроить простой мониторинг#

Вариант 1: Uptime-мониторинг (для webhook-ботов)

Если ваш агент работает через webhook (например, Telegram-бот на n8n), используйте сервис для проверки доступности:

  • UptimeRobot (бесплатно до 50 мониторов)
  • Pingdom (платно, но более мощный)
  • Healthchecks.io (простой и бесплатный)

Как работает:

  1. Вы даёте сервису URL вашего webhook
  2. Сервис каждые 5 минут отправляет тестовый запрос
  3. Если webhook не отвечает → сервис отправляет вам уведомление (email, SMS, Telegram)

Настройка в UptimeRobot:

  1. Зарегистрируйтесь на uptimerobot.com
  2. Добавьте новый монитор: URL вашего webhook, тип: HTTP(s)
  3. Настройте уведомления (email или Telegram)
  4. Сохраните

Теперь вы будете получать уведомление, если агент перестал отвечать.

Вариант 2: Мониторинг через логи

Если вы логируете действия агента в Google Sheets / Airtable, настройте автоматическую проверку:

Пример: уведомление о превышении ошибок

Логика:

  1. Каждый час (или раз в день) запускается workflow (Zapier / n8n)
  2. Workflow читает логи за последний час
  3. Считает количество ошибок (Status = failed)
  4. Если ошибок > 10 → отправляет уведомление в Telegram: «Внимание! За последний час зафиксировано 15 ошибок. Проверьте агента.»

Реализация в n8n:

  • Trigger: Cron (каждый час)
  • Action 1: Google Sheets → Read (прочитать логи за последний час)
  • Action 2: Function (подсчитать количество Status = failed)
  • Action 3: IF (если ошибок > 10)
  • Action 4 (true): Telegram → Send Message («Внимание! ...»)

Вариант 3: Встроенные инструменты платформ

Многие платформы имеют встроенный мониторинг:

  • Zapier: Task History + Email Alerts (при ошибке Zapier отправляет email)
  • Make: History + Notifications
  • n8n: Error Workflow (специальный workflow, который запускается при ошибке)

Пример: Error Workflow в n8n

  1. Создайте новый workflow с триггером Error Trigger
  2. Добавьте узел Telegram → Send Message
  3. Настройте сообщение: «Ошибка в workflow [название]. Детали: {{ $json.error.message }}»
  4. Сохраните и активируйте

Теперь при любой ошибке в любом workflow вы получите уведомление в Telegram.

Что делать, если мониторинг показал проблему#

Проблема 1: агент не отвечает (Uptime = 0%)

Возможные причины:

  • сервер упал (если self-hosted)
  • закончились деньги на счёте (если облачная платформа)
  • webhook сломался (неправильный URL, истёк SSL-сертификат)

Что делать:

  1. Проверьте статус сервера / платформы
  2. Проверьте баланс счёта
  3. Проверьте webhook (отправьте тестовый запрос вручную)
  4. Перезапустите workflow / бота

Проблема 2: высокий Error Rate (>5%)

Возможные причины:

  • проблемы с API (превышен лимит, API недоступен)
  • неправильные данные (например, неверный формат email)
  • ошибка в логике агента

Что делать:

  1. Откройте логи, найдите ошибки
  2. Посмотрите ErrorMessage
  3. Исправьте проблему (увеличьте лимиты, исправьте данные, исправьте логику)
  4. Протестируйте

Проблема 3: медленный Response Time (>10 секунд)

Возможные причины:

  • медленный API (например, OpenAI перегружен)
  • слишком много шагов в workflow
  • нет кеширования

Что делать:

  1. Измерьте время каждого шага (в n8n это видно в Executions)
  2. Найдите самый медленный шаг
  3. Оптимизируйте (кеширование, переход на более быстрый API, параллельные запросы)