Модуль 08Урок 5

Урок 5. Принципы чистых данных

Практика: Coze

Урок 5. Принципы чистых данных#

Цель: научиться организовывать данные так, чтобы агент работал стабильно и предсказуемо.

Что такое «чистые данные»#

Чистые данные — это данные, которые:

  • имеют единый формат (даты, телефоны, статусы)
  • не содержат пустых значений в критичных полях
  • не содержат дублей (два Ивана Петрова с одинаковым email)
  • не содержат лишних символов (пробелы в начале/конце, переносы строк)
  • имеют предсказуемую структуру (агент всегда знает, где искать нужное поле)

Почему это важно для агентов#

Агент — это не человек. Он не умеет «догадываться». Если данные грязные:

  • агент не найдёт нужную запись
  • агент запишет данные в неправильном формате
  • агент выдаст ошибку вместо ответа
  • интеграция сломается

Пример грязных данных:

EmailТелефонСтатус
ivan@example.com+7 900 123-45-67Активен
maria@example.com89007654321активен
alex@example.com+7(900)9876543

Что не так:

  • телефоны в разных форматах
  • лишний пробел перед email во второй строке
  • статус «Активен» и «активен» — для агента это разные значения
  • пустое значение статуса в третьей строке

Правила чистых данных#

1. Единый формат для однотипных данных

  • телефоны: +79001234567 (всегда с +7, без пробелов и дефисов)
  • даты: 2026-01-31 (формат YYYY-MM-DD)
  • email: всё в нижнем регистре, без пробелов
  • статусы: заранее определённый список (Активен / Лид / Неактивен)

2. Нет пустых значений в критичных полях

Если поле важно для агента (например, Email для поиска клиента) — оно должно быть заполнено всегда.

Для необязательных полей можно оставлять пустое значение или использовать дефолтное значение (например, статус «Неизвестно»).

3. Нет дублей

Один клиент = одна запись. Если клиент уже есть в базе — обновляйте его данные, а не добавляйте новую строку.

Используйте уникальный идентификатор (ID, Email, Телефон), чтобы проверять наличие записи перед добавлением.

4. Нет лишних символов

  • пробелы в начале/конце строки
  • переносы строк внутри ячейки
  • лишние символы (точки, запятые, тире в неправильных местах)

Используйте функции очистки (в Google Sheets: TRIM, CLEAN, LOWER).

5. Заголовки без спецсимволов

Названия столбцов (заголовки) должны быть:

  • без пробелов (используйте _ или CamelCase: client_name или ClientName)
  • без спецсимволов (, %, /, \)
  • без кириллицы (если подключаетесь через API, лучше использовать латиницу)

Пример чистых данных:

IDEmailPhoneStatusRegistrationDate
1ivan@example.com+79001234567active2026-01-15
2maria@example.com+79007654321lead2026-01-20
3alex@example.com+79009876543inactive2025-12-10

Как проверить данные перед подключением к агенту#

Чек-лист:

  • Все критичные поля заполнены (нет пустых значений)
  • Форматы единообразны (телефоны, даты, email)
  • Нет дублей (проверьте по уникальному полю)
  • Нет лишних пробелов и символов (используйте TRIM, CLEAN)
  • Заголовки без спецсимволов и пробелов
  • Статусы/категории из заранее определённого списка

Инструменты для очистки данных в Google Sheets#

  • =TRIM(A2) — убирает лишние пробелы в начале и конце
  • =CLEAN(A2) — убирает непечатаемые символы
  • =LOWER(A2) — переводит текст в нижний регистр
  • =SUBSTITUTE(A2, " ", "") — убирает все пробелы
  • Data → Remove duplicates — удаляет дубликаты