Урок 5. Принципы чистых данных#
Цель: научиться организовывать данные так, чтобы агент работал стабильно и предсказуемо.
Что такое «чистые данные»#
Чистые данные — это данные, которые:
- имеют единый формат (даты, телефоны, статусы)
- не содержат пустых значений в критичных полях
- не содержат дублей (два Ивана Петрова с одинаковым email)
- не содержат лишних символов (пробелы в начале/конце, переносы строк)
- имеют предсказуемую структуру (агент всегда знает, где искать нужное поле)
Почему это важно для агентов#
Агент — это не человек. Он не умеет «догадываться». Если данные грязные:
- агент не найдёт нужную запись
- агент запишет данные в неправильном формате
- агент выдаст ошибку вместо ответа
- интеграция сломается
Пример грязных данных:
| Телефон | Статус | |
|---|---|---|
| ivan@example.com | +7 900 123-45-67 | Активен |
| maria@example.com | 89007654321 | активен |
| alex@example.com | +7(900)9876543 |
Что не так:
- телефоны в разных форматах
- лишний пробел перед email во второй строке
- статус «Активен» и «активен» — для агента это разные значения
- пустое значение статуса в третьей строке
Правила чистых данных#
1. Единый формат для однотипных данных
- телефоны:
+79001234567(всегда с+7, без пробелов и дефисов) - даты:
2026-01-31(формат YYYY-MM-DD) - email: всё в нижнем регистре, без пробелов
- статусы: заранее определённый список (Активен / Лид / Неактивен)
2. Нет пустых значений в критичных полях
Если поле важно для агента (например, Email для поиска клиента) — оно должно быть заполнено всегда.
Для необязательных полей можно оставлять пустое значение или использовать дефолтное значение (например, статус «Неизвестно»).
3. Нет дублей
Один клиент = одна запись. Если клиент уже есть в базе — обновляйте его данные, а не добавляйте новую строку.
Используйте уникальный идентификатор (ID, Email, Телефон), чтобы проверять наличие записи перед добавлением.
4. Нет лишних символов
- пробелы в начале/конце строки
- переносы строк внутри ячейки
- лишние символы (точки, запятые, тире в неправильных местах)
Используйте функции очистки (в Google Sheets: TRIM, CLEAN, LOWER).
5. Заголовки без спецсимволов
Названия столбцов (заголовки) должны быть:
- без пробелов (используйте
_или CamelCase:client_nameилиClientName) - без спецсимволов (
№,%,/,\) - без кириллицы (если подключаетесь через API, лучше использовать латиницу)
Пример чистых данных:
| ID | Phone | Status | RegistrationDate | |
|---|---|---|---|---|
| 1 | ivan@example.com | +79001234567 | active | 2026-01-15 |
| 2 | maria@example.com | +79007654321 | lead | 2026-01-20 |
| 3 | alex@example.com | +79009876543 | inactive | 2025-12-10 |
Как проверить данные перед подключением к агенту#
Чек-лист:
- Все критичные поля заполнены (нет пустых значений)
- Форматы единообразны (телефоны, даты, email)
- Нет дублей (проверьте по уникальному полю)
- Нет лишних пробелов и символов (используйте
TRIM,CLEAN) - Заголовки без спецсимволов и пробелов
- Статусы/категории из заранее определённого списка
Инструменты для очистки данных в Google Sheets#
=TRIM(A2)— убирает лишние пробелы в начале и конце=CLEAN(A2)— убирает непечатаемые символы=LOWER(A2)— переводит текст в нижний регистр=SUBSTITUTE(A2, " ", "")— убирает все пробелыData → Remove duplicates— удаляет дубликаты