Если модель — это “двигатель”, то данные — это топливо. В большинстве проектов качество результата определяется не тем, “какая модель моднее”, а тем, насколько ваши данные понятные, чистые и правильно подготовленные. Ниже — базовые термины про данные, которые встречаются в каждом реальном внедрении ИИ.

Данные — это факты, которые вы собираете из процессов: заявки, звонки, переписки, чеки, каталоги, события на сайте, фото, документы. В ИИ данные нужны не “вообще”, а под конкретную задачу: то, что вы хотите предсказать, классифицировать или сгенерировать. Чем ближе данные к реальности вашего бизнеса, тем меньше сюрпризов в результате. Если данные разрозненные и противоречивые, модель будет давать такой же “разрозненный” вывод.
Датасет — это организованный набор данных для обучения и проверки модели. Хороший датасет — это не просто “папка с файлами”, а структура: понятные поля, единые правила заполнения, одинаковые форматы, минимум мусора. В датасете важно, чтобы примеры отражали реальную жизнь: и обычные кейсы, и редкие, и “плохие” входные данные. Часто датасет приходится собирать и приводить в порядок дольше, чем “настроить модель”.
Запись (data point) — это одна “строчка смысла” в данных: одна заявка, один клиент, один документ, одно событие. На уровне записей вы понимаете, что именно модель видит как вход и что вы хотите получить на выходе. Если записи неполные или сильно отличаются по структуре, модель будет “плавать” и по качеству, и по объяснимости. В бизнесе полезно сразу договориться: что считается одной записью и где её границы.
Признак — это отдельное свойство записи, по которому модель делает вывод: сумма заказа, категория товара, источник трафика, текст обращения, регион, время дня. В простых задачах признаки — это столбцы таблицы; в текстовых задачах “признаком” часто становится сам текст или его представление. Важно: признаки должны быть полезными для цели, иначе они добавляют шум. Чем понятнее признаки, тем легче объяснить результат бизнесу.
Метка / лейбл (Label)
Метка — это правильный ответ, который вы хотите, чтобы модель научилась выдавать. Для классификации метка — это категория (“доставка”, “оплата”), для прогноза — число, для извлечения — нужное значение из текста. Метка должна быть задана одинаково и без двусмысленности, иначе модель учится “угадывать настроение разметчика”. В бизнесе метка — это формализация вашего правила принятия решения.
Разметка / аннотация (Annotation, Labeling)
Разметка — это процесс, когда люди (или правила) присваивают данным метки: что это за тип обращения, где в документе ИНН, какая эмоция в отзыве. Разметка — это не “мелочь”, а производственный процесс: нужны инструкции, примеры, контроль качества. Чем сложнее задача, тем важнее единые правила разметки. В реальности именно разметка часто определяет бюджет и сроки ИИ-проекта.
Ground Truth / эталонная разметка
Ground truth — это “эталон”, с которым сравнивают ответы модели: то, что считается правильным по правилам бизнеса. Это основа для тестов, метрик и регулярной проверки качества. Эталон должен быть максимально согласованным: если разные люди по-разному считают “правильно”, оценка превращается в спор. В практике ground truth — это ваш “референсный набор”, который вы бережёте и обновляете.
Train / Validation / Test Split (разделение выборки)
Это разбиение данных на части: обучение (train), настройка/проверка (validation) и финальная проверка (test). Разделение нужно, чтобы модель не “выучила ответы наизусть” и не выглядела идеальной только на старых примерах. Особенно важно разделять по времени, если данные меняются (сезонность, акции, новые товары). Без split вы почти гарантированно получите самообман в цифрах.
Утечка данных — это когда в обучение случайно попадает информация, которая в реальности недоступна в момент предсказания. Из-за этого модель показывает отличные результаты на тесте, но проваливается в бою. Leakage часто бывает скрытым: например, признак содержит итоговый статус, который появляется только после обработки. Это один из самых коварных способов “нарисовать” качество.
Смещение / предвзятость (Bias)
Bias — это смещение в данных, когда некоторые группы или сценарии представлены сильнее других. Модель в таком случае учится “на популярном” и хуже работает на редких кейсах или новых сегментах. Bias может быть не только социальным, но и бизнесовым: например, данные собраны только из одного канала продаж. Если смещение не контролировать, автоматизация будет усиливать перекосы.
Дисбаланс классов — это когда одних категорий очень много, а других — мало. Модель в таком случае склонна “угадывать” самый частый класс, потому что так проще получить хорошую общую точность. В реальности бизнесу важны как раз редкие, но дорогие случаи: претензии, мошенничество, критические инциденты. Поэтому дисбаланс нужно учитывать при обучении и оценке.
Шум — это ошибки, мусор и случайности в данных: опечатки, пустые поля, дубли, неправильные статусы, “копипасты”, странные значения. Шум неизбежен, но важно понимать его уровень и снижать там, где он ломает качество. Если данные слишком грязные, модель начинает учиться на неправильных закономерностях. В бизнесе шум часто появляется из-за разных сотрудников и отсутствия единых правил ввода.
Выбросы (Outliers)
Выбросы — это редкие значения, которые сильно отличаются от обычных: аномально большие суммы, странные сроки, необычные комбинации параметров. Иногда выброс — это ошибка, а иногда важный сигнал (например, мошенничество). Важно отличать одно от другого, иначе вы либо “вырежете” полезные случаи, либо оставите мусор, который портит модель. Выбросы почти всегда требуют разбирательства по контексту.
Очистка — это приведение данных в порядок: удаление мусора, исправление форматов, заполнение пропусков, нормализация значений. Это скучно, но именно здесь рождается стабильность модели. Очистка должна быть повторяемой: сегодня почистили, завтра данные снова пришли — и процесс должен работать автоматически. В бизнесе очистка — это часть производственного конвейера данных.
Дедупликация — удаление дублей: одинаковых строк, повторяющихся документов, копий сообщений. Дубли создают иллюзию “много данных”, но на деле модель учится на повторениях и может переобучаться. Особенно критично, когда дубли попадают и в обучение, и в тест — тогда качество становится “слишком хорошим”. Дедупликация — базовая гигиена любого датасета.
Аугментация — это увеличение разнообразия данных за счёт “безопасных преобразований”. В изображениях это повороты и изменения яркости, в тексте — перефразирование, замены, шумоустойчивые варианты. Цель — чтобы модель не “цеплялась” за мелкие детали и лучше обобщала. Но аугментация должна быть разумной: нельзя превращать данные в фантазию.
Синтетические данные — это искусственно созданные примеры, которые дополняют реальные. Их используют, когда реальных примеров мало, они дорогие, или есть ограничения по персональным данным. Синтетика помогает закрывать редкие случаи и балансировать классы, но её нельзя считать полной заменой реальности. Хорошая практика — смешивать синтетику с реальными данными и обязательно проверять качество.
PII — это данные, по которым можно идентифицировать человека: ФИО, телефон, e-mail, паспортные данные, адрес, иногда ID и комбинации параметров. В ИИ-проектах PII — зона повышенного внимания: хранение, доступы, маскирование, юридические требования. Если работать с PII без правил, можно получить не только техническую, но и юридическую проблему. Поэтому PII обычно отделяют, маскируют и строго контролируют.
Анонимизация — это удаление идентификаторов так, чтобы человека нельзя было восстановить. Псевдонимизация — замена идентификаторов на стабильные “заменители” (например, Client_123), чтобы можно было анализировать поведение без раскрытия личности. Редактирование (redaction) — маскирование фрагментов текста: скрыть паспорт, телефон, адрес. В ИИ-проектах эти методы помогают использовать данные безопаснее и спокойнее проходить комплаенс.
Дрейф данных — это когда входные данные со временем меняются: меняются товары, аудитория, каналы, формулировки клиентов, правила в бизнесе. Модель обучалась на “вчера”, а работает на “сегодня” — и качество постепенно падает. Дрейф происходит почти всегда, просто иногда медленно, иногда резко (акции, сезон, кризис). Поэтому важно мониторить качество и обновлять датасет/модель по понятному циклу.