
RAG — это самый практичный способ сделать ассистента, который отвечает по вашим документам и меньше “додумывает”. Вместо того чтобы надеяться на память модели, система находит релевантные куски в вашей базе знаний и подкладывает их в контекст перед ответом. Так ответы становятся точнее, а риски галлюцинаций — ниже. Ниже — основные термины RAG, которые помогут понимать, как это работает и где чаще всего ломается.
RAG — это подход, где генерация ответа подкрепляется поиском по вашим источникам: документам, регламентам, базе знаний, FAQ. Сначала система ищет релевантные фрагменты, затем передаёт их модели как контекст, и только после этого модель формулирует ответ. Это сильно снижает “уверенные выдумки”, потому что модель опирается на конкретные источники. В бизнесе RAG обычно быстрее и безопаснее, чем дообучение: вы обновили документы — и ответы обновились.
Retrieval — этап, где система находит релевантные куски информации в базе знаний. Поиск может быть разным: по словам, по смыслу, гибридный, с фильтрами по разделам и датам. От retrieval зависит половина качества: если нашли не то, модель ответит красиво, но неправильно. Поэтому retrieval — это не “внутри модели”, а отдельный инженерный компонент, который нужно измерять и улучшать.
База знаний — это ваши источники правды: регламенты, инструкции, FAQ, карточки товаров, документы, ответы поддержки, внутренние правила. Главное требование к базе знаний — актуальность и единый порядок: иначе ассистент будет отвечать по старым версиям или по противоречивым кускам. В RAG база знаний должна быть “для машины”: структурированной, без мусора, с понятными заголовками и датами. Чем лучше база, тем дешевле и точнее RAG.
Источник — это конкретный документ или страница, откуда берётся фрагмент для ответа. В бизнесе важно знать “откуда взялось”: это повышает доверие и позволяет быстро исправлять ошибки. Если ассистент всегда показывает источник, вы можете обновить документ и сразу улучшить ответы. Без источников RAG превращается в “поверьте мне на слово”, а это плохая стратегия для поддержки и регламентов.
Индексация — это подготовка базы знаний для быстрого поиска: документы режутся на части, превращаются в представление для поиска и сохраняются в индекс. Индексация нужна, чтобы retrieval работал быстро и стабильно. В реальных проектах индексация — это не разовое действие: документы меняются, значит индекс нужно обновлять. Если индекс устарел, ассистент будет отвечать по “вчерашним правилам”.
Чанк — это кусок текста, на который вы режете документы для поиска. Слишком маленькие чанки теряют смысл (нет контекста), слишком большие — ухудшают точность поиска и раздувают токены. Хороший чанк обычно совпадает с логическими блоками: пункт, подраздел, ответ FAQ. Чанки — это одна из главных ручек качества RAG, поэтому их обычно подбирают тестами.
Chunking — процесс разбиения документов на чанки с учётом структуры, заголовков и логики. В идеале chunking сохраняет смысловой блок целиком и добавляет минимальные “склейки” для контекста. Хороший chunking снижает ошибки, потому что модель получает цельный фрагмент, а не кусок из середины абзаца. В бизнесе chunking особенно важен для регламентов, договоров и инструкций, где одна фраза без соседнего пункта может означать противоположное.
Перекрытие — это когда соседние чанки частично повторяют друг друга, чтобы не потерять смысл на границе разреза. Это помогает, если важная мысль находится на стыке абзацев или пунктов. Overlap повышает шанс, что нужная фраза попадёт в найденный фрагмент, но увеличивает объём индекса и риск дублей в выдаче. Поэтому перекрытие нужно использовать аккуратно и не превращать базу в повторяющуюся простыню.
Эмбеддинги — это числовое представление смысла текста (вектор), с помощью которого система может искать “по смыслу”, а не по точным словам. Благодаря эмбеддингам запрос “вернуть товар” может найти текст “оформление возврата” даже без совпадения слов. Это основа семантического поиска в RAG. В бизнесе эмбеддинги дают большой прирост качества для живого языка клиентов, где формулировки постоянно разные.
Вектор — это массив чисел, который представляет текст, документ или запрос в пространстве смыслов. Вектора сравнивают между собой, чтобы понять, “похоже ли по смыслу”. В RAG вектор есть у запроса и у каждого чанка; поиск выбирает ближайшие вектора. Для бизнеса смысл простой: так ассистент находит похожее по смыслу, а не только по словам.
Векторная база данных — хранилище, которое умеет быстро искать ближайшие вектора (то есть похожие по смыслу чанки). Она хранит эмбеддинги и метаданные: источник, раздел, дата, язык, доступы. В бизнесе векторная база — это часть инфраструктуры RAG, которая отвечает за скорость и качество извлечения. Важно правильно настроить метаданные, иначе поиск будет находить “похоже”, но из неправильного раздела или устаревшую версию.
Метаданные — это служебные поля для чанка: источник, раздел, дата, тип документа, язык, права доступа, версия. Метаданные позволяют фильтровать поиск и делать его точнее: “только политика возвратов”, “только прайсы”, “только русские документы”. Без метаданных поиск становится слишком общим и чаще ошибается. Для бизнеса метаданные — это способ заставить RAG отвечать по правильному документу и правильной версии.
Top-K — это сколько чанков система берёт из поиска и передаёт модели в контекст. Если K слишком маленький, можно не захватить нужный пункт; если слишком большой — вы раздуваете контекст, добавляете шум и повышаете стоимость. В бизнесе K подбирают тестами: важно, чтобы модель получала ровно столько источников, сколько нужно. Часто лучше 3–6 сильных фрагментов, чем 20 “почти похожих”.
Релевантность — это насколько найденный фрагмент действительно отвечает на вопрос пользователя. В RAG можно ошибиться не “в модели”, а на этапе релевантности: поиск нашёл близкое по словам, но не по смыслу. Поэтому релевантность нужно измерять на реальных вопросах и дорабатывать retrieval. Для бизнеса релевантность — это меньше неправильных ответов и меньше ручных вмешательств.
Reranking — это этап, когда система повторно сортирует найденные чанки, чтобы наверх попало самое полезное. Поиск по эмбеддингам даёт кандидатов, но не всегда лучший порядок; reranking улучшает качество выдачи. В бизнесе reranking часто даёт заметный прирост: меньше “почти подходящих” фрагментов и больше точных. Особенно полезно для длинных регламентов и похожих разделов.
Гибридный поиск сочетает поиск по смыслу (эмбеддинги) и поиск по словам (keyword). Это полезно, когда запрос содержит точные термины, артикулы, номера пунктов, модели товара — там семантика может “плыть”. Гибридный подход обычно устойчивее: он находит и “похожее по смыслу”, и “точное совпадение”. В бизнесе это особенно важно для каталогов, прайсов, юридических формулировок и техдокументации.
Grounding — это практика, когда ответ модели должен опираться на предоставленные источники, а не на фантазию. В RAG grounding означает: “отвечай только на основе найденных фрагментов; если не хватает — уточни или скажи, что данных нет”. Это ключ к снижению галлюцинаций и повышению доверия. В бизнесе grounding особенно важен для поддержки, правил, цен и любых обещаний.
Citations — это когда ассистент показывает, на какие документы и фрагменты он опирался. Это повышает доверие и упрощает контроль: видно, откуда взята информация. Внутри компании citations помогают быстрее обновлять базу знаний: нашли ошибку — поправили источник. Для клиентов citations полезны как “подтверждение”, что ответ не из воздуха.
Актуальность — это гарантия, что ассистент отвечает по свежим правилам и последним версиям документов. В RAG актуальность достигается обновлением индекса, версиями документов и фильтрами по датам. Без контроля актуальности ассистент начинает жить “в прошлом” — особенно в ценах, условиях, регламентах. В бизнесе актуальность — это не косметика, а снижение конфликтов и ошибок.
Контекстная сборка — это как вы кладёте найденные фрагменты в запрос к модели: порядок, заголовки, отделение источников, краткие выжимки. Даже хорошие чанки можно “убить” плохой сборкой: смешали всё в кашу, и модель выбрала не то. В бизнесе правильная сборка делает ответы стабильнее и снижает риск, что модель возьмёт неправильный пункт. Сборку обычно стандартизируют: одинаковый формат для всех запросов.
No answer — это корректное поведение системы, когда в найденных источниках нет информации для ответа. В RAG это лучше, чем выдумка: ассистент должен уточнить вопрос, попросить документ или передать человеку. Для бизнеса это критично: лучше честное “нужны данные”, чем уверенный неправильный ответ. Правило “no answer” обычно задают в системных инструкциях и проверках.