
Fine-tuning — это способ “подогнать” базовую модель под вашу задачу: стиль ответов, терминологию, формат, правила и конкретные сценарии. В отличие от промптинга, где вы каждый раз объясняете модели “как надо”, fine-tuning делает часть поведения встроенной. Но у настройки есть цена: данные, обучение, контроль качества и риски (например, переобучение или “забывание” старых навыков). Ниже — ключевые термины, чтобы понимать разговор про настройку моделей без магии и тумана.
Fine-tuning — это дообучение готовой модели на ваших примерах, чтобы она отвечала ближе к нужному вам стандарту. Обычно это делают, когда промпты уже не спасают: слишком много правил, формат строгий, нужна стабильность на потоке. Важный момент: fine-tuning не делает модель “умнее вообще”, он делает её лучше в вашем классе задач. Если обучающие примеры плохие, модель будет стабильно выдавать плохие ответы — просто более уверенно.
Адаптация — это общий термин про любые способы “подстроить” модель под вашу предметную область и процессы. Сюда входят fine-tuning, LoRA, prompt-tuning, правила вывода, контроль качества, безопасные ограничения. Правильная адаптация почти всегда комбинирует несколько подходов: модель + база знаний + guardrails. В бизнесе адаптация — это не один шаг, а система, которая делает ответы предсказуемыми.
Предобучение — это когда модель учится “на всём интернете” или огромных корпусах данных и получает общие знания языка. Fine-tuning — это маленькая настройка поверх базы, чтобы поведение стало ближе к нужному. В бизнесе вы почти всегда работаете именно с fine-tuning, потому что предобучение слишком дорого и бессмысленно для одной компании. Понимание разницы спасает от ожиданий “давайте обучим модель на наших 50 PDF и она станет гением”.
SFT — самый распространённый формат fine-tuning: модель учится на парах “вход → правильный выход”. Это похоже на обучение сотрудника по примерам: вот вопрос клиента, вот эталонный ответ. SFT хорошо подходит для стандартизации стиля, формата, структуры и терминологии. Но SFT не гарантирует “правильность фактов”, если эти факты меняются — для этого лучше RAG или внешние источники.
Instruction tuning — это частный случай SFT, где модель учат выполнять инструкции: “сделай таблицу”, “дай 3 варианта”, “ответь коротко”, “не используй жаргон”. Это повышает управляемость: модель лучше следует структуре и ограничениям. Для бизнеса это особенно полезно, когда результат должен быть пригоден для копипаста: карточки товара, письма, FAQ, регламенты. Но instruction tuning требует хороших примеров с чёткими форматами.
Domain adaptation — настройка модели под лексику и контекст вашей сферы: медицина, логистика, e-commerce, юриспруденция и т.д. Это помогает модели меньше путать термины и формулировать ответы ближе к “языку отрасли”. Но доменная адаптация не заменяет реальные правила и документы — она скорее улучшает “манеру” и точность в типовых формулировках. Часто её комбинируют с RAG: модель говорит правильно, а факты берёт из источников.
LoRA — способ дообучения, когда вы не “переписываете” всю модель, а добавляете небольшие обучаемые “вставки”. Это дешевле по ресурсам и проще в эксплуатации, чем полный fine-tuning. LoRA часто выбирают, когда нужно быстро получить эффект при ограниченном бюджете и инфраструктуре. По смыслу для бизнеса это “обучить поведение”, не трогая огромную базу модели целиком.
QLoRA — вариант LoRA, где базовую модель держат в “сжатом” (квантованном) виде, чтобы дообучение было ещё дешевле по памяти. Это делает настройку доступнее на более скромном железе. При правильной настройке QLoRA может дать очень достойный результат для многих прикладных задач. Но квантование — это компромисс: иногда страдает точность и стабильность на сложных сценариях.
Адаптеры — близкая идея к LoRA: небольшие дополнительные модули, которые “подмешивают” нужное поведение, не переписывая всю модель. Практически это удобно: можно иметь несколько адаптеров под разные задачи и переключать их. Для бизнеса это похоже на “режимы работы”: поддержка, продажи, внутренние инструкции. Но адаптеры требуют дисциплины версий и тестов, иначе начнётся путаница “какой режим сейчас включён”.
Prompt/prefix tuning — это настройка, где обучают не всю модель, а небольшую “приставку” к промпту (виртуальные токены), чтобы поведение стало нужным. Это ещё легче и дешевле, чем LoRA, но подходит не для всех задач. В бизнесе это может быть полезно для стандартизации тона и формата без тяжёлого обучения. Но если нужна глубокая доменная адаптация, одного prompt-tuning может не хватить.
Alignment — это “настройка характера” модели: чтобы она соблюдала правила, не выдавала опасного, не фантазировала и держала стиль. Это не про знания, а про поведение и дисциплину. В бизнесе alignment — ключ к безопасности: запреты на обещания сроков, запрет на раскрытие PII, аккуратные формулировки. Alignment обычно делают комбинацией: данные (SFT/RL) + системные правила + проверки вывода.
RLHF — подход, когда модель улучшает поведение на основе оценок людей: какие ответы лучше, какие хуже. Это помогает выровнять стиль, полезность и “социальную” адекватность ответа. Но RLHF дороже и сложнее, чем обычный SFT: нужны оценки, контроль, инфраструктура. В малом бизнесе RLHF редко делают “в лоб”; чаще используют готовые модели или более простые методы типа DPO.
RLAIF — похож на RLHF, но вместо людей часть оценок делает другая модель (или правила). Это может ускорить цикл улучшений и снизить стоимость разметки. Однако если “оценщик” сам ошибается, вы закрепите ошибки и получите стабильную, но неправильную модель. В бизнесе RLAIF имеет смысл, когда у вас уже есть хорошие критерии качества и вы умеете ловить регрессии.
DPO — популярный упрощённый способ учить модель предпочтениям без сложной RL-петли. Обычно используют пары “ответ A лучше ответа B”, чтобы модель выбирала более правильный стиль/поведение. DPO часто проще внедрять и дешевле, чем RLHF, при хорошем эффекте для диалогов и формата. Для бизнеса это хороший кандидат, если SFT уже сделан, но хочется “дотянуть” качество и полезность.
Это эффект, когда модель после дообучения “забывает” часть старых навыков или начинает хуже работать на общих задачах. Особенно заметно, если дообучение узкое и агрессивное, а данных мало. Для бизнеса это выглядит так: “стало лучше в одном, но сломалось в другом”. Поэтому обязательно нужны тесты на “базовых” сценариях, чтобы не потерять важные функции.
Переобучение — когда модель слишком хорошо запомнила обучающие примеры и хуже работает на новых данных. В бизнесе это проявляется так: “на наших тестовых примерах идеально, а реальные клиенты пишут иначе — и всё ломается”. Переобучение часто лечится качеством данных, разнообразием примеров и правильными настройками обучения. Самый простой сигнал — резкий разрыв между качеством на обучении и на тесте.
Эпоха — это один “проход” по всему обучающему набору данных. Больше эпох — больше шанс выжать качество, но и выше риск переобучения или “перекоса” поведения. В практике ищут баланс: достаточно, чтобы модель усвоила шаблоны, но не начала зубрить. В бизнесе важно помнить: “прибавим эпох” — не всегда улучшение, иногда это ухудшение.
Learning rate — это “насколько сильно” модель меняется при обучении. Слишком высокий learning rate может быстро “сломать” полезные навыки и сделать поведение нестабильным. Слишком низкий — обучение будет идти долго и может почти ничего не изменить. Для бизнеса смысл простой: это одна из главных ручек риска, и её нельзя подбирать “на глаз”.
Чекпоинт — сохранённая версия модели в процессе обучения. Это полезно, потому что не всегда “последняя версия” лучшая: иногда на середине обучение было оптимальным, а дальше пошло ухудшение. Чекпоинты дают возможность откатиться и сравнить качества. В бизнесе это must-have: без чекпоинтов любой эксперимент превращается в “назад пути нет”.
Eval set — набор примеров, который модель не видела в обучении, и по нему измеряют качество. Это защита от самообмана: если теста нет, вы почти гарантированно переоцените качество. В бизнесе eval set должен быть похож на реальность: реальные формулировки клиентов, реальные документы, реальные ошибки. Идеально — иметь ещё и “golden set” из критичных сценариев.
Версионирование — это практика хранить и обозначать версии модели (и данных/промптов), чтобы понимать, что именно сейчас в проде. Без версий вы не сможете быстро выяснить: “когда ухудшилось и почему”. В бизнесе это критично для поддержки и ответственности: нужно уметь откатиться на стабильную версию. Версии обычно связывают: модель + датасет + параметры обучения + метрики.