Промт по картинке или референсу: как разобрать изображение и получить рабочий запрос

Вы показываете нейросети картинку и пишете: «Сделай так же».

А она делает не «так же», а «примерно из той же вселенной». Цвет похож. Объект почти тот. Настроение где-то рядом. Но результат всё равно нельзя поставить в статью, баннер или презентацию.

Проблема не всегда в модели. Часто проблема в задаче.

Референс сам по себе не объясняет, что именно нужно повторить: композицию, свет, цвет, стиль, ракурс, фон, материал, атмосферу или формат. Человек смотрит на картинку и понимает: «Мне нравится вот это». Нейросеть так не думает. Ей нужно объяснить, что брать из изображения, а что оставить в покое.

16 мин чтения3 461 словПромты-Инструкции
Александр Владимиров
Александр Владимиров
Автор CompanionAI
Промт по картинке или референсу: как разобрать изображение и получить рабочий запрос

Хороший промт по картинке начинается не с фразы «сделай красиво». Он начинается с разбора.

Маршрут простой:

референс → разбор → приоритеты → промт → ограничения → генерация → правка

Если этот маршрут пропустить, нейросеть начинает угадывать. А когда она угадывает, результат обычно приходится переделывать.

Инфографика: качественный промт по картинке

Что такое референс: не картинка для копирования, а визуальное ТЗ

Референс — это изображение, которое помогает объяснить визуальное направление.

Это может быть фото, баннер, 3D-иллюстрация, обложка статьи, интерьер, карточка товара, скриншот сайта, постер или просто картинка, где вам нравится свет, цвет или настроение.

Главное: референс нужен не для копирования чужой работы один в один.

Он нужен, чтобы разобрать, как устроена картинка:

  • какой главный объект;
  • где он расположен;
  • какой свет;
  • какая палитра;
  • какой фон;
  • какой стиль;
  • какое настроение;
  • какой формат кадра.

То есть хороший референс — это не просьба «сделай такую же картинку». Это визуальное ТЗ.

Плохой подход:

«Сделай как на этой картинке».

Нормальный подход:

«Возьми из референса композицию: объект слева, свободное место справа под заголовок. Сохрани мягкий студийный свет, светлый фон, минималистичный 3D-стиль и зелёный акцент. Не копируй конкретные элементы, логотипы и текст».

В первом случае нейросеть получает пожелание.

Во втором — задачу.

Текстовый промт, reference image и image editing — не одно и то же

Есть три разных сценария.

Текстовый промт — вы описываете изображение словами. Картинку можно держать перед глазами, но модель работает только с текстом.

Reference image — вы загружаете картинку как визуальную подсказку и дополнительно объясняете, что из неё нужно взять.

Image editing или image-to-image — вы не просто вдохновляетесь изображением, а хотите изменить конкретное фото или сцену: заменить фон, добавить объект, поменять одежду, свет, причёску, стиль.

Если нужно сделать новый баннер в похожей визуальной логике — это работа с референсом.

Если нужно отредактировать конкретное фото — это редактирование изображения.

Если нужно объяснить идею без загрузки картинки — достаточно текстового промта.

Почему «сделай как на картинке» работает плохо

Одна картинка содержит десятки признаков.

На референсе может быть красивый свет, пастельная палитра, необычный ракурс, дорогой интерьер, мягкие тени, размытый фон, матовый материал и свободное место под текст.

Но что из этого важно?

Человек может смотреть на картинку и думать: «Мне нужен такой свет».

А нейросеть может решить: «Нужен такой же человек, такая же комната, такой же стул и ещё вот этот цветочный горшок в углу».

Формально она старалась.

По факту результат ушёл в сторону.

Поэтому референс нужно не пересказывать, а разбирать.

Плохой запрос:

«Сделай красивую современную картинку как на примере, для сайта, премиально».

Лучше:

«Нужен горизонтальный hero-баннер 16:9 для сайта. Возьми из референса минималистичную композицию: главный 3D-объект слева, справа свободное место под заголовок. Свет мягкий студийный, фон светло-серый, палитра спокойная, акцент зелёный. Стиль — premium 3D render. Без текста, логотипов, людей и лишних предметов».

Здесь уже понятно, что именно нужно получить.

Сначала решите, что именно вы берёте из референса

Главная ошибка — смотреть на картинку и говорить: «Мне нравится всё».

Если нравится всё, промт быстро превращается в мешок с визуальными пожеланиями. Туда попадает свет, цвет, фон, стиль, камера, настроение, случайные детали и предметы, которые вообще не нужны будущему изображению.

Из референса не обязательно брать всё.

Можно взять только:

  • композицию;
  • цветовую палитру;
  • свет;
  • ракурс;
  • настроение;
  • материал;
  • фон;
  • плотность деталей;
  • стиль;
  • подачу объекта;
  • место под текст;
  • общую атмосферу.

Например, вы смотрите на рекламный баннер и понимаете: объект вам не нужен, цвет не подходит, но композиция отличная. Тогда так и пишите:

«Используй референс только для композиции: объект слева, справа много свободного пространства под текст».

Или наоборот:

«Композицию не повторять. Взять только мягкий свет, светлый фон и спокойную палитру».

Промт по референсу не должен описывать всё, что есть на картинке. Он должен управлять будущим результатом.

Как разобрать референс: объект, композиция, свет, цвет и стиль

Чтобы написать промт по картинке, нужно разобрать её по слоям.

Не надо быть дизайнером с двадцатилетним стажем. Достаточно последовательно ответить на несколько вопросов.

Главный объект

Сначала определите, что должно быть в центре внимания.

Это может быть человек, товар, интерфейс, здание, предмет, еда, абстрактная форма, 3D-объект, экран приложения, документ, рабочее место.

Если главный объект не указан, нейросеть сама решит, что важно. Иногда решит слишком творчески.

Например, вы хотели баннер про CRM, а получили счастливого человека с ноутбуком, графиком, чашкой кофе и чем-то похожим на финансовый успех. Всё как в стоках. То есть никак.

Пишите конкретно:

«главный объект — абстрактный 3D-интерфейс CRM»;

«главный объект — карточка товара на светлом фоне»;

«главный объект — мобильный экран с формой заявки»;

«главный объект — стеклянный куб с зелёным свечением».

Задача изображения

Дальше нужно понять, для чего нужна картинка.

Одна и та же визуальная идея будет по-разному работать для обложки статьи, баннера сайта, карточки товара и поста в соцсетях.

Если задача — обложка статьи, нужно место под заголовок.

Если задача — карточка товара, объект должен быть читаемым.

Если задача — hero-блок сайта, важно оставить воздух под текст и кнопку.

Если задача — фон, детали не должны спорить с контентом.

Плохой промт:

«Сделай картинку про автоматизацию».

Лучше:

«Горизонтальный hero-баннер 16:9 для страницы услуги про автоматизацию заявок: абстрактная схема сайта, формы, CRM и менеджера, минималистичный digital-стиль, свободное место справа под заголовок и кнопку».

Композиция и формат

Композиция отвечает на вопрос: где что находится в кадре.

Посмотрите на референс и определите:

  • объект по центру или сбоку;
  • много ли свободного пространства;
  • есть ли место под текст;
  • кадр симметричный или динамичный;
  • объект крупный или маленький;
  • фон пустой или детальный;
  • камера смотрит прямо, сверху, сбоку или под углом;
  • есть ли глубина пространства.

Для сайта, блога и презентаций это особенно важно. Красивое изображение без места под заголовок часто бесполезно. Его можно повесить на стену. В макет — сложнее.

Формат тоже нужно указывать сразу:
ФорматГде чаще используется
16:9обложка статьи, презентация, горизонтальный баннер
3:1широкий баннер сайта
1:1соцсети, карточки, квадратные превью
4:5вертикальные посты
9:16сторис, reels, shorts, вертикальные экраны

Примеры формулировок:

horizontal 16:9 banner;

wide 3:1 website hero image;

square 1:1 product image;

object on the left, empty space on the right;

centered composition;

top-down view;

isometric view;

close-up shot;

wide shot with a lot of negative space.

Negative space — это свободное пространство в кадре. В баннерах и обложках оно нужно, чтобы было куда поставить заголовок, кнопку или короткий текст.

Свет

Свет может полностью изменить результат.

Один и тот же объект при мягком студийном свете выглядит аккуратно и дорого. При случайном жёстком свете — как фото для объявления «продам срочно».

Посмотрите на референс:

свет мягкий или жёсткий;

тени глубокие или почти незаметные;

сцена светлая или драматичная;

источник света сбоку, сверху или сзади;

есть ли ощущение студии;

свет дневной, тёплый, холодный, кинематографичный.

Полезные формулировки:

soft studio lighting;

diffused light;

natural daylight;

warm side light;

cinematic lighting;

backlight;

high contrast lighting;

soft shadows;

dramatic shadows;

clean product lighting.

На русском тоже можно:

мягкий студийный свет;

рассеянный дневной свет;

тёплый боковой свет;

контровой свет;

кинематографичный свет;

мягкие тени;

жёсткие тени;

низкий контраст;

высокий контраст.

Цвет и настроение

Цвет нужно описывать конкретно.

«Красиво» — это не цвет. «Премиально» — тоже не цвет. «Современно» — вообще слово с характером тумана.

Лучше писать:

светлый нейтральный фон;

тёмный графитовый фон;

монохромная палитра;

пастельные оттенки;

зелёный акцент;

холодная технологичная палитра;

тёплая бежево-золотая гамма;

низкая насыщенность;

высокий контраст;

мягкие серые оттенки;

акцентный цвет только на главном объекте.

Настроение тоже лучше описывать через визуальные признаки.

Не просто:

«сделай дорого».

А: «minimal premium look, clean background, soft studio lighting, restrained color palette, a lot of negative space».

Не просто: «технологично».

А: «dark graphite background, subtle grid, green accent glow, abstract interface elements, clean digital style».

Фон, материалы и детали

Фон отвечает за контекст. Материалы — за ощущение качества. Детали — за глубину изображения.

Посмотрите на референс и выпишите только то, что нужно будущей картинке:

  • минималистичный фон;
  • студийная поверхность;
  • размытый офис;
  • стекло;
  • металл;
  • матовый пластик;
  • бумага;
  • дерево;
  • ткань;
  • цифровой интерфейс;
  • абстрактные формы;
  • мягкое размытие фона.

Детали должны помогать задаче. Если описать всё подряд, получится визуальный чердак: вроде много всего, но жить там неудобно.

Стиль и жанр

Стиль лучше описывать не словами «вау», «дорого» и «современно», а конкретным жанром изображения.

Примеры:

photorealistic product shot;

editorial photo;

premium 3D render;

isometric illustration;

flat illustration;

minimal digital art;

cinematic scene;

UX mockup;

poster design.

Можно добавить 1–2 уточнения, но не стоит смешивать сразу пять стилей. Фраза «фотореалистичный минималистичный 3D flat vector watercolor cinematic poster» звучит богато, но для модели это конфликт.

Таблица: как разобрать референс перед промтом
Что разобратьВопрос к референсуКак записать в промт
Главный объектЧто должно быть в центре внимания?central 3D object, product, portrait, interface screen
ЗадачаДля чего нужна картинка?blog cover, website hero banner, product card
КомпозицияГде расположен объект?object on the left, empty space on the right
ФорматКуда пойдёт изображение?16:9 horizontal banner, square 1:1
СветКак освещена сцена?soft studio lighting, cinematic side light
ЦветКакая палитра?light gray background, green accent
ФонЧто вокруг объекта?minimal clean background, blurred office background
МатериалыИз чего сделаны объекты?matte plastic, glass, brushed metal
СтильКакой жанр изображения?premium 3D render, editorial photo
НастроениеКакое ощущение даёт картинка?calm, clean, professional, futuristic
ОграниченияЧего не должно быть?no text, no logos, no extra objects

Смысл таблицы простой: вы не пытаетесь «почувствовать красоту». Вы переводите картинку в параметры.

Так промт становится похож на нормальное ТЗ.

Как из разбора изображения собрать промт

Когда референс разобран, промт собирается слоями.

Сначала описываем сцену

Начните с основы:

тип изображения + задача + главный объект + формат

Например:

«Горизонтальный баннер 16:9 для статьи о цифровом продукте: абстрактный 3D-объект слева, свободное место справа под заголовок».

Или:

«Квадратное изображение 1:1 для карточки товара: один предмет в центре, чистый светлый фон, акцент на форме и материале».

Или:

«Обложка статьи для блога о CRM: минималистичная digital-сцена с интерфейсными карточками, статусами заявок и лёгкой 3D-глубиной».

На этом этапе не нужно добавлять всё подряд. Сначала сцена должна быть понятной.

Затем добавляем визуальные параметры

После основы добавьте:

  • стиль;
  • композицию;
  • ракурс;
  • свет;
  • палитру;
  • фон;
  • материалы;
  • настроение;
  • уровень детализации.

Например:

«premium 3D render, soft studio lighting, light gray background, restrained color palette, green accent, matte plastic and glass materials, clean minimal composition».

Так модель уже понимает не только что рисовать, но и как это должно выглядеть.

В конце добавляем ограничения

Ограничения защищают результат от мусора.

Полезные ограничения:

  • без текста;
  • без логотипов;
  • без водяных знаков;
  • без людей;
  • без лишних объектов;
  • без перегруженного фона;
  • без случайных иконок;
  • без копирования конкретного бренда;
  • без узнаваемых персонажей;
  • оставить пустое место под заголовок;
  • не добавлять интерфейсный текст;
  • не использовать агрессивные цвета.

Пример:

«No text, no logos, no watermarks, no people, no extra objects, leave empty space on the right for headline».

Универсальная формула промта по референсу

Можно пользоваться такой формулой:

Тип изображения + задача + главный объект + композиция + формат + стиль + свет + цвет + фон + материалы + настроение + ограничения.

Пример:

«Горизонтальный hero-баннер 16:9 для сайта IT-компании. Главный объект — абстрактный 3D-интерфейс CRM слева, справа свободное место под заголовок и кнопку. Стиль — clean premium 3D render, мягкий студийный свет, светло-серый фон, спокойная палитра с зелёным акцентом, материалы: матовый пластик и полупрозрачное стекло. Атмосфера — технологичная, аккуратная, деловая. Без текста, логотипов, людей, лишних предметов и водяных знаков».

Это уже не «сделай красиво».

Это задача.

На русском разберите, на английском уточните визуальные параметры

На русском удобно думать.

Вы быстрее разберёте картинку, поймёте задачу, выпишете параметры, уберёте лишнее и соберёте нормальную структуру.

Но многие генераторы изображений лучше понимают короткие англоязычные визуальные формулировки. Особенно когда речь про стиль, свет, камеру, материалы и жанр.

Рабочий подход такой:

сначала разобрать референс на русском;

затем собрать структуру;

после этого при необходимости перевести финальный промт на английский;

после генерации уточнить отдельные параметры.

Например, на русском:

«Мягкий студийный свет, светлый фон, объект слева, справа место под текст, минималистичный 3D-стиль».

На английском:

«soft studio lighting, light gray background, object on the left, empty space on the right for headline, minimal premium 3D render».

Не обязательно всегда писать на английском. Но если результат слишком расплывчатый, короткие английские формулировки часто помогают.

Пример разбора: из слабого описания в рабочий промт

Допустим, нужен баннер для статьи в блоге CompanionAI.

Референс — минималистичная 3D-картинка: светлый фон, абстрактный объект, мягкий свет, зелёный акцент, много свободного пространства под заголовок.

Слабый запрос:

«Сделай красивую современную 3D-картинку как на референсе для сайта».

Почему он слабый?

Потому что в нём нет задачи, формата, композиции, света, палитры, ограничений и понимания, что именно брать из референса.

Разберём по слоям.

ПараметрЧто берём из референсаКак записать
ЗадачаБаннер для статьиblog cover banner
ФорматГоризонтальный кадрhorizontal 16:9
Главный объектАбстрактный 3D-объектabstract 3D object
КомпозицияОбъект слева, справа воздухobject on the left, empty space on the right
СветМягкий студийныйsoft studio lighting
ЦветСветлый фон, зелёный акцентlight gray background, green accent
МатериалыМатовый пластик, стеклоmatte plastic, translucent glass
СтильПремиальный минималистичный 3Dminimal premium 3D render
ОграниченияБез текста и логотиповno text, no logos, no watermarks

Теперь можно собрать промт на русском:

«Горизонтальный баннер 16:9 для статьи в блоге о цифровых продуктах и ИИ. Слева расположен абстрактный 3D-объект, справа много свободного пространства под заголовок. Стиль — минималистичный premium 3D render, мягкий студийный свет, светло-серый чистый фон, спокойная палитра с зелёным акцентом. Материалы: матовый пластик и полупрозрачное стекло. Атмосфера — технологичная, аккуратная, деловая. Без текста, логотипов, людей, водяных знаков и лишних объектов».

Английская версия:

«Horizontal 16:9 blog cover banner about digital products and AI. An abstract 3D object is placed on the left, with a lot of empty space on the right for a headline. Minimal premium 3D render style, soft studio lighting, clean light gray background, restrained color palette with a green accent. Matte plastic and translucent glass materials. Clean, professional, modern digital atmosphere. No text, no logos, no people, no watermarks, no extra objects.»

Почему этот промт лучше?

Потому что он управляет результатом.

Он объясняет модели:

  • что сделать;
  • для чего;
  • в каком формате;
  • где разместить объект;
  • какой нужен свет;
  • какая палитра;
  • какой стиль;
  • чего не добавлять.

Такой промт можно править. Можно усилить зелёный акцент. Можно заменить 3D на фотореализм. Можно поменять светлый фон на тёмный. Можно сделать объект справа, а текстовое место слева.

У слабого промта править нечего. Там только просьба «сделай красиво». А красота без параметров — это лотерея.

Как исправлять результат после первой генерации

Даже хороший промт не всегда даёт идеальный результат с первой попытки.

Это нормально. Первая генерация часто нужна не как финал, а как черновик.

Смотрите не на то, «понравилось или нет», а на то, какой параметр сбился.

Что пошло не так
Что уточнить в промте
Нет места под текст
add empty space on the right, more negative space
Слишком много деталей
minimal clean background, fewer objects
Не тот стиль, убрать конфликтующие стили, оставить один главный стиль

Модель добавила текстno text, no typography, no lettersПоявились логотипыno logos, no brand marksСвет слишком жёсткийsoft studio lighting, diffused light, soft shadowsЦвет ушёл в сторону уточнить палитру и акцентный цвет
Объект не главный central object, main focus on..., simple composition
Картинка выглядит дешёвоclean composition, premium materials, controlled lighting, fewer details

Не исправляйте всё сразу. Меняйте один-два параметра за попытку.

Иначе вы не поймёте, что именно улучшило результат.

Как использовать несколько референсов и не собрать кашу

Иногда одного референса мало.

В одной картинке нравится композиция, во второй — цвет, в третьей — материал, в четвёртой — свет.

Это нормально. Так часто и работают дизайнеры.

Проблема начинается, когда пользователь загружает пять разных изображений и пишет:

«Сделай что-то в таком стиле».

В каком именно?

В первом референсе — фотореализм. Во втором — мультяшный flat. В третьем — киберпанк. В четвёртом — интерьер с золотом. В пятом — минималистичный SaaS-баннер.

Нейросеть может попытаться всё объединить. Получится визуальный винегрет. Иногда съедобный. Чаще — нет.

Правило простое: у каждого референса должна быть роль.

Например:

первый референс — только композиция;

второй — цветовая палитра;

третий — свет;

четвёртый — материал;

пятый лучше убрать.

Формулировать можно так:

«Используй первый референс только для композиции: объект слева, свободное место справа. Второй референс используй для цветовой палитры: светлый фон, зелёный акцент, мягкие серые оттенки. Третий референс используй для материала объекта: матовый пластик и полупрозрачное стекло. Не копируй конкретные элементы, логотипы, персонажей и текст».

Если вы не можете объяснить, зачем нужен каждый референс, лучше его не добавлять.

Частые ошибки при промтах по картинке

Описывать всё подряд

Не каждый элемент референса важен.

Если на картинке есть красивый свет, это не значит, что нужно повторять все предметы, фон, цвет одежды, позу, текстуру пола и случайную лампу в углу.

Чем больше лишних деталей, тем выше шанс, что модель утянет результат в сторону.

Не понимать, что именно нравится в изображении

Фраза «мне нравится стиль» слишком общая.

  • Что именно нравится?
  • Свет?
  • Цвет?
  • Минимализм?
  • Воздух?
  • Камера?
  • Материал?
  • Настроение?
  • Плотность деталей?

Пока это не названо, промт остаётся мутным.

Не указывать задачу изображения

Баннер, обложка, карточка товара и фон — это разные задачи.

Для баннера нужно место под текст.

Для карточки товара нужен читаемый объект.

Для фона нужна спокойная детализация.

Для обложки статьи нужна композиция, которая работает с заголовком.

Если задачу не указать, модель сделает просто картинку. Может быть даже красивую. Но красивая картинка не всегда решает задачу.

Забывать про формат

Если вам нужен широкий баннер 3:1, а вы не указали формат, не удивляйтесь квадратной картинке.

Если нужна обложка 16:9, пишите это сразу.

Если нужен вертикальный кадр для сторис, тоже пишите сразу.

Формат — это не мелочь. Это границы будущего макета.

Не оставлять место под текст

Для сайта, блога, рекламы и презентаций это критично.

Можно получить отличный визуал, но если заголовок некуда поставить, картинка превращается в красивую проблему.

Пишите прямо:

empty space on the right for headline;

clean area at the top for text;

leave negative space for typography;

no text inside the image.

Смешивать несовместимые стили

Не надо просить одновременно фотореализм, flat vector, watercolor, 3D render и cinematic poster.

Лучше выбрать один основной стиль и одно-два уточнения:

minimal premium 3D render;

photorealistic product shot;

flat vector illustration;

editorial portrait photo;

cinematic interior scene.

Копировать чужой стиль слишком буквально

Референс лучше использовать как подсказку, а не как повод скопировать чужую работу.

Не стоит просить модель повторить конкретный бренд, логотип, узнаваемого персонажа, фирменный стиль или работу автора один в один.

Лучше описывать признаки:

не «сделай как у этого бренда»;

а «минималистичная композиция, светлый фон, крупный объект, мягкие тени, спокойная палитра, акцентный цвет».

Так вы получаете нужное направление без прямого копирования.

Не добавлять ограничения

Если не написать «без текста», модель может добавить текст.

Если не написать «без логотипов», может добавить странный псевдологотип.

Если не написать «без людей», в кадре внезапно появятся люди.

Если не написать «без лишних объектов», появятся предметы, которые никто не звал.

Нейросеть не читает мысли. Пока что. И хорошо.

Чек-лист: готов ли промт по референсу

  • Перед генерацией проверьте промт.
  • Понятен главный объект.
  • Ясна задача изображения.
  • Выбран формат кадра.
  • Описана композиция.
  • Понятно, что именно берём из референса.
  • Описан стиль.
  • Описан свет.
  • Описана цветовая палитра.
  • Указан фон.
  • Добавлены материалы и фактуры, если они важны.
  • Нет лишних деталей.
  • Есть ограничения.
  • Оставлено место под текст, если оно нужно.
  • Референс не копируется один в один.
  • Промт можно прочитать как нормальное ТЗ.
  • Если половина пунктов не закрыта, промт лучше доработать до генерации. Так быстрее, чем потом делать двадцать попыток и говорить: «Ну почти».


Хороший промт начинается не с картинки, а с разбора

Референс сам по себе не решает задачу.

Он помогает только тогда, когда понятно, что именно из него нужно взять.

Хороший промт по картинке — это не пересказ изображения. Это разбор визуальной системы: что главное, как устроен кадр, какой свет, какой цвет, какой стиль, какие ограничения.

Нейросети не нужно ваше восхищение картинкой.

Ей нужна постановка задачи.

Если промт можно прочитать как ТЗ, он готов.

Если он похож на эмоцию, его нужно доработать.

Референс полезен не тогда, когда его копируют, а тогда, когда по нему умеют объяснить, каким должен быть результат.