Мультимодальные ИИ — это модели, которые умеют работать не только с текстом, но и с изображениями, аудио и видео. Для бизнеса это значит: можно распознавать документы, проверять карточки товаров, делать озвучку, искать по фото, анализировать звонки и даже помогать с визуалами для маркетинга. Но тут особенно важны ограничения и контроль качества: картинки и речь легко трактовать неверно, а ошибки могут стоить дорого. Ниже — основные термины, чтобы понимать мультимодальные инструменты без лишней технарщины.

Мультимодальность — способность системы работать с разными типами данных: текстом, изображениями, аудио, видео. В отличие от “текстовой” LLM, мультимодальная модель может получать картинку на вход и выдавать текст, или наоборот — получать текст и генерировать изображение/аудио. На практике мультимодальность чаще всего полезна как “понимание” (анализ документов, фото товара), а генерация — как ускорение креатива. В бизнесе важно заранее определить, где вы ждёте факт (распознать), а где допустимы варианты (сгенерировать).
VLM — модель, которая связывает изображение и текст: “понимает картинку” и описывает её словами, отвечает на вопросы по изображению. Это полезно для проверки карточек товаров, анализа скриншотов, документов, инструкций, UI-экранов. VLM хорошо справляется с типовыми визуальными задачами, но может ошибаться на мелких деталях или плохом качестве изображения. Поэтому в бизнесе VLM лучше использовать как помощника: выявить подозрительное и дать подсказку, а критичное — подтверждать.
Компьютерное зрение — направление ИИ, которое решает задачи анализа изображений и видео: распознавание объектов, дефектов, текста, сцен. В отличие от “описания картинки”, CV может быть очень прикладным и строгим: “есть ли логотип”, “сколько коробок”, “распознаём ли номер”. В бизнесе CV часто эффективнее “чата по картинке”, когда нужна чёткая проверка. Но качество зависит от данных, освещения, ракурсов и стандартизации входных фото.
OCR — распознавание текста на изображениях: сканы, фото документов, накладные, прайсы, этикетки. OCR часто работает в связке с LLM: сначала извлекаем текст, потом модель структурирует и проверяет. Классическая боль OCR — качество исходника: кривой скан, блики, низкое разрешение, нестандартные шрифты. Поэтому в бизнесе важно задавать стандарты сканов и делать пост-проверки (например, контроль суммы, ИНН, дат).
Document AI — комплексная обработка документов: OCR + извлечение полей + классификация типа документа + проверки. Это не просто “прочитать текст”, а “понять структуру”: где дата, где сумма, где поставщик. Для бизнеса это один из самых окупаемых сценариев: меньше ручного ввода, меньше ошибок, быстрее процессы. Но Document AI требует понятных шаблонов и правил: какие поля обязательны и как проверять корректность.
Классификация изображений — задача “к какому классу относится картинка”. Это полезно, когда нужен чёткий ярлык: тип товара, категория дефекта, наличие/отсутствие элемента. Классификация проще и стабильнее, чем “описание картинки”, потому что выход ограничен набором классов. В бизнесе это часто первый шаг: быстро сортировать поток, а сложные случаи отправлять человеку.
Детекция — найти объекты на изображении и указать где они находятся (рамки/координаты). В отличие от классификации, детекция отвечает “что и где”. Это полезно для инвентаризации, контроля упаковки, подсчёта предметов, проверки маркировок. В бизнесе детекция требует единых условий съёмки; иначе качество падает из-за теней, ракурса и перекрытий.
Сегментация — более точная “детекция”, когда модель выделяет объект по пикселям (не рамкой, а контуром). Она полезна для сложных задач: дефекты поверхности, точные границы, фон/объект. В бизнесе сегментация применяется, когда рамок мало: например, нужно понять площадь повреждения или выделить область этикетки. Цена — сложнее разметка и выше требования к данным.
Captioning — генерация краткого описания того, что на изображении. Это полезно для каталогов, доступности (alt-тексты), поиска по описанию, быстрой модерации. Но captioning не гарантирует полноты: модель может упустить мелкие детали или “обобщить”. В бизнесе captioning хорош как черновик, который ускоряет работу, но не заменяет правила и проверку для критичных требований.
Эмбеддинги для изображений — числовое представление “смысла” картинки, чтобы искать похожие изображения по содержанию. Это основа “поиска по фото”: пользователь загружает картинку, система находит похожие товары или примеры. В бизнесе это полезно для e-commerce, модерации дубликатов, управления медиатекой. Как и в текстовом поиске, качество зависит от индексации, метаданных и фильтров.
Диффузионные модели — главный класс генерации изображений (визуалы, иллюстрации, варианты). Они хороши в создании разнообразных картинок по текстовому описанию и в редактировании изображений. Для бизнеса это ускоритель креатива: больше вариантов за меньше времени. Но качество и “управляемость” сильно зависят от промпта, референсов и ограничений бренда.
Inpainting — это редактирование изображения: удалить объект, заменить фон, исправить часть картинки, “дорисовать” недостающее. Это очень практично для маркетинга: быстро убрать лишнее, подогнать под формат, сделать несколько вариантов. Но есть риск артефактов: странные края, “пластиковость”, несоответствие света. В бизнесе inpainting лучше использовать как инструмент ускорения дизайнерской рутины, а не как абсолютную замену дизайнера.
Outpainting — расширение изображения за пределы исходного кадра: “добавь пространство слева/сверху”, чтобы сделать широкий баннер или другой формат. Это удобно для адаптации визуалов под разные площадки. Но outpainting может “выдумать” элементы фона и изменить стиль, если не задать рамки. Поэтому в бизнесе outpainting используют для фоновых областей и аккуратно — рядом с важным объектом.
Upscaling — повышение разрешения изображения, чтобы оно выглядело более чётким. Это полезно для старых фото, превью, каталогов, когда исходники маленькие. Но апскейл не “создаёт реальную деталь”, он скорее дорисовывает правдоподобно — иногда добавляя артефакты. В бизнесе апскейл хорош для веба, но для печати и “юридически точной” графики всё равно нужен контроль.
ASR — превращение аудио в текст: звонки, голосовые сообщения, встречи. Это база для аналитики колл-центра, контроля качества и поиска по звонкам. В реальности ASR зависит от шума, качества микрофона, акцентов и терминологии. В бизнесе обычно делают пост-обработку: корректировка терминов, пунктуация, разбиение на реплики.
TTS — озвучка текста голосом: автоответчики, голосовые боты, озвучка инструкций, роликов. Это ускоряет создание контента и повышает доступность. Но важно учитывать стиль речи, ударения и “естественность”: плохой TTS раздражает. В бизнесе TTS хорошо работает для коротких сценариев и понятных текстов, а для “эмоционального” контента нужен аккуратный выбор голоса.
Диаризация — определение, кто из участников говорит в записи: “спикер 1”, “спикер 2”, и где границы реплик. Это критично для анализа звонков: иначе вы не понимаете, что сказал оператор, а что — клиент. Диаризация улучшает аналитику и качество извлечения смыслов. Но на плохих записях (перебивания, шум) диаризация может ошибаться, поэтому нужен контроль.
Анализ видео — понимание событий во времени: что происходит по кадрам, какие действия, какие объекты. Это сложнее, чем картинки: тут важна динамика и контекст. В бизнесе видео-анализ применяют в контроле процессов, обучении персонала, безопасности, контент-модерации. Но качество сильно зависит от качества видео, частоты кадров и постановки задачи.
Мультимодальные системы требуют модерации: изображения и аудио могут содержать запрещённые темы, персональные данные, чужие бренды, чувствительный контент. Для бизнеса безопасность — это не только “политика”, но и риск блокировок, претензий и репутационных проблем. Обычно вводят фильтры, ограничения и логирование. И отдельно — правила, что система делает, если видит риск (скрыть, запросить подтверждение, эскалировать).