mrtnv | prism

📱 Эволюция компьютерного зрения: от пикселей к пониманию мира

Вчера был на T-Meetup: CV & Speech и решил запустить серию постов об удивительной эволюции компьютерного зрения.

Держите первую часть! 🚀

Компьютерное зрение (CV) прошло огромный путь от простого распознавания краёв и форм до почти человеческого понимания изображений. Изначально CV работало только с визуальными данными: модели учились находить объекты, классифицировать их, определять позиции. Но мир не делится на отдельные модальности – и здесь на сцену выходит мультимодальность.

Мультимодальность

– это способность AI работать одновременно с разными типами данных (

изображения + текст + аудио

). Это позволяет моделям воспринимать информацию целостно, как это делаем мы с вами.

История мультимодальных моделей CV:

1️⃣

Семейство CLIP (Contrastive Language-Image Pre-training) – настоящий прорыв! Эти модели обучаются на миллионах пар изображение-текст из интернета и создают общее пространство признаков для обеих модальностей.

Что делает CLIP особенным:

– Может определять объекты, которых не видел при обучении
– Понимает абстрактные концепции и шутки на изображениях
– Служит фундаментом для многих современных систем генерации изображений

2️⃣

CoCa/BLIP/BLIP-2 – следующий шаг эволюции. Если CLIP умеет связывать изображения и текст, то эти модели могут генерировать текстовые описания по изображениям:

– Создают развёрнутые описания того, что видят
– Способны отвечать на вопросы по содержанию изображения
– BLIP-2 использует "замороженные" визуальные и текстовые энкодеры, но добавляет Q-former для связи между ними

Но есть и минусы: BLIP-2 иногда путается в пространственных отношениях («правее/левее», «выше/ниже»).

3️⃣

GLIP (Grounded Language-Image Pre-training) – объединяет распознавание объектов с текстовой модальностью:

– Превращает задачу обнаружения объектов в задачу поиска по тексту
– Может находить объекты по текстовому запросу без дополнительного обучения
– Использует "заземление" (grounding) между словами и регионами изображения

Следите за продолжением серии! Скоро расскажу о прикладном применении этих технологий и новейших моделях, преодолевающих ограничения своих предшественников.

#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

Тинькофф Банк

T-Meetup: CV & Speech

Обсудим компьютерное зрение и речевые технологии

50❤201👍178🥰176🤩176👏173🎉154❤‍🔥8🦄6

1.91K viewsedited 13:23

mrtnv | prism

📱 Эволюция мультимодальных моделей: от CLIP к PALI, LLaVA и Kosmos

В прошлом посте мы рассматривали базовые концепции мультимодальности и первые архитектуры, такие как CLIP, BLIP, GLIP.
Теперь следующий шаг: более продвинутые модели, в которых языковые и визуальные компоненты взаимодействуют на уровне смыслов, контекста и намерений.

1️⃣ (m)T5 + ViT = PALI
PALI (Pathways Language and Image model) — мощная модель от Google, объединяющая Vision Transformer (ViT) для обработки изображений с языковой моделью T5.

Ключевые особенности PALI:

– Объединение моделей двух модальностей, каждая из которых предобучена только на своих доменах
– Относительно простая архитектура, но очень эффективная
– Основной задачей была Visual Question Answering (VQA) – ответы на вопросы по изображениям

2️⃣

LLaMa + CLIP = LLaVA
LLaVA соединяет мощь языковой модели LLaMA с визуальными способностями CLIP, что даёт интересные результаты:

– Появляется возможность обращать внимание именно на те свойства изображения, которые описаны в тексте инструкции
– Возможность инструктивного поведения
–Обучение на большом датасете пар текст-картинка (100K+) даёт модели больше свободы в генерации текстов

3️⃣

Kosmos-1(2): LLM + GLIP
Kosmos продвинул мультимодальность ещё дальше, используя:

– Language Model для анализа текста
– GLIP для анализа изображений и grounding объектов

4️⃣

Grounding DINO = CLIP + DINO
Эта модель специализируется на точной локализации объектов по текстовому запросу:

– Комбинирует подходы CLIP и DINO
– Создаёт мощную архитектуру для детекции объектов с открытым словарём
– Позволяет находить объекты по текстовому описанию, даже если они не входили в тренировочный набор

Важный тренд, который прослеживается: мы видим последовательное объединение лучших языковых моделей (T5, LLaMA, LLM) с лучшими визуальными моделями (ViT, CLIP, GLIP, DINO). Каждое такое объединение даёт новые возможности и преодолевает ограничения предыдущих подходов.

Не пропусти следующий пост!

Мы проанализируем ключевые мультимодальные модели 2024 года – переломного периода в развитии Vision + LLM технологий. Вы узнаете о достижениях QWEN-VL, INTERN-VL, LLaMA-vision, MMLMO, FLORENCE/KOSMOS и проприетарных решениях от крупнейших технологических компаний.

Я расскажу, как изменился подход к интеграции визуальных и языковых моделей и какое влияние это оказало на современные ИИ-системы.

#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

66❤17👏13🤩10👍88🎉7🥰4🤓4

924 viewsedited 16:02

mrtnv | prism

📱2024 в обзоре: мультимодальные модели Vision + LLM

2024 год стал поворотным в развитии мультимодальных ИИ-систем. Это был период активного экспериментирования, масштабирования и перехода от архитектурных прототипов к прикладным решениям.

Ниже – обзор ключевых моделей и подходов, определивших технологическую повестку прошлого года.

1️⃣

QWEN-VL
Серия моделей от Alibaba. Главные преимущества:

– Добавление к текстовым возможностям мультимодальности
– Легкая и быстрая архитектура
– Обрабатывает изображения и видео
– Поддерживает русский язык

2️⃣

INTERN-VL
Серия моделей от OpenGVLab:

– Оптимальная работа с корпоративными фреймворками
– Уникальный подход к кодированию визуальной информации, признанный в академическом сообществе
– Высокая точность распознавания визуального контекста

3️⃣

LLaMA-vision / NVLM / Pixtral
– LLaMA-vision: открытая архитектура (база на LLaMA) + визуальный энкодер; гибкая настройка под конкретные задачи.
– NVLM: акцент на скорость обучения и анализ видео; подходит для корпоративных платформ.
– Pixtral: креативное решение для интерактивных презентаций и художественных проектов.

Все три инструмента способствуют тесной интеграции компьютерного зрения и языковых моделей, формируя фундамент для будущих агентных систем и новых мультимодальных сервисов.

4️⃣

MMLMO
Разработка Allen Institute:

– Инновационная методика обработки мультимодальных данных
– Выдающиеся способности к визуальному заземлению (grounding) – точному связыванию языковых концепций с визуальными элементами
– Улучшенная точность при работе с визуальными элементами и их описанием

5️⃣

FLORENCE / KOSMOS
Две серии мультимодальных моделей от Microsoft:

– Florence: продвинутый механизм grounding и мультиформатная генерация; работает на нескольких языках, но пока без поддержки русского.
– KOSMOS: масштабирует возможности GPT-подобных архитектур, обеспечивая универсальную работу с текстом и изображениями

6️⃣

Проприетарные модели
GPT, Claude, Gemini и другие:

– Почти все имеют мультимодальные возможности
– Закрытая архитектура
– Наиболее доступны через API
– Отличаются уровнем интеграции: Claude 3 и GPT-4V особенно сильны в понимании сложных визуальных сцен, Gemini — в работе с многоязычным контентом

🧭 Итоговое наблюдение:

2024 год стал годом системной интеграции: языковые и визуальные модели больше не развивались параллельно, а начали функционировать как единое целое. Это заложило основу для появления агентных систем и мультимодальных интерфейсов, которые мы наблюдаем уже в 2025 году.

#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

28❤14🤩13👍11🎉8🦄64🥰3👏3

831 viewsedited 17:14

mrtnv | prism

📱Будущее CV: модели 2025 года и ключевые тренды

Завершаем серию постов об эволюции компьютерного зрения и мультимодальных технологий, охватывающей горизонты релизов конца 2024 и 2025 годов

Расскажу о том, что уже появляется на горизонте: какие модели и технологии формируют облик ближайшего будущего

Новые модели и их ключевые особенности:

1️⃣

Qwen 2.5-VL + OMNI
– Усиление агентного поведения: управление интерфейсами, работа с командами
– Поддержка видео и звука на вход/выход – переход от bimodal к trimodal
– Подходит для использования в цифровых аватарах и мультимодальных ассистентах

2️⃣

INTERN-VL 2.5
– Увеличенный vision-энкодер
– Поддержка Chain-of-Thought reasoning в визуальных задачах
– Повышенная точность интерпретации сложных изображений

3️⃣

Phi-3 Vision (Microsoft)
– Компактная, быстрая VLM
– Оптимизирована под edge-устройства и мобильные платформы
– Хороший баланс между скоростью и качеством анализа

4️⃣

SigLIP2 + Gemma-3 (Google)
– Эволюция CLIP-подобных моделей с интеграцией в LLM
– Расширенные генеративные возможности
– Улучшение точности в open-ended визуальных задачах

5️⃣

DeepSeek-VL 2
– Модель в духе LLaVA с использованием SigLIP в качестве визуального энкодера
– Фокус на zero-shot reasoning и интерпретации, конкурентоспособная в open-source экосистеме

6️⃣

Проприетарные решения
– Claude 3.7: уже с возможностью управления операционными системами
– GPT-4.5: представлена с улучшенной агентностью и адаптивностью

➡️

Эти модели становятся ядром мультимодальных интерфейсов будущего

Мы прошли путь от первых мультимодальных моделей (CLIP, BLIP) через ключевые этапы развития (LLaVA, PALI, Kosmos), к появлению новых систем, способных не только "

видеть

" и "

читать

", но и "

слышать

", "п

онимать контекст

" и "

действовать

".

Сегодня

мультимодальность выходит за рамки задач компьютерного зрения

– она становится архитектурной основой универсального цифрового интеллекта в реальном времени.

Это не просто следующая итерация CV, а

переход к системам, воспринимающим мир целостно – на уровне, близком к человеческому

.

#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism

@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

29❤17🥰12👏10🎉6🤩6🤓6👍55

631 views17:05

About

Blog

Apps

Platform