mrtnv | prism

📱 Эволюция компьютерного зрения: от пикселей к пониманию мира

Вчера был на T-Meetup: CV & Speech и решил запустить серию постов об удивительной эволюции компьютерного зрения.

Держите первую часть! 🚀

Компьютерное зрение (CV) прошло огромный путь от простого распознавания краёв и форм до почти человеческого понимания изображений. Изначально CV работало только с визуальными данными: модели учились находить объекты, классифицировать их, определять позиции. Но мир не делится на отдельные модальности – и здесь на сцену выходит мультимодальность.

Мультимодальность

– это способность AI работать одновременно с разными типами данных (

изображения + текст + аудио

). Это позволяет моделям воспринимать информацию целостно, как это делаем мы с вами.

История мультимодальных моделей CV:

1️⃣

Семейство CLIP (Contrastive Language-Image Pre-training) – настоящий прорыв! Эти модели обучаются на миллионах пар изображение-текст из интернета и создают общее пространство признаков для обеих модальностей.

Что делает CLIP особенным:

– Может определять объекты, которых не видел при обучении
– Понимает абстрактные концепции и шутки на изображениях
– Служит фундаментом для многих современных систем генерации изображений

2️⃣

CoCa/BLIP/BLIP-2 – следующий шаг эволюции. Если CLIP умеет связывать изображения и текст, то эти модели могут генерировать текстовые описания по изображениям:

– Создают развёрнутые описания того, что видят
– Способны отвечать на вопросы по содержанию изображения
– BLIP-2 использует "замороженные" визуальные и текстовые энкодеры, но добавляет Q-former для связи между ними

Но есть и минусы: BLIP-2 иногда путается в пространственных отношениях («правее/левее», «выше/ниже»).

3️⃣

GLIP (Grounded Language-Image Pre-training) – объединяет распознавание объектов с текстовой модальностью:

– Превращает задачу обнаружения объектов в задачу поиска по тексту
– Может находить объекты по текстовому запросу без дополнительного обучения
– Использует "заземление" (grounding) между словами и регионами изображения

Следите за продолжением серии! Скоро расскажу о прикладном применении этих технологий и новейших моделях, преодолевающих ограничения своих предшественников.

#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

Тинькофф Банк

T-Meetup: CV & Speech

Обсудим компьютерное зрение и речевые технологии

50❤201👍178🥰176🤩176👏173🎉154❤‍🔥8🦄6

1.9K viewsedited 13:23

mrtnv | prism

📱 Эволюция мультимодальных моделей: от CLIP к PALI, LLaVA и Kosmos

В прошлом посте мы рассматривали базовые концепции мультимодальности и первые архитектуры, такие как CLIP, BLIP, GLIP.
Теперь следующий шаг: более продвинутые модели, в которых языковые и визуальные компоненты взаимодействуют на уровне смыслов, контекста и намерений.

1️⃣ (m)T5 + ViT = PALI
PALI (Pathways Language and Image model) — мощная модель от Google, объединяющая Vision Transformer (ViT) для обработки изображений с языковой моделью T5.

Ключевые особенности PALI:

– Объединение моделей двух модальностей, каждая из которых предобучена только на своих доменах
– Относительно простая архитектура, но очень эффективная
– Основной задачей была Visual Question Answering (VQA) – ответы на вопросы по изображениям

2️⃣

LLaMa + CLIP = LLaVA
LLaVA соединяет мощь языковой модели LLaMA с визуальными способностями CLIP, что даёт интересные результаты:

– Появляется возможность обращать внимание именно на те свойства изображения, которые описаны в тексте инструкции
– Возможность инструктивного поведения
–Обучение на большом датасете пар текст-картинка (100K+) даёт модели больше свободы в генерации текстов

3️⃣

Kosmos-1(2): LLM + GLIP
Kosmos продвинул мультимодальность ещё дальше, используя:

– Language Model для анализа текста
– GLIP для анализа изображений и grounding объектов

4️⃣

Grounding DINO = CLIP + DINO
Эта модель специализируется на точной локализации объектов по текстовому запросу:

– Комбинирует подходы CLIP и DINO
– Создаёт мощную архитектуру для детекции объектов с открытым словарём
– Позволяет находить объекты по текстовому описанию, даже если они не входили в тренировочный набор

Важный тренд, который прослеживается: мы видим последовательное объединение лучших языковых моделей (T5, LLaMA, LLM) с лучшими визуальными моделями (ViT, CLIP, GLIP, DINO). Каждое такое объединение даёт новые возможности и преодолевает ограничения предыдущих подходов.

Не пропусти следующий пост!

Мы проанализируем ключевые мультимодальные модели 2024 года – переломного периода в развитии Vision + LLM технологий. Вы узнаете о достижениях QWEN-VL, INTERN-VL, LLaMA-vision, MMLMO, FLORENCE/KOSMOS и проприетарных решениях от крупнейших технологических компаний.

Я расскажу, как изменился подход к интеграции визуальных и языковых моделей и какое влияние это оказало на современные ИИ-системы.

#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

66❤17👏13🤩10👍88🎉7🥰4🤓4

922 viewsedited 16:02

mrtnv | prism

📱2024 в обзоре: мультимодальные модели Vision + LLM

2024 год стал поворотным в развитии мультимодальных ИИ-систем. Это был период активного экспериментирования, масштабирования и перехода от архитектурных прототипов к прикладным решениям.

Ниже – обзор ключевых моделей и подходов, определивших технологическую повестку прошлого года.

1️⃣

QWEN-VL
Серия моделей от Alibaba. Главные преимущества:

– Добавление к текстовым возможностям мультимодальности
– Легкая и быстрая архитектура
– Обрабатывает изображения и видео
– Поддерживает русский язык

2️⃣

INTERN-VL
Серия моделей от OpenGVLab:

– Оптимальная работа с корпоративными фреймворками
– Уникальный подход к кодированию визуальной информации, признанный в академическом сообществе
– Высокая точность распознавания визуального контекста

3️⃣

LLaMA-vision / NVLM / Pixtral
– LLaMA-vision: открытая архитектура (база на LLaMA) + визуальный энкодер; гибкая настройка под конкретные задачи.
– NVLM: акцент на скорость обучения и анализ видео; подходит для корпоративных платформ.
– Pixtral: креативное решение для интерактивных презентаций и художественных проектов.

Все три инструмента способствуют тесной интеграции компьютерного зрения и языковых моделей, формируя фундамент для будущих агентных систем и новых мультимодальных сервисов.

4️⃣

MMLMO
Разработка Allen Institute:

– Инновационная методика обработки мультимодальных данных
– Выдающиеся способности к визуальному заземлению (grounding) – точному связыванию языковых концепций с визуальными элементами
– Улучшенная точность при работе с визуальными элементами и их описанием

5️⃣

FLORENCE / KOSMOS
Две серии мультимодальных моделей от Microsoft:

– Florence: продвинутый механизм grounding и мультиформатная генерация; работает на нескольких языках, но пока без поддержки русского.
– KOSMOS: масштабирует возможности GPT-подобных архитектур, обеспечивая универсальную работу с текстом и изображениями

6️⃣

Проприетарные модели
GPT, Claude, Gemini и другие:

– Почти все имеют мультимодальные возможности
– Закрытая архитектура
– Наиболее доступны через API
– Отличаются уровнем интеграции: Claude 3 и GPT-4V особенно сильны в понимании сложных визуальных сцен, Gemini — в работе с многоязычным контентом

🧭 Итоговое наблюдение:

2024 год стал годом системной интеграции: языковые и визуальные модели больше не развивались параллельно, а начали функционировать как единое целое. Это заложило основу для появления агентных систем и мультимодальных интерфейсов, которые мы наблюдаем уже в 2025 году.

#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

28❤14🤩13👍11🎉8🦄64🥰3👏3

829 viewsedited 17:14

mrtnv | prism

📱Будущее CV: модели 2025 года и ключевые тренды

Завершаем серию постов об эволюции компьютерного зрения и мультимодальных технологий, охватывающей горизонты релизов конца 2024 и 2025 годов

Расскажу о том, что уже появляется на горизонте: какие модели и технологии формируют облик ближайшего будущего

Новые модели и их ключевые особенности:

1️⃣

Qwen 2.5-VL + OMNI
– Усиление агентного поведения: управление интерфейсами, работа с командами
– Поддержка видео и звука на вход/выход – переход от bimodal к trimodal
– Подходит для использования в цифровых аватарах и мультимодальных ассистентах

2️⃣

INTERN-VL 2.5
– Увеличенный vision-энкодер
– Поддержка Chain-of-Thought reasoning в визуальных задачах
– Повышенная точность интерпретации сложных изображений

3️⃣

Phi-3 Vision (Microsoft)
– Компактная, быстрая VLM
– Оптимизирована под edge-устройства и мобильные платформы
– Хороший баланс между скоростью и качеством анализа

4️⃣

SigLIP2 + Gemma-3 (Google)
– Эволюция CLIP-подобных моделей с интеграцией в LLM
– Расширенные генеративные возможности
– Улучшение точности в open-ended визуальных задачах

5️⃣

DeepSeek-VL 2
– Модель в духе LLaVA с использованием SigLIP в качестве визуального энкодера
– Фокус на zero-shot reasoning и интерпретации, конкурентоспособная в open-source экосистеме

6️⃣

Проприетарные решения
– Claude 3.7: уже с возможностью управления операционными системами
– GPT-4.5: представлена с улучшенной агентностью и адаптивностью

➡️

Эти модели становятся ядром мультимодальных интерфейсов будущего

Мы прошли путь от первых мультимодальных моделей (CLIP, BLIP) через ключевые этапы развития (LLaVA, PALI, Kosmos), к появлению новых систем, способных не только "

видеть

" и "

читать

", но и "

слышать

", "п

онимать контекст

" и "

действовать

".

Сегодня

мультимодальность выходит за рамки задач компьютерного зрения

– она становится архитектурной основой универсального цифрового интеллекта в реальном времени.

Это не просто следующая итерация CV, а

переход к системам, воспринимающим мир целостно – на уровне, близком к человеческому

.

#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism

@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

29❤17🥰12👏10🎉6🤩6🤓6👍55

629 views17:05

mrtnv | prism

CPU устал, GPU тащит. А кто такие TPU и ASIC?

Меня часто спрашивают:

Что не так с CPU, и почему для ИИ все гонятся за GPU?

Ловите TL;DR:

Когда вы тренируете нейросеть, вы умножаете

тензоры – огромные матрицы чисел

.
А это

массовые параллельные вычисления

. Такие операции требуют тысяч параллельных вычислений.

CPU с этим не справляется

: у него немного ядер, и он рассчитан на последовательные задачи – принятие решений, управление логикой, обработку инструкций.

А теперь по порядку ⬇️

⚙️

GPU (Graphics Processing Unit) – стандарт для машинного обучения

Изначально создавались для графики, но благодаря архитектуре с тысячами ядер идеально подошли для глубокого обучения. Они массово обрабатывают тензоры и стали индустриальным стандартом для тренировки нейросетей. Даже топовые CPU заметно уступают видеокартам, а такие решения, как NVIDIA A100, – основа для запуска LLM, генерации изображений и обучения моделей.

⚙️

TPU (Tensor Processing Unit) – специализированное решение от Google

Аппаратная платформа от Google, разработанная специально для машинного обучения. Она оптимизирована под фреймворк TensorFlow и используется внутри продуктов Google: от рекомендательных систем YouTube до Bard и Translate. TPU эффективнее GPU в узкоспециализированных сценариях, особенно по энергоэффективности и скорости обучения.

⚙️

ASIC (Application-Specific Integrated Circuit) – максимум производительности в одной задаче

Чип, созданный для выполнения одной конкретной функции. Он даёт максимальную производительность и минимальное энергопотребление, но не универсален. ASIC применяются в криптомайнинге, автопилотах, мобильных устройствах (например, чип распознавания лиц в iPhone) и других узконаправленных задачах.

По мере специализации растёт эффективность, но падает гибкость:

➡️

CPU – делает всё, но медленно для AI

➡️

GPU – отлично для обучения большинства нейросетей

➡️

TPU – ещё лучше, но только для определённых фреймворков

➡️

ASIC – сверхбыстрый, но только для одной конкретной модели

Надеюсь, теперь стало яснее 😉

#AI@mrtnv_prism
#MachineLearning@mrtnv_prism
#TLDR@mrtnv_prism

@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

23❤16🥰12👍11🤩9👏6🎉66🤓43

1.46K viewsedited 19:03

mrtnv | prism

Классификация LLM: как подобрать модель под задачу

Каждый месяц появляются новые языковые модели, обновляются существующие, меняются возможности и ограничения. Как разобраться в этом многообразии и выбрать оптимальное решение?

Погнали разбираться!

TL;DR

➡️Лицензия – proprietary / open-weight / open-source: бюджет, возможность модификации и юридические риски
➡️Размер – 1 B-400 B+ параметров: компромисс качества и скорости инференса
➡️Контекстное окно – считайте не токены «на бумаге», а реальную эффективность
➡️Модальность – text / vision / audio / video: подбирайте под сценарий
➡️Специализация – универсальная или доменная модель: точность vs универсальность

🔐 Уровень открытости
Proprietary (GPT-4o, Claude, Gemini)
– Доступ только через API
– Высокое качество «из коробки»
– Веса закрыты. Ограниченный файнтюн

Open-weight (Llama 3, Mistral 8×22B)
– Веса доступны для скачивания, можно запускать локально
– Лицензия запрещает Llama 3 для сервисов ≥ 700 млн MAU
– Частичный контроль: архитектура закрыта, но инференс у себя

Open-source (Falcon, BLOOM, Mistral 7B)
– Полная свобода: изменения, коммерциализация, аудит кода
– Сильное комьюнити, быстрые патчи и расширения

Многие называют Llama «

open-source

», но формально это

open-weight:

права на модификацию и масштабное коммерческое использование ограничены лицензией

💪 Размер модели
Малые (1–7 B) – можно запускать на ноутбуке; задержка < 100 мс, идеальны для edge и real-time-сценариев.
Средние (13–70 B) – баланс «качество / стоимость»; требуют одного-двух GPU A100/H100; покрывают 80 % production-кейсов.
Гиганты (175 B+) – state-of-the-art; нужны под задачи, где ошибка дороже инфраструктуры (медицина, финансы, R&D).

Аритектурный патерн

Mixture-of-Experts (MoE)

позволяют модели в 8 B параметров вести себя, как классическая 70 B, потому что при каждом запросе включается лишь часть «экспертов». Это резко сокращает требования к памяти и повышает скорость.

🔁 Контекстное окно: заявленное ≠ эффективное
– GPT-4o: заявлено 128 K токенов → эффективно ≈ 64 K
– Claude 3.5: 200 K → ≈ 150 K
– Llama 3: 128 K → ≈ 32 K
Эффективность измеряестя тестами Needle-in-a-Haystack и RULER (2024), где проверяют, находит ли модель «иголку» – факт, спрятанный в длинном документе.

В реальных экспериментах accuracy падает на 30–40 % после ~ 60 % от заявленного окна. Для RAG лучше закладывать запас. Важно: это все эмпирика на опыте :)

🎭 Модальность
Text – классика 90 % задач.
Vision + Text (GPT-4V/o, Claude 3.5 Sonnet, Gemini Pro) – анализ изображений, схем, таблиц; в финтехе заменяют связку «OCR → LLM».
Audio (Whisper-v3, AudioLM) — надёжная транскрипция и генерация речи.
Video (Sora, Lumiere, Google Veo )– уже больше чем R&D. Массового коммерческого внедрения пока нет, но ожидается рост интереса и запуск первых коммерческих сервисов.

🎯 Специализация
Языковая: модели под конкретный язык (Saiga-70B-RU) обычно превосходят универсальные на локальных задачах.
Доменная: Med-PaLM 2, BloombergGPT, CodeLlama-70B обучены на отраслевых корпусах и дают более точные ответы в своей нише.

Например,

для ru-юридических и медицинских кейсов

связка «специализированная модель + RAG» часто дешевле и точнее, чем GPT-4-o без дообучения.

📌 Рекомендации
Стартап / MVP – open-weight 7–13 B; быстрые эксперименты, локальный деплой, квантование до 8-бит.
Enterprise с жёстким compliance – проприетарная модель с SLA или 100 % open-source в своём кластере для контроля данных.
Продукт с миллионами DAU – MoE-архитектура + квантование; оптимизируйте latency и «живое» контекстное окно.

🔮 Взгляд на 2025-2026 гг.
– Контекст >1M токенов станет стандартом к 2026
– Генерация видео выходит в коммерцию уже сейчас
– Ультрамалые модели (<1B) on-device-LLM откроют рынок персональных ассистентов и edge-аналитики без облака

🟢

Рынок LLM растёт экспоненциально: то, что вчера требовало дата-центра, завтра запустится на смартфоне. Не существует «лучшeй» модели в абсолюте – есть задача, бюджет и ограничения.

Выбирайте модель под конкретную задачу и TCO

😉

#LLM #AI #MachineLearning #DataScience
@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

16❤20👍20👏14🎉13🤩13🥰884

2.51K viewsedited 12:45

mrtnv | prism

🤔

Observability в агентных системах: масштабирование начинается с трейсов

В агентных системах инцидент (нестабильность поведения) – это не дефект кода, а штатная характеристика среды.

➡️Когда логика исполнения выносится в runtime, вопрос «почему это упало?» становится критическим. ➡️Observability (наблюдаемость) здесь перестает быть приятным дополнением – это базовое условие выживания, отделяющее управляемый продукт от непредсказуемого хаоса.

▶️

Проблема causal chain: почему агенты стохастичны
LLM – это системы с высоким уровнем энтропии. В агентной обвязке их риски (hallucinations, context drift) усиливаются за счет вероятностного наслоения:

– Архитектурная сложность: tool calling, итеративное планирование и кросс-агентные зависимости перемножают неопределенность модели на нестабильность среды.
– Инфраструктурный хаос: таймауты внешних API, сайд-эффекты инструментов и изменяемый стейт делают систему невозможной для детерминированного описания.

Спроектировать такую конструкцию «без сбоев» нельзя. Критический провал здесь не ошибка как таковая, а отсутствие прозрачного causal chain: возможности мгновенно восстановить цепочку причинно-следственных связей и понять, где именно «поплыла» логика.

▶️

Почему код больше не источник правды
В классическом софте все линейно: код → поведение, стек-трейс → конкретная причина.

В агентных системах эта связка рвется. Код лишь задает границы маневра, а реальное поведение рождается в runtime – через взаимодействие модели с контекстом и инструментами. Теперь источник правды не main.py, а динамическая история исполнения: входные данные, шаги рассуждений (CoT), вызовы инструментов и мутации стейта.

▶️

Из чего состоит observability агентов (LLMOps stack)
– Distributed Tracing (obs-фундамент): каждый запуск упаковывается в trace_id. Мы используем стандарты вроде OpenTelemetry или готовые решения (LangFuse, LangSmith, Arize Phoenix), чтобы превратить блэк бокс в прозрачную иерархию вызовов.
– Глубокое логирование инструментов: I/O и latency каждого Tool Call. Без этого анализ инцидентов превращается в гадание на кофейной гуще.
– Eval внутри трейса: мониторинг здоровья каждого шага через LLM-as-a-judge. Это позволяет выявлять логические ошибки до того, как они долетят до пользователя, хотя и требует отдельной калибровки судейской модели.

↔️

Двухуровневые дашборды
Эффективный мониторинг требует разделения:

– Продуктовый слой: success Rate, CSAT, Efficiency, HITL Rate.
– Технический слой: latency, расход токенов, частота регрессий и ошибок внешних API.

Так за минуты становится понятно: проблема в «галлюцинации» агента или в стабильности внешней инфраструктуры.

🟢Агентные системы без наблюдаемости не поддаются масштабированию. Если вы не можете в любой момент восстановить, почему агент принял конкретное решение – у вас не инженерная система, а неконтролируемый процесс.
🟢Именно observability превращает агентную архитектуру из хрупкого эксперимента в устойчивый продукт, готовый к эксплуатации в продакшене.

#Observability #AgenticAI #LLMOps #AIArchitecture #ProductionAI #MachineLearning

Please open Telegram to view this post

VIEW IN TELEGRAM

20❤54🎉44👍42🔥41🥰34💯31👏27🤩18❤‍🔥14😍8🤓7

7.56K views21:10

About

Blog

Apps

Platform