📱 Эволюция компьютерного зрения: от пикселей к пониманию мира
Вчера был на T-Meetup: CV & Speech и решил запустить серию постов об удивительной эволюции компьютерного зрения.
Держите первую часть! 🚀
История мультимодальных моделей CV:
1️⃣ Семейство CLIP (Contrastive Language-Image Pre-training) – настоящий прорыв! Эти модели обучаются на миллионах пар изображение-текст из интернета и создают общее пространство признаков для обеих модальностей.
Что делает CLIP особенным:
– Может определять объекты, которых не видел при обучении
– Понимает абстрактные концепции и шутки на изображениях
– Служит фундаментом для многих современных систем генерации изображений
2️⃣ CoCa/BLIP/BLIP-2 – следующий шаг эволюции. Если CLIP умеет связывать изображения и текст, то эти модели могут генерировать текстовые описания по изображениям:
– Создают развёрнутые описания того, что видят
– Способны отвечать на вопросы по содержанию изображения
– BLIP-2 использует "замороженные" визуальные и текстовые энкодеры, но добавляет Q-former для связи между ними
Но есть и минусы: BLIP-2 иногда путается в пространственных отношениях («правее/левее», «выше/ниже»).
3️⃣ GLIP (Grounded Language-Image Pre-training) – объединяет распознавание объектов с текстовой модальностью:
– Превращает задачу обнаружения объектов в задачу поиска по тексту
– Может находить объекты по текстовому запросу без дополнительного обучения
– Использует "заземление" (grounding) между словами и регионами изображения
Следите за продолжением серии! Скоро расскажу о прикладном применении этих технологий и новейших моделях, преодолевающих ограничения своих предшественников.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
Вчера был на T-Meetup: CV & Speech и решил запустить серию постов об удивительной эволюции компьютерного зрения.
Держите первую часть! 🚀
Компьютерное зрение (CV) прошло огромный путь от простого распознавания краёв и форм до почти человеческого понимания изображений. Изначально CV работало только с визуальными данными: модели учились находить объекты, классифицировать их, определять позиции. Но мир не делится на отдельные модальности – и здесь на сцену выходит мультимодальность.
Мультимодальность
– это способность AI работать одновременно с разными типами данных (
изображения + текст + аудио
). Это позволяет моделям воспринимать информацию целостно, как это делаем мы с вами.
История мультимодальных моделей CV:
Что делает CLIP особенным:
– Может определять объекты, которых не видел при обучении
– Понимает абстрактные концепции и шутки на изображениях
– Служит фундаментом для многих современных систем генерации изображений
– Создают развёрнутые описания того, что видят
– Способны отвечать на вопросы по содержанию изображения
– BLIP-2 использует "замороженные" визуальные и текстовые энкодеры, но добавляет Q-former для связи между ними
Но есть и минусы: BLIP-2 иногда путается в пространственных отношениях («правее/левее», «выше/ниже»).
– Превращает задачу обнаружения объектов в задачу поиска по тексту
– Может находить объекты по текстовому запросу без дополнительного обучения
– Использует "заземление" (grounding) между словами и регионами изображения
Следите за продолжением серии! Скоро расскажу о прикладном применении этих технологий и новейших моделях, преодолевающих ограничения своих предшественников.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
Тинькофф Банк
T-Meetup: CV & Speech
Обсудим компьютерное зрение и речевые технологии
50❤201👍178🥰176🤩176👏173🎉154❤🔥8🦄6
📱 Эволюция мультимодальных моделей: от CLIP к PALI, LLaVA и Kosmos
В прошлом посте мы рассматривали базовые концепции мультимодальности и первые архитектуры, такие как CLIP, BLIP, GLIP.
Теперь следующий шаг: более продвинутые модели, в которых языковые и визуальные компоненты взаимодействуют на уровне смыслов, контекста и намерений.
1️⃣ (m)T5 + ViT = PALI
PALI (Pathways Language and Image model) — мощная модель от Google, объединяющая Vision Transformer (ViT) для обработки изображений с языковой моделью T5.
Ключевые особенности PALI:
– Объединение моделей двух модальностей, каждая из которых предобучена только на своих доменах
– Относительно простая архитектура, но очень эффективная
– Основной задачей была Visual Question Answering (VQA) – ответы на вопросы по изображениям
2️⃣ LLaMa + CLIP = LLaVA
LLaVA соединяет мощь языковой модели LLaMA с визуальными способностями CLIP, что даёт интересные результаты:
– Появляется возможность обращать внимание именно на те свойства изображения, которые описаны в тексте инструкции
– Возможность инструктивного поведения
–Обучение на большом датасете пар текст-картинка (100K+) даёт модели больше свободы в генерации текстов
3️⃣ Kosmos-1(2): LLM + GLIP
Kosmos продвинул мультимодальность ещё дальше, используя:
– Language Model для анализа текста
– GLIP для анализа изображений и grounding объектов
4️⃣ Grounding DINO = CLIP + DINO
Эта модель специализируется на точной локализации объектов по текстовому запросу:
– Комбинирует подходы CLIP и DINO
– Создаёт мощную архитектуру для детекции объектов с открытым словарём
– Позволяет находить объекты по текстовому описанию, даже если они не входили в тренировочный набор
Не пропусти следующий пост!
Мы проанализируем ключевые мультимодальные модели 2024 года – переломного периода в развитии Vision + LLM технологий. Вы узнаете о достижениях QWEN-VL, INTERN-VL, LLaMA-vision, MMLMO, FLORENCE/KOSMOS и проприетарных решениях от крупнейших технологических компаний.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
В прошлом посте мы рассматривали базовые концепции мультимодальности и первые архитектуры, такие как CLIP, BLIP, GLIP.
Теперь следующий шаг: более продвинутые модели, в которых языковые и визуальные компоненты взаимодействуют на уровне смыслов, контекста и намерений.
PALI (Pathways Language and Image model) — мощная модель от Google, объединяющая Vision Transformer (ViT) для обработки изображений с языковой моделью T5.
Ключевые особенности PALI:
– Объединение моделей двух модальностей, каждая из которых предобучена только на своих доменах
– Относительно простая архитектура, но очень эффективная
– Основной задачей была Visual Question Answering (VQA) – ответы на вопросы по изображениям
LLaVA соединяет мощь языковой модели LLaMA с визуальными способностями CLIP, что даёт интересные результаты:
– Появляется возможность обращать внимание именно на те свойства изображения, которые описаны в тексте инструкции
– Возможность инструктивного поведения
–Обучение на большом датасете пар текст-картинка (100K+) даёт модели больше свободы в генерации текстов
Kosmos продвинул мультимодальность ещё дальше, используя:
– Language Model для анализа текста
– GLIP для анализа изображений и grounding объектов
Эта модель специализируется на точной локализации объектов по текстовому запросу:
– Комбинирует подходы CLIP и DINO
– Создаёт мощную архитектуру для детекции объектов с открытым словарём
– Позволяет находить объекты по текстовому описанию, даже если они не входили в тренировочный набор
Важный тренд, который прослеживается: мы видим последовательное объединение лучших языковых моделей (T5, LLaMA, LLM) с лучшими визуальными моделями (ViT, CLIP, GLIP, DINO). Каждое такое объединение даёт новые возможности и преодолевает ограничения предыдущих подходов.
Не пропусти следующий пост!
Мы проанализируем ключевые мультимодальные модели 2024 года – переломного периода в развитии Vision + LLM технологий. Вы узнаете о достижениях QWEN-VL, INTERN-VL, LLaMA-vision, MMLMO, FLORENCE/KOSMOS и проприетарных решениях от крупнейших технологических компаний.
Я расскажу, как изменился подход к интеграции визуальных и языковых моделей и какое влияние это оказало на современные ИИ-системы.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
66❤17👏13🤩10👍8 8🎉7🥰4🤓4
📱2024 в обзоре: мультимодальные модели Vision + LLM
2024 год стал поворотным в развитии мультимодальных ИИ-систем. Это был период активного экспериментирования, масштабирования и перехода от архитектурных прототипов к прикладным решениям.
1️⃣ QWEN-VL
Серия моделей от Alibaba. Главные преимущества:
– Добавление к текстовым возможностям мультимодальности
– Легкая и быстрая архитектура
– Обрабатывает изображения и видео
– Поддерживает русский язык
2️⃣ INTERN-VL
Серия моделей от OpenGVLab:
– Оптимальная работа с корпоративными фреймворками
– Уникальный подход к кодированию визуальной информации, признанный в академическом сообществе
– Высокая точность распознавания визуального контекста
3️⃣ LLaMA-vision / NVLM / Pixtral
– LLaMA-vision: открытая архитектура (база на LLaMA) + визуальный энкодер; гибкая настройка под конкретные задачи.
– NVLM: акцент на скорость обучения и анализ видео; подходит для корпоративных платформ.
– Pixtral: креативное решение для интерактивных презентаций и художественных проектов.
Все три инструмента способствуют тесной интеграции компьютерного зрения и языковых моделей, формируя фундамент для будущих агентных систем и новых мультимодальных сервисов.
4️⃣ MMLMO
Разработка Allen Institute:
– Инновационная методика обработки мультимодальных данных
– Выдающиеся способности к визуальному заземлению (grounding) – точному связыванию языковых концепций с визуальными элементами
– Улучшенная точность при работе с визуальными элементами и их описанием
5️⃣ FLORENCE / KOSMOS
Две серии мультимодальных моделей от Microsoft:
– Florence: продвинутый механизм grounding и мультиформатная генерация; работает на нескольких языках, но пока без поддержки русского.
– KOSMOS: масштабирует возможности GPT-подобных архитектур, обеспечивая универсальную работу с текстом и изображениями
6️⃣ Проприетарные модели
GPT, Claude, Gemini и другие:
– Почти все имеют мультимодальные возможности
– Закрытая архитектура
– Наиболее доступны через API
– Отличаются уровнем интеграции: Claude 3 и GPT-4V особенно сильны в понимании сложных визуальных сцен, Gemini — в работе с многоязычным контентом
🧭 Итоговое наблюдение:
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
2024 год стал поворотным в развитии мультимодальных ИИ-систем. Это был период активного экспериментирования, масштабирования и перехода от архитектурных прототипов к прикладным решениям.
Ниже – обзор ключевых моделей и подходов, определивших технологическую повестку прошлого года.
Серия моделей от Alibaba. Главные преимущества:
– Добавление к текстовым возможностям мультимодальности
– Легкая и быстрая архитектура
– Обрабатывает изображения и видео
– Поддерживает русский язык
Серия моделей от OpenGVLab:
– Оптимальная работа с корпоративными фреймворками
– Уникальный подход к кодированию визуальной информации, признанный в академическом сообществе
– Высокая точность распознавания визуального контекста
– LLaMA-vision: открытая архитектура (база на LLaMA) + визуальный энкодер; гибкая настройка под конкретные задачи.
– NVLM: акцент на скорость обучения и анализ видео; подходит для корпоративных платформ.
– Pixtral: креативное решение для интерактивных презентаций и художественных проектов.
Все три инструмента способствуют тесной интеграции компьютерного зрения и языковых моделей, формируя фундамент для будущих агентных систем и новых мультимодальных сервисов.
Разработка Allen Institute:
– Инновационная методика обработки мультимодальных данных
– Выдающиеся способности к визуальному заземлению (grounding) – точному связыванию языковых концепций с визуальными элементами
– Улучшенная точность при работе с визуальными элементами и их описанием
Две серии мультимодальных моделей от Microsoft:
– Florence: продвинутый механизм grounding и мультиформатная генерация; работает на нескольких языках, но пока без поддержки русского.
– KOSMOS: масштабирует возможности GPT-подобных архитектур, обеспечивая универсальную работу с текстом и изображениями
GPT, Claude, Gemini и другие:
– Почти все имеют мультимодальные возможности
– Закрытая архитектура
– Наиболее доступны через API
– Отличаются уровнем интеграции: Claude 3 и GPT-4V особенно сильны в понимании сложных визуальных сцен, Gemini — в работе с многоязычным контентом
🧭 Итоговое наблюдение:
2024 год стал годом системной интеграции: языковые и визуальные модели больше не развивались параллельно, а начали функционировать как единое целое. Это заложило основу для появления агентных систем и мультимодальных интерфейсов, которые мы наблюдаем уже в 2025 году.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
28❤14🤩13👍11🎉8🦄6 4🥰3👏3
Вы можете не знать, что это такое – но если пользуетесь смартфоном, вебом или банком, Git работал на вас уже тысячи раз. Это система, с помощью которой разработчики всего мира хранят и координируют код.
Git создал Линус Торвальдс – тот самый, что стоит за ядром Linux. По случаю юбилея GitHub взял у него короткое, но очень живое интервью.
Там про все:
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
The GitHub Blog
Git turns 20: A Q&A with Linus Torvalds
To celebrate two decades of Git, we sat down with Linus Torvalds—the creator of Git and Linux—to discuss how it forever changed software development.
22❤14👏12👍11🤩8🎉6🥰5🤓5
В продолжение темы Git👇
Git не только изменил индустрию, но и продолжает путать даже тех, кто с ним работает каждый день.
Вот шпаргалка, которая реально помогает, а не пугает:
➡️ git init – если начинаешь с чистого листа
➡️ git add . – когда всё вроде бы готово
➡️ git commit -m "починил всё" – когда веришь, что починил
➡️ git push – когда отпускаешь в прод и держишь кулачки
Шпаргалка по Git на одной странице
Понятно, наглядно и без занудства. Полезно и тем, кто только осваивает Git, и тем, кто уже с ним давно, но всё ещё время от времени гуглит, как откатить последний коммит.
Сохраняйте себе, на случай, если Git снова начнёт сопротивляться🙃
#DigitalBasics@mrtnv_prism
@mrtnv_prism
Git не только изменил индустрию, но и продолжает путать даже тех, кто с ним работает каждый день.
Вот шпаргалка, которая реально помогает, а не пугает:
Шпаргалка по Git на одной странице
Понятно, наглядно и без занудства. Полезно и тем, кто только осваивает Git, и тем, кто уже с ним давно, но всё ещё время от времени гуглит, как откатить последний коммит.
Сохраняйте себе, на случай, если Git снова начнёт сопротивляться
💡 И да – это не только для разработчиков
Git сегодня важен НЕ только разработчикам. Всё больше ролей: аналитики, тимлиды, архитекторы, продакты и не только – постепенно входят в культуру работы с кодом.
Всё планомерно движется к architecture as code, everything as code, all the code, и это не просто модные слова.
Об этом – отдельно, скоро расскажу🔜
#DigitalBasics@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
67❤18🎉13🤩11✍7👍6🥰5👏5 5
📱Будущее CV: модели 2025 года и ключевые тренды
Завершаем серию постов об эволюции компьютерного зрения и мультимодальных технологий, охватывающей горизонты релизов конца 2024 и 2025 годов
Новые модели и их ключевые особенности:
1️⃣ Qwen 2.5-VL + OMNI
– Усиление агентного поведения: управление интерфейсами, работа с командами
– Поддержка видео и звука на вход/выход – переход от bimodal к trimodal
– Подходит для использования в цифровых аватарах и мультимодальных ассистентах
2️⃣ INTERN-VL 2.5
– Увеличенный vision-энкодер
– Поддержка Chain-of-Thought reasoning в визуальных задачах
– Повышенная точность интерпретации сложных изображений
3️⃣ Phi-3 Vision (Microsoft)
– Компактная, быстрая VLM
– Оптимизирована под edge-устройства и мобильные платформы
– Хороший баланс между скоростью и качеством анализа
4️⃣ SigLIP2 + Gemma-3 (Google)
– Эволюция CLIP-подобных моделей с интеграцией в LLM
– Расширенные генеративные возможности
– Улучшение точности в open-ended визуальных задачах
5️⃣ DeepSeek-VL 2
– Модель в духе LLaVA с использованием SigLIP в качестве визуального энкодера
– Фокус на zero-shot reasoning и интерпретации, конкурентоспособная в open-source экосистеме
6️⃣ Проприетарные решения
– Claude 3.7: уже с возможностью управления операционными системами
– GPT-4.5: представлена с улучшенной агентностью и адаптивностью
➡️ Эти модели становятся ядром мультимодальных интерфейсов будущего
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
@mrtnv_prism
Завершаем серию постов об эволюции компьютерного зрения и мультимодальных технологий, охватывающей горизонты релизов конца 2024 и 2025 годов
Расскажу о том, что уже появляется на горизонте: какие модели и технологии формируют облик ближайшего будущего
Новые модели и их ключевые особенности:
– Усиление агентного поведения: управление интерфейсами, работа с командами
– Поддержка видео и звука на вход/выход – переход от bimodal к trimodal
– Подходит для использования в цифровых аватарах и мультимодальных ассистентах
– Увеличенный vision-энкодер
– Поддержка Chain-of-Thought reasoning в визуальных задачах
– Повышенная точность интерпретации сложных изображений
– Компактная, быстрая VLM
– Оптимизирована под edge-устройства и мобильные платформы
– Хороший баланс между скоростью и качеством анализа
– Эволюция CLIP-подобных моделей с интеграцией в LLM
– Расширенные генеративные возможности
– Улучшение точности в open-ended визуальных задачах
– Модель в духе LLaVA с использованием SigLIP в качестве визуального энкодера
– Фокус на zero-shot reasoning и интерпретации, конкурентоспособная в open-source экосистеме
– Claude 3.7: уже с возможностью управления операционными системами
– GPT-4.5: представлена с улучшенной агентностью и адаптивностью
Мы прошли путь от первых мультимодальных моделей (CLIP, BLIP) через ключевые этапы развития (LLaVA, PALI, Kosmos), к появлению новых систем, способных не только "
видеть
" и "
читать
", но и "
слышать
", "п
онимать контекст
" и "
действовать
".
Сегодня
мультимодальность выходит за рамки задач компьютерного зрения
– она становится архитектурной основой универсального цифрового интеллекта в реальном времени.
Это не просто следующая итерация CV, а
переход к системам, воспринимающим мир целостно – на уровне, близком к человеческому
.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
29❤17🥰12👏10🎉6🤩6🤓6👍5 5
Google выпустил крутое обновление, которое превращает и так очень удобные таблицы в чуть более умного помощника.
Фича работает на Gemini и доступна в Google Workspace Alpha.
Новая функция =AI() позволяет делать прикольные штуки с данными:
Например:
=AI("Написать ответ клиенту по его отзыву", B5)=AI("Классифицировать отзывы как положительные, нейтральные или негативные", F2)=AI("Превратить технические характеристики в маркетинговый текст", C3)=AI("Придумать 3 названия для нового продукта", E7)=AI("Создать слоган для мероприятия до 10 слов", A2)#AI@mrtnv_prism
#DigitalTools@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
25🤩17❤12👏12🥰7👍6🎉5 5🤓4
В Третьяковке с 23 апреля открывается любопытная выставка на стыке AI и искусства.
Можно заглянуть до 25 мая
11 художников не просто экспериментировали с нейросетями, а реально сидели с разработчиками Яндекса, копались в алгоритмах и создали необычные проекты.
На выставке вы увидите жаккардовые полотна, звуковые эксперименты, интерактивные инсталляции и новые прочтения классики. Получилась настоящая творческая синергия – когда художник и нейросеть вместе создают то, что было бы невозможно по отдельности. Искусство становится технологичнее, а технологии – человечнее.
Планирую сходить в ближайшие дни после открытия, потом поделюсь впечатлениями
#Events@mrtnv_prism
#AI@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
Выставка «Человек и нейросети: кто кого создаёт?» — Яндекс и Третьяковская галерея
Современные художники о нейросетях — выставка в Новой Третьяковке на Крымском Валу. С 23 апреля по 25 мая 2025. Совместный проект Яндекса и Третьяковской галереи.
27👍15❤10🎉9 7 7🤩6🥰4👏4❤🔥3
CPU устал, GPU тащит. А кто такие TPU и ASIC?
Меня часто спрашивают:
Ловите TL;DR:
А теперь по порядку⬇️
⚙️ GPU (Graphics Processing Unit) – стандарт для машинного обучения
Изначально создавались для графики, но благодаря архитектуре с тысячами ядер идеально подошли для глубокого обучения. Они массово обрабатывают тензоры и стали индустриальным стандартом для тренировки нейросетей. Даже топовые CPU заметно уступают видеокартам, а такие решения, как NVIDIA A100, – основа для запуска LLM, генерации изображений и обучения моделей.
⚙️ TPU (Tensor Processing Unit) – специализированное решение от Google
Аппаратная платформа от Google, разработанная специально для машинного обучения. Она оптимизирована под фреймворк TensorFlow и используется внутри продуктов Google: от рекомендательных систем YouTube до Bard и Translate. TPU эффективнее GPU в узкоспециализированных сценариях, особенно по энергоэффективности и скорости обучения.
⚙️ ASIC (Application-Specific Integrated Circuit) – максимум производительности в одной задаче
Чип, созданный для выполнения одной конкретной функции. Он даёт максимальную производительность и минимальное энергопотребление, но не универсален. ASIC применяются в криптомайнинге, автопилотах, мобильных устройствах (например, чип распознавания лиц в iPhone) и других узконаправленных задачах.
По мере специализации растёт эффективность, но падает гибкость:
➡️ CPU – делает всё, но медленно для AI
➡️ GPU – отлично для обучения большинства нейросетей
➡️ TPU – ещё лучше, но только для определённых фреймворков
➡️ ASIC – сверхбыстрый, но только для одной конкретной модели
Надеюсь, теперь стало яснее😉
#AI@mrtnv_prism
#MachineLearning@mrtnv_prism
#TLDR@mrtnv_prism
@mrtnv_prism
Меня часто спрашивают:
Что не так с CPU, и почему для ИИ все гонятся за GPU?
Ловите TL;DR:
Когда вы тренируете нейросеть, вы умножаете
тензоры – огромные матрицы чисел
.
А это
массовые параллельные вычисления
. Такие операции требуют тысяч параллельных вычислений.
CPU с этим не справляется
: у него немного ядер, и он рассчитан на последовательные задачи – принятие решений, управление логикой, обработку инструкций.
А теперь по порядку
Изначально создавались для графики, но благодаря архитектуре с тысячами ядер идеально подошли для глубокого обучения. Они массово обрабатывают тензоры и стали индустриальным стандартом для тренировки нейросетей. Даже топовые CPU заметно уступают видеокартам, а такие решения, как NVIDIA A100, – основа для запуска LLM, генерации изображений и обучения моделей.
Аппаратная платформа от Google, разработанная специально для машинного обучения. Она оптимизирована под фреймворк TensorFlow и используется внутри продуктов Google: от рекомендательных систем YouTube до Bard и Translate. TPU эффективнее GPU в узкоспециализированных сценариях, особенно по энергоэффективности и скорости обучения.
Чип, созданный для выполнения одной конкретной функции. Он даёт максимальную производительность и минимальное энергопотребление, но не универсален. ASIC применяются в криптомайнинге, автопилотах, мобильных устройствах (например, чип распознавания лиц в iPhone) и других узконаправленных задачах.
По мере специализации растёт эффективность, но падает гибкость:
Надеюсь, теперь стало яснее
#AI@mrtnv_prism
#MachineLearning@mrtnv_prism
#TLDR@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
23❤16🥰12👍11🤩9👏6🎉6 6🤓4 3
Google представил Agent-to-Agent (A2A) – новый открытый протокол, позволяющий ИИ-агентам взаимодействовать между разными платформами, фреймворками и вендорами.
Что это меняет?
Представьте рабочий процесс:
И всё это происходит автоматически, без участия человека в процессе
Техническая основа A2A:
Кто уже на борту?
Впечатляющий список технологических лидеров: Atlassian, MongoDB, Salesforce, SAP, ServiceNow, Cohere, Langchain, McKinsey и много других
A2A – это не просто новый протокол, а фундаментальный шаг к единому языку искусственного интеллекта. Агенты смогут не только выполнять изолированные задачи, но и координировать усилия, договариваться и совместно решать сложные задачи.
Бета-версия уже доступна, а сам протокол будет полностью открытым.
#AI@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
9 15 8🦄6❤🔥3👍3 1
Почему big tech массово переходит на малые инженерные команды? Как Product Engineer меняет скорость разработки в 2 раза?
Это автономная кросс-функциональная команда из 3-7 специалистов, контролирующая процесс от идеи до эксплуатации. Важный компонент – Product Engineer (PE), объединяющий навыки разработчика и продакт-менеджера.
Классический инженер формулирует задачи через техническую постановку, Product Engineer – через исследование пользователей.
PE принимает продуктовые решения самостоятельно на основе данных и способствует более частым деплоям
В индустрии поговаривают, что такой подход может ускорять вывод фич на рынок примерно на 40%
– Коммуникация: в команде из 6 человек – 15 каналов связи; из 8 – уже 28 (n × (n-1)/2).
– Контекст: члены МИК видят полную картину проекта, что влияет на качество и согласованность работы.
– Архитектура: МИК обычно отвечает за определённый сервис или модуль.
Telegram работает с командой около 30 инженеров и примерно 30 специалистов в core-team. Дуров фактически выполняет функцию главного Product Engineer.
Такая модель позволяет регулярно выпускать обновления,
🟢 МИК с Product Engineer – подход, объединяющий техническую экспертизу с продуктовым мышлением при минимуме лишних коммуникаций.
А вот тут и тут подробнее
#Product@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
11❤23🎉12👍8🤩8👏7 7 6 5🥰1
mrtnv | prism pinned «👋 mrtnv | prism: init() Здесь будет всё, что впечатлило, вдохновило и стоит внимания: 🤖 AI и технологии, с которыми работаю ✈️ Места и впечатления из путешествий 💼 Рабочие проекты и инсайты 🧠 Мысли и наблюдения из жизни Личные находки и открытия – делюсь…»
mrtnv | prism
Теперь есть удобный способ связаться со мной 🤗
Задавайте вопросы, делитесь идеями или просто кликайте для души)) скоро добавлю ещё пару классных фич!
Задавайте вопросы, делитесь идеями или просто кликайте для души)) скоро добавлю ещё пару классных фич!
Please open Telegram to view this post
VIEW IN TELEGRAM
27❤21🤝13🥰10👏9 8👍7🎉6🤩5
Метрики не всегда отражают реальное качество LLM
Компании часто заявляют: «Наша модель на 15% лучше по MMLU» или «Мы выросли на 30% в GSM8K». Но действительно ли эти цифры отражают реальное качество модели?
А теперь детали⤵️
🔍Проблемы стандартных метрик
Оценка LLM по одной метрике – как судить о человеке по одному экзамену
Например, модель может показывать высокие результаты в математике (GSM8K), но слабо справляться с задачами на рассуждение (ARC)
➡️ MMLU: охватывает 57 предметов, но содержит неточности в вопросах и ответах.
➡️ GSM8K: фокусируется на математических рассуждениях, но задачи имеют узкий формат.
➡️ HumanEval/MBPP: оценивают программирование, но ограничены простыми задачами.
➡️ TruthfulQA: проверяет способность модели давать правдивые ответы, но не учитывает контекст и нюансы.
➡️ HELM: более комплексный бенчмарк, но все равно ограничен фиксированным набором задач и не оценивает адаптивность модели.
➡️ Needle in a Haystack: проверяет способность находить конкретную информацию, но не оценивает понимание контекста.
🔍Проблема переобучения на бенчмарках
Модели могут запоминать ответы из тренировочных данных, что приводит к переобучению и завышенным результатам на тестах, но не гарантирует улучшения в реальных задачах.
🔍Почему side-by-side сравнение эффективнее
Сравнение моделей напрямую на одних и тех же задачах позволяет выявить реальные различия в качестве ответов, а не полагаться на абстрактные проценты.
Цифры в статьях и пресс-релизах – не показатель реальной производительности.
Для более-менее объективной оценки:
Так получится лучше понять, какая модель действительно лучше для ваших задач😉
Лидерборд от Vellum
LLM арена на русском
#AI@mrtnv_prism #AI #LLM
@mrtnv_prism
Компании часто заявляют: «Наша модель на 15% лучше по MMLU» или «Мы выросли на 30% в GSM8K». Но действительно ли эти цифры отражают реальное качество модели?
💡 TL;DR: выбирать модель только по оценкам в бенчмарках – не лучшая идея. Как минимум протестируйте её на своих реальных запросах и сравните напрямую с другими моделями. Часто 30% прогресса на тестах = 0% улучшения в реальных задачах
А теперь детали
🔍Проблемы стандартных метрик
Оценка LLM по одной метрике – как судить о человеке по одному экзамену
Например, модель может показывать высокие результаты в математике (GSM8K), но слабо справляться с задачами на рассуждение (ARC)
🔍Проблема переобучения на бенчмарках
Модели могут запоминать ответы из тренировочных данных, что приводит к переобучению и завышенным результатам на тестах, но не гарантирует улучшения в реальных задачах.
🔍Почему side-by-side сравнение эффективнее
Сравнение моделей напрямую на одних и тех же задачах позволяет выявить реальные различия в качестве ответов, а не полагаться на абстрактные проценты.
Цифры в статьях и пресс-релизах – не показатель реальной производительности.
Для более-менее объективной оценки:
– Тестируйте модельки на своих реальных задачах
– Сравнивайте несколько моделей напрямую на одних и тех же задачах
– Оценивайте практическую пользу ответов, а не только формальную точность
– Привлекайте людей к оценке качества (human-in-the-loop)
Так получится лучше понять, какая модель действительно лучше для ваших задач
Лидерборд от Vellum
LLM арена на русском
#AI@mrtnv_prism #AI #LLM
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
Vellum
LLM Leaderboard - Vellum
Compare large language models side by side. Updated rankings based on benchmarks, pricing, and real-world performance.
24👍25❤13👏10🥰7🎉7🤩5 5🦄3 2
Восстание AI-сотрудников отменяется
Результаты? Провальные…😁
Каждому AI-сотруднику давали реальные задачи из повседневной работы настоящей компании:
➡️ Навигация по файловым директориям
➡️ Типовые офисные задачи
➡️ Написание фидбека на производительность коллег
➡️ Разработка софта
➡️ Работа с финансовыми отчетами
➡️ Координация проектов между отделами
Лучшим "работником" оказался Claude 3.5 Sonnet от Anthropic, но даже он справился лишь с 24% заданий! При этом на каждую задачу уходило около 30 шагов и более $6 – прям дорого для такой эффективности. Google Gemini 2.0 Flash занял второе место с результатом всего 11.4% выполненных задач.
Главные проблемы AI-сотрудников исследователи обозначили так:
❌ Отсутствие здравого смысла
❌ Слабые социальные навыки
❌ Плохое понимание того, как ориентироваться в интернете
❌ Самообман – создание "ярлыков", ведущих к провалу
Что это значит для нас?
Так что можно выдохнуть – пока что работа в безопасности!🙃
#AI@mrtnv_prism
Исследователи из Университета Карнеги-Меллон (один из топовых исследовательских центров в области Computer Science и AI) запустили эксперимент TheAgentCompany – фейковую софтверную компанию, где все сотрудники были AI-агентами.
От финансовых аналитиков до разработчиков – компания полностью укомплектована нейросетями.
Результаты? Провальные…
Каждому AI-сотруднику давали реальные задачи из повседневной работы настоящей компании:
Лучшим "работником" оказался Claude 3.5 Sonnet от Anthropic, но даже он справился лишь с 24% заданий! При этом на каждую задачу уходило около 30 шагов и более $6 – прям дорого для такой эффективности. Google Gemini 2.0 Flash занял второе место с результатом всего 11.4% выполненных задач.
Главные проблемы AI-сотрудников исследователи обозначили так:
Что это значит для нас?
Несмотря на громкие заявления технологических гигантов,
роботы пока не готовы забрать наши рабочие места
.
Современные алгоритмы –
потрясающие инструменты, но ужасные самостоятельные исполнители
. Им не хватает интуиции, гибкости мышления и элементарной надежности.
Так что
реальное будущее рынка труда – это симбиоз
: человеческий интеллект направляет и контролирует, а искусственный усиливает возможности и берет на себя монотонные задачи
Так что можно выдохнуть – пока что работа в безопасности!
#AI@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
Futurism
Professors Staffed a Fake Company Entirely With AI Agents, and You'll Never Guess What Happened
An experiment by researchers at Carnegie Melon University staffed a fake software company with AI Agents, and the results were dismal.
9❤26🎉13👍10🥰8🤩8👏5🤓4👾2
ChatGPT – это не одна модель. Их много, и это круто
📌 GPT-4o
Универсальный помощник для повседневных задач. Отлично справляется с письмами, краткими сводками, идеями и лёгкой аналитикой. Понимает текст, картинки, таблицы, документы и даже видео
💬 Примеры:
– Сделать саммари после встречи
– Написать письмо клиенту после запуска проекта
– Придумать идеи презентации по наброскам и скриншотам
📌 GPT-4.5
Лучше всего подходит для текстов, где важен EQ, креативность и убедительность.
💬 Примеры:
– Яркий пост для LinkedIn про тренды ИИ
– Чёткое описание нового продукта
– Письмо а-ля «мы облажались, но вот как мы это исправим»
📌 OpenAI o4-mini
Самая быстрая и экономичная модель для технических вопросов, STEM-задач, программирования и визуальных рассуждений.
💬 Примеры:
– Быстро исправить ошибку в коде
– Извлечь данные из CSV-файла
– Кратко объяснить научную статью
📌 OpenAI o4-mini-height
Модель с дополнительной точностью и глубиной для более-менее сложного программирования, математики и технических объяснений.
💬 Примеры:
– Решить сложное уравнение и объяснить по шагам
– Написать и потестить SQL-запросы
– Подробно объяснить сложную научную тему простыми словами
📌 OpenAI o3
Мощная модель для стратегических задач, глубокого анализа данных, продвинутого программирования и аналитики.
💬 Примеры:
– Проанализировать рынок и предложить стратегию
– Построить многоступенчатый прогноз на основе большого CSV
– Разработать бизнес-стратегию с визуализациями и цифрами
📌 OpenAI o1-pro
Медленная, но максимально точная модель для комплексных аналитических задач, требующих высокого уровня точности.
💬 Примеры:
– Подробный анализ рисков перед запуском продукта
– Многостраничное резюме исследовательских данных
– Алгоритмы и расчёты для финансового прогноза с обоснованием
#AI@mrtnv_prism
OpenAI подробно рассказали, как выбирать модели под разные задачи, чтобы работать максимально эффективно и экономично
Универсальный помощник для повседневных задач. Отлично справляется с письмами, краткими сводками, идеями и лёгкой аналитикой. Понимает текст, картинки, таблицы, документы и даже видео
💬 Примеры:
– Сделать саммари после встречи
– Написать письмо клиенту после запуска проекта
– Придумать идеи презентации по наброскам и скриншотам
Лучше всего подходит для текстов, где важен EQ, креативность и убедительность.
💬 Примеры:
– Яркий пост для LinkedIn про тренды ИИ
– Чёткое описание нового продукта
– Письмо а-ля «мы облажались, но вот как мы это исправим»
Самая быстрая и экономичная модель для технических вопросов, STEM-задач, программирования и визуальных рассуждений.
💬 Примеры:
– Быстро исправить ошибку в коде
– Извлечь данные из CSV-файла
– Кратко объяснить научную статью
Модель с дополнительной точностью и глубиной для более-менее сложного программирования, математики и технических объяснений.
💬 Примеры:
– Решить сложное уравнение и объяснить по шагам
– Написать и потестить SQL-запросы
– Подробно объяснить сложную научную тему простыми словами
Мощная модель для стратегических задач, глубокого анализа данных, продвинутого программирования и аналитики.
💬 Примеры:
– Проанализировать рынок и предложить стратегию
– Построить многоступенчатый прогноз на основе большого CSV
– Разработать бизнес-стратегию с визуализациями и цифрами
Медленная, но максимально точная модель для комплексных аналитических задач, требующих высокого уровня точности.
💬 Примеры:
– Подробный анализ рисков перед запуском продукта
– Многостраничное резюме исследовательских данных
– Алгоритмы и расчёты для финансового прогноза с обоснованием
💡
Чем мощнее моделька, тем выше цена или жестче лимиты
. Поэтому логично подбирать ее под задачу: где-то нужна глубина, а где-то хватит скорости и простоты. Такой подход экономит и время, и деньги – без потери качества.
#AI@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
15❤24🤩14👍12🥰11🎉7 6👏3🦄3 3😁1
AI Tooling ≠ Function Calling
– в чём разница и зачем это знать
Многие путают AI tooling и function calling, используя эти термины как синонимы. Но это разные уровни взаимодействия LLM с внешним миром.
Разберемся, в чём разница и почему это важно.
Сразу ловите TL;DR:
🔍 В чём разница?
AI tooling – широкое понятие:
➡️ Включает любые способы расширения возможностей LLM
➡️ RAG – поиск и подключение внешних документов к контексту
➡️ Плагины и расширения
➡️ Интеграции с внешними сервисами
➡️ Агентные системы
Function Calling – конкретный механизм:
➡️ Структурированный способ вызова функций
➡️ Часть AI Tooling, но не весь туллинг
➡️ Формализованный протокол взаимодействия
➡️ Поддерживается нативно многими моделями
🛠️ Pydantic: мост между LLM и кодом
Pydantic решает ключевую проблему function calling – валидацию и структурирование данных:
Преимущества Pydantic:
➡️ Типизация: чёткие схемы данных
➡️ Валидация: автоматическая проверка параметров
➡️ Документация: описания полей помогают LLM
➡️ Конвертации: автоматическое преобразование типов
Наглядный пример:
❗️ Тренды и будущее
Стандартизация: унификация подходов между провайдерами
Нативная поддержка: встроенные Pydantic-схемы в API
Композиция функций: сложные цепочки вызовов
Автодискавери: LLM сама находит нужные инструменты
#AI@mrtnv_prism
#AITools@mrtnv_prism
@mrtnv_prism
– в чём разница и зачем это знать
Многие путают AI tooling и function calling, используя эти термины как синонимы. Но это разные уровни взаимодействия LLM с внешним миром.
Разберемся, в чём разница и почему это важно.
Сразу ловите TL;DR:
🟢 AI tooling – это общий подход к интеграции моделей с инструментами. Function calling – конкретный механизм вызова функций. А Pydantic помогает структурировать данные для надёжной работы.
🔍 В чём разница?
AI tooling – широкое понятие:
Function Calling – конкретный механизм:
🛠️ Pydantic: мост между LLM и кодом
Pydantic решает ключевую проблему function calling – валидацию и структурирование данных:
from pydantic import BaseModel, Field
class WeatherQuery(BaseModel):
city: str = Field(description="Название города")
units: str = Field(default="celsius", pattern="^(celsius|fahrenheit)$")
# Модель генерирует JSON, Pydantic валидирует
Преимущества Pydantic:
Наглядный пример:
# AI Tooling: общий подход
class AIAssistant:
def __init__(self):
self.tools = {
"search": SearchTool(),
"calculator": CalculatorTool(),
"database": DatabaseTool()
}
# Function calling: конкретная реализация
def execute_function(self, function_call):
# Pydantic для валидации
validated_params = FunctionParams(function_call.params)
return self.tools[function_call.name].execute(validated_params)
Стандартизация: унификация подходов между провайдерами
Нативная поддержка: встроенные Pydantic-схемы в API
Композиция функций: сложные цепочки вызовов
Автодискавери: LLM сама находит нужные инструменты
🟢
Главное понимать
: AI tooling – это множество подходов, function calling – конкретный инструмент, а Pydantic – обеспечивает надёжную валидацию данных.
🟢
Правильный инструмент → правильное решение → меньше проблем → генерим value
#AI@mrtnv_prism
#AITools@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
10❤10✍9 5 5 4👍1
А/Б-тесты [1/3]: базовый гайд для принятия решений на основе данных
🎯 Что такое А/Б-тест
А/Б-тест – это эксперимент, который позволяет сравнить гипотезу через сравнение двух вариантов:
➡️ 50% посетителей – старую красную кнопку (группа А)
➡️ 50% посетителей – новую зелёную кнопку (группа Б)
Через определенный период времени сравниваем результаты. Если зелёная кнопка принесла больше покупок – огонь! Но как убедиться, что это не случайность? Здесь и нужна статистика...
🔬 Начинаем с гипотезы
Перед тестом всегда формулируется пара предположений (гипотез). Например:
➡️ "Зелёная кнопка не изменит продажи" (H₀, нулевая гипотеза)
➡️ "Зелёная кнопка увеличит продажи" (H₁, альтернативная гипотеза)
Важный нюанс: можно проверять изменение в одну сторону (только рост) или в обе (любое изменение). Но пара гипотез нужна всегда.
📐 Планируем эксперимент
Сколько продаж нужно для надёжного результата? Если у вас 10 покупок в день, а вы хотите увидеть рост на 5% – потребуются недели тестирования.
Ключевые вопросы перед стартом:
– Какой минимальный эффект имеет смысл? (5% роста? 10%?)
– Сколько пользователей нужно для теста?
– Как долго будем тестировать?
💼 Где применять А/Б-тесты
Интернет-магазин: какой дизайн карточки товара продаёт лучше?
Медиа: какой заголовок статьи привлечёт больше читателей?
Email: когда лучше отправлять рассылку – утром или вечером?
Офлайн-ритейл: на какой полке товар продаётся лучше?
AI-продукты: какой алгоритм рекомендаций удерживает пользователей дольше?
❗️ Типичные ошибки (и их цена)
– "О, конверсия выросла на 20%! Останавливаем тест!" → Слишком рано. Может быть случайность.
– "Запустим на 100 пользователях" → Слишком мало. Результат ненадёжен.
– "Тестируем 10 вариантов одновременно" → Растёт шанс увидеть несуществующий эффект.
– "В прошлый вторник сработало!" → А это была не Чёрная пятница случайно?
✅ Чек-лист для запуска теста
– Что конкретно хотим проверить?
– Какую метрику будем измерять?
– Сколько пользователей нужно для теста?
– Как долго будем тестировать?
– Учли ли сезонность и особенности аудитории?
Далее расскажу → Почему p-value ≠ вероятности успеха и как правильно интерпретировать результаты тестов
#ABtesting@mrtnv_prism
@mrtnv_prism
💡 Регулярно слышу от менти и коллег вопросы про A/B-тесты. И так же часто вижу, как на основе плохо поставленных экспериментов делают выводы, которые потом превращаются в ненужные фичи, неработающие редизайны и сломанные воронки.
Эта серия – для тех, кто строит продукт и принимает решения на основе данных: продакт-менеджеров, аналитиков, инженеров. Здесь — короткие и практичные принципы A/B-тестирования, которые помогут отделять реальные улучшения от случайного шума.
В продуктовой разработке изменения часто оценивают по росту метрик: выше конверсия, быстрее флоу, больше кликов. Но рост цифр сам по себе ничего не доказывает.🟢 A/B – это не просто запуск двух версий. Это метод, у которого есть правила. И если их игнорировать – легко сделать выводы, которые ничего не значат.
🎯 Что такое А/Б-тест
Представим: есть абстратный интернет-магазин. Мы
хотим проверить, какая кнопка "Купить" работает лучше
– красная или зелёная?
А/Б-тест – это эксперимент, который позволяет сравнить гипотезу через сравнение двух вариантов:
Через определенный период времени сравниваем результаты. Если зелёная кнопка принесла больше покупок – огонь! Но как убедиться, что это не случайность? Здесь и нужна статистика...
🔬 Начинаем с гипотезы
Перед тестом всегда формулируется пара предположений (гипотез). Например:
Важный нюанс: можно проверять изменение в одну сторону (только рост) или в обе (любое изменение). Но пара гипотез нужна всегда.
📐 Планируем эксперимент
Сколько продаж нужно для надёжного результата? Если у вас 10 покупок в день, а вы хотите увидеть рост на 5% – потребуются недели тестирования.
Ключевые вопросы перед стартом:
– Какой минимальный эффект имеет смысл? (5% роста? 10%?)
– Сколько пользователей нужно для теста?
– Как долго будем тестировать?
💼 Где применять А/Б-тесты
Интернет-магазин: какой дизайн карточки товара продаёт лучше?
Медиа: какой заголовок статьи привлечёт больше читателей?
Email: когда лучше отправлять рассылку – утром или вечером?
Офлайн-ритейл: на какой полке товар продаётся лучше?
AI-продукты: какой алгоритм рекомендаций удерживает пользователей дольше?
– "О, конверсия выросла на 20%! Останавливаем тест!" → Слишком рано. Может быть случайность.
– "Запустим на 100 пользователях" → Слишком мало. Результат ненадёжен.
– "Тестируем 10 вариантов одновременно" → Растёт шанс увидеть несуществующий эффект.
– "В прошлый вторник сработало!" → А это была не Чёрная пятница случайно?
– Что конкретно хотим проверить?
– Какую метрику будем измерять?
– Сколько пользователей нужно для теста?
– Как долго будем тестировать?
– Учли ли сезонность и особенности аудитории?
🟢
А/Б-тест работает, когда всё сделано правильно.
Продуманный дизайн + корректная интерпретация = реальный инсайт
Далее расскажу → Почему p-value ≠ вероятности успеха и как правильно интерпретировать результаты тестов
#ABtesting@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
16❤13 9👍7 3
Codex – AI, который пишет и тестирует код сам
OpenAI запустила Codex – нового агента внутри ChatGPT, который пишет код, находит баги, пишет тесты и делает Pull Request. Все в облачной песочнице, без установки и лишней возни.
📌 Что он умеет
– Понимает проекты на GitHub
– Пишет и дорабатывает код
– Запускает код и тесты (а потом сам ищет ошибки)
– Работает параллельно и автономно
Codex работает на новой модели codex-1 (на базе o3), специально обученной для задач программирования.
🔗 Подробнее – тут
Пока раскатали только для Pro-аккаунтов, для Plus обещают скоро. Будем тестить😎
@mrtnv_prism
OpenAI запустила Codex – нового агента внутри ChatGPT, который пишет код, находит баги, пишет тесты и делает Pull Request. Все в облачной песочнице, без установки и лишней возни.
– Понимает проекты на GitHub
– Пишет и дорабатывает код
– Запускает код и тесты (а потом сам ищет ошибки)
– Работает параллельно и автономно
Codex работает на новой модели codex-1 (на базе o3), специально обученной для задач программирования.
Пока раскатали только для Pro-аккаунтов, для Plus обещают скоро. Будем тестить
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
Openai
Introducing Codex
Introducing Codex: a cloud-based software engineering agent that can work on many tasks in parallel, powered by codex-1. With Codex, developers can simultaneously deploy multiple agents to independently handle coding tasks such as writing features, answering…
12❤14🥰13👍8🤩6👏4🎉3 3