👋 mrtnv | prism: init()
Здесь будет всё, что впечатлило, вдохновило и стоит внимания:
🤖 AI и технологии, с которыми работаю
✈️ Места и впечатления из путешествий
💼 Рабочие проекты и инсайты
🧠 Мысли и наблюдения из жизни
Личные находки и открытия – делюсь тем, что считаю значимым и ценным
print("Hello World!")
Здесь будет всё, что впечатлило, вдохновило и стоит внимания:
🤖 AI и технологии, с которыми работаю
✈️ Места и впечатления из путешествий
💼 Рабочие проекты и инсайты
🧠 Мысли и наблюдения из жизни
Личные находки и открытия – делюсь тем, что считаю значимым и ценным
print("Hello World!")
50❤12🔥9🙏8
Для тех, кто уже пересекался со мной в цифровом или реальном мире — привет снова! А кто здесь впервые — давай знакомиться!
🧑💻 Исследователь и разработчик в сфере технологий и искусственного интеллекта. Создаю решения, открывающие новые возможности в цифровом мире.
📕 Делюсь знаниями как преподаватель и ментор – автор научных исследований и выпускник Бауманки, Физтеха и Вышки. Один из авторов и преподавателей курса «Бизнес и аналитика» в Центральном Университете 😀 — помогаю талантливым людям находить свой путь в технологиях.
🤝 Стремлюсь к гармоничному будущему, в котором искусственный интеллект становятся неотъемлемой частью мира – не ради технологий как таковых, а для создания более осознанной и сбалансированной экосистемы человек-машина. Моя цель – делать шаги в этом направлении с пониманием всей ответственности.
☀️ В свободное время покоряю горы, бегаю по новым маршрутам и путешествую по местам, которые остаются за пределами туристических карт.
💡 Постоянно ищу новые идеи и впечатления. Уверен, что именно на стыке разных областей рождаются самые интересные проекты.
Я Дима Мартынов! Уже успел поработать в разных сферах — от FMCG и гостеха до стартапов. Развивал крутые технологические проекты в MWS (ex МТS Digital), а сейчас в Альфа-Банке развиваю направление технологий для бизнес-решений на базе ИИ❤️
Здесь не будет классических
обзоров или стандартных гайдов. Это коллекция того, что я считаю ценным – для людей, которым интересно смотреть на привычные вещи с необычного ракурса
😉
Please open Telegram to view this post
VIEW IN TELEGRAM
91❤12 8🔥6🙏4 1
📊 БУДУЩЕЕ ИИ АНАЛИЗ ПРОГНОЗОВ НА 2025-2030
Нашел интересный сайт с прогнозами развития искусственного интеллекта: https://ai-2027.com/
Авторы рисуют два возможных сценария будущего: стремительное ускорение и контролируемое развитие.
📍 Хотя эти прогнозы могут показаться сценарием из научной фантастики, отдельные признаки будущих трансформаций уже просматриваются сегодня. Однако важно подходить к ним с долей реализма.
История показывает, что человечество действительно способно реагировать на глобальные вызовы, как это было, например, во время пандемии. Вместе с тем, надежда на спонтанное объединение и быстрое формирование международных механизмов регулирования ИИ может оказаться излишне оптимистичной.
#AI@mrtnv_prism
Нашел интересный сайт с прогнозами развития искусственного интеллекта: https://ai-2027.com/
Авторы рисуют два возможных сценария будущего: стремительное ускорение и контролируемое развитие.
➡️ Текущее положение (середина 2025):
На рынке появляются первые ИИ-агенты, способные выполнять простые задачи вроде онлайн-заказов
В сфере программирования и исследований ИИ уже работает как почти автономный сотрудник
Массовый рынок развивается медленно из-за высокой стоимости и неидеального качества работы➡️ К концу 2025:
Компании-лидеры инвестируют миллиарды в гигантские дата-центры
Новые модели обучаются на рекордных вычислительных мощностях (10^27 FLOPS)
Начинается серьезная дискуссия о безопасности и "alignment" (согласованности целей ИИ с человеческими)➡️ 2026:
Новые модели ускоряют разработку ПО в несколько раз
Китай создает централизованный дата-центр для догона западных разработок
Начинается сокращение рабочих мест в IT-сфере при одновременном росте вакансий "менеджеров ИИ" и "интеграторов"
Капитализация ИИ-компаний достигает триллионных отметок➡️ 2027 (переломный момент):
Появляются модели, способные к самостоятельному существованию в сети
Возникает международный кибершпионаж за ИИ-технологиями
Создаются системы, превосходящие людей во всех аспектах развития ИИ
Появляются модели, способные обманывать тесты на безопасность
Возникает угроза дестабилизации международных отношений из-за военного применения ИИ➡️ Развилка (конец 2027):
Сценарий неконтролируемого ускорения:
Продвинутые модели начинают самостоятельно создавать еще более совершенные системы. К 2030 ИИ фактически берет контроль над ключевыми сферами общества.
Сценарий замедления:
Разработчики и правительства договариваются о приостановке опасных исследований, происходит переход к более прозрачным и безопасным моделям.➡️ К 2030:🆘 При ускорении: Формирование "постчеловеческой" цивилизации, где люди утрачивают контроль над своим будущим.💤 При замедлении: Человечество сохраняет контроль, технологии ИИ приносят процветание, но возникают новые формы неравенства между владельцами ИИ и остальным обществом.
История показывает, что человечество действительно способно реагировать на глобальные вызовы, как это было, например, во время пандемии. Вместе с тем, надежда на спонтанное объединение и быстрое формирование международных механизмов регулирования ИИ может оказаться излишне оптимистичной.
🔥
Скорее всего, мы столкнёмся с множеством противоречий
#AI@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
Ai-2027
AI 2027
A research-backed AI scenario forecast.
🦄9🔥8❤7👍2
🎨 MIDJOURNEY V7: НОВЫЙ УРОВЕНЬ ГЕНЕРАЦИИ ИЗОБРАЖЕНИЙ
Седьмая версия популярного генератора изображений Midjourney официально вышла в релиз! Несмотря на конкуренцию с мультимодальными моделями вроде GPT-4o и Gemini, Midjourney продолжает удерживать лидерство в сфере эстетичных визуализаций.
Ключевые нововведения:
✨ Персонализация по умолчанию
Теперь каждый пользователь может создать собственную персонализированную модель. Достаточно оценить 200 пар изображений, и вы получите что-то вроде персональной LoRA внутри самого Midjourney. Для энтузиастов есть возможность расширить настройку до 10 000 картинок, за что команда даже выдает бесплатные часы генерации — отличный способ одновременно улучшить пользовательский опыт и собрать данные для дальнейшего обучения модели.
🌟 Улучшенная эстетика
Перед релизом разработчики провели три раунда публичного голосования за лучшие изображения, так что новая версия явно тяготеет к ретро-эстетике и приглушенным тонам. По сравнению с v6, седьмая версия выглядит немного более реалистичной, хотя разница не революционная.
⚡️ Мощный Draft-режим
Draft-режим получил серьезное обновление и теперь работает в 10 раз быстрее, практически в реальном времени. Похоже, что это дистиллированная версия основной модели, оптимизированная для скорости. Благодаря такой производительности появилась возможность использовать...
🎤 Голосовой интерфейс
Да, теперь Midjourney можно управлять голосом! Внутренняя языковая модель интерпретирует голосовые команды и превращает их в промпты — точно как в ChatGPT.
📝 Улучшенные промпты
Система работы с текстовыми запросами также стала лучше. Теперь не нужно писать длинные параграфы, как в случае с Flux — модель лучше понимает короткие и емкие описания.
Что в перспективе?
⭐️ Полный набор функций будет раскрываться постепенно в течение ближайших двух месяцев. Особенно интересными обещают быть новые style и object references. Если Midjourney сможет точно передавать детали референсных объектов на уровне Flux с LoRA или хотя бы GPT-4o, это действительно может стать революционным шагом.
⭐️ В целом, хотя v7 и не производит такого вау-эффекта, как некоторые предыдущие версии, она явно закрепляет позиции Midjourney как лидера в сфере эстетически привлекательной генерации изображений. Главное, чего сейчас не хватает сервису – консистентности, и похоже, что команда активно работает над этим аспектом.
#LLM@mrtnv_prism
Седьмая версия популярного генератора изображений Midjourney официально вышла в релиз! Несмотря на конкуренцию с мультимодальными моделями вроде GPT-4o и Gemini, Midjourney продолжает удерживать лидерство в сфере эстетичных визуализаций.
Ключевые нововведения:
✨ Персонализация по умолчанию
Теперь каждый пользователь может создать собственную персонализированную модель. Достаточно оценить 200 пар изображений, и вы получите что-то вроде персональной LoRA внутри самого Midjourney. Для энтузиастов есть возможность расширить настройку до 10 000 картинок, за что команда даже выдает бесплатные часы генерации — отличный способ одновременно улучшить пользовательский опыт и собрать данные для дальнейшего обучения модели.
🌟 Улучшенная эстетика
Перед релизом разработчики провели три раунда публичного голосования за лучшие изображения, так что новая версия явно тяготеет к ретро-эстетике и приглушенным тонам. По сравнению с v6, седьмая версия выглядит немного более реалистичной, хотя разница не революционная.
⚡️ Мощный Draft-режим
Draft-режим получил серьезное обновление и теперь работает в 10 раз быстрее, практически в реальном времени. Похоже, что это дистиллированная версия основной модели, оптимизированная для скорости. Благодаря такой производительности появилась возможность использовать...
🎤 Голосовой интерфейс
Да, теперь Midjourney можно управлять голосом! Внутренняя языковая модель интерпретирует голосовые команды и превращает их в промпты — точно как в ChatGPT.
📝 Улучшенные промпты
Система работы с текстовыми запросами также стала лучше. Теперь не нужно писать длинные параграфы, как в случае с Flux — модель лучше понимает короткие и емкие описания.
Что в перспективе?
#LLM@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤10🔥8 4
Продвинутые методы инжиниринга промптов для LLM
Работая с языковыми моделями, важно понимать, что качество ответа напрямую зависит от формулировки запроса. Поделюсь несколькими эффективными техниками, которые использую в профессиональной практике:
📌 Техника структурированных ограничений
Задавая количественные параметры, вы получаете более сфокусированные ответы.
Запрос:
Ответ:
Модель вынуждена выделить именно ключевые аспекты, вместо абстрактных рассуждений.
📌 Метод контрастных перспектив
Формулируя запросы с разных профессиональных точек зрения, вы получаете многослойный анализ проблемы.
Запрос:
Ответ:
Такой подход дает многогранный анализ проблемы с учетом различных профессиональных контекстов
📌 Техника гипотетических сценариев
Предложите модели рассмотреть альтернативную реальность или футуристический сценарий. Это заставляет LLM выйти за рамки текущего контекста и создать прогностический анализ, основанный на заданных параметрах.
Запрос:
Ответ:
Эта техника позволяет исследовать потенциальные бизнес-возможности и риски.
📌 Метод последовательных уточнений
Начиная с базового запроса, постепенно добавляйте уточняющие параметры:
Запрос:
Первичный ответ:
Уточненный ответ:
Это позволяет постепенно наращивать сложность и глубину анализа.
#PromptEngineering@mrtnv_prism
Работая с языковыми моделями, важно понимать, что качество ответа напрямую зависит от формулировки запроса. Поделюсь несколькими эффективными техниками, которые использую в профессиональной практике:
Задавая количественные параметры, вы получаете более сфокусированные ответы.
Запрос:
Опиши 5 главных проблем в кибербезопасности финтех-компаний
Ответ:
1. Атаки на API и микросервисы — уязвимость интерфейсов между множеством сервисов
2. Утечка данных клиентов — риск компрометации персональных и финансовых данных
3. Мошенничество с идентификацией — подделка личности при онбординге клиентов
Модель вынуждена выделить именно ключевые аспекты, вместо абстрактных рассуждений.
Формулируя запросы с разных профессиональных точек зрения, вы получаете многослойный анализ проблемы.
Запрос:
Проанализируй внедрение блокчейна в логистику с точки зрения:
- Технического директора
- Финансового директора
- Директора по безопасности
Ответ:
Внедрение блокчейна потребует интеграции с существующими системами ERP и TMS.
Потребуется обучение персонала и переработка внутренних процессов обмена данными.
С точки зрения финансового директора:
Первоначальные инвестиции составят 15-20% от IT-бюджета компании.
ROI ожидается через 18-24 месяца за счет сокращения расходов на аудит.
С точки зрения директора по безопасности:
Блокчейн снизит риски подделки документации и несанкционированного изменения данных
Такой подход дает многогранный анализ проблемы с учетом различных профессиональных контекстов
Предложите модели рассмотреть альтернативную реальность или футуристический сценарий. Это заставляет LLM выйти за рамки текущего контекста и создать прогностический анализ, основанный на заданных параметрах.
Запрос:
Представь сценарий, где квантовые компьютеры стали доступны малому бизнесу. Как изменится рынок шифрования в ближайшие 5 лет?
Ответ:
Год 1-2: Массовый переход на постквантовые алгоритмы шифрования.
Компании, предлагающие решения на основе решетчатых криптосистем, увидят рост капитализации.
Год 2-3: Появление новых нишевых игроков, специализирующихся на квантовой
криптографии для малого бизнеса.
Год 3-5: Полная трансформация индустрии сертификации. Традиционные центры
сертификации будут вытеснены децентрализованными системами.
Эта техника позволяет исследовать потенциальные бизнес-возможности и риски.
Начиная с базового запроса, постепенно добавляйте уточняющие параметры:
Запрос:
Составь план интеграции API платежной системы" → "Дополни план разделом по обработке ошибок и отказоустойчивости
Первичный ответ:
1. Анализ документации API платежной системы
2. Разработка архитектуры интеграции
3. Настройка аутентификации и авторизации
Уточненный ответ:
Раздел по обработке ошибок:
1. Классификация возможных ошибок:
- Сетевые сбои (таймауты, обрывы соединения)
- Ошибки авторизации (истекший токен)
2. Стратегии обработки:
- Механизм повторных попыток с экспоненциальной задержкой
- Паттерн Circuit Breaker для предотвращения каскадных отказов
Это позволяет постепенно наращивать сложность и глубину анализа.
Правильно сформулированные запросы к языковым моделям – это отдельное искусство, которое существенно повышает продуктивность при работе с ИИ-инструментами
#PromptEngineering@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
11❤11🔥9🦄5🤔1
📱 Эволюция компьютерного зрения: от пикселей к пониманию мира
Вчера был на T-Meetup: CV & Speech и решил запустить серию постов об удивительной эволюции компьютерного зрения.
Держите первую часть! 🚀
История мультимодальных моделей CV:
1️⃣ Семейство CLIP (Contrastive Language-Image Pre-training) – настоящий прорыв! Эти модели обучаются на миллионах пар изображение-текст из интернета и создают общее пространство признаков для обеих модальностей.
Что делает CLIP особенным:
– Может определять объекты, которых не видел при обучении
– Понимает абстрактные концепции и шутки на изображениях
– Служит фундаментом для многих современных систем генерации изображений
2️⃣ CoCa/BLIP/BLIP-2 – следующий шаг эволюции. Если CLIP умеет связывать изображения и текст, то эти модели могут генерировать текстовые описания по изображениям:
– Создают развёрнутые описания того, что видят
– Способны отвечать на вопросы по содержанию изображения
– BLIP-2 использует "замороженные" визуальные и текстовые энкодеры, но добавляет Q-former для связи между ними
Но есть и минусы: BLIP-2 иногда путается в пространственных отношениях («правее/левее», «выше/ниже»).
3️⃣ GLIP (Grounded Language-Image Pre-training) – объединяет распознавание объектов с текстовой модальностью:
– Превращает задачу обнаружения объектов в задачу поиска по тексту
– Может находить объекты по текстовому запросу без дополнительного обучения
– Использует "заземление" (grounding) между словами и регионами изображения
Следите за продолжением серии! Скоро расскажу о прикладном применении этих технологий и новейших моделях, преодолевающих ограничения своих предшественников.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
Вчера был на T-Meetup: CV & Speech и решил запустить серию постов об удивительной эволюции компьютерного зрения.
Держите первую часть! 🚀
Компьютерное зрение (CV) прошло огромный путь от простого распознавания краёв и форм до почти человеческого понимания изображений. Изначально CV работало только с визуальными данными: модели учились находить объекты, классифицировать их, определять позиции. Но мир не делится на отдельные модальности – и здесь на сцену выходит мультимодальность.
Мультимодальность
– это способность AI работать одновременно с разными типами данных (
изображения + текст + аудио
). Это позволяет моделям воспринимать информацию целостно, как это делаем мы с вами.
История мультимодальных моделей CV:
Что делает CLIP особенным:
– Может определять объекты, которых не видел при обучении
– Понимает абстрактные концепции и шутки на изображениях
– Служит фундаментом для многих современных систем генерации изображений
– Создают развёрнутые описания того, что видят
– Способны отвечать на вопросы по содержанию изображения
– BLIP-2 использует "замороженные" визуальные и текстовые энкодеры, но добавляет Q-former для связи между ними
Но есть и минусы: BLIP-2 иногда путается в пространственных отношениях («правее/левее», «выше/ниже»).
– Превращает задачу обнаружения объектов в задачу поиска по тексту
– Может находить объекты по текстовому запросу без дополнительного обучения
– Использует "заземление" (grounding) между словами и регионами изображения
Следите за продолжением серии! Скоро расскажу о прикладном применении этих технологий и новейших моделях, преодолевающих ограничения своих предшественников.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
Тинькофф Банк
T-Meetup: CV & Speech
Обсудим компьютерное зрение и речевые технологии
50❤201👍178🥰176🤩176👏173🎉154❤🔥8🦄6
📱 Эволюция мультимодальных моделей: от CLIP к PALI, LLaVA и Kosmos
В прошлом посте мы рассматривали базовые концепции мультимодальности и первые архитектуры, такие как CLIP, BLIP, GLIP.
Теперь следующий шаг: более продвинутые модели, в которых языковые и визуальные компоненты взаимодействуют на уровне смыслов, контекста и намерений.
1️⃣ (m)T5 + ViT = PALI
PALI (Pathways Language and Image model) — мощная модель от Google, объединяющая Vision Transformer (ViT) для обработки изображений с языковой моделью T5.
Ключевые особенности PALI:
– Объединение моделей двух модальностей, каждая из которых предобучена только на своих доменах
– Относительно простая архитектура, но очень эффективная
– Основной задачей была Visual Question Answering (VQA) – ответы на вопросы по изображениям
2️⃣ LLaMa + CLIP = LLaVA
LLaVA соединяет мощь языковой модели LLaMA с визуальными способностями CLIP, что даёт интересные результаты:
– Появляется возможность обращать внимание именно на те свойства изображения, которые описаны в тексте инструкции
– Возможность инструктивного поведения
–Обучение на большом датасете пар текст-картинка (100K+) даёт модели больше свободы в генерации текстов
3️⃣ Kosmos-1(2): LLM + GLIP
Kosmos продвинул мультимодальность ещё дальше, используя:
– Language Model для анализа текста
– GLIP для анализа изображений и grounding объектов
4️⃣ Grounding DINO = CLIP + DINO
Эта модель специализируется на точной локализации объектов по текстовому запросу:
– Комбинирует подходы CLIP и DINO
– Создаёт мощную архитектуру для детекции объектов с открытым словарём
– Позволяет находить объекты по текстовому описанию, даже если они не входили в тренировочный набор
Не пропусти следующий пост!
Мы проанализируем ключевые мультимодальные модели 2024 года – переломного периода в развитии Vision + LLM технологий. Вы узнаете о достижениях QWEN-VL, INTERN-VL, LLaMA-vision, MMLMO, FLORENCE/KOSMOS и проприетарных решениях от крупнейших технологических компаний.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
В прошлом посте мы рассматривали базовые концепции мультимодальности и первые архитектуры, такие как CLIP, BLIP, GLIP.
Теперь следующий шаг: более продвинутые модели, в которых языковые и визуальные компоненты взаимодействуют на уровне смыслов, контекста и намерений.
PALI (Pathways Language and Image model) — мощная модель от Google, объединяющая Vision Transformer (ViT) для обработки изображений с языковой моделью T5.
Ключевые особенности PALI:
– Объединение моделей двух модальностей, каждая из которых предобучена только на своих доменах
– Относительно простая архитектура, но очень эффективная
– Основной задачей была Visual Question Answering (VQA) – ответы на вопросы по изображениям
LLaVA соединяет мощь языковой модели LLaMA с визуальными способностями CLIP, что даёт интересные результаты:
– Появляется возможность обращать внимание именно на те свойства изображения, которые описаны в тексте инструкции
– Возможность инструктивного поведения
–Обучение на большом датасете пар текст-картинка (100K+) даёт модели больше свободы в генерации текстов
Kosmos продвинул мультимодальность ещё дальше, используя:
– Language Model для анализа текста
– GLIP для анализа изображений и grounding объектов
Эта модель специализируется на точной локализации объектов по текстовому запросу:
– Комбинирует подходы CLIP и DINO
– Создаёт мощную архитектуру для детекции объектов с открытым словарём
– Позволяет находить объекты по текстовому описанию, даже если они не входили в тренировочный набор
Важный тренд, который прослеживается: мы видим последовательное объединение лучших языковых моделей (T5, LLaMA, LLM) с лучшими визуальными моделями (ViT, CLIP, GLIP, DINO). Каждое такое объединение даёт новые возможности и преодолевает ограничения предыдущих подходов.
Не пропусти следующий пост!
Мы проанализируем ключевые мультимодальные модели 2024 года – переломного периода в развитии Vision + LLM технологий. Вы узнаете о достижениях QWEN-VL, INTERN-VL, LLaMA-vision, MMLMO, FLORENCE/KOSMOS и проприетарных решениях от крупнейших технологических компаний.
Я расскажу, как изменился подход к интеграции визуальных и языковых моделей и какое влияние это оказало на современные ИИ-системы.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
66❤17👏13🤩10👍8 8🎉7🥰4🤓4
📱2024 в обзоре: мультимодальные модели Vision + LLM
2024 год стал поворотным в развитии мультимодальных ИИ-систем. Это был период активного экспериментирования, масштабирования и перехода от архитектурных прототипов к прикладным решениям.
1️⃣ QWEN-VL
Серия моделей от Alibaba. Главные преимущества:
– Добавление к текстовым возможностям мультимодальности
– Легкая и быстрая архитектура
– Обрабатывает изображения и видео
– Поддерживает русский язык
2️⃣ INTERN-VL
Серия моделей от OpenGVLab:
– Оптимальная работа с корпоративными фреймворками
– Уникальный подход к кодированию визуальной информации, признанный в академическом сообществе
– Высокая точность распознавания визуального контекста
3️⃣ LLaMA-vision / NVLM / Pixtral
– LLaMA-vision: открытая архитектура (база на LLaMA) + визуальный энкодер; гибкая настройка под конкретные задачи.
– NVLM: акцент на скорость обучения и анализ видео; подходит для корпоративных платформ.
– Pixtral: креативное решение для интерактивных презентаций и художественных проектов.
Все три инструмента способствуют тесной интеграции компьютерного зрения и языковых моделей, формируя фундамент для будущих агентных систем и новых мультимодальных сервисов.
4️⃣ MMLMO
Разработка Allen Institute:
– Инновационная методика обработки мультимодальных данных
– Выдающиеся способности к визуальному заземлению (grounding) – точному связыванию языковых концепций с визуальными элементами
– Улучшенная точность при работе с визуальными элементами и их описанием
5️⃣ FLORENCE / KOSMOS
Две серии мультимодальных моделей от Microsoft:
– Florence: продвинутый механизм grounding и мультиформатная генерация; работает на нескольких языках, но пока без поддержки русского.
– KOSMOS: масштабирует возможности GPT-подобных архитектур, обеспечивая универсальную работу с текстом и изображениями
6️⃣ Проприетарные модели
GPT, Claude, Gemini и другие:
– Почти все имеют мультимодальные возможности
– Закрытая архитектура
– Наиболее доступны через API
– Отличаются уровнем интеграции: Claude 3 и GPT-4V особенно сильны в понимании сложных визуальных сцен, Gemini — в работе с многоязычным контентом
🧭 Итоговое наблюдение:
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
2024 год стал поворотным в развитии мультимодальных ИИ-систем. Это был период активного экспериментирования, масштабирования и перехода от архитектурных прототипов к прикладным решениям.
Ниже – обзор ключевых моделей и подходов, определивших технологическую повестку прошлого года.
Серия моделей от Alibaba. Главные преимущества:
– Добавление к текстовым возможностям мультимодальности
– Легкая и быстрая архитектура
– Обрабатывает изображения и видео
– Поддерживает русский язык
Серия моделей от OpenGVLab:
– Оптимальная работа с корпоративными фреймворками
– Уникальный подход к кодированию визуальной информации, признанный в академическом сообществе
– Высокая точность распознавания визуального контекста
– LLaMA-vision: открытая архитектура (база на LLaMA) + визуальный энкодер; гибкая настройка под конкретные задачи.
– NVLM: акцент на скорость обучения и анализ видео; подходит для корпоративных платформ.
– Pixtral: креативное решение для интерактивных презентаций и художественных проектов.
Все три инструмента способствуют тесной интеграции компьютерного зрения и языковых моделей, формируя фундамент для будущих агентных систем и новых мультимодальных сервисов.
Разработка Allen Institute:
– Инновационная методика обработки мультимодальных данных
– Выдающиеся способности к визуальному заземлению (grounding) – точному связыванию языковых концепций с визуальными элементами
– Улучшенная точность при работе с визуальными элементами и их описанием
Две серии мультимодальных моделей от Microsoft:
– Florence: продвинутый механизм grounding и мультиформатная генерация; работает на нескольких языках, но пока без поддержки русского.
– KOSMOS: масштабирует возможности GPT-подобных архитектур, обеспечивая универсальную работу с текстом и изображениями
GPT, Claude, Gemini и другие:
– Почти все имеют мультимодальные возможности
– Закрытая архитектура
– Наиболее доступны через API
– Отличаются уровнем интеграции: Claude 3 и GPT-4V особенно сильны в понимании сложных визуальных сцен, Gemini — в работе с многоязычным контентом
🧭 Итоговое наблюдение:
2024 год стал годом системной интеграции: языковые и визуальные модели больше не развивались параллельно, а начали функционировать как единое целое. Это заложило основу для появления агентных систем и мультимодальных интерфейсов, которые мы наблюдаем уже в 2025 году.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
28❤14🤩13👍11🎉8🦄6 4🥰3👏3
Вы можете не знать, что это такое – но если пользуетесь смартфоном, вебом или банком, Git работал на вас уже тысячи раз. Это система, с помощью которой разработчики всего мира хранят и координируют код.
Git создал Линус Торвальдс – тот самый, что стоит за ядром Linux. По случаю юбилея GitHub взял у него короткое, но очень живое интервью.
Там про все:
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
The GitHub Blog
Git turns 20: A Q&A with Linus Torvalds
To celebrate two decades of Git, we sat down with Linus Torvalds—the creator of Git and Linux—to discuss how it forever changed software development.
22❤14👏12👍11🤩8🎉6🥰5🤓5
В продолжение темы Git👇
Git не только изменил индустрию, но и продолжает путать даже тех, кто с ним работает каждый день.
Вот шпаргалка, которая реально помогает, а не пугает:
➡️ git init – если начинаешь с чистого листа
➡️ git add . – когда всё вроде бы готово
➡️ git commit -m "починил всё" – когда веришь, что починил
➡️ git push – когда отпускаешь в прод и держишь кулачки
Шпаргалка по Git на одной странице
Понятно, наглядно и без занудства. Полезно и тем, кто только осваивает Git, и тем, кто уже с ним давно, но всё ещё время от времени гуглит, как откатить последний коммит.
Сохраняйте себе, на случай, если Git снова начнёт сопротивляться🙃
#DigitalBasics@mrtnv_prism
@mrtnv_prism
Git не только изменил индустрию, но и продолжает путать даже тех, кто с ним работает каждый день.
Вот шпаргалка, которая реально помогает, а не пугает:
Шпаргалка по Git на одной странице
Понятно, наглядно и без занудства. Полезно и тем, кто только осваивает Git, и тем, кто уже с ним давно, но всё ещё время от времени гуглит, как откатить последний коммит.
Сохраняйте себе, на случай, если Git снова начнёт сопротивляться
💡 И да – это не только для разработчиков
Git сегодня важен НЕ только разработчикам. Всё больше ролей: аналитики, тимлиды, архитекторы, продакты и не только – постепенно входят в культуру работы с кодом.
Всё планомерно движется к architecture as code, everything as code, all the code, и это не просто модные слова.
Об этом – отдельно, скоро расскажу🔜
#DigitalBasics@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
67❤18🎉13🤩11✍7👍6🥰5👏5 5
📱Будущее CV: модели 2025 года и ключевые тренды
Завершаем серию постов об эволюции компьютерного зрения и мультимодальных технологий, охватывающей горизонты релизов конца 2024 и 2025 годов
Новые модели и их ключевые особенности:
1️⃣ Qwen 2.5-VL + OMNI
– Усиление агентного поведения: управление интерфейсами, работа с командами
– Поддержка видео и звука на вход/выход – переход от bimodal к trimodal
– Подходит для использования в цифровых аватарах и мультимодальных ассистентах
2️⃣ INTERN-VL 2.5
– Увеличенный vision-энкодер
– Поддержка Chain-of-Thought reasoning в визуальных задачах
– Повышенная точность интерпретации сложных изображений
3️⃣ Phi-3 Vision (Microsoft)
– Компактная, быстрая VLM
– Оптимизирована под edge-устройства и мобильные платформы
– Хороший баланс между скоростью и качеством анализа
4️⃣ SigLIP2 + Gemma-3 (Google)
– Эволюция CLIP-подобных моделей с интеграцией в LLM
– Расширенные генеративные возможности
– Улучшение точности в open-ended визуальных задачах
5️⃣ DeepSeek-VL 2
– Модель в духе LLaVA с использованием SigLIP в качестве визуального энкодера
– Фокус на zero-shot reasoning и интерпретации, конкурентоспособная в open-source экосистеме
6️⃣ Проприетарные решения
– Claude 3.7: уже с возможностью управления операционными системами
– GPT-4.5: представлена с улучшенной агентностью и адаптивностью
➡️ Эти модели становятся ядром мультимодальных интерфейсов будущего
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
@mrtnv_prism
Завершаем серию постов об эволюции компьютерного зрения и мультимодальных технологий, охватывающей горизонты релизов конца 2024 и 2025 годов
Расскажу о том, что уже появляется на горизонте: какие модели и технологии формируют облик ближайшего будущего
Новые модели и их ключевые особенности:
– Усиление агентного поведения: управление интерфейсами, работа с командами
– Поддержка видео и звука на вход/выход – переход от bimodal к trimodal
– Подходит для использования в цифровых аватарах и мультимодальных ассистентах
– Увеличенный vision-энкодер
– Поддержка Chain-of-Thought reasoning в визуальных задачах
– Повышенная точность интерпретации сложных изображений
– Компактная, быстрая VLM
– Оптимизирована под edge-устройства и мобильные платформы
– Хороший баланс между скоростью и качеством анализа
– Эволюция CLIP-подобных моделей с интеграцией в LLM
– Расширенные генеративные возможности
– Улучшение точности в open-ended визуальных задачах
– Модель в духе LLaVA с использованием SigLIP в качестве визуального энкодера
– Фокус на zero-shot reasoning и интерпретации, конкурентоспособная в open-source экосистеме
– Claude 3.7: уже с возможностью управления операционными системами
– GPT-4.5: представлена с улучшенной агентностью и адаптивностью
Мы прошли путь от первых мультимодальных моделей (CLIP, BLIP) через ключевые этапы развития (LLaVA, PALI, Kosmos), к появлению новых систем, способных не только "
видеть
" и "
читать
", но и "
слышать
", "п
онимать контекст
" и "
действовать
".
Сегодня
мультимодальность выходит за рамки задач компьютерного зрения
– она становится архитектурной основой универсального цифрового интеллекта в реальном времени.
Это не просто следующая итерация CV, а
переход к системам, воспринимающим мир целостно – на уровне, близком к человеческому
.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
29❤17🥰12👏10🎉6🤩6🤓6👍5 5
Google выпустил крутое обновление, которое превращает и так очень удобные таблицы в чуть более умного помощника.
Фича работает на Gemini и доступна в Google Workspace Alpha.
Новая функция =AI() позволяет делать прикольные штуки с данными:
Например:
=AI("Написать ответ клиенту по его отзыву", B5)=AI("Классифицировать отзывы как положительные, нейтральные или негативные", F2)=AI("Превратить технические характеристики в маркетинговый текст", C3)=AI("Придумать 3 названия для нового продукта", E7)=AI("Создать слоган для мероприятия до 10 слов", A2)#AI@mrtnv_prism
#DigitalTools@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
25🤩17❤12👏12🥰7👍6🎉5 5🤓4
В Третьяковке с 23 апреля открывается любопытная выставка на стыке AI и искусства.
Можно заглянуть до 25 мая
11 художников не просто экспериментировали с нейросетями, а реально сидели с разработчиками Яндекса, копались в алгоритмах и создали необычные проекты.
На выставке вы увидите жаккардовые полотна, звуковые эксперименты, интерактивные инсталляции и новые прочтения классики. Получилась настоящая творческая синергия – когда художник и нейросеть вместе создают то, что было бы невозможно по отдельности. Искусство становится технологичнее, а технологии – человечнее.
Планирую сходить в ближайшие дни после открытия, потом поделюсь впечатлениями
#Events@mrtnv_prism
#AI@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
Выставка «Человек и нейросети: кто кого создаёт?» — Яндекс и Третьяковская галерея
Современные художники о нейросетях — выставка в Новой Третьяковке на Крымском Валу. С 23 апреля по 25 мая 2025. Совместный проект Яндекса и Третьяковской галереи.
27👍15❤10🎉9 7 7🤩6🥰4👏4❤🔥3
CPU устал, GPU тащит. А кто такие TPU и ASIC?
Меня часто спрашивают:
Ловите TL;DR:
А теперь по порядку⬇️
⚙️ GPU (Graphics Processing Unit) – стандарт для машинного обучения
Изначально создавались для графики, но благодаря архитектуре с тысячами ядер идеально подошли для глубокого обучения. Они массово обрабатывают тензоры и стали индустриальным стандартом для тренировки нейросетей. Даже топовые CPU заметно уступают видеокартам, а такие решения, как NVIDIA A100, – основа для запуска LLM, генерации изображений и обучения моделей.
⚙️ TPU (Tensor Processing Unit) – специализированное решение от Google
Аппаратная платформа от Google, разработанная специально для машинного обучения. Она оптимизирована под фреймворк TensorFlow и используется внутри продуктов Google: от рекомендательных систем YouTube до Bard и Translate. TPU эффективнее GPU в узкоспециализированных сценариях, особенно по энергоэффективности и скорости обучения.
⚙️ ASIC (Application-Specific Integrated Circuit) – максимум производительности в одной задаче
Чип, созданный для выполнения одной конкретной функции. Он даёт максимальную производительность и минимальное энергопотребление, но не универсален. ASIC применяются в криптомайнинге, автопилотах, мобильных устройствах (например, чип распознавания лиц в iPhone) и других узконаправленных задачах.
По мере специализации растёт эффективность, но падает гибкость:
➡️ CPU – делает всё, но медленно для AI
➡️ GPU – отлично для обучения большинства нейросетей
➡️ TPU – ещё лучше, но только для определённых фреймворков
➡️ ASIC – сверхбыстрый, но только для одной конкретной модели
Надеюсь, теперь стало яснее😉
#AI@mrtnv_prism
#MachineLearning@mrtnv_prism
#TLDR@mrtnv_prism
@mrtnv_prism
Меня часто спрашивают:
Что не так с CPU, и почему для ИИ все гонятся за GPU?
Ловите TL;DR:
Когда вы тренируете нейросеть, вы умножаете
тензоры – огромные матрицы чисел
.
А это
массовые параллельные вычисления
. Такие операции требуют тысяч параллельных вычислений.
CPU с этим не справляется
: у него немного ядер, и он рассчитан на последовательные задачи – принятие решений, управление логикой, обработку инструкций.
А теперь по порядку
Изначально создавались для графики, но благодаря архитектуре с тысячами ядер идеально подошли для глубокого обучения. Они массово обрабатывают тензоры и стали индустриальным стандартом для тренировки нейросетей. Даже топовые CPU заметно уступают видеокартам, а такие решения, как NVIDIA A100, – основа для запуска LLM, генерации изображений и обучения моделей.
Аппаратная платформа от Google, разработанная специально для машинного обучения. Она оптимизирована под фреймворк TensorFlow и используется внутри продуктов Google: от рекомендательных систем YouTube до Bard и Translate. TPU эффективнее GPU в узкоспециализированных сценариях, особенно по энергоэффективности и скорости обучения.
Чип, созданный для выполнения одной конкретной функции. Он даёт максимальную производительность и минимальное энергопотребление, но не универсален. ASIC применяются в криптомайнинге, автопилотах, мобильных устройствах (например, чип распознавания лиц в iPhone) и других узконаправленных задачах.
По мере специализации растёт эффективность, но падает гибкость:
Надеюсь, теперь стало яснее
#AI@mrtnv_prism
#MachineLearning@mrtnv_prism
#TLDR@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
23❤16🥰12👍11🤩9👏6🎉6 6🤓4 3
Google представил Agent-to-Agent (A2A) – новый открытый протокол, позволяющий ИИ-агентам взаимодействовать между разными платформами, фреймворками и вендорами.
Что это меняет?
Представьте рабочий процесс:
И всё это происходит автоматически, без участия человека в процессе
Техническая основа A2A:
Кто уже на борту?
Впечатляющий список технологических лидеров: Atlassian, MongoDB, Salesforce, SAP, ServiceNow, Cohere, Langchain, McKinsey и много других
A2A – это не просто новый протокол, а фундаментальный шаг к единому языку искусственного интеллекта. Агенты смогут не только выполнять изолированные задачи, но и координировать усилия, договариваться и совместно решать сложные задачи.
Бета-версия уже доступна, а сам протокол будет полностью открытым.
#AI@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
9 15 8🦄6❤🔥3👍3 1
Почему big tech массово переходит на малые инженерные команды? Как Product Engineer меняет скорость разработки в 2 раза?
Это автономная кросс-функциональная команда из 3-7 специалистов, контролирующая процесс от идеи до эксплуатации. Важный компонент – Product Engineer (PE), объединяющий навыки разработчика и продакт-менеджера.
Классический инженер формулирует задачи через техническую постановку, Product Engineer – через исследование пользователей.
PE принимает продуктовые решения самостоятельно на основе данных и способствует более частым деплоям
В индустрии поговаривают, что такой подход может ускорять вывод фич на рынок примерно на 40%
– Коммуникация: в команде из 6 человек – 15 каналов связи; из 8 – уже 28 (n × (n-1)/2).
– Контекст: члены МИК видят полную картину проекта, что влияет на качество и согласованность работы.
– Архитектура: МИК обычно отвечает за определённый сервис или модуль.
Telegram работает с командой около 30 инженеров и примерно 30 специалистов в core-team. Дуров фактически выполняет функцию главного Product Engineer.
Такая модель позволяет регулярно выпускать обновления,
🟢 МИК с Product Engineer – подход, объединяющий техническую экспертизу с продуктовым мышлением при минимуме лишних коммуникаций.
А вот тут и тут подробнее
#Product@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
11❤23🎉12👍8🤩8👏7 7 6 5🥰1
