mrtnv | prism
3.65K subscribers
30 photos
4 videos
29 links
Заметки о жизни в эпоху AI: от рабочих проектов до личных открытий. Канал для тех, кто ищет вдохновение там, где сходятся цифровое и реальное

Для связи: tg@mrtnv.ai
Download Telegram
🎨 MIDJOURNEY V7: НОВЫЙ УРОВЕНЬ ГЕНЕРАЦИИ ИЗОБРАЖЕНИЙ

Седьмая версия популярного генератора изображений Midjourney официально вышла в релиз! Несмотря на конкуренцию с мультимодальными моделями вроде GPT-4o и Gemini, Midjourney продолжает удерживать лидерство в сфере эстетичных визуализаций.

Ключевые нововведения:

Персонализация по умолчанию
Теперь каждый пользователь может создать собственную персонализированную модель. Достаточно оценить 200 пар изображений, и вы получите что-то вроде персональной LoRA внутри самого Midjourney. Для энтузиастов есть возможность расширить настройку до 10 000 картинок, за что команда даже выдает бесплатные часы генерации — отличный способ одновременно улучшить пользовательский опыт и собрать данные для дальнейшего обучения модели.

🌟 Улучшенная эстетика
Перед релизом разработчики провели три раунда публичного голосования за лучшие изображения, так что новая версия явно тяготеет к ретро-эстетике и приглушенным тонам. По сравнению с v6, седьмая версия выглядит немного более реалистичной, хотя разница не революционная.

⚡️ Мощный Draft-режим
Draft-режим получил серьезное обновление и теперь работает в 10 раз быстрее, практически в реальном времени. Похоже, что это дистиллированная версия основной модели, оптимизированная для скорости. Благодаря такой производительности появилась возможность использовать...

🎤 Голосовой интерфейс
Да, теперь Midjourney можно управлять голосом! Внутренняя языковая модель интерпретирует голосовые команды и превращает их в промпты — точно как в ChatGPT.

📝 Улучшенные промпты
Система работы с текстовыми запросами также стала лучше. Теперь не нужно писать длинные параграфы, как в случае с Flux — модель лучше понимает короткие и емкие описания.

Что в перспективе?

⭐️Полный набор функций будет раскрываться постепенно в течение ближайших двух месяцев. Особенно интересными обещают быть новые style и object references. Если Midjourney сможет точно передавать детали референсных объектов на уровне Flux с LoRA или хотя бы GPT-4o, это действительно может стать революционным шагом.

⭐️В целом, хотя v7 и не производит такого вау-эффекта, как некоторые предыдущие версии, она явно закрепляет позиции Midjourney как лидера в сфере эстетически привлекательной генерации изображений. Главное, чего сейчас не хватает сервису – консистентности, и похоже, что команда активно работает над этим аспектом.
#LLM@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
210🔥84
Продвинутые методы инжиниринга промптов для LLM

Работая с языковыми моделями, важно понимать, что качество ответа напрямую зависит от формулировки запроса. Поделюсь несколькими эффективными техниками, которые использую в профессиональной практике:

📌Техника структурированных ограничений
Задавая количественные параметры, вы получаете более сфокусированные ответы.
Запрос:
Опиши 5 главных проблем в кибербезопасности финтех-компаний

Ответ:

1. Атаки на API и микросервисы — уязвимость интерфейсов между множеством сервисов
2. Утечка данных клиентов — риск компрометации персональных и финансовых данных
3. Мошенничество с идентификацией — подделка личности при онбординге клиентов

Модель вынуждена выделить именно ключевые аспекты, вместо абстрактных рассуждений.

📌Метод контрастных перспектив
Формулируя запросы с разных профессиональных точек зрения, вы получаете многослойный анализ проблемы.
Запрос:

Проанализируй внедрение блокчейна в логистику с точки зрения:

- Технического директора
- Финансового директора
- Директора по безопасности

Ответ:

Внедрение блокчейна потребует интеграции с существующими системами ERP и TMS.
Потребуется обучение персонала и переработка внутренних процессов обмена данными.

С точки зрения финансового директора:
Первоначальные инвестиции составят 15-20% от IT-бюджета компании.
ROI ожидается через 18-24 месяца за счет сокращения расходов на аудит.

С точки зрения директора по безопасности:
Блокчейн снизит риски подделки документации и несанкционированного изменения данных

Такой подход дает многогранный анализ проблемы с учетом различных профессиональных контекстов

📌Техника гипотетических сценариев
Предложите модели рассмотреть альтернативную реальность или футуристический сценарий. Это заставляет LLM выйти за рамки текущего контекста и создать прогностический анализ, основанный на заданных параметрах.
Запрос:
Представь сценарий, где квантовые компьютеры стали доступны малому бизнесу. Как изменится рынок шифрования в ближайшие 5 лет?

Ответ:
Год 1-2: Массовый переход на постквантовые алгоритмы шифрования. 
Компании, предлагающие решения на основе решетчатых криптосистем, увидят рост капитализации.

Год 2-3: Появление новых нишевых игроков, специализирующихся на квантовой
криптографии для малого бизнеса.

Год 3-5: Полная трансформация индустрии сертификации. Традиционные центры
сертификации будут вытеснены децентрализованными системами.

Эта техника позволяет исследовать потенциальные бизнес-возможности и риски.

📌Метод последовательных уточнений
Начиная с базового запроса, постепенно добавляйте уточняющие параметры:
Запрос:

Составь план интеграции API платежной системы" → "Дополни план разделом по обработке ошибок и отказоустойчивости

Первичный ответ:

1. Анализ документации API платежной системы
2. Разработка архитектуры интеграции
3. Настройка аутентификации и авторизации

Уточненный ответ:

Раздел по обработке ошибок:
1. Классификация возможных ошибок:
- Сетевые сбои (таймауты, обрывы соединения)
- Ошибки авторизации (истекший токен)

2. Стратегии обработки:
- Механизм повторных попыток с экспоненциальной задержкой
- Паттерн Circuit Breaker для предотвращения каскадных отказов

Это позволяет постепенно наращивать сложность и глубину анализа.

Правильно сформулированные запросы к языковым моделям – это отдельное искусство, которое существенно повышает продуктивность при работе с ИИ-инструментами


#PromptEngineering@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
1111🔥9🦄5🤔1
📱 Эволюция компьютерного зрения: от пикселей к пониманию мира

Вчера был на T-Meetup: CV & Speech и решил запустить серию постов об удивительной эволюции компьютерного зрения.

Держите первую часть! 🚀

Компьютерное зрение (CV) прошло огромный путь от простого распознавания краёв и форм до почти человеческого понимания изображений. Изначально CV работало только с визуальными данными: модели учились находить объекты, классифицировать их, определять позиции. Но мир не делится на отдельные модальности – и здесь на сцену выходит мультимодальность.


Мультимодальность
– это способность AI работать одновременно с разными типами данных (
изображения + текст + аудио
). Это позволяет моделям воспринимать информацию целостно, как это делаем мы с вами.


История мультимодальных моделей CV:

1️⃣Семейство CLIP (Contrastive Language-Image Pre-training) – настоящий прорыв! Эти модели обучаются на миллионах пар изображение-текст из интернета и создают общее пространство признаков для обеих модальностей.

Что делает CLIP особенным:

– Может определять объекты, которых не видел при обучении
– Понимает абстрактные концепции и шутки на изображениях
– Служит фундаментом для многих современных систем генерации изображений

2️⃣CoCa/BLIP/BLIP-2 – следующий шаг эволюции. Если CLIP умеет связывать изображения и текст, то эти модели могут генерировать текстовые описания по изображениям:

– Создают развёрнутые описания того, что видят
– Способны отвечать на вопросы по содержанию изображения
– BLIP-2 использует "замороженные" визуальные и текстовые энкодеры, но добавляет Q-former для связи между ними


Но есть и минусы: BLIP-2 иногда путается в пространственных отношениях («правее/левее», «выше/ниже»).

3️⃣ GLIP (Grounded Language-Image Pre-training) – объединяет распознавание объектов с текстовой модальностью:

– Превращает задачу обнаружения объектов в задачу поиска по тексту
– Может находить объекты по текстовому запросу без дополнительного обучения
– Использует "заземление" (grounding) между словами и регионами изображения

Следите за продолжением серии! Скоро расскажу о прикладном применении этих технологий и новейших моделях, преодолевающих ограничения своих предшественников.

#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
50201👍178🥰176🤩176👏173🎉154❤‍🔥8🦄6
📱 Эволюция мультимодальных моделей: от CLIP к PALI, LLaVA и Kosmos

В прошлом посте мы рассматривали базовые концепции мультимодальности и первые архитектуры, такие как CLIP, BLIP, GLIP.
Теперь следующий шаг: более продвинутые модели, в которых языковые и визуальные компоненты взаимодействуют на уровне смыслов, контекста и намерений.

1️⃣ (m)T5 + ViT = PALI
PALI (Pathways Language and Image model) — мощная модель от Google, объединяющая Vision Transformer (ViT) для обработки изображений с языковой моделью T5.

Ключевые особенности PALI:

– Объединение моделей двух модальностей, каждая из которых предобучена только на своих доменах
– Относительно простая архитектура, но очень эффективная
– Основной задачей была Visual Question Answering (VQA) – ответы на вопросы по изображениям

2️⃣ LLaMa + CLIP = LLaVA
LLaVA соединяет мощь языковой модели LLaMA с визуальными способностями CLIP, что даёт интересные результаты:

– Появляется возможность обращать внимание именно на те свойства изображения, которые описаны в тексте инструкции
– Возможность инструктивного поведения
–Обучение на большом датасете пар текст-картинка (100K+) даёт модели больше свободы в генерации текстов

3️⃣Kosmos-1(2): LLM + GLIP
Kosmos продвинул мультимодальность ещё дальше, используя:

– Language Model для анализа текста
– GLIP для анализа изображений и grounding объектов


4️⃣Grounding DINO = CLIP + DINO
Эта модель специализируется на точной локализации объектов по текстовому запросу:

– Комбинирует подходы CLIP и DINO
– Создаёт мощную архитектуру для детекции объектов с открытым словарём
– Позволяет находить объекты по текстовому описанию, даже если они не входили в тренировочный набор

Важный тренд, который прослеживается: мы видим последовательное объединение лучших языковых моделей (T5, LLaMA, LLM) с лучшими визуальными моделями (ViT, CLIP, GLIP, DINO). Каждое такое объединение даёт новые возможности и преодолевает ограничения предыдущих подходов.


Не пропусти следующий пост!

Мы проанализируем ключевые мультимодальные модели 2024 года – переломного периода в развитии Vision + LLM технологий. Вы узнаете о достижениях QWEN-VL, INTERN-VL, LLaMA-vision, MMLMO, FLORENCE/KOSMOS и проприетарных решениях от крупнейших технологических компаний.

Я расскажу, как изменился подход к интеграции визуальных и языковых моделей и какое влияние это оказало на современные ИИ-системы.


#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
6617👏13🤩10👍88🎉7🥰4🤓4
📱2024 в обзоре: мультимодальные модели Vision + LLM

2024 год стал поворотным в развитии мультимодальных ИИ-систем. Это был период активного экспериментирования, масштабирования и перехода от архитектурных прототипов к прикладным решениям.

Ниже – обзор ключевых моделей и подходов, определивших технологическую повестку прошлого года.


1️⃣QWEN-VL
Серия моделей от Alibaba. Главные преимущества:

– Добавление к текстовым возможностям мультимодальности
– Легкая и быстрая архитектура
– Обрабатывает изображения и видео
– Поддерживает русский язык

2️⃣INTERN-VL
Серия моделей от OpenGVLab:

– Оптимальная работа с корпоративными фреймворками
– Уникальный подход к кодированию визуальной информации, признанный в академическом сообществе
– Высокая точность распознавания визуального контекста

3️⃣LLaMA-vision / NVLM / Pixtral
– LLaMA-vision: открытая архитектура (база на LLaMA) + визуальный энкодер; гибкая настройка под конкретные задачи.
– NVLM: акцент на скорость обучения и анализ видео; подходит для корпоративных платформ.
– Pixtral: креативное решение для интерактивных презентаций и художественных проектов.

Все три инструмента способствуют тесной интеграции компьютерного зрения и языковых моделей, формируя фундамент для будущих агентных систем и новых мультимодальных сервисов.

4️⃣ MMLMO
Разработка Allen Institute:

– Инновационная методика обработки мультимодальных данных
– Выдающиеся способности к визуальному заземлению (grounding) – точному связыванию языковых концепций с визуальными элементами
– Улучшенная точность при работе с визуальными элементами и их описанием

5️⃣FLORENCE / KOSMOS
Две серии мультимодальных моделей от Microsoft:

– Florence: продвинутый механизм grounding и мультиформатная генерация; работает на нескольких языках, но пока без поддержки русского.
– KOSMOS: масштабирует возможности GPT-подобных архитектур, обеспечивая универсальную работу с текстом и изображениями

6️⃣ Проприетарные модели
GPT, Claude, Gemini и другие
:

– Почти все имеют мультимодальные возможности
– Закрытая архитектура
– Наиболее доступны через API
– Отличаются уровнем интеграции: Claude 3 и GPT-4V особенно сильны в понимании сложных визуальных сцен, Gemini — в работе с многоязычным контентом

🧭 Итоговое наблюдение:
2024 год стал годом системной интеграции: языковые и визуальные модели больше не развивались параллельно, а начали функционировать как единое целое. Это заложило основу для появления агентных систем и мультимодальных интерфейсов, которые мы наблюдаем уже в 2025 году.


#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
2814🤩13👍11🎉8🦄64🥰3👏3
🎉 Git — 20 лет!

Вы можете не знать, что это такое – но если пользуетесь смартфоном, вебом или банком, Git работал на вас уже тысячи раз. Это система, с помощью которой разработчики всего мира хранят и координируют код.

Git создал Линус Торвальдс – тот самый, что стоит за ядром Linux. По случаю юбилея GitHub взял у него короткое, но очень живое интервью.

Там про все:

🛠 как появилась идея Git
🤷‍♂️ что получилось случайно
🔮 и каким он видит будущее open source

🔗Простой текст о непростой штуке, которая изменила индустрию

@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
2214👏12👍11🤩8🎉6🥰5🤓5
В продолжение темы Git👇

Git не только изменил индустрию, но и продолжает путать даже тех, кто с ним работает каждый день.

Вот шпаргалка, которая реально помогает, а не пугает:

➡️git init – если начинаешь с чистого листа
➡️git add . – когда всё вроде бы готово
➡️git commit -m "починил всё" – когда веришь, что починил
➡️git push – когда отпускаешь в прод и держишь кулачки

Шпаргалка по Git на одной странице

Понятно, наглядно и без занудства. Полезно и тем, кто только осваивает Git, и тем, кто уже с ним давно, но всё ещё время от времени гуглит, как откатить последний коммит.

Сохраняйте себе, на случай, если Git снова начнёт сопротивляться 🙃

💡 И да это не только для разработчиков
Git сегодня важен НЕ только разработчикам. Всё больше ролей: аналитики, тимлиды, архитекторы, продакты и не только – постепенно входят в культуру работы с кодом.

Всё планомерно движется к architecture as code, everything as code, all the code, и это не просто модные слова.

Об этом – отдельно, скоро расскажу 🔜


#DigitalBasics@mrtnv_prism

@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
6718🎉13🤩117👍6🥰5👏55
📱Будущее CV: модели 2025 года и ключевые тренды

Завершаем серию постов об эволюции компьютерного зрения и мультимодальных технологий, охватывающей горизонты релизов конца 2024 и 2025 годов

Расскажу о том, что уже появляется на горизонте: какие модели и технологии формируют облик ближайшего будущего


Новые модели и их ключевые особенности:

1️⃣Qwen 2.5-VL + OMNI
– Усиление агентного поведения: управление интерфейсами, работа с командами
– Поддержка видео и звука на вход/выход – переход от bimodal к trimodal
– Подходит для использования в цифровых аватарах и мультимодальных ассистентах

2️⃣INTERN-VL 2.5
– Увеличенный vision-энкодер
– Поддержка Chain-of-Thought reasoning в визуальных задачах
– Повышенная точность интерпретации сложных изображений

3️⃣Phi-3 Vision (Microsoft)
– Компактная, быстрая VLM
– Оптимизирована под edge-устройства и мобильные платформы
– Хороший баланс между скоростью и качеством анализа

4️⃣SigLIP2 + Gemma-3 (Google)
– Эволюция CLIP-подобных моделей с интеграцией в LLM
– Расширенные генеративные возможности
– Улучшение точности в open-ended визуальных задачах

5️⃣DeepSeek-VL 2
– Модель в духе LLaVA с использованием SigLIP в качестве визуального энкодера
– Фокус на zero-shot reasoning и интерпретации, конкурентоспособная в open-source экосистеме

6️⃣Проприетарные решения
– Claude 3.7: уже с возможностью управления операционными системами
– GPT-4.5: представлена с улучшенной агентностью и адаптивностью

➡️Эти модели становятся ядром мультимодальных интерфейсов будущего

Мы прошли путь от первых мультимодальных моделей (CLIP, BLIP) через ключевые этапы развития (LLaVA, PALI, Kosmos), к появлению новых систем, способных не только "
видеть
" и "
читать
", но и "
слышать
", "п
онимать контекст
" и "
действовать
".

Сегодня
мультимодальность выходит за рамки задач компьютерного зрения
– она становится архитектурной основой универсального цифрового интеллекта в реальном времени.

Это не просто следующая итерация CV, а
переход к системам, воспринимающим мир целостно – на уровне, близком к человеческому
.

#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism

@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
2917🥰12👏10🎉6🤩6🤓6👍55
📊 AI добрался до таблиц!

Google выпустил крутое обновление, которое превращает и так очень удобные таблицы в чуть более умного помощника.

Фича работает на Gemini и доступна в Google Workspace Alpha.

Новая функция =AI() позволяет делать прикольные штуки с данными:
➡️Генерировать тексты и письма на основе данных
➡️Создавать автоматические сводки информации
➡️Категоризировать большие объемы данных
➡️Анализировать тональность текстов одной формулой

Например:
=AI("Написать ответ клиенту по его отзыву", B5)

=AI("Классифицировать отзывы как положительные, нейтральные или негативные", F2)

=AI("Превратить технические характеристики в маркетинговый текст", C3)

=AI("Придумать 3 названия для нового продукта", E7)

=AI("Создать слоган для мероприятия до 10 слов", A2)


Теперь одна функция делает то, на что раньше уходил вечер пятницы 😁

#AI@mrtnv_prism
#DigitalTools@mrtnv_prism

@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
25🤩1712👏12🥰7👍6🎉55🤓4
🤖 Технологии + искусство = "Человек и нейросети: кто кого создаёт?"

В Третьяковке с 23 апреля открывается любопытная выставка на стыке AI и искусства.

Можно заглянуть до 25 мая

11 художников не просто экспериментировали с нейросетями, а реально сидели с разработчиками Яндекса, копались в алгоритмах и создали необычные проекты.

На выставке вы увидите жаккардовые полотна, звуковые эксперименты, интерактивные инсталляции и новые прочтения классики. Получилась настоящая творческая синергия – когда художник и нейросеть вместе создают то, что было бы невозможно по отдельности. Искусство становится технологичнее, а технологии – человечнее.


Планирую сходить в ближайшие дни после открытия, потом поделюсь впечатлениями 😉

#Events@mrtnv_prism
#AI@mrtnv_prism

@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
27👍1510🎉977🤩6🥰4👏4❤‍🔥3
CPU устал, GPU тащит. А кто такие TPU и ASIC?

Меня часто спрашивают:

Что не так с CPU, и почему для ИИ все гонятся за GPU?


Ловите TL;DR:

Когда вы тренируете нейросеть, вы умножаете
тензоры – огромные матрицы чисел
.
А это
массовые параллельные вычисления
. Такие операции требуют тысяч параллельных вычислений.
CPU с этим не справляется
: у него немного ядер, и он рассчитан на последовательные задачи – принятие решений, управление логикой, обработку инструкций.


А теперь по порядку ⬇️

⚙️GPU (Graphics Processing Unit) – стандарт для машинного обучения

Изначально создавались для графики, но благодаря архитектуре с тысячами ядер идеально подошли для глубокого обучения. Они массово обрабатывают тензоры и стали индустриальным стандартом для тренировки нейросетей. Даже топовые CPU заметно уступают видеокартам, а такие решения, как NVIDIA A100, – основа для запуска LLM, генерации изображений и обучения моделей.

⚙️TPU (Tensor Processing Unit) – специализированное решение от Google

Аппаратная платформа от Google, разработанная специально для машинного обучения. Она оптимизирована под фреймворк TensorFlow и используется внутри продуктов Google: от рекомендательных систем YouTube до Bard и Translate. TPU эффективнее GPU в узкоспециализированных сценариях, особенно по энергоэффективности и скорости обучения.

⚙️ASIC (Application-Specific Integrated Circuit) – максимум производительности в одной задаче

Чип, созданный для выполнения одной конкретной функции. Он даёт максимальную производительность и минимальное энергопотребление, но не универсален. ASIC применяются в криптомайнинге, автопилотах, мобильных устройствах (например, чип распознавания лиц в iPhone) и других узконаправленных задачах.

По мере специализации растёт эффективность, но падает гибкость:

➡️CPU – делает всё, но медленно для AI
➡️GPU – отлично для обучения большинства нейросетей
➡️TPU – ещё лучше, но только для определённых фреймворков
➡️ASIC – сверхбыстрый, но только для одной конкретной модели

Надеюсь, теперь стало яснее 😉

#AI@mrtnv_prism
#MachineLearning@mrtnv_prism
#TLDR@mrtnv_prism

@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
2316🥰12👍11🤩9👏6🎉66🤓43
🤖 AI-агенты выходят на новый уровень

Google представил Agent-to-Agent (A2A) – новый открытый протокол, позволяющий ИИ-агентам взаимодействовать между разными платформами, фреймворками и вендорами.

Что это меняет?

Представьте рабочий процесс:

➡️Агент A подбирает идеальных кандидатов на должность
➡️Агент B автоматически планирует и назначает интервью
➡️Агент C запускает комплексную проверку бэкграунда

И всё это происходит автоматически, без участия человека в процессе


Техническая основа A2A:
➡️Полностью открытый стандарт (HTTP + JSON-RPC)
➡️Асинхронные задачи – от нескольких минут до нескольких дней
➡️Надёжная авторизация на базе OpenAPI
➡️Мультимодальность – поддержка текста, аудио и видео
➡️Agent Card – универсальный способ поиска нужного агента

Кто уже на борту?
Впечатляющий список технологических лидеров: Atlassian, MongoDB, Salesforce, SAP, ServiceNow, Cohere, Langchain, McKinsey и много других

🔮Почему это важно?
A2A – это не просто новый протокол, а фундаментальный шаг к единому языку искусственного интеллекта. Агенты смогут не только выполнять изолированные задачи, но и координировать усилия, договариваться и совместно решать сложные задачи.


Бета-версия уже доступна, а сам протокол будет полностью открытым.

🔗Подробнее тут и тут

#AI@mrtnv_prism

@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
9158🦄6❤‍🔥3👍31
👨‍💻 Product Engineer: новая роль в малых инженерных командах

Почему big tech массово переходит на малые инженерные команды? Как Product Engineer меняет скорость разработки в 2 раза?


➡️Что такое МИК (малая инженерная команда)?
Это автономная кросс-функциональная команда из 3-7 специалистов, контролирующая процесс от идеи до эксплуатации. Важный компонент – Product Engineer (PE), объединяющий навыки разработчика и продакт-менеджера.

➡️Особенности Product Engineer
Классический инженер формулирует задачи через техническую постановку, Product Engineer – через исследование пользователей.
PE принимает продуктовые решения самостоятельно на основе данных и способствует более частым деплоям

В индустрии поговаривают, что такой подход может ускорять вывод фич на рынок примерно на 40%


➡️Факторы эффективности МИК
– Коммуникация: в команде из 6 человек – 15 каналов связи; из 8 – уже 28 (n × (n-1)/2).
– Контекст: члены МИК видят полную картину проекта, что влияет на качество и согласованность работы.
– Архитектура: МИК обычно отвечает за определённый сервис или модуль.

💡Крутой пример из индустрии

Telegram работает с командой около 30 инженеров и примерно 30 специалистов в core-team. Дуров фактически выполняет функцию главного Product Engineer.
Такая модель позволяет регулярно выпускать обновления,

🟢МИК с Product Engineer – подход, объединяющий техническую экспертизу с продуктовым мышлением при минимуме лишних коммуникаций.


А вот тут и тут подробнее 😉

#Product@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
1123🎉12👍8🤩8👏7765🥰1
mrtnv | prism pinned «👋 mrtnv | prism: init() Здесь будет всё, что впечатлило, вдохновило и стоит внимания: 🤖 AI и технологии, с которыми работаю ✈️ Места и впечатления из путешествий 💼 Рабочие проекты и инсайты 🧠 Мысли и наблюдения из жизни Личные находки и открытия – делюсь…»
🔤🔤🔤🔤
Please open Telegram to view this post
VIEW IN TELEGRAM
mrtnv | prism pinned «🔤🔤🔤🔤»
mrtnv | prism
🔤🔤🔤🔤
Теперь есть удобный способ связаться со мной 🤗

Задавайте вопросы, делитесь идеями или просто кликайте для души)) скоро добавлю ещё пару классных фич!
Please open Telegram to view this post
VIEW IN TELEGRAM
2721🤝13🥰10👏98👍7🎉6🤩5
Метрики не всегда отражают реальное качество LLM

Компании часто заявляют: «Наша модель на 15% лучше по MMLU» или «Мы выросли на 30% в GSM8K». Но действительно ли эти цифры отражают реальное качество модели?

💡 TL;DR: выбирать модель только по оценкам в бенчмарках – не лучшая идея. Как минимум протестируйте её на своих реальных запросах и сравните напрямую с другими моделями. Часто 30% прогресса на тестах = 0% улучшения в реальных задачах

А теперь детали ⤵️

🔍Проблемы стандартных метрик

Оценка LLM по одной метрике – как судить о человеке по одному экзамену
Например, модель может показывать высокие результаты в математике (GSM8K), но слабо справляться с задачами на рассуждение (ARC)

➡️MMLU: охватывает 57 предметов, но содержит неточности в вопросах и ответах.
➡️GSM8K: фокусируется на математических рассуждениях, но задачи имеют узкий формат.
➡️HumanEval/MBPP: оценивают программирование, но ограничены простыми задачами.
➡️TruthfulQA: проверяет способность модели давать правдивые ответы, но не учитывает контекст и нюансы.
➡️HELM: более комплексный бенчмарк, но все равно ограничен фиксированным набором задач и не оценивает адаптивность модели.
➡️Needle in a Haystack: проверяет способность находить конкретную информацию, но не оценивает понимание контекста.

🔍Проблема переобучения на бенчмарках
Модели могут запоминать ответы из тренировочных данных, что приводит к переобучению и завышенным результатам на тестах, но не гарантирует улучшения в реальных задачах.

🔍Почему side-by-side сравнение эффективнее
Сравнение моделей напрямую на одних и тех же задачах позволяет выявить реальные различия в качестве ответов, а не полагаться на абстрактные проценты.

Цифры в статьях и пресс-релизах – не показатель реальной производительности.

Для более-менее объективной оценки:

– Тестируйте модельки на своих реальных задачах
– Сравнивайте несколько моделей напрямую на одних и тех же задачах
– Оценивайте практическую пользу ответов, а не только формальную точность
– Привлекайте людей к оценке качества (human-in-the-loop)

Так получится лучше понять, какая модель действительно лучше для ваших задач 😉

Лидерборд от Vellum
LLM арена на русском

#AI@mrtnv_prism #AI #LLM

@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
24👍2513👏10🥰7🎉7🤩55🦄32
Восстание AI-сотрудников отменяется

Исследователи из Университета Карнеги-Меллон (один из топовых исследовательских центров в области Computer Science и AI) запустили эксперимент TheAgentCompany – фейковую софтверную компанию, где все сотрудники были AI-агентами.
От финансовых аналитиков до разработчиков – компания полностью укомплектована нейросетями.


Результаты? Провальные… 😁

Каждому AI-сотруднику давали реальные задачи из повседневной работы настоящей компании:
➡️Навигация по файловым директориям
➡️Типовые офисные задачи
➡️Написание фидбека на производительность коллег
➡️Разработка софта
➡️Работа с финансовыми отчетами
➡️Координация проектов между отделами

Лучшим "работником" оказался Claude 3.5 Sonnet от Anthropic, но даже он справился лишь с 24% заданий! При этом на каждую задачу уходило около 30 шагов и более $6 – прям дорого для такой эффективности. Google Gemini 2.0 Flash занял второе место с результатом всего 11.4% выполненных задач.

Главные проблемы AI-сотрудников исследователи обозначили так:
Отсутствие здравого смысла
Слабые социальные навыки
Плохое понимание того, как ориентироваться в интернете
Самообман – создание "ярлыков", ведущих к провалу

Что это значит для нас?

Несмотря на громкие заявления технологических гигантов,
роботы пока не готовы забрать наши рабочие места
.
Современные алгоритмы –
потрясающие инструменты, но ужасные самостоятельные исполнители
. Им не хватает интуиции, гибкости мышления и элементарной надежности.
Так что
реальное будущее рынка труда – это симбиоз
: человеческий интеллект направляет и контролирует, а искусственный усиливает возможности и берет на себя монотонные задачи


Так что можно выдохнуть – пока что работа в безопасности! 🙃

#AI@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
926🎉13👍10🥰8🤩8👏5🤓4👾2
ChatGPT это не одна модель. Их много, и это круто

OpenAI подробно рассказали, как выбирать модели под разные задачи, чтобы работать максимально эффективно и экономично


📌GPT-4o
Универсальный помощник для повседневных задач. Отлично справляется с письмами, краткими сводками, идеями и лёгкой аналитикой. Понимает текст, картинки, таблицы, документы и даже видео
💬 Примеры:
– Сделать саммари после встречи
– Написать письмо клиенту после запуска проекта
– Придумать идеи презентации по наброскам и скриншотам

📌 GPT-4.5
Лучше всего подходит для текстов, где важен EQ, креативность и убедительность.
💬 Примеры:
– Яркий пост для LinkedIn про тренды ИИ
– Чёткое описание нового продукта
– Письмо а-ля «мы облажались, но вот как мы это исправим»

📌 OpenAI o4-mini
Самая быстрая и экономичная модель для технических вопросов, STEM-задач, программирования и визуальных рассуждений.
💬 Примеры:
– Быстро исправить ошибку в коде
– Извлечь данные из CSV-файла
– Кратко объяснить научную статью

📌 OpenAI o4-mini-height
Модель с дополнительной точностью и глубиной для более-менее сложного программирования, математики и технических объяснений.
💬 Примеры:
– Решить сложное уравнение и объяснить по шагам
– Написать и потестить SQL-запросы
– Подробно объяснить сложную научную тему простыми словами

📌 OpenAI o3
Мощная модель для стратегических задач, глубокого анализа данных, продвинутого программирования и аналитики.
💬 Примеры:
– Проанализировать рынок и предложить стратегию
– Построить многоступенчатый прогноз на основе большого CSV
– Разработать бизнес-стратегию с визуализациями и цифрами

📌 OpenAI o1-pro
Медленная, но максимально точная модель для комплексных аналитических задач, требующих высокого уровня точности.
💬 Примеры:
– Подробный анализ рисков перед запуском продукта
– Многостраничное резюме исследовательских данных
– Алгоритмы и расчёты для финансового прогноза с обоснованием

💡
Чем мощнее моделька, тем выше цена или жестче лимиты
. Поэтому логично подбирать ее под задачу: где-то нужна глубина, а где-то хватит скорости и простоты. Такой подход экономит и время, и деньги – без потери качества.


#AI@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
1524🤩14👍12🥰11🎉76👏3🦄33😁1
AI Tooling ≠ Function Calling
– в чём разница и зачем это знать


Многие путают AI tooling и function calling, используя эти термины как синонимы. Но это разные уровни взаимодействия LLM с внешним миром.
Разберемся, в чём разница и почему это важно.

Сразу ловите TL;DR:

🟢AI tooling – это общий подход к интеграции моделей с инструментами. Function calling – конкретный механизм вызова функций. А Pydantic помогает структурировать данные для надёжной работы.


🔍 В чём разница?

AI tooling – широкое понятие:
➡️Включает любые способы расширения возможностей LLM
➡️RAG – поиск и подключение внешних документов к контексту
➡️Плагины и расширения
➡️Интеграции с внешними сервисами
➡️Агентные системы

Function Calling – конкретный механизм:
➡️Структурированный способ вызова функций
➡️ Часть AI Tooling, но не весь туллинг
➡️ Формализованный протокол взаимодействия
➡️ Поддерживается нативно многими моделями

🛠️ Pydantic: мост между LLM и кодом

Pydantic решает ключевую проблему function calling – валидацию и структурирование данных:

from pydantic import BaseModel, Field

class WeatherQuery(BaseModel):
city: str = Field(description="Название города")
units: str = Field(default="celsius", pattern="^(celsius|fahrenheit)$")

# Модель генерирует JSON, Pydantic валидирует

Преимущества Pydantic:
➡️Типизация: чёткие схемы данных
➡️Валидация: автоматическая проверка параметров
➡️Документация: описания полей помогают LLM
➡️Конвертации: автоматическое преобразование типов

Наглядный пример:

# AI Tooling: общий подход
class AIAssistant:
def __init__(self):
self.tools = {
"search": SearchTool(),
"calculator": CalculatorTool(),
"database": DatabaseTool()
}

# Function calling: конкретная реализация
def execute_function(self, function_call):
# Pydantic для валидации
validated_params = FunctionParams(function_call.params)
return self.tools[function_call.name].execute(validated_params)


❗️Тренды и будущее

Стандартизация: унификация подходов между провайдерами
Нативная поддержка: встроенные Pydantic-схемы в API
Композиция функций: сложные цепочки вызовов
Автодискавери: LLM сама находит нужные инструменты

🟢
Главное понимать
: AI tooling – это множество подходов, function calling – конкретный инструмент, а Pydantic – обеспечивает надёжную валидацию данных.
🟢
Правильный инструмент → правильное решение → меньше проблем → генерим value


#AI@mrtnv_prism
#AITools@mrtnv_prism

@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
10109554👍1