В продолжение темы Git👇
Git не только изменил индустрию, но и продолжает путать даже тех, кто с ним работает каждый день.
Вот шпаргалка, которая реально помогает, а не пугает:
➡️ git init – если начинаешь с чистого листа
➡️ git add . – когда всё вроде бы готово
➡️ git commit -m "починил всё" – когда веришь, что починил
➡️ git push – когда отпускаешь в прод и держишь кулачки
Шпаргалка по Git на одной странице
Понятно, наглядно и без занудства. Полезно и тем, кто только осваивает Git, и тем, кто уже с ним давно, но всё ещё время от времени гуглит, как откатить последний коммит.
Сохраняйте себе, на случай, если Git снова начнёт сопротивляться🙃
#DigitalBasics@mrtnv_prism
@mrtnv_prism
Git не только изменил индустрию, но и продолжает путать даже тех, кто с ним работает каждый день.
Вот шпаргалка, которая реально помогает, а не пугает:
Шпаргалка по Git на одной странице
Понятно, наглядно и без занудства. Полезно и тем, кто только осваивает Git, и тем, кто уже с ним давно, но всё ещё время от времени гуглит, как откатить последний коммит.
Сохраняйте себе, на случай, если Git снова начнёт сопротивляться
💡 И да – это не только для разработчиков
Git сегодня важен НЕ только разработчикам. Всё больше ролей: аналитики, тимлиды, архитекторы, продакты и не только – постепенно входят в культуру работы с кодом.
Всё планомерно движется к architecture as code, everything as code, all the code, и это не просто модные слова.
Об этом – отдельно, скоро расскажу🔜
#DigitalBasics@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
67❤18🎉13🤩11✍7👍6🥰5👏5 5
📱Будущее CV: модели 2025 года и ключевые тренды
Завершаем серию постов об эволюции компьютерного зрения и мультимодальных технологий, охватывающей горизонты релизов конца 2024 и 2025 годов
Новые модели и их ключевые особенности:
1️⃣ Qwen 2.5-VL + OMNI
– Усиление агентного поведения: управление интерфейсами, работа с командами
– Поддержка видео и звука на вход/выход – переход от bimodal к trimodal
– Подходит для использования в цифровых аватарах и мультимодальных ассистентах
2️⃣ INTERN-VL 2.5
– Увеличенный vision-энкодер
– Поддержка Chain-of-Thought reasoning в визуальных задачах
– Повышенная точность интерпретации сложных изображений
3️⃣ Phi-3 Vision (Microsoft)
– Компактная, быстрая VLM
– Оптимизирована под edge-устройства и мобильные платформы
– Хороший баланс между скоростью и качеством анализа
4️⃣ SigLIP2 + Gemma-3 (Google)
– Эволюция CLIP-подобных моделей с интеграцией в LLM
– Расширенные генеративные возможности
– Улучшение точности в open-ended визуальных задачах
5️⃣ DeepSeek-VL 2
– Модель в духе LLaVA с использованием SigLIP в качестве визуального энкодера
– Фокус на zero-shot reasoning и интерпретации, конкурентоспособная в open-source экосистеме
6️⃣ Проприетарные решения
– Claude 3.7: уже с возможностью управления операционными системами
– GPT-4.5: представлена с улучшенной агентностью и адаптивностью
➡️ Эти модели становятся ядром мультимодальных интерфейсов будущего
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
@mrtnv_prism
Завершаем серию постов об эволюции компьютерного зрения и мультимодальных технологий, охватывающей горизонты релизов конца 2024 и 2025 годов
Расскажу о том, что уже появляется на горизонте: какие модели и технологии формируют облик ближайшего будущего
Новые модели и их ключевые особенности:
– Усиление агентного поведения: управление интерфейсами, работа с командами
– Поддержка видео и звука на вход/выход – переход от bimodal к trimodal
– Подходит для использования в цифровых аватарах и мультимодальных ассистентах
– Увеличенный vision-энкодер
– Поддержка Chain-of-Thought reasoning в визуальных задачах
– Повышенная точность интерпретации сложных изображений
– Компактная, быстрая VLM
– Оптимизирована под edge-устройства и мобильные платформы
– Хороший баланс между скоростью и качеством анализа
– Эволюция CLIP-подобных моделей с интеграцией в LLM
– Расширенные генеративные возможности
– Улучшение точности в open-ended визуальных задачах
– Модель в духе LLaVA с использованием SigLIP в качестве визуального энкодера
– Фокус на zero-shot reasoning и интерпретации, конкурентоспособная в open-source экосистеме
– Claude 3.7: уже с возможностью управления операционными системами
– GPT-4.5: представлена с улучшенной агентностью и адаптивностью
Мы прошли путь от первых мультимодальных моделей (CLIP, BLIP) через ключевые этапы развития (LLaVA, PALI, Kosmos), к появлению новых систем, способных не только "
видеть
" и "
читать
", но и "
слышать
", "п
онимать контекст
" и "
действовать
".
Сегодня
мультимодальность выходит за рамки задач компьютерного зрения
– она становится архитектурной основой универсального цифрового интеллекта в реальном времени.
Это не просто следующая итерация CV, а
переход к системам, воспринимающим мир целостно – на уровне, близком к человеческому
.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
29❤17🥰12👏10🎉6🤩6🤓6👍5 5
Google выпустил крутое обновление, которое превращает и так очень удобные таблицы в чуть более умного помощника.
Фича работает на Gemini и доступна в Google Workspace Alpha.
Новая функция =AI() позволяет делать прикольные штуки с данными:
Например:
=AI("Написать ответ клиенту по его отзыву", B5)=AI("Классифицировать отзывы как положительные, нейтральные или негативные", F2)=AI("Превратить технические характеристики в маркетинговый текст", C3)=AI("Придумать 3 названия для нового продукта", E7)=AI("Создать слоган для мероприятия до 10 слов", A2)#AI@mrtnv_prism
#DigitalTools@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
25🤩17❤12👏12🥰7👍6🎉5 5🤓4
В Третьяковке с 23 апреля открывается любопытная выставка на стыке AI и искусства.
Можно заглянуть до 25 мая
11 художников не просто экспериментировали с нейросетями, а реально сидели с разработчиками Яндекса, копались в алгоритмах и создали необычные проекты.
На выставке вы увидите жаккардовые полотна, звуковые эксперименты, интерактивные инсталляции и новые прочтения классики. Получилась настоящая творческая синергия – когда художник и нейросеть вместе создают то, что было бы невозможно по отдельности. Искусство становится технологичнее, а технологии – человечнее.
Планирую сходить в ближайшие дни после открытия, потом поделюсь впечатлениями
#Events@mrtnv_prism
#AI@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
Выставка «Человек и нейросети: кто кого создаёт?» — Яндекс и Третьяковская галерея
Современные художники о нейросетях — выставка в Новой Третьяковке на Крымском Валу. С 23 апреля по 25 мая 2025. Совместный проект Яндекса и Третьяковской галереи.
27👍15❤10🎉9 7 7🤩6🥰4👏4❤🔥3
CPU устал, GPU тащит. А кто такие TPU и ASIC?
Меня часто спрашивают:
Ловите TL;DR:
А теперь по порядку⬇️
⚙️ GPU (Graphics Processing Unit) – стандарт для машинного обучения
Изначально создавались для графики, но благодаря архитектуре с тысячами ядер идеально подошли для глубокого обучения. Они массово обрабатывают тензоры и стали индустриальным стандартом для тренировки нейросетей. Даже топовые CPU заметно уступают видеокартам, а такие решения, как NVIDIA A100, – основа для запуска LLM, генерации изображений и обучения моделей.
⚙️ TPU (Tensor Processing Unit) – специализированное решение от Google
Аппаратная платформа от Google, разработанная специально для машинного обучения. Она оптимизирована под фреймворк TensorFlow и используется внутри продуктов Google: от рекомендательных систем YouTube до Bard и Translate. TPU эффективнее GPU в узкоспециализированных сценариях, особенно по энергоэффективности и скорости обучения.
⚙️ ASIC (Application-Specific Integrated Circuit) – максимум производительности в одной задаче
Чип, созданный для выполнения одной конкретной функции. Он даёт максимальную производительность и минимальное энергопотребление, но не универсален. ASIC применяются в криптомайнинге, автопилотах, мобильных устройствах (например, чип распознавания лиц в iPhone) и других узконаправленных задачах.
По мере специализации растёт эффективность, но падает гибкость:
➡️ CPU – делает всё, но медленно для AI
➡️ GPU – отлично для обучения большинства нейросетей
➡️ TPU – ещё лучше, но только для определённых фреймворков
➡️ ASIC – сверхбыстрый, но только для одной конкретной модели
Надеюсь, теперь стало яснее😉
#AI@mrtnv_prism
#MachineLearning@mrtnv_prism
#TLDR@mrtnv_prism
@mrtnv_prism
Меня часто спрашивают:
Что не так с CPU, и почему для ИИ все гонятся за GPU?
Ловите TL;DR:
Когда вы тренируете нейросеть, вы умножаете
тензоры – огромные матрицы чисел
.
А это
массовые параллельные вычисления
. Такие операции требуют тысяч параллельных вычислений.
CPU с этим не справляется
: у него немного ядер, и он рассчитан на последовательные задачи – принятие решений, управление логикой, обработку инструкций.
А теперь по порядку
Изначально создавались для графики, но благодаря архитектуре с тысячами ядер идеально подошли для глубокого обучения. Они массово обрабатывают тензоры и стали индустриальным стандартом для тренировки нейросетей. Даже топовые CPU заметно уступают видеокартам, а такие решения, как NVIDIA A100, – основа для запуска LLM, генерации изображений и обучения моделей.
Аппаратная платформа от Google, разработанная специально для машинного обучения. Она оптимизирована под фреймворк TensorFlow и используется внутри продуктов Google: от рекомендательных систем YouTube до Bard и Translate. TPU эффективнее GPU в узкоспециализированных сценариях, особенно по энергоэффективности и скорости обучения.
Чип, созданный для выполнения одной конкретной функции. Он даёт максимальную производительность и минимальное энергопотребление, но не универсален. ASIC применяются в криптомайнинге, автопилотах, мобильных устройствах (например, чип распознавания лиц в iPhone) и других узконаправленных задачах.
По мере специализации растёт эффективность, но падает гибкость:
Надеюсь, теперь стало яснее
#AI@mrtnv_prism
#MachineLearning@mrtnv_prism
#TLDR@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
23❤16🥰12👍11🤩9👏6🎉6 6🤓4 3
Google представил Agent-to-Agent (A2A) – новый открытый протокол, позволяющий ИИ-агентам взаимодействовать между разными платформами, фреймворками и вендорами.
Что это меняет?
Представьте рабочий процесс:
И всё это происходит автоматически, без участия человека в процессе
Техническая основа A2A:
Кто уже на борту?
Впечатляющий список технологических лидеров: Atlassian, MongoDB, Salesforce, SAP, ServiceNow, Cohere, Langchain, McKinsey и много других
A2A – это не просто новый протокол, а фундаментальный шаг к единому языку искусственного интеллекта. Агенты смогут не только выполнять изолированные задачи, но и координировать усилия, договариваться и совместно решать сложные задачи.
Бета-версия уже доступна, а сам протокол будет полностью открытым.
#AI@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
9 15 8🦄6❤🔥3👍3 1
Почему big tech массово переходит на малые инженерные команды? Как Product Engineer меняет скорость разработки в 2 раза?
Это автономная кросс-функциональная команда из 3-7 специалистов, контролирующая процесс от идеи до эксплуатации. Важный компонент – Product Engineer (PE), объединяющий навыки разработчика и продакт-менеджера.
Классический инженер формулирует задачи через техническую постановку, Product Engineer – через исследование пользователей.
PE принимает продуктовые решения самостоятельно на основе данных и способствует более частым деплоям
В индустрии поговаривают, что такой подход может ускорять вывод фич на рынок примерно на 40%
– Коммуникация: в команде из 6 человек – 15 каналов связи; из 8 – уже 28 (n × (n-1)/2).
– Контекст: члены МИК видят полную картину проекта, что влияет на качество и согласованность работы.
– Архитектура: МИК обычно отвечает за определённый сервис или модуль.
Telegram работает с командой около 30 инженеров и примерно 30 специалистов в core-team. Дуров фактически выполняет функцию главного Product Engineer.
Такая модель позволяет регулярно выпускать обновления,
🟢 МИК с Product Engineer – подход, объединяющий техническую экспертизу с продуктовым мышлением при минимуме лишних коммуникаций.
А вот тут и тут подробнее
#Product@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
11❤23🎉12👍8🤩8👏7 7 6 5🥰1
mrtnv | prism pinned «👋 mrtnv | prism: init() Здесь будет всё, что впечатлило, вдохновило и стоит внимания: 🤖 AI и технологии, с которыми работаю ✈️ Места и впечатления из путешествий 💼 Рабочие проекты и инсайты 🧠 Мысли и наблюдения из жизни Личные находки и открытия – делюсь…»
mrtnv | prism
Теперь есть удобный способ связаться со мной 🤗
Задавайте вопросы, делитесь идеями или просто кликайте для души)) скоро добавлю ещё пару классных фич!
Задавайте вопросы, делитесь идеями или просто кликайте для души)) скоро добавлю ещё пару классных фич!
Please open Telegram to view this post
VIEW IN TELEGRAM
27❤21🤝13🥰10👏9 8👍7🎉6🤩5
Метрики не всегда отражают реальное качество LLM
Компании часто заявляют: «Наша модель на 15% лучше по MMLU» или «Мы выросли на 30% в GSM8K». Но действительно ли эти цифры отражают реальное качество модели?
А теперь детали⤵️
🔍Проблемы стандартных метрик
Оценка LLM по одной метрике – как судить о человеке по одному экзамену
Например, модель может показывать высокие результаты в математике (GSM8K), но слабо справляться с задачами на рассуждение (ARC)
➡️ MMLU: охватывает 57 предметов, но содержит неточности в вопросах и ответах.
➡️ GSM8K: фокусируется на математических рассуждениях, но задачи имеют узкий формат.
➡️ HumanEval/MBPP: оценивают программирование, но ограничены простыми задачами.
➡️ TruthfulQA: проверяет способность модели давать правдивые ответы, но не учитывает контекст и нюансы.
➡️ HELM: более комплексный бенчмарк, но все равно ограничен фиксированным набором задач и не оценивает адаптивность модели.
➡️ Needle in a Haystack: проверяет способность находить конкретную информацию, но не оценивает понимание контекста.
🔍Проблема переобучения на бенчмарках
Модели могут запоминать ответы из тренировочных данных, что приводит к переобучению и завышенным результатам на тестах, но не гарантирует улучшения в реальных задачах.
🔍Почему side-by-side сравнение эффективнее
Сравнение моделей напрямую на одних и тех же задачах позволяет выявить реальные различия в качестве ответов, а не полагаться на абстрактные проценты.
Цифры в статьях и пресс-релизах – не показатель реальной производительности.
Для более-менее объективной оценки:
Так получится лучше понять, какая модель действительно лучше для ваших задач😉
Лидерборд от Vellum
LLM арена на русском
#AI@mrtnv_prism #AI #LLM
@mrtnv_prism
Компании часто заявляют: «Наша модель на 15% лучше по MMLU» или «Мы выросли на 30% в GSM8K». Но действительно ли эти цифры отражают реальное качество модели?
💡 TL;DR: выбирать модель только по оценкам в бенчмарках – не лучшая идея. Как минимум протестируйте её на своих реальных запросах и сравните напрямую с другими моделями. Часто 30% прогресса на тестах = 0% улучшения в реальных задачах
А теперь детали
🔍Проблемы стандартных метрик
Оценка LLM по одной метрике – как судить о человеке по одному экзамену
Например, модель может показывать высокие результаты в математике (GSM8K), но слабо справляться с задачами на рассуждение (ARC)
🔍Проблема переобучения на бенчмарках
Модели могут запоминать ответы из тренировочных данных, что приводит к переобучению и завышенным результатам на тестах, но не гарантирует улучшения в реальных задачах.
🔍Почему side-by-side сравнение эффективнее
Сравнение моделей напрямую на одних и тех же задачах позволяет выявить реальные различия в качестве ответов, а не полагаться на абстрактные проценты.
Цифры в статьях и пресс-релизах – не показатель реальной производительности.
Для более-менее объективной оценки:
– Тестируйте модельки на своих реальных задачах
– Сравнивайте несколько моделей напрямую на одних и тех же задачах
– Оценивайте практическую пользу ответов, а не только формальную точность
– Привлекайте людей к оценке качества (human-in-the-loop)
Так получится лучше понять, какая модель действительно лучше для ваших задач
Лидерборд от Vellum
LLM арена на русском
#AI@mrtnv_prism #AI #LLM
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
Vellum
LLM Leaderboard - Vellum
Compare large language models side by side. Updated rankings based on benchmarks, pricing, and real-world performance.
24👍25❤13👏10🥰7🎉7🤩5 5🦄3 2
Восстание AI-сотрудников отменяется
Результаты? Провальные…😁
Каждому AI-сотруднику давали реальные задачи из повседневной работы настоящей компании:
➡️ Навигация по файловым директориям
➡️ Типовые офисные задачи
➡️ Написание фидбека на производительность коллег
➡️ Разработка софта
➡️ Работа с финансовыми отчетами
➡️ Координация проектов между отделами
Лучшим "работником" оказался Claude 3.5 Sonnet от Anthropic, но даже он справился лишь с 24% заданий! При этом на каждую задачу уходило около 30 шагов и более $6 – прям дорого для такой эффективности. Google Gemini 2.0 Flash занял второе место с результатом всего 11.4% выполненных задач.
Главные проблемы AI-сотрудников исследователи обозначили так:
❌ Отсутствие здравого смысла
❌ Слабые социальные навыки
❌ Плохое понимание того, как ориентироваться в интернете
❌ Самообман – создание "ярлыков", ведущих к провалу
Что это значит для нас?
Так что можно выдохнуть – пока что работа в безопасности!🙃
#AI@mrtnv_prism
Исследователи из Университета Карнеги-Меллон (один из топовых исследовательских центров в области Computer Science и AI) запустили эксперимент TheAgentCompany – фейковую софтверную компанию, где все сотрудники были AI-агентами.
От финансовых аналитиков до разработчиков – компания полностью укомплектована нейросетями.
Результаты? Провальные…
Каждому AI-сотруднику давали реальные задачи из повседневной работы настоящей компании:
Лучшим "работником" оказался Claude 3.5 Sonnet от Anthropic, но даже он справился лишь с 24% заданий! При этом на каждую задачу уходило около 30 шагов и более $6 – прям дорого для такой эффективности. Google Gemini 2.0 Flash занял второе место с результатом всего 11.4% выполненных задач.
Главные проблемы AI-сотрудников исследователи обозначили так:
Что это значит для нас?
Несмотря на громкие заявления технологических гигантов,
роботы пока не готовы забрать наши рабочие места
.
Современные алгоритмы –
потрясающие инструменты, но ужасные самостоятельные исполнители
. Им не хватает интуиции, гибкости мышления и элементарной надежности.
Так что
реальное будущее рынка труда – это симбиоз
: человеческий интеллект направляет и контролирует, а искусственный усиливает возможности и берет на себя монотонные задачи
Так что можно выдохнуть – пока что работа в безопасности!
#AI@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
Futurism
Professors Staffed a Fake Company Entirely With AI Agents, and You'll Never Guess What Happened
An experiment by researchers at Carnegie Melon University staffed a fake software company with AI Agents, and the results were dismal.
9❤26🎉13👍10🥰8🤩8👏5🤓4👾2
ChatGPT – это не одна модель. Их много, и это круто
📌 GPT-4o
Универсальный помощник для повседневных задач. Отлично справляется с письмами, краткими сводками, идеями и лёгкой аналитикой. Понимает текст, картинки, таблицы, документы и даже видео
💬 Примеры:
– Сделать саммари после встречи
– Написать письмо клиенту после запуска проекта
– Придумать идеи презентации по наброскам и скриншотам
📌 GPT-4.5
Лучше всего подходит для текстов, где важен EQ, креативность и убедительность.
💬 Примеры:
– Яркий пост для LinkedIn про тренды ИИ
– Чёткое описание нового продукта
– Письмо а-ля «мы облажались, но вот как мы это исправим»
📌 OpenAI o4-mini
Самая быстрая и экономичная модель для технических вопросов, STEM-задач, программирования и визуальных рассуждений.
💬 Примеры:
– Быстро исправить ошибку в коде
– Извлечь данные из CSV-файла
– Кратко объяснить научную статью
📌 OpenAI o4-mini-height
Модель с дополнительной точностью и глубиной для более-менее сложного программирования, математики и технических объяснений.
💬 Примеры:
– Решить сложное уравнение и объяснить по шагам
– Написать и потестить SQL-запросы
– Подробно объяснить сложную научную тему простыми словами
📌 OpenAI o3
Мощная модель для стратегических задач, глубокого анализа данных, продвинутого программирования и аналитики.
💬 Примеры:
– Проанализировать рынок и предложить стратегию
– Построить многоступенчатый прогноз на основе большого CSV
– Разработать бизнес-стратегию с визуализациями и цифрами
📌 OpenAI o1-pro
Медленная, но максимально точная модель для комплексных аналитических задач, требующих высокого уровня точности.
💬 Примеры:
– Подробный анализ рисков перед запуском продукта
– Многостраничное резюме исследовательских данных
– Алгоритмы и расчёты для финансового прогноза с обоснованием
#AI@mrtnv_prism
OpenAI подробно рассказали, как выбирать модели под разные задачи, чтобы работать максимально эффективно и экономично
Универсальный помощник для повседневных задач. Отлично справляется с письмами, краткими сводками, идеями и лёгкой аналитикой. Понимает текст, картинки, таблицы, документы и даже видео
💬 Примеры:
– Сделать саммари после встречи
– Написать письмо клиенту после запуска проекта
– Придумать идеи презентации по наброскам и скриншотам
Лучше всего подходит для текстов, где важен EQ, креативность и убедительность.
💬 Примеры:
– Яркий пост для LinkedIn про тренды ИИ
– Чёткое описание нового продукта
– Письмо а-ля «мы облажались, но вот как мы это исправим»
Самая быстрая и экономичная модель для технических вопросов, STEM-задач, программирования и визуальных рассуждений.
💬 Примеры:
– Быстро исправить ошибку в коде
– Извлечь данные из CSV-файла
– Кратко объяснить научную статью
Модель с дополнительной точностью и глубиной для более-менее сложного программирования, математики и технических объяснений.
💬 Примеры:
– Решить сложное уравнение и объяснить по шагам
– Написать и потестить SQL-запросы
– Подробно объяснить сложную научную тему простыми словами
Мощная модель для стратегических задач, глубокого анализа данных, продвинутого программирования и аналитики.
💬 Примеры:
– Проанализировать рынок и предложить стратегию
– Построить многоступенчатый прогноз на основе большого CSV
– Разработать бизнес-стратегию с визуализациями и цифрами
Медленная, но максимально точная модель для комплексных аналитических задач, требующих высокого уровня точности.
💬 Примеры:
– Подробный анализ рисков перед запуском продукта
– Многостраничное резюме исследовательских данных
– Алгоритмы и расчёты для финансового прогноза с обоснованием
💡
Чем мощнее моделька, тем выше цена или жестче лимиты
. Поэтому логично подбирать ее под задачу: где-то нужна глубина, а где-то хватит скорости и простоты. Такой подход экономит и время, и деньги – без потери качества.
#AI@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
15❤24🤩14👍12🥰11🎉7 6👏3🦄3 3😁1
AI Tooling ≠ Function Calling
– в чём разница и зачем это знать
Многие путают AI tooling и function calling, используя эти термины как синонимы. Но это разные уровни взаимодействия LLM с внешним миром.
Разберемся, в чём разница и почему это важно.
Сразу ловите TL;DR:
🔍 В чём разница?
AI tooling – широкое понятие:
➡️ Включает любые способы расширения возможностей LLM
➡️ RAG – поиск и подключение внешних документов к контексту
➡️ Плагины и расширения
➡️ Интеграции с внешними сервисами
➡️ Агентные системы
Function Calling – конкретный механизм:
➡️ Структурированный способ вызова функций
➡️ Часть AI Tooling, но не весь туллинг
➡️ Формализованный протокол взаимодействия
➡️ Поддерживается нативно многими моделями
🛠️ Pydantic: мост между LLM и кодом
Pydantic решает ключевую проблему function calling – валидацию и структурирование данных:
Преимущества Pydantic:
➡️ Типизация: чёткие схемы данных
➡️ Валидация: автоматическая проверка параметров
➡️ Документация: описания полей помогают LLM
➡️ Конвертации: автоматическое преобразование типов
Наглядный пример:
❗️ Тренды и будущее
Стандартизация: унификация подходов между провайдерами
Нативная поддержка: встроенные Pydantic-схемы в API
Композиция функций: сложные цепочки вызовов
Автодискавери: LLM сама находит нужные инструменты
#AI@mrtnv_prism
#AITools@mrtnv_prism
@mrtnv_prism
– в чём разница и зачем это знать
Многие путают AI tooling и function calling, используя эти термины как синонимы. Но это разные уровни взаимодействия LLM с внешним миром.
Разберемся, в чём разница и почему это важно.
Сразу ловите TL;DR:
🟢 AI tooling – это общий подход к интеграции моделей с инструментами. Function calling – конкретный механизм вызова функций. А Pydantic помогает структурировать данные для надёжной работы.
🔍 В чём разница?
AI tooling – широкое понятие:
Function Calling – конкретный механизм:
🛠️ Pydantic: мост между LLM и кодом
Pydantic решает ключевую проблему function calling – валидацию и структурирование данных:
from pydantic import BaseModel, Field
class WeatherQuery(BaseModel):
city: str = Field(description="Название города")
units: str = Field(default="celsius", pattern="^(celsius|fahrenheit)$")
# Модель генерирует JSON, Pydantic валидирует
Преимущества Pydantic:
Наглядный пример:
# AI Tooling: общий подход
class AIAssistant:
def __init__(self):
self.tools = {
"search": SearchTool(),
"calculator": CalculatorTool(),
"database": DatabaseTool()
}
# Function calling: конкретная реализация
def execute_function(self, function_call):
# Pydantic для валидации
validated_params = FunctionParams(function_call.params)
return self.tools[function_call.name].execute(validated_params)
Стандартизация: унификация подходов между провайдерами
Нативная поддержка: встроенные Pydantic-схемы в API
Композиция функций: сложные цепочки вызовов
Автодискавери: LLM сама находит нужные инструменты
🟢
Главное понимать
: AI tooling – это множество подходов, function calling – конкретный инструмент, а Pydantic – обеспечивает надёжную валидацию данных.
🟢
Правильный инструмент → правильное решение → меньше проблем → генерим value
#AI@mrtnv_prism
#AITools@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
10❤10✍9 5 5 4👍1
А/Б-тесты [1/3]: базовый гайд для принятия решений на основе данных
🎯 Что такое А/Б-тест
А/Б-тест – это эксперимент, который позволяет сравнить гипотезу через сравнение двух вариантов:
➡️ 50% посетителей – старую красную кнопку (группа А)
➡️ 50% посетителей – новую зелёную кнопку (группа Б)
Через определенный период времени сравниваем результаты. Если зелёная кнопка принесла больше покупок – огонь! Но как убедиться, что это не случайность? Здесь и нужна статистика...
🔬 Начинаем с гипотезы
Перед тестом всегда формулируется пара предположений (гипотез). Например:
➡️ "Зелёная кнопка не изменит продажи" (H₀, нулевая гипотеза)
➡️ "Зелёная кнопка увеличит продажи" (H₁, альтернативная гипотеза)
Важный нюанс: можно проверять изменение в одну сторону (только рост) или в обе (любое изменение). Но пара гипотез нужна всегда.
📐 Планируем эксперимент
Сколько продаж нужно для надёжного результата? Если у вас 10 покупок в день, а вы хотите увидеть рост на 5% – потребуются недели тестирования.
Ключевые вопросы перед стартом:
– Какой минимальный эффект имеет смысл? (5% роста? 10%?)
– Сколько пользователей нужно для теста?
– Как долго будем тестировать?
💼 Где применять А/Б-тесты
Интернет-магазин: какой дизайн карточки товара продаёт лучше?
Медиа: какой заголовок статьи привлечёт больше читателей?
Email: когда лучше отправлять рассылку – утром или вечером?
Офлайн-ритейл: на какой полке товар продаётся лучше?
AI-продукты: какой алгоритм рекомендаций удерживает пользователей дольше?
❗️ Типичные ошибки (и их цена)
– "О, конверсия выросла на 20%! Останавливаем тест!" → Слишком рано. Может быть случайность.
– "Запустим на 100 пользователях" → Слишком мало. Результат ненадёжен.
– "Тестируем 10 вариантов одновременно" → Растёт шанс увидеть несуществующий эффект.
– "В прошлый вторник сработало!" → А это была не Чёрная пятница случайно?
✅ Чек-лист для запуска теста
– Что конкретно хотим проверить?
– Какую метрику будем измерять?
– Сколько пользователей нужно для теста?
– Как долго будем тестировать?
– Учли ли сезонность и особенности аудитории?
Далее расскажу → Почему p-value ≠ вероятности успеха и как правильно интерпретировать результаты тестов
#ABtesting@mrtnv_prism
@mrtnv_prism
💡 Регулярно слышу от менти и коллег вопросы про A/B-тесты. И так же часто вижу, как на основе плохо поставленных экспериментов делают выводы, которые потом превращаются в ненужные фичи, неработающие редизайны и сломанные воронки.
Эта серия – для тех, кто строит продукт и принимает решения на основе данных: продакт-менеджеров, аналитиков, инженеров. Здесь — короткие и практичные принципы A/B-тестирования, которые помогут отделять реальные улучшения от случайного шума.
В продуктовой разработке изменения часто оценивают по росту метрик: выше конверсия, быстрее флоу, больше кликов. Но рост цифр сам по себе ничего не доказывает.🟢 A/B – это не просто запуск двух версий. Это метод, у которого есть правила. И если их игнорировать – легко сделать выводы, которые ничего не значат.
🎯 Что такое А/Б-тест
Представим: есть абстратный интернет-магазин. Мы
хотим проверить, какая кнопка "Купить" работает лучше
– красная или зелёная?
А/Б-тест – это эксперимент, который позволяет сравнить гипотезу через сравнение двух вариантов:
Через определенный период времени сравниваем результаты. Если зелёная кнопка принесла больше покупок – огонь! Но как убедиться, что это не случайность? Здесь и нужна статистика...
🔬 Начинаем с гипотезы
Перед тестом всегда формулируется пара предположений (гипотез). Например:
Важный нюанс: можно проверять изменение в одну сторону (только рост) или в обе (любое изменение). Но пара гипотез нужна всегда.
📐 Планируем эксперимент
Сколько продаж нужно для надёжного результата? Если у вас 10 покупок в день, а вы хотите увидеть рост на 5% – потребуются недели тестирования.
Ключевые вопросы перед стартом:
– Какой минимальный эффект имеет смысл? (5% роста? 10%?)
– Сколько пользователей нужно для теста?
– Как долго будем тестировать?
💼 Где применять А/Б-тесты
Интернет-магазин: какой дизайн карточки товара продаёт лучше?
Медиа: какой заголовок статьи привлечёт больше читателей?
Email: когда лучше отправлять рассылку – утром или вечером?
Офлайн-ритейл: на какой полке товар продаётся лучше?
AI-продукты: какой алгоритм рекомендаций удерживает пользователей дольше?
– "О, конверсия выросла на 20%! Останавливаем тест!" → Слишком рано. Может быть случайность.
– "Запустим на 100 пользователях" → Слишком мало. Результат ненадёжен.
– "Тестируем 10 вариантов одновременно" → Растёт шанс увидеть несуществующий эффект.
– "В прошлый вторник сработало!" → А это была не Чёрная пятница случайно?
– Что конкретно хотим проверить?
– Какую метрику будем измерять?
– Сколько пользователей нужно для теста?
– Как долго будем тестировать?
– Учли ли сезонность и особенности аудитории?
🟢
А/Б-тест работает, когда всё сделано правильно.
Продуманный дизайн + корректная интерпретация = реальный инсайт
Далее расскажу → Почему p-value ≠ вероятности успеха и как правильно интерпретировать результаты тестов
#ABtesting@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
16❤13 9👍7 3
Codex – AI, который пишет и тестирует код сам
OpenAI запустила Codex – нового агента внутри ChatGPT, который пишет код, находит баги, пишет тесты и делает Pull Request. Все в облачной песочнице, без установки и лишней возни.
📌 Что он умеет
– Понимает проекты на GitHub
– Пишет и дорабатывает код
– Запускает код и тесты (а потом сам ищет ошибки)
– Работает параллельно и автономно
Codex работает на новой модели codex-1 (на базе o3), специально обученной для задач программирования.
🔗 Подробнее – тут
Пока раскатали только для Pro-аккаунтов, для Plus обещают скоро. Будем тестить😎
@mrtnv_prism
OpenAI запустила Codex – нового агента внутри ChatGPT, который пишет код, находит баги, пишет тесты и делает Pull Request. Все в облачной песочнице, без установки и лишней возни.
– Понимает проекты на GitHub
– Пишет и дорабатывает код
– Запускает код и тесты (а потом сам ищет ошибки)
– Работает параллельно и автономно
Codex работает на новой модели codex-1 (на базе o3), специально обученной для задач программирования.
Пока раскатали только для Pro-аккаунтов, для Plus обещают скоро. Будем тестить
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
Openai
Introducing Codex
Introducing Codex: a cloud-based software engineering agent that can work on many tasks in parallel, powered by codex-1. With Codex, developers can simultaneously deploy multiple agents to independently handle coding tasks such as writing features, answering…
12❤14🥰13👍8🤩6👏4🎉3 3
Статистические тесты и метрики [2/3]: что на самом деле измеряют ваши эксперименты
← В предыдущем посте мы разобрали основы А/Б-тестов и типичные ошибки
🎯 Что такое статистический тест
Это математический способ ответить на вопрос: «Изменение реально или случайно?»
Представьте, что подбрасываете монетку. Если выпало 6 орлов из 10 бросков, это вполне нормально. Но если 60 орлов из 100 – уже подозрительно, а 600 из 1000 – почти наверняка монетка нечестная.
📊 Ключевые метрики
Когда говорят о статистических тестах, часто упоминают три ключевых понятия:
1️⃣ Уровень значимости (α) – это риск увидеть эффект там, где его нет. Обычно его устанавливают на уровне 5%. Проще говоря, мы соглашаемся, что в 5 случаях из 100 будем ошибаться, считая случайность настоящим эффектом.
2️⃣ Мощность теста (1−β) – это шанс обнаружить эффект, если он реально существует. Стандарт — 80%. То есть, если изменение действительно работает, мы хотим заметить это в 80% случаев.
3️⃣ p-value – самое запутанное понятие. Это вероятность получить такие же (или более экстремальные) результаты, если на самом деле никакого эффекта нет. Низкий p-value говорит: "такой результат маловероятен, если эффекта нет, значит, эффект скорее всего есть".
📋 Как интерпретировать p-value без головной боли
🔍 Четыре возможных результата теста
1️⃣ Правда выявлена: эффект есть, и тест его обнаружил. Идеальный результат.
2️⃣ Ложная тревога: эффекта нет, но тест показал, что он есть. Это ошибка I рода (вероятность = α). Вы внедряете изменение, которое не работает.
3️⃣ Упущенная возможность: эффект есть, но тест его не обнаружил. Это ошибка II рода (вероятность = β). Вы отказываетесь от изменения, которое могло бы принести пользу.
4️⃣ Корректный результат: эффекта нет, и тест это подтвердил. Всё правильно.
💼 Реальные примеры из практики
➡️ Email-кампания: персонализированные письма увеличили открываемость на 3% с p-value = 0.001. Эффект небольшой, но мы уверены, что он реальный.
➡️ AI-чатбот: замена GPT-3.5 на GPT-4 улучшила разрешение клиентских тикетов на 22%, p-value = 0.02. Эффект значительный и статистически подтверждённый.
⚡ MDE (Minimum Detectable Effect) и размер выборки
Перед тестом определите минимальный значимый эффект (MDE) – наименьшее изменение, которое имеет смысл искать. Это влияет на размер выборки.
✅ Несколько правил успешных тестов
– Фиксируйте метрики и MDE до запуска. Определите минимальный эффект, который хотите увидеть.
– Рассчитывайте размер выборки заранее. Маленькие изменения требуют больших выборок.
– Смотрите на результаты комплексно. p-value + доверительные интервалы + бизнес-контекст.
– Различайте статистическую и практическую значимость. Эффект может быть статистически доказан, но бизнес-эффект слишком мал для внедрения.
Далее → Как формулировать гипотезы, которые можно проверить и масштабировать
#ABtesting@mrtnv_prism
@mrtnv_prism
← В предыдущем посте мы разобрали основы А/Б-тестов и типичные ошибки
💡 TL;DR – понимание метрик помогает отличить реальный эффект от шума. Чтобы понять, есть ли изменения на самом деле, важно не только p-value, но и размер эффекта, мощность теста и контекст.
🎯 Что такое статистический тест
Это математический способ ответить на вопрос: «Изменение реально или случайно?»
Представьте, что подбрасываете монетку. Если выпало 6 орлов из 10 бросков, это вполне нормально. Но если 60 орлов из 100 – уже подозрительно, а 600 из 1000 – почти наверняка монетка нечестная.
💡 Статистический тест помогает нам определить эту границу "подозрительности" в цифрах.
📊 Ключевые метрики
Когда говорят о статистических тестах, часто упоминают три ключевых понятия:
📋 Как интерпретировать p-value без головной боли
Вот простая шпаргалка по p-value (условно, важен контекст):➡️ Если p < 0.01: "У нас очень сильные доказательства в пользу эффекта"➡️ Если p < 0.05: "У нас достаточные доказательства в пользу эффекта"➡️ Если p > 0.05: "Доказательств недостаточно, чтобы утверждать наличие эффекта"
💡 Чем меньше p-value, тем весомее доказательства того, что вы видите реальное изменение, а не случайный шум.
🔍 Четыре возможных результата теста
💼 Реальные примеры из практики
⚡ MDE (Minimum Detectable Effect) и размер выборки
Перед тестом определите минимальный значимый эффект (MDE) – наименьшее изменение, которое имеет смысл искать. Это влияет на размер выборки.
💡 Пример: для обнаружения роста конверсии с 10% до 10.5% (MDE = 0.5%) потребуется около 31 000 пользователей на вариант (при α = 0.05 и мощности 80%)! Вот почему многие тесты "не видят" эффект – просто недостаточно данных
✅ Несколько правил успешных тестов
– Фиксируйте метрики и MDE до запуска. Определите минимальный эффект, который хотите увидеть.
– Рассчитывайте размер выборки заранее. Маленькие изменения требуют больших выборок.
– Смотрите на результаты комплексно. p-value + доверительные интервалы + бизнес-контекст.
– Различайте статистическую и практическую значимость. Эффект может быть статистически доказан, но бизнес-эффект слишком мал для внедрения.
Далее → Как формулировать гипотезы, которые можно проверить и масштабировать
#ABtesting@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
5❤17👍14🥰11 9🤩5🎉3👏2
Гипотезы в А/Б-тестах [3/3]: от интуитивных идей к системному подходу
← В предыдущих постах мы разобрали основы А/Б-тестов и основы статистических тестов
🎯 Откуда брать идеи для гипотез
Вот 4 надёжных источника:
Логи пользователей – где они останавливаются? уходят? путаются?
Customer interviews – спросите напрямую, что мешает достичь цели
Конкурентный анализ – что тестируют другие игроки рынка?
AI-майнинг – используйте LLM для генерации гипотез на основе данных
🔍 Шаблон SMART-гипотезы
Формула SMART:
🔤 pecific – что конкретно меняем?
🔤 easurable – какую метрику отслеживаем?
🔤 ttainable – реалистичный ожидаемый эффект?
🔤 elevant – почему это должно сработать?
🔤 imed – как долго будем тестировать?
📊 Приоритизация: ICE-фреймворк
Как выбрать из 10 идей 2-3 для тестирования? Используйте ICE-оценку:
🔤 mpact – потенциальное влияние (1-10)
🔤 onfidence – уверенность в гипотезе (1-10)
🔤 ase – простота реализации (1-10)
Пример оценки:
1. Зелёная кнопка:
2. Персонализация рекомендаций:
3. Редизайн целиком:
Стоит начать с №1 – конечно не самый высокий Impact, но быстрее получим результат.
🔄 Построение экспериментального пайплайна
Оч круто выстраивать процесс как конвейер, а не разовые акции:
Backlog: собираем гипотезы постоянно
Design: детализируются метрики, дизайн, расчет выборки
Run: тестируем чисто, без вмешательств
Analyze: оценивается статистика и бизнес-эффект
Scale/Kill: внедряем или документируйте провал
🚀 Масштабирование победителей
Нашли победителя? Не спешите на 100% аудитории:
1. A/A-проверка – убедитесь, что измерительная система работает корректно
2. Поэтапный rollout: 10% → 30% → 50% → 100%
3. Holdout-группа – можно на время оставить 5% пользователей на старой версии для долгосрочного контроля
⚠️ Типичные анти-паттерны
P-хакинг – досрочная остановка теста, как только увидели "значимый" результат
HARKing – придумывание гипотезы после просмотра результатов
Конфликт экспериментов – одни пользователи в нескольких тестах одновременно
Игнорирование сегментов – эффект может сильно отличаться для разных групп
"Закрытый пробирочный эффект" – работает на тесте, но не в реальном мире
💎 Итоги всей серии:
1️⃣ А/Б-тест – это система, а не случайный выбор
2️⃣ Правильная формулировка гипотез повышает шансы на успех
3️⃣ Приоритизация помогает выбрать тесты с лучшим ROI
4️⃣ Экспериментальный пайплайн превращает отдельные тесты в фабрику улучшений
#ABtesting@mrtnv_prism #ProductGrowth #AI
@mrtnv_prism
← В предыдущих постах мы разобрали основы А/Б-тестов и основы статистических тестов
💡 TL;DR – сформулированная SMART-гипотеза + приоритизация (ICE) превращают эксперименты из лотереи в системный инструмент роста
🎯 Откуда брать идеи для гипотез
Вот 4 надёжных источника:
Логи пользователей – где они останавливаются? уходят? путаются?
Customer interviews – спросите напрямую, что мешает достичь цели
Конкурентный анализ – что тестируют другие игроки рынка?
AI-майнинг – используйте LLM для генерации гипотез на основе данных
💡
Бонус-источник
: фиды A/B-тестов гигантов вроде Booking, Amazon, Spotify. Они постоянно экспериментируют – можно подсматривать :)
🔍 Шаблон SMART-гипотезы
❌
Слабая
: "Сделаем кнопку зелёной – вырастут продажи"
✅
Сильная
: "Если мы изменим цвет кнопки 'Купить' с серого на зелёный, то CTR увеличится на 15% (±5%) для мобильных пользователей, потому что зелёный цвет ассоциируется с действием и лучше выделяется на белом фоне."
Формула SMART:
📊 Приоритизация: ICE-фреймворк
Как выбрать из 10 идей 2-3 для тестирования? Используйте ICE-оценку:
Пример оценки:
1. Зелёная кнопка:
I=4, C=8, E=10 → ICE=3202. Персонализация рекомендаций:
I=9, C=6, E=3 → ICE=1623. Редизайн целиком:
I=10, C=3, E=1 → ICE=30Стоит начать с №1 – конечно не самый высокий Impact, но быстрее получим результат.
🔄 Построение экспериментального пайплайна
Оч круто выстраивать процесс как конвейер, а не разовые акции:
Backlog → Design → Run → Analyze → Scale/Kill
Backlog: собираем гипотезы постоянно
Design: детализируются метрики, дизайн, расчет выборки
Run: тестируем чисто, без вмешательств
Analyze: оценивается статистика и бизнес-эффект
Scale/Kill: внедряем или документируйте провал
💡
Совет
: держите в работе разные типы тестов одновременно – мелкие/быстрые и крупные/долгие
🚀 Масштабирование победителей
Нашли победителя? Не спешите на 100% аудитории:
1. A/A-проверка – убедитесь, что измерительная система работает корректно
2. Поэтапный rollout: 10% → 30% → 50% → 100%
3. Holdout-группа – можно на время оставить 5% пользователей на старой версии для долгосрочного контроля
⚠️ Типичные анти-паттерны
P-хакинг – досрочная остановка теста, как только увидели "значимый" результат
HARKing – придумывание гипотезы после просмотра результатов
Конфликт экспериментов – одни пользователи в нескольких тестах одновременно
Игнорирование сегментов – эффект может сильно отличаться для разных групп
"Закрытый пробирочный эффект" – работает на тесте, но не в реальном мире
💎 Итоги всей серии:
1️⃣ А/Б-тест – это система, а не случайный выбор
2️⃣ Правильная формулировка гипотез повышает шансы на успех
3️⃣ Приоритизация помогает выбрать тесты с лучшим ROI
4️⃣ Экспериментальный пайплайн превращает отдельные тесты в фабрику улучшений
🟢
Хорошие гипотезы иногда рождаются спонтанно – и это нормально.
Но если вы хотите стабильный рост, добавьте к спонтанности щипотку системности. В итоге ваши A/B-тесты из интересных опытов превратятся в надёжную систему непрерывных улучшений.
#ABtesting@mrtnv_prism #ProductGrowth #AI
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
52❤17🤩10👍7 7🥰6🎉5👏4 4 2
24 мая, Забег.рф
Жара под +30, а мне – норм!
Суббота удалась! Спасибо коллегам за компанию и отличное настроение🌨
#running@mrtnv_prism
Жара под +30, а мне – норм!
Суббота удалась! Спасибо коллегам за компанию и отличное настроение
#running@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
15❤22🥰11👏9 8👍7🤩4 4🎉3
Media is too big
VIEW IN TELEGRAM
Павел Дуров и Илон Маск договорились о сотрудничестве, которое должно кардинально изменить Telegram.
Уже этим летом все миллиард+ пользователей получат доступ к Grok с глубокой интеграцией.
Что обещают для Grok в Telegram:
– Суммаризация чатов, ссылок и файлов
– Помощь в написании сообщений
– Модерация групп и каналов
– Фактчекинг постов
– Создание персональных стикеров
Финансовая составляющая сделки: Telegram получит $300M деньгами и акциями xAI + 50% выручки от подписок, оформленных через мессенджер. За xAI остаются данные взаимодействий пользователей с ИИ.
Звучит уже супер, а потенциал огромный: обещанная интеграция почти точно станет пушкой, но представьте полноценный семантический поиск по чатам, голосовой ввод/вывод в реальном времени и персонального ИИ-секретаря😍
Пока что доступ к Grok есть через бота [@GrokAI] для подписчиков Telegram Premium – можно тестить
#AI@mrtnv_prism
#Telegram #Grok #xAI
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
16❤18👍13🥰13🤩8👏4 4🎉2🦄2