mrtnv | prism

В продолжение темы Git👇

Git не только изменил индустрию, но и продолжает путать даже тех, кто с ним работает каждый день.

Вот шпаргалка, которая реально помогает, а не пугает:

➡️

git init – если начинаешь с чистого листа

➡️

git add . – когда всё вроде бы готово

➡️

git commit -m "починил всё" – когда веришь, что починил

➡️

git push – когда отпускаешь в прод и держишь кулачки

Шпаргалка по Git на одной странице

Понятно, наглядно и без занудства. Полезно и тем, кто только осваивает Git, и тем, кто уже с ним давно, но всё ещё время от времени гуглит, как откатить последний коммит.

Сохраняйте себе, на случай, если Git снова начнёт сопротивляться

🙃

💡 И да – это не только для разработчиков
Git сегодня важен НЕ только разработчикам. Всё больше ролей: аналитики, тимлиды, архитекторы, продакты и не только – постепенно входят в культуру работы с кодом.

Всё планомерно движется к architecture as code, everything as code, all the code, и это не просто модные слова.

Об этом – отдельно, скоро расскажу 🔜

#DigitalBasics@mrtnv_prism

@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

67❤18🎉13🤩11✍7👍6🥰5👏55

681 viewsedited 14:00

mrtnv | prism

📱Будущее CV: модели 2025 года и ключевые тренды

Завершаем серию постов об эволюции компьютерного зрения и мультимодальных технологий, охватывающей горизонты релизов конца 2024 и 2025 годов

Расскажу о том, что уже появляется на горизонте: какие модели и технологии формируют облик ближайшего будущего

Новые модели и их ключевые особенности:

1️⃣

Qwen 2.5-VL + OMNI
– Усиление агентного поведения: управление интерфейсами, работа с командами
– Поддержка видео и звука на вход/выход – переход от bimodal к trimodal
– Подходит для использования в цифровых аватарах и мультимодальных ассистентах

2️⃣

INTERN-VL 2.5
– Увеличенный vision-энкодер
– Поддержка Chain-of-Thought reasoning в визуальных задачах
– Повышенная точность интерпретации сложных изображений

3️⃣

Phi-3 Vision (Microsoft)
– Компактная, быстрая VLM
– Оптимизирована под edge-устройства и мобильные платформы
– Хороший баланс между скоростью и качеством анализа

4️⃣

SigLIP2 + Gemma-3 (Google)
– Эволюция CLIP-подобных моделей с интеграцией в LLM
– Расширенные генеративные возможности
– Улучшение точности в open-ended визуальных задачах

5️⃣

DeepSeek-VL 2
– Модель в духе LLaVA с использованием SigLIP в качестве визуального энкодера
– Фокус на zero-shot reasoning и интерпретации, конкурентоспособная в open-source экосистеме

6️⃣

Проприетарные решения
– Claude 3.7: уже с возможностью управления операционными системами
– GPT-4.5: представлена с улучшенной агентностью и адаптивностью

➡️

Эти модели становятся ядром мультимодальных интерфейсов будущего

Мы прошли путь от первых мультимодальных моделей (CLIP, BLIP) через ключевые этапы развития (LLaVA, PALI, Kosmos), к появлению новых систем, способных не только "

видеть

" и "

читать

", но и "

слышать

", "п

онимать контекст

" и "

действовать

".

Сегодня

мультимодальность выходит за рамки задач компьютерного зрения

– она становится архитектурной основой универсального цифрового интеллекта в реальном времени.

Это не просто следующая итерация CV, а

переход к системам, воспринимающим мир целостно – на уровне, близком к человеческому

.

#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism

@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

29❤17🥰12👏10🎉6🤩6🤓6👍55

628 views17:05

mrtnv | prism

📊 AI добрался до таблиц!

Google выпустил крутое обновление, которое превращает и так очень удобные таблицы в чуть более умного помощника.

Фича работает на Gemini и доступна в Google Workspace Alpha.

Новая функция =AI() позволяет делать прикольные штуки с данными:
➡️Генерировать тексты и письма на основе данных
➡️Создавать автоматические сводки информации
➡️Категоризировать большие объемы данных
➡️Анализировать тональность текстов одной формулой

Например:

=AI("Написать ответ клиенту по его отзыву", B5)

=AI("Классифицировать отзывы как положительные, нейтральные или негативные", F2)

=AI("Превратить технические характеристики в маркетинговый текст", C3)

=AI("Придумать 3 названия для нового продукта", E7)

=AI("Создать слоган для мероприятия до 10 слов", A2)

Теперь одна функция делает то, на что раньше уходил вечер пятницы

😁

#AI@mrtnv_prism
#DigitalTools@mrtnv_prism

@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

25🤩17❤12👏12🥰7👍6🎉55🤓4

706 viewsedited 09:21

mrtnv | prism

🤖

Технологии + искусство = "Человек и нейросети: кто кого создаёт?"

В Третьяковке с 23 апреля открывается любопытная выставка на стыке AI и искусства.

Можно заглянуть до 25 мая

11 художников не просто экспериментировали с нейросетями, а реально сидели с разработчиками Яндекса, копались в алгоритмах и создали необычные проекты.

На выставке вы увидите жаккардовые полотна, звуковые эксперименты, интерактивные инсталляции и новые прочтения классики. Получилась настоящая творческая синергия – когда художник и нейросеть вместе создают то, что было бы невозможно по отдельности. Искусство становится технологичнее, а технологии – человечнее.

Планирую сходить в ближайшие дни после открытия, потом поделюсь впечатлениями 😉

#Events@mrtnv_prism
#AI@mrtnv_prism

@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

Выставка «Человек и нейросети: кто кого создаёт?» — Яндекс и Третьяковская галерея

Современные художники о нейросетях — выставка в Новой Третьяковке на Крымском Валу. С 23 апреля по 25 мая 2025. Совместный проект Яндекса и Третьяковской галереи.

27👍15❤10🎉977🤩6🥰4👏4❤‍🔥3

1.39K viewsedited 12:06

mrtnv | prism

CPU устал, GPU тащит. А кто такие TPU и ASIC?

Меня часто спрашивают:

Что не так с CPU, и почему для ИИ все гонятся за GPU?

Ловите TL;DR:

Когда вы тренируете нейросеть, вы умножаете

тензоры – огромные матрицы чисел

.
А это

массовые параллельные вычисления

. Такие операции требуют тысяч параллельных вычислений.

CPU с этим не справляется

: у него немного ядер, и он рассчитан на последовательные задачи – принятие решений, управление логикой, обработку инструкций.

А теперь по порядку ⬇️

⚙️

GPU (Graphics Processing Unit) – стандарт для машинного обучения

Изначально создавались для графики, но благодаря архитектуре с тысячами ядер идеально подошли для глубокого обучения. Они массово обрабатывают тензоры и стали индустриальным стандартом для тренировки нейросетей. Даже топовые CPU заметно уступают видеокартам, а такие решения, как NVIDIA A100, – основа для запуска LLM, генерации изображений и обучения моделей.

⚙️

TPU (Tensor Processing Unit) – специализированное решение от Google

Аппаратная платформа от Google, разработанная специально для машинного обучения. Она оптимизирована под фреймворк TensorFlow и используется внутри продуктов Google: от рекомендательных систем YouTube до Bard и Translate. TPU эффективнее GPU в узкоспециализированных сценариях, особенно по энергоэффективности и скорости обучения.

⚙️

ASIC (Application-Specific Integrated Circuit) – максимум производительности в одной задаче

Чип, созданный для выполнения одной конкретной функции. Он даёт максимальную производительность и минимальное энергопотребление, но не универсален. ASIC применяются в криптомайнинге, автопилотах, мобильных устройствах (например, чип распознавания лиц в iPhone) и других узконаправленных задачах.

По мере специализации растёт эффективность, но падает гибкость:

➡️

CPU – делает всё, но медленно для AI

➡️

GPU – отлично для обучения большинства нейросетей

➡️

TPU – ещё лучше, но только для определённых фреймворков

➡️

ASIC – сверхбыстрый, но только для одной конкретной модели

Надеюсь, теперь стало яснее 😉

#AI@mrtnv_prism
#MachineLearning@mrtnv_prism
#TLDR@mrtnv_prism

@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

23❤16🥰12👍11🤩9👏6🎉66🤓43

1.46K viewsedited 19:03

mrtnv | prism

🤖

AI-агенты выходят на новый уровень

Google представил Agent-to-Agent (A2A) – новый открытый протокол, позволяющий ИИ-агентам взаимодействовать между разными платформами, фреймворками и вендорами.

Что это меняет?

Представьте рабочий процесс:

➡️

Агент A подбирает идеальных кандидатов на должность

➡️

Агент B автоматически планирует и назначает интервью

➡️

Агент C запускает комплексную проверку бэкграунда

И всё это происходит автоматически, без участия человека в процессе

Техническая основа A2A:
➡️Полностью открытый стандарт (HTTP + JSON-RPC)
➡️Асинхронные задачи – от нескольких минут до нескольких дней

➡️

Надёжная авторизация на базе OpenAPI

➡️

Мультимодальность – поддержка текста, аудио и видео

➡️

Agent Card – универсальный способ поиска нужного агента

Кто уже на борту?
Впечатляющий список технологических лидеров: Atlassian, MongoDB, Salesforce, SAP, ServiceNow, Cohere, Langchain, McKinsey и много других

🔮

Почему это важно?

A2A – это не просто новый протокол, а фундаментальный шаг к единому языку искусственного интеллекта. Агенты смогут не только выполнять изолированные задачи, но и координировать усилия, договариваться и совместно решать сложные задачи.

Бета-версия уже доступна, а сам протокол будет полностью открытым.

🔗Подробнее тут и тут

#AI@mrtnv_prism

@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

9158🦄6❤‍🔥3👍31

1.23K viewsedited 11:20

mrtnv | prism

👨‍💻

Product Engineer: новая роль в малых инженерных командах

Почему big tech массово переходит на малые инженерные команды? Как Product Engineer меняет скорость разработки в 2 раза?

➡️

Что такое МИК (малая инженерная команда)?
Это автономная кросс-функциональная команда из 3-7 специалистов, контролирующая процесс от идеи до эксплуатации. Важный компонент – Product Engineer (PE), объединяющий навыки разработчика и продакт-менеджера.

➡️

Особенности Product Engineer
Классический инженер формулирует задачи через техническую постановку, Product Engineer – через исследование пользователей.
PE принимает продуктовые решения самостоятельно на основе данных и способствует более частым деплоям

В индустрии поговаривают, что такой подход может ускорять вывод фич на рынок примерно на 40%

➡️

Факторы эффективности МИК
– Коммуникация: в команде из 6 человек – 15 каналов связи; из 8 – уже 28 (n × (n-1)/2).
– Контекст: члены МИК видят полную картину проекта, что влияет на качество и согласованность работы.
– Архитектура: МИК обычно отвечает за определённый сервис или модуль.

💡

Крутой пример из индустрии

Telegram работает с командой около 30 инженеров и примерно 30 специалистов в core-team. Дуров фактически выполняет функцию главного Product Engineer.
Такая модель позволяет регулярно выпускать обновления,

🟢МИК с Product Engineer – подход, объединяющий техническую экспертизу с продуктовым мышлением при минимуме лишних коммуникаций.

А вот тут и тут подробнее 😉

#Product@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

11❤23🎉12👍8🤩8👏7765🥰1

2.4K viewsedited 19:01

mrtnv | prism

mrtnv | prism pinned «👋 mrtnv | prism: init() Здесь будет всё, что впечатлило, вдохновило и стоит внимания: 🤖 AI и технологии, с которыми работаю ✈️ Места и впечатления из путешествий 💼 Рабочие проекты и инсайты 🧠 Мысли и наблюдения из жизни Личные находки и открытия – делюсь…»

20:08

mrtnv | prism

🔤

Please open Telegram to view this post

VIEW IN TELEGRAM

1.24K viewsedited 19:59

MRTNV hub

mrtnv | prism

mrtnv | prism pinned «

🔤

19:59

mrtnv | prism

🔤

Теперь есть удобный способ связаться со мной 🤗

Задавайте вопросы, делитесь идеями или просто кликайте для души)) скоро добавлю ещё пару классных фич!

Please open Telegram to view this post

VIEW IN TELEGRAM

27❤21🤝13🥰10👏98👍7🎉6🤩5

2.55K views20:02

mrtnv | prism

Метрики не всегда отражают реальное качество LLM

Компании часто заявляют: «Наша модель на 15% лучше по MMLU» или «Мы выросли на 30% в GSM8K». Но действительно ли эти цифры отражают реальное качество модели?

💡 TL;DR: выбирать модель только по оценкам в бенчмарках – не лучшая идея. Как минимум протестируйте её на своих реальных запросах и сравните напрямую с другими моделями. Часто 30% прогресса на тестах = 0% улучшения в реальных задачах

А теперь детали ⤵️

🔍Проблемы стандартных метрик

Оценка LLM по одной метрике – как судить о человеке по одному экзамену
Например, модель может показывать высокие результаты в математике (GSM8K), но слабо справляться с задачами на рассуждение (ARC)

➡️MMLU: охватывает 57 предметов, но содержит неточности в вопросах и ответах.
➡️GSM8K: фокусируется на математических рассуждениях, но задачи имеют узкий формат.
➡️HumanEval/MBPP: оценивают программирование, но ограничены простыми задачами.
➡️TruthfulQA: проверяет способность модели давать правдивые ответы, но не учитывает контекст и нюансы.
➡️HELM: более комплексный бенчмарк, но все равно ограничен фиксированным набором задач и не оценивает адаптивность модели.
➡️Needle in a Haystack: проверяет способность находить конкретную информацию, но не оценивает понимание контекста.

🔍Проблема переобучения на бенчмарках
Модели могут запоминать ответы из тренировочных данных, что приводит к переобучению и завышенным результатам на тестах, но не гарантирует улучшения в реальных задачах.

🔍Почему side-by-side сравнение эффективнее
Сравнение моделей напрямую на одних и тех же задачах позволяет выявить реальные различия в качестве ответов, а не полагаться на абстрактные проценты.

Цифры в статьях и пресс-релизах – не показатель реальной производительности.

Для более-менее объективной оценки:

– Тестируйте модельки на своих реальных задачах
– Сравнивайте несколько моделей напрямую на одних и тех же задачах
– Оценивайте практическую пользу ответов, а не только формальную точность
– Привлекайте людей к оценке качества (human-in-the-loop)

Так получится лучше понять, какая модель действительно лучше для ваших задач 😉

Лидерборд от Vellum
LLM арена на русском

#AI@mrtnv_prism #AI #LLM

@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

Vellum

LLM Leaderboard - Vellum

Compare large language models side by side. Updated rankings based on benchmarks, pricing, and real-world performance.

24👍25❤13👏10🥰7🎉7🤩55🦄32

1.7K viewsedited 09:05

mrtnv | prism

Восстание AI-сотрудников отменяется

Исследователи из Университета Карнеги-Меллон (один из топовых исследовательских центров в области Computer Science и AI) запустили эксперимент TheAgentCompany – фейковую софтверную компанию, где все сотрудники были AI-агентами.
От финансовых аналитиков до разработчиков – компания полностью укомплектована нейросетями.

Результаты? Провальные… 😁

Каждому AI-сотруднику давали реальные задачи из повседневной работы настоящей компании:
➡️Навигация по файловым директориям
➡️Типовые офисные задачи
➡️Написание фидбека на производительность коллег
➡️Разработка софта
➡️Работа с финансовыми отчетами
➡️Координация проектов между отделами

Лучшим "работником" оказался Claude 3.5 Sonnet от Anthropic, но даже он справился лишь с 24% заданий! При этом на каждую задачу уходило около 30 шагов и более $6 – прям дорого для такой эффективности. Google Gemini 2.0 Flash занял второе место с результатом всего 11.4% выполненных задач.

Главные проблемы AI-сотрудников исследователи обозначили так:
❌ Отсутствие здравого смысла
❌ Слабые социальные навыки
❌ Плохое понимание того, как ориентироваться в интернете
❌ Самообман – создание "ярлыков", ведущих к провалу

Что это значит для нас?

Несмотря на громкие заявления технологических гигантов,

роботы пока не готовы забрать наши рабочие места

.
Современные алгоритмы –

потрясающие инструменты, но ужасные самостоятельные исполнители

. Им не хватает интуиции, гибкости мышления и элементарной надежности.
Так что

реальное будущее рынка труда – это симбиоз

: человеческий интеллект направляет и контролирует, а искусственный усиливает возможности и берет на себя монотонные задачи

Так что можно выдохнуть – пока что работа в безопасности! 🙃

#AI@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

Futurism

Professors Staffed a Fake Company Entirely With AI Agents, and You'll Never Guess What Happened

An experiment by researchers at Carnegie Melon University staffed a fake software company with AI Agents, and the results were dismal.

9❤26🎉13👍10🥰8🤩8👏5🤓4👾2

1.71K viewsedited 12:41

mrtnv | prism

ChatGPT – это не одна модель. Их много, и это круто

OpenAI подробно рассказали, как выбирать модели под разные задачи, чтобы работать максимально эффективно и экономично

📌

GPT-4o
Универсальный помощник для повседневных задач. Отлично справляется с письмами, краткими сводками, идеями и лёгкой аналитикой. Понимает текст, картинки, таблицы, документы и даже видео
💬 Примеры:
– Сделать саммари после встречи
– Написать письмо клиенту после запуска проекта
– Придумать идеи презентации по наброскам и скриншотам

📌

GPT-4.5
Лучше всего подходит для текстов, где важен EQ, креативность и убедительность.
💬 Примеры:
– Яркий пост для LinkedIn про тренды ИИ
– Чёткое описание нового продукта
– Письмо а-ля «мы облажались, но вот как мы это исправим»

📌

OpenAI o4-mini
Самая быстрая и экономичная модель для технических вопросов, STEM-задач, программирования и визуальных рассуждений.
💬 Примеры:
– Быстро исправить ошибку в коде
– Извлечь данные из CSV-файла
– Кратко объяснить научную статью

📌

OpenAI o4-mini-height
Модель с дополнительной точностью и глубиной для более-менее сложного программирования, математики и технических объяснений.
💬 Примеры:
– Решить сложное уравнение и объяснить по шагам
– Написать и потестить SQL-запросы
– Подробно объяснить сложную научную тему простыми словами

📌

OpenAI o3
Мощная модель для стратегических задач, глубокого анализа данных, продвинутого программирования и аналитики.
💬 Примеры:
– Проанализировать рынок и предложить стратегию
– Построить многоступенчатый прогноз на основе большого CSV
– Разработать бизнес-стратегию с визуализациями и цифрами

📌

OpenAI o1-pro
Медленная, но максимально точная модель для комплексных аналитических задач, требующих высокого уровня точности.
💬 Примеры:
– Подробный анализ рисков перед запуском продукта
– Многостраничное резюме исследовательских данных
– Алгоритмы и расчёты для финансового прогноза с обоснованием

💡

Чем мощнее моделька, тем выше цена или жестче лимиты

. Поэтому логично подбирать ее под задачу: где-то нужна глубина, а где-то хватит скорости и простоты. Такой подход экономит и время, и деньги – без потери качества.

#AI@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

15❤24🤩14👍12🥰11🎉76👏3🦄33😁1

1.7K views12:30

mrtnv | prism

AI Tooling ≠ Function Calling
– в чём разница и зачем это знать

Многие путают AI tooling и function calling, используя эти термины как синонимы. Но это разные уровни взаимодействия LLM с внешним миром.
Разберемся, в чём разница и почему это важно.

Сразу ловите TL;DR:

🟢AI tooling – это общий подход к интеграции моделей с инструментами. Function calling – конкретный механизм вызова функций. А Pydantic помогает структурировать данные для надёжной работы.

🔍 В чём разница?

AI tooling – широкое понятие:
➡️Включает любые способы расширения возможностей LLM
➡️RAG – поиск и подключение внешних документов к контексту
➡️Плагины и расширения
➡️Интеграции с внешними сервисами
➡️Агентные системы

Function Calling – конкретный механизм:
➡️Структурированный способ вызова функций
➡️ Часть AI Tooling, но не весь туллинг
➡️ Формализованный протокол взаимодействия
➡️ Поддерживается нативно многими моделями

🛠️ Pydantic: мост между LLM и кодом

Pydantic решает ключевую проблему function calling – валидацию и структурирование данных:

from pydantic import BaseModel, Field

class WeatherQuery(BaseModel):
    city: str = Field(description="Название города")
    units: str = Field(default="celsius", pattern="^(celsius|fahrenheit)$")
    
# Модель генерирует JSON, Pydantic валидирует

Преимущества Pydantic:

➡️

Типизация: чёткие схемы данных

➡️

Валидация: автоматическая проверка параметров

➡️

Документация: описания полей помогают LLM

➡️

Конвертации: автоматическое преобразование типов

Наглядный пример:

# AI Tooling: общий подход
class AIAssistant:
    def __init__(self):
        self.tools = {
            "search": SearchTool(),
            "calculator": CalculatorTool(),
            "database": DatabaseTool()
        }
    
    # Function calling: конкретная реализация
    def execute_function(self, function_call):
        # Pydantic для валидации
        validated_params = FunctionParams(function_call.params)
        return self.tools[function_call.name].execute(validated_params)

❗️

Тренды и будущее

Стандартизация: унификация подходов между провайдерами
Нативная поддержка: встроенные Pydantic-схемы в API
Композиция функций: сложные цепочки вызовов
Автодискавери: LLM сама находит нужные инструменты

🟢

Главное понимать

: AI tooling – это множество подходов, function calling – конкретный инструмент, а Pydantic – обеспечивает надёжную валидацию данных.

🟢

Правильный инструмент → правильное решение → меньше проблем → генерим value

#AI@mrtnv_prism
#AITools@mrtnv_prism

@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

10❤10✍9554👍1

2.51K views19:30

mrtnv | prism

А/Б-тесты [1/3]: базовый гайд для принятия решений на основе данных

💡Регулярно слышу от менти и коллег вопросы про A/B-тесты. И так же часто вижу, как на основе плохо поставленных экспериментов делают выводы, которые потом превращаются в ненужные фичи, неработающие редизайны и сломанные воронки.
Эта серия – для тех, кто строит продукт и принимает решения на основе данных: продакт-менеджеров, аналитиков, инженеров. Здесь — короткие и практичные принципы A/B-тестирования, которые помогут отделять реальные улучшения от случайного шума.
В продуктовой разработке изменения часто оценивают по росту метрик: выше конверсия, быстрее флоу, больше кликов. Но рост цифр сам по себе ничего не доказывает.

🟢A/B – это не просто запуск двух версий. Это метод, у которого есть правила. И если их игнорировать – легко сделать выводы, которые ничего не значат.

🎯 Что такое А/Б-тест

Представим: есть абстратный интернет-магазин. Мы

хотим проверить, какая кнопка "Купить" работает лучше

– красная или зелёная?

А/Б-тест – это эксперимент, который позволяет сравнить гипотезу через сравнение двух вариантов:

➡️50% посетителей – старую красную кнопку (группа А)
➡️50% посетителей – новую зелёную кнопку (группа Б)

Через определенный период времени сравниваем результаты. Если зелёная кнопка принесла больше покупок – огонь! Но как убедиться, что это не случайность? Здесь и нужна статистика...

🔬 Начинаем с гипотезы

Перед тестом всегда формулируется пара предположений (гипотез). Например:

➡️"Зелёная кнопка не изменит продажи" (H₀, нулевая гипотеза)
➡️"Зелёная кнопка увеличит продажи" (H₁, альтернативная гипотеза)

Важный нюанс: можно проверять изменение в одну сторону (только рост) или в обе (любое изменение). Но пара гипотез нужна всегда.

📐 Планируем эксперимент

Сколько продаж нужно для надёжного результата? Если у вас 10 покупок в день, а вы хотите увидеть рост на 5% – потребуются недели тестирования.

Ключевые вопросы перед стартом:

– Какой минимальный эффект имеет смысл? (5% роста? 10%?)
– Сколько пользователей нужно для теста?
– Как долго будем тестировать?

💼 Где применять А/Б-тесты

Интернет-магазин: какой дизайн карточки товара продаёт лучше?
Медиа: какой заголовок статьи привлечёт больше читателей?
Email: когда лучше отправлять рассылку – утром или вечером?
Офлайн-ритейл: на какой полке товар продаётся лучше?
AI-продукты: какой алгоритм рекомендаций удерживает пользователей дольше?

❗️

Типичные ошибки (и их цена)

– "О, конверсия выросла на 20%! Останавливаем тест!" → Слишком рано. Может быть случайность.
– "Запустим на 100 пользователях" → Слишком мало. Результат ненадёжен.
– "Тестируем 10 вариантов одновременно" → Растёт шанс увидеть несуществующий эффект.
– "В прошлый вторник сработало!" → А это была не Чёрная пятница случайно?

✅

Чек-лист для запуска теста

– Что конкретно хотим проверить?
– Какую метрику будем измерять?
– Сколько пользователей нужно для теста?
– Как долго будем тестировать?
– Учли ли сезонность и особенности аудитории?

🟢

А/Б-тест работает, когда всё сделано правильно.

Продуманный дизайн + корректная интерпретация = реальный инсайт

Далее расскажу → Почему p-value ≠ вероятности успеха и как правильно интерпретировать результаты тестов

#ABtesting@mrtnv_prism

@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

16❤139👍73

2.41K viewsedited 19:33

mrtnv | prism

Codex – AI, который пишет и тестирует код сам

OpenAI запустила Codex – нового агента внутри ChatGPT, который пишет код, находит баги, пишет тесты и делает Pull Request. Все в облачной песочнице, без установки и лишней возни.

📌

Что он умеет
– Понимает проекты на GitHub
– Пишет и дорабатывает код
– Запускает код и тесты (а потом сам ищет ошибки)
– Работает параллельно и автономно

Codex работает на новой модели codex-1 (на базе o3), специально обученной для задач программирования.

🔗

Подробнее – тут

Пока раскатали только для Pro-аккаунтов, для Plus обещают скоро. Будем тестить 😎

@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

Openai

Introducing Codex

Introducing Codex: a cloud-based software engineering agent that can work on many tasks in parallel, powered by codex-1. With Codex, developers can simultaneously deploy multiple agents to independently handle coding tasks such as writing features, answering…

12❤14🥰13👍8🤩6👏4🎉33

3.25K viewsedited 16:13

mrtnv | prism

Статистические тесты и метрики [2/3]: что на самом деле измеряют ваши эксперименты

← В предыдущем посте мы разобрали основы А/Б-тестов и типичные ошибки

💡TL;DR – понимание метрик помогает отличить реальный эффект от шума. Чтобы понять, есть ли изменения на самом деле, важно не только p-value, но и размер эффекта, мощность теста и контекст.

🎯 Что такое статистический тест

Это математический способ ответить на вопрос: «Изменение реально или случайно?»
Представьте, что подбрасываете монетку. Если выпало 6 орлов из 10 бросков, это вполне нормально. Но если 60 орлов из 100 – уже подозрительно, а 600 из 1000 – почти наверняка монетка нечестная.

💡Статистический тест помогает нам определить эту границу "подозрительности" в цифрах.

📊 Ключевые метрики

Когда говорят о статистических тестах, часто упоминают три ключевых понятия:

1️⃣

Уровень значимости (α) – это риск увидеть эффект там, где его нет. Обычно его устанавливают на уровне 5%. Проще говоря, мы соглашаемся, что в 5 случаях из 100 будем ошибаться, считая случайность настоящим эффектом.

2️⃣

Мощность теста (1−β) – это шанс обнаружить эффект, если он реально существует. Стандарт — 80%. То есть, если изменение действительно работает, мы хотим заметить это в 80% случаев.

3️⃣

p-value – самое запутанное понятие. Это вероятность получить такие же (или более экстремальные) результаты, если на самом деле никакого эффекта нет. Низкий p-value говорит: "такой результат маловероятен, если эффекта нет, значит, эффект скорее всего есть".

📋 Как интерпретировать p-value без головной боли

Вот простая шпаргалка по p-value (условно, важен контекст):
➡️Если p < 0.01: "У нас очень сильные доказательства в пользу эффекта"
➡️Если p < 0.05: "У нас достаточные доказательства в пользу эффекта"
➡️Если p > 0.05: "Доказательств недостаточно, чтобы утверждать наличие эффекта"

💡Чем меньше p-value, тем весомее доказательства того, что вы видите реальное изменение, а не случайный шум.

🔍 Четыре возможных результата теста

1️⃣

Правда выявлена: эффект есть, и тест его обнаружил. Идеальный результат.

2️⃣

Ложная тревога: эффекта нет, но тест показал, что он есть. Это ошибка I рода (вероятность = α). Вы внедряете изменение, которое не работает.

3️⃣

Упущенная возможность: эффект есть, но тест его не обнаружил. Это ошибка II рода (вероятность = β). Вы отказываетесь от изменения, которое могло бы принести пользу.

4️⃣

Корректный результат: эффекта нет, и тест это подтвердил. Всё правильно.

💼 Реальные примеры из практики

➡️

Email-кампания: персонализированные письма увеличили открываемость на 3% с p-value = 0.001. Эффект небольшой, но мы уверены, что он реальный.

➡️

AI-чатбот: замена GPT-3.5 на GPT-4 улучшила разрешение клиентских тикетов на 22%, p-value = 0.02. Эффект значительный и статистически подтверждённый.

⚡ MDE (Minimum Detectable Effect) и размер выборки

Перед тестом определите минимальный значимый эффект (MDE) – наименьшее изменение, которое имеет смысл искать. Это влияет на размер выборки.

💡Пример: для обнаружения роста конверсии с 10% до 10.5% (MDE = 0.5%) потребуется около 31 000 пользователей на вариант (при α = 0.05 и мощности 80%)! Вот почему многие тесты "не видят" эффект – просто недостаточно данных

✅ Несколько правил успешных тестов

– Фиксируйте метрики и MDE до запуска. Определите минимальный эффект, который хотите увидеть.
– Рассчитывайте размер выборки заранее. Маленькие изменения требуют больших выборок.
– Смотрите на результаты комплексно. p-value + доверительные интервалы + бизнес-контекст.
– Различайте статистическую и практическую значимость. Эффект может быть статистически доказан, но бизнес-эффект слишком мал для внедрения.

Далее → Как формулировать гипотезы, которые можно проверить и масштабировать

#ABtesting@mrtnv_prism

@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

5❤17👍14🥰119🤩5🎉3👏2

3.39K viewsedited 12:03

mrtnv | prism

Гипотезы в А/Б-тестах [3/3]: от интуитивных идей к системному подходу

← В предыдущих постах мы разобрали основы А/Б-тестов и основы статистических тестов

💡TL;DR – сформулированная SMART-гипотеза + приоритизация (ICE) превращают эксперименты из лотереи в системный инструмент роста

🎯 Откуда брать идеи для гипотез

Вот 4 надёжных источника:

Логи пользователей – где они останавливаются? уходят? путаются?
Customer interviews – спросите напрямую, что мешает достичь цели
Конкурентный анализ – что тестируют другие игроки рынка?
AI-майнинг – используйте LLM для генерации гипотез на основе данных

💡

Бонус-источник

: фиды A/B-тестов гигантов вроде Booking, Amazon, Spotify. Они постоянно экспериментируют – можно подсматривать :)

🔍 Шаблон SMART-гипотезы

❌

Слабая

: "Сделаем кнопку зелёной – вырастут продажи"

✅

Сильная

: "Если мы изменим цвет кнопки 'Купить' с серого на зелёный, то CTR увеличится на 15% (±5%) для мобильных пользователей, потому что зелёный цвет ассоциируется с действием и лучше выделяется на белом фоне."

Формула SMART:

🔤

pecific – что конкретно меняем?

🔤

easurable – какую метрику отслеживаем?

🔤

ttainable – реалистичный ожидаемый эффект?

🔤

elevant – почему это должно сработать?

🔤

imed – как долго будем тестировать?

📊 Приоритизация: ICE-фреймворк

Как выбрать из 10 идей 2-3 для тестирования? Используйте ICE-оценку:

🔤

mpact – потенциальное влияние (1-10)

🔤

onfidence – уверенность в гипотезе (1-10)

🔤

ase – простота реализации (1-10)

Пример оценки:
1. Зелёная кнопка: I=4, C=8, E=10 → ICE=320
2. Персонализация рекомендаций: I=9, C=6, E=3 → ICE=162
3. Редизайн целиком: I=10, C=3, E=1 → ICE=30

Стоит начать с №1 – конечно не самый высокий Impact, но быстрее получим результат.

🔄 Построение экспериментального пайплайна

Оч круто выстраивать процесс как конвейер, а не разовые акции:


Backlog → Design → Run → Analyze → Scale/Kill

Backlog: собираем гипотезы постоянно
Design: детализируются метрики, дизайн, расчет выборки
Run: тестируем чисто, без вмешательств
Analyze: оценивается статистика и бизнес-эффект
Scale/Kill: внедряем или документируйте провал

💡

Совет

: держите в работе разные типы тестов одновременно – мелкие/быстрые и крупные/долгие

🚀 Масштабирование победителей

Нашли победителя? Не спешите на 100% аудитории:

1. A/A-проверка – убедитесь, что измерительная система работает корректно
2. Поэтапный rollout: 10% → 30% → 50% → 100%
3. Holdout-группа – можно на время оставить 5% пользователей на старой версии для долгосрочного контроля

⚠️ Типичные анти-паттерны

P-хакинг – досрочная остановка теста, как только увидели "значимый" результат
HARKing – придумывание гипотезы после просмотра результатов
Конфликт экспериментов – одни пользователи в нескольких тестах одновременно
Игнорирование сегментов – эффект может сильно отличаться для разных групп
"Закрытый пробирочный эффект" – работает на тесте, но не в реальном мире

💎 Итоги всей серии:

1️⃣ А/Б-тест – это система, а не случайный выбор
2️⃣ Правильная формулировка гипотез повышает шансы на успех
3️⃣ Приоритизация помогает выбрать тесты с лучшим ROI
4️⃣ Экспериментальный пайплайн превращает отдельные тесты в фабрику улучшений

🟢

Хорошие гипотезы иногда рождаются спонтанно – и это нормально.

Но если вы хотите стабильный рост, добавьте к спонтанности щипотку системности. В итоге ваши A/B-тесты из интересных опытов превратятся в надёжную систему непрерывных улучшений.

#ABtesting@mrtnv_prism #ProductGrowth #AI

@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

52❤17🤩10👍77🥰6🎉5👏442

2.3K viewsedited 18:10

mrtnv | prism

24 мая, Забег.рф

Жара под +30, а мне – норм!

Суббота удалась! Спасибо коллегам за компанию и отличное настроение 🌨

#running@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

15❤22🥰11👏98👍7🤩44🎉3

1.77K viewsedited 17:26

✈️ Telegram и xAI объявили о глобальном партнерстве

Павел Дуров и Илон Маск договорились о сотрудничестве, которое должно кардинально изменить Telegram.
Уже этим летом все миллиард+ пользователей получат доступ к Grok с глубокой интеграцией.

Что обещают для Grok в Telegram:
– Суммаризация чатов, ссылок и файлов
– Помощь в написании сообщений
– Модерация групп и каналов
– Фактчекинг постов
– Создание персональных стикеров

Финансовая составляющая сделки: Telegram получит $300M деньгами и акциями xAI + 50% выручки от подписок, оформленных через мессенджер. За xAI остаются данные взаимодействий пользователей с ИИ.

Звучит уже супер, а потенциал огромный: обещанная интеграция почти точно станет пушкой, но представьте полноценный семантический поиск по чатам, голосовой ввод/вывод в реальном времени и персонального ИИ-секретаря 😍

Пока что доступ к Grok есть через бота [@GrokAI] для подписчиков Telegram Premium – можно тестить

А лето, между прочим, уже через пару дней

🙃

#AI@mrtnv_prism
#Telegram #Grok #xAI

@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

16❤18👍13🥰13🤩8👏44🎉2🦄2

1.64K viewsedited 16:46

About

Blog

Apps

Platform