Experiment Desk
390 subscribers
21 photos
2 videos
32 links
Experiment Desk — про A/B-тесты, CRO, поведенческую психологию.
Конкретные сплит-тесты, статистическая значимость, UX-исследования.
CXL, VWO, Baymard, Optimizely. Канал сети public.tg.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
ByteDance анонсировала новую версию SeeDance версии 2.5

ByteDance готовит релиз Seedance 2.5 — видеогенератора нового уровня. Главное улучшение: модель сможет создавать 30-секундные видео за один прогон без склеек, вместо нынешних 15 секунд. Добавили локальный монтаж отдельных кадров, поддержку 3D-болванок для управления камерой, возможность использовать до 50 референсов и генерацию в 4К сразу. Закрытый бета-тест идёт сейчас, открытый релиз ожидается в начале июля. Технологически это шаг вперёд, но д…

➡️ Читайте на сайте: https://aff.top/blog/bytedance-anonsirovala-novuiu-versiiu-seedance-versii-2-5

🧠 Ещё больше инсайтов → в канале AFF.top
This media is not supported in your browser
VIEW IN TELEGRAM
Codex уничтожит твой SSD за год

Разработчик обнаружил критический баг в Codex CLI от OpenAI: агент непрерывно записывает логи в локальную SQLite-базу, перезаписывая за 21 день 37 ТБ данных. При таком темпе типичный SSD объёмом 1 ТБ (рассчитанный на 600 ТБ перезаписей) выходит из строя менее чем за год. OpenAI осведомлена о проблеме, но пока не исправляет её. Пользователям остаётся либо ждать обновления, либо переключиться на альтернативные CLI-инструменты без подобных недостат…

➡️ Читайте на сайте: https://aff.top/blog/codex-unichtozhit-tvoi-ssd-za-god

🧠 Ещё больше инсайтов → в канале AFF.top
Эксперименты ломаются не на статистике, а на постановке гипотезы и метриках

Гипотеза должна описывать не «улучшим конверсию», а конкретное изменение поведения: какой сегмент, какой элемент, какой ожидаемый механизм. Если формулировка не влезает в одну фразу, тест, скорее всего, слишком расплывчатый.

Дальше — метрика. Нужна одна primary-метрика и 1–3 guardrail-метрики, иначе вы поймаете «рост» за счёт деградации качества. Для e-commerce это часто checkout completion плюс возвраты, ошибки формы и средний чек; для SaaS — активация плюс удержание и глубина использования.

Размер выборки и длительность важнее красивого лифта. Останавливать тест после первого значимого результата — классическая ошибка с подглядыванием. Если заранее не зафиксированы MDE, единица рандомизации и критерий остановки, вывод почти всегда будет переоценён.

Ещё одна проблема — смешивание сегментов. Новый и возвращающийся трафик, mobile и desktop, брендовый и небендовый источник часто реагируют по-разному. Сначала проверьте, что эффект не держится на одном маленьком сегменте, а потом уже масштабируйте решение.

Хороший эксперимент — это не «победил вариант B», а воспроизводимая схема: чёткая гипотеза, одна главная метрика, заранее заданный размер выборки и проверка сегментов.
7 ошибок A/B-теста, из-за которых “победитель” потом исчезает в проде

Главная проблема не в статистике как таковой, а в постановке теста. Когда метрика выбрана слишком узко, тест «выигрывает» по клику, но проигрывает по выручке, удержанию или качеству лида.

— Смотрят только на CTR, игнорируя downstream-метрики. Кнопка может собирать больше кликов и одновременно ухудшать конверсию в покупку.
— Останавливают тест, когда результат «стал красивым». Это классическая ловушка peeking: чем чаще смотрите, тем выше шанс ложного победителя.
— Делят трафик на слишком мелкие сегменты. В итоге доверительный интервал шире эффекта, а выводы нестабильны.
— Тестируют сразу несколько изменений в одном варианте и потом не понимают, что именно дало эффект.
— Запускают эксперимент на периоде с сильной сезонностью или промо-аномалией без контроля базовой линии.
— Считают победой малый uplift без оценки практической значимости: +1% при высокой дисперсии может быть шумом.
— Не проверяют, не сломал ли вариант мобильный сценарий, хотя именно там часто живёт основная доля трафика.

Хороший A/B-тест — это не «нашли плюс», а проверили гипотезу так, чтобы её можно было воспроизвести. Перед запуском фиксируйте primary metric, guardrails, минимальный размер эффекта и правило остановки.
This media is not supported in your browser
VIEW IN TELEGRAM
Google ужесточает модерацию финансовой вертикали

Google ужесточает модерацию финансовых офферов в ЕС и ЕЭЗ, введя двухэтапную верификацию через G2 Risk Solutions и Google Ads. Проверка затронет 24 страны, включая Австрию, Польшу, Нидерланды и другие члены союза. На прохождение модерации отводится 30 дней — за это время некоторые связки успеют отработать до вступления требований в силу. Для арбитражников это означает необходимость подготовиться к усложнению процесса запуска финансовых кампаний …

➡️ Читайте на сайте: https://aff.top/blog/google-uzhestochaet-moderaciiu-finansovoi-vertikali

🧠 Ещё больше инсайтов → в канале AFF.top
5 ошибок CRO, из-за которых тест выглядит «успешным», а продукт — нет

CRO ломается не на кнопке, а в постановке эксперимента. Чаще всего проблема в том, что тестируют слишком узкий элемент и забывают про путь пользователя целиком.

— Меняют один экран, но измеряют только клики. Если checkout стал короче по CTR, а брошенных заказов больше, лифт фиктивный.
— Смешивают новые и возвратные сессии. Для них разная мотивация, и средний эффект прячет противоположные реакции.
— Запускают тест без расчёта MDE и нужной выборки. При слабом трафике «победа» легко оказывается шумом.
— Смотрят на общую конверсию без сегментов: мобильные, new users и high-intent часто ведут себя по-разному.

Ещё одна ошибка — останавливать эксперимент по первому «плюсу». Если не задать минимальную длительность, недельные паттерны и эффект новизны исказят картину.

Хороший тест отвечает на три вопроса: кто попал в выборку, какой метрикой меряем успех и какой эффект вообще считаем значимым. Всё остальное — декорации.
This media is not supported in your browser
VIEW IN TELEGRAM
Fable 5 скоро вернётся в публичный доступ

В исходном коде Claude Code обнаружены упоминания о возвращении модели Fable 5 в публичный доступ с изменённой моделью распространения — её больше не потребуется покупать отдельно, вместо этого будет применяться недельный лимит как для других моделей. Если информация подтвердится, пользователи платных тарифов смогут использовать Fable 5 в рамках своих подписок. Причины снятия ограничений по национальной безопасности остаются неясными. Хотя это п…

➡️ Читайте на сайте: https://aff.top/blog/fable-5-skoro-vernetsia-v-publichnyi-dostup

🧠 Ещё больше инсайтов → в канале AFF.top
UX-исследование проваливается не из-за метода, а из-за плохого вопроса

Если вы хотите понять, почему пользователи не доходят до целевого действия, не начинайте с «нравится ли им интерфейс». Начните с конкретного сценария: где человек споткнулся, что ожидал увидеть, какой альтернативный путь выбрал.

В качественном исследовании важны не «мнения», а наблюдаемое поведение:
• контекст задачи: что пользователь пытался сделать до сбоя
• триггер: какой элемент заставил остановиться
• обходной путь: чем он заменил ваш сценарий
• формулировка боли: его слова, а не ваши выводы

Для количественной проверки этого же гипотезы смотрите не только на общий N, но и на сегменты: новые vs. возвращающиеся, mobile vs. desktop, длинные vs. короткие сессии. Один и тот же паттерн может быть шумом в общей массе и сильным сигналом в узком сегменте.

Ещё одна частая ошибка — смешивать исследование интерфейса и исследование мотивации. Если пользователь не нажимает CTA, это может быть не проблема кнопки, а несоответствие оффера, доверия или следующего шага в воронке. Поэтому сначала фиксируйте «где ломается путь», и только потом — «почему ломается».

Практика простая: формулируйте гипотезу так, чтобы её можно было опровергнуть одним наблюдением или одним срезом данных. Тогда UX-исследование перестаёт быть сбором мнений и становится инструментом принятия решений.
AB-тест ломается не в статистике, а в постановке: 5 ошибок до запуска

Первый провал — тестируют две версии, но не одну гипотезу. Если меняете и текст, и цвет, и порядок блоков, вы не узнаете, что именно дало эффект.

Второй — берут метрику, которая слишком далеко от бизнеса. Рост кликов на CTA ничего не значит, если падает доход на сессию или ухудшается качество лидов.

Третий — останавливают тест по первому «плюсу». Без заранее заданного размера выборки и длительности легко поймать шум и принять его за эффект.

Четвёртый — не смотрят на сегменты. В среднем тест может быть «нулевым», но на мобильных, новых пользователях или в одном гео эффект часто отличается.

Пятый — забывают про сезонность и трафик-микс. Если в начале эксперимента пришёл один тип аудитории, а в конце другой, итоговая картина уже смещена.

Перед запуском проверяйте три вещи: одна гипотеза, одна главная метрика, один заранее согласованный критерий остановки. Это банально, но именно здесь чаще всего теряют доверие к тестам.
Эксперименты ломаются не на статистике, а на плохой постановке гипотезы

Если тест стартует без чёткой гипотезы, результат почти всегда можно «прочитать» как угодно. Формулировка должна отвечать на три вопроса: что меняем, для кого и какой поведенческий эффект ожидаем.

Перед запуском проверьте:
— одна гипотеза = один основной рычаг;
— целевая метрика выбрана заранее, а не после просмотра графика;
— есть guardrail-метрики: ошибки, отказы, выручка, скорость;
— сегменты определены до старта, а не после «интересного» лифта.

Вторая частая ошибка — слишком ранняя остановка теста. Если смотреть на результат до набора нужной выборки, вы почти гарантированно поймаете шум. Особенно опасно это на редких событиях: конверсия, покупка, апрув формы.

Третья проблема — тест без механизма. Если кнопка или блок дали лифт, но непонятно почему, повторить успех в другом контексте будет сложно. Поэтому полезно фиксировать не только результат, но и предполагаемый сценарий поведения пользователя: снижение трения, рост доверия, уменьшение когнитивной нагрузки.

Хороший эксперимент — это не «победитель», а воспроизводимая логика. Если гипотеза не объясняет, почему должен меняться пользовательский путь, тест лучше не запускать.
This media is not supported in your browser
VIEW IN TELEGRAM
Chat GPT-5.6 будут выдавать лишь избранным

США ограничивают публичный доступ к новым ИИ-моделям: теперь его выдают только проверенным пользователям после обязательной 30-дневной процедуры верификации. Сэм Альтман называет это самым быстрым путём к публичному релизу. Эффективность меры вызывает сомнения — китайские разработчики традиционно копируют модели в течение суток после выхода.

➡️ Читайте на сайте: https://aff.top/blog/chat-gpt-5-6-budut-vydavat-lish-izbrannym

🧠 Ещё больше инсайтов → в канале AFF.top
This media is not supported in your browser
VIEW IN TELEGRAM
Vk удалили из App store: что дальше?

Удаление VK из App Store заблокировало доступ для владельцев iPhone в России, но проблема решаема. Арбитражники теряют один канал, но не аудиторию — 20–30 млн пользователей iOS остались на месте. Вместо VK стоит переориентироваться на альтернативные источники: Telegram Ads с таргетингом на iOS, push-сети типа AdProfex, MTS Ads и Beeline Ads. VK может последовать примеру Max и запустить PWA-приложение для восстановления уведомлений. Главный вывод…

➡️ Читайте на сайте: https://aff.top/blog/vk-udalili-iz-app-store-chto-dalshe

🧠 Ещё больше инсайтов → в канале AFF.top
Payload CMS берут не за хайп, а когда нужен контроль над структурой и API

Payload — это headless-CMS для команд, которым важны типы данных, роли, хуки и предсказуемая админка. Он хорошо ложится на продуктовые сайты, каталоги, личные кабинеты и контентные интерфейсы, где фронт живёт отдельно от бэка.

За что его обычно выбирают:
— схема контента описывается в коде, а не в кликах;
— права доступа можно дробить по коллекциям и полям;
— есть хуки, валидации и кастомная логика без лишней магии;
— API получается ближе к тому, как команда мыслит домен проекта.

Но у Payload есть и обратная сторона. Если нужен «сайт на редакторе», где контент-менеджер всё собирает сам, он ощущается тяжелее, чем Ghost. Если нужен быстрый старт без инженерной дисциплины, Strapi часто проще. Payload раскрывается там, где есть фронтенд-команда, нормальный репозиторий и желание держать CMS частью кода, а не отдельным зоопарком настроек.

Выбор простой: Payload берут не ради удобства новичка, а ради контроля над сложной моделью контента и интеграций.
Эксперименты ломаются не на статистике, а на постановке гипотезы и метрике

Если тест «не взлетел», первым делом смотрим не на p-value, а на дизайн:
— есть ли одна primary-метрика, а не три «на всякий случай»
— не менялась ли логика трафика по ходу теста
— не попали ли в выборку пользователи, которые физически не могли увидеть вариант
— не было ли пересечения с другими экспериментами

Вторая частая ошибка — измерять слишком рано. Когда конверсия зависит от цикла покупки, короткий тест ловит шум: часть аудитории ещё не дошла до целевого действия. Если у вас SaaS с отложенной оплатой или e-commerce с длинным решением, держите окно наблюдения достаточно широким, иначе «лифт» будет просто артефактом.

Третья проблема — смотреть только на среднее. Если сегментам стало хуже, а в среднем лучше, вы купили локальный выигрыш ценой качества трафика. Для проверки полезно заранее резать результаты по новым/возвратным, источнику, устройству и глубине воронки.

Финал простой: хороший эксперимент — это не тот, где «нашли победителя», а тот, где по результату можно принять решение без самообмана. Сначала фиксируем гипотезу, метрику и критерий остановки, потом уже обсуждаем цифры.
UX-опросы ломаются не из-за вопросов, а из-за того, как вы интерпретируете ответы

UX research часто превращают в «спросили пользователей — получили мнение». Проблема в том, что мнение без контекста почти не помогает продукту.

Если человек говорит «мне неудобно», уточняйте:
— на каком шаге он остановился;
— что именно ожидал увидеть;
— делал ли он это впервые или повторно;
— сравнивал ли с альтернативой.

Один и тот же ответ может означать разное: низкую заметность элемента, лишнюю когнитивную нагрузку или просто слабую мотивацию дойти до конца.

Не смешивайте в один вывод:
— наблюдение в сессии;
— ответ в интервью;
— оценку в опросе;
— поведение в аналитике.

Это разные типы данных. Интервью хорошо объясняет почему, но не показывает масштаб. Аналитика показывает масштаб, но не объясняет причину. Сильный вывод появляется только когда они совпадают.

И ещё одна типичная ошибка: задавать вопрос так, чтобы пользователь сразу начал предлагать решение. Лучше спрашивать о последнем конкретном опыте, а не о «желательном интерфейсе».

Если коротко: не верьте первой формулировке боли. Дожимайте контекст до момента, когда ответ можно сопоставить с поведением.
Forwarded from Потрачено! Клуб спящих бизнесменов!
Коллеги, тут типа серьёзный пост про кое что новое....

Последние месяцы я всё глубже ухожу в AI, автоматизацию и вайб-кодинг. И каждый день нахожу вещи, которые реально можно применять в арбитраже уже сегодня.

Новые MCP, AI-агенты, GitHub-репозитории, скрипты, сервисы, автоматизация, генерация контента, Telegram, инфраструктура… Короче всё, что помогает работать быстрее и зарабатывать больше.

Но публиковать это здесь не хочется.

Этот канал всё-таки про арбитраж, рынок, движуху и мои проекты.

Поэтому сделал отдельный канал AFF//AI.

Туда будут улетать:
• лучшие AI-инструменты для арбитражников;
• GitHub-репозитории и готовые решения;
• промпты, MCP, AI-агенты и автоматизация;
• разборы новых GPT, Claude и других моделей;
• всё, что реально экономит время и даёт преимущество в работе.

Если кажется, что AI скоро изменит арбитраж сильнее, чем очередной антидетект или новый спай-сервис, скорее всего так и будет.

Поэтому AFF//AI станет местом, куда я буду складывать всё самое полезное, что нахожу каждый день.
UX-исследование ломается не на методе, а на плохом вопросе и слабой выборке

Если задача — понять поведение, а не собрать «мнение», начинайте с сценария: что человек пытается сделать, где он сомневается, на каком шаге уходит. Один интервью-вопрос «почему вам не понравилось?» даёт шум. Вопрос «что вы ожидали увидеть после клика?» уже даёт гипотезу для теста.

В качественном исследовании 5–8 респондентов на сегмент часто полезнее, чем 30 «случайных» ответов без контекста. Смотрите не на среднюю оценку, а на повторяющийся паттерн: одинаковая формулировка боли, один и тот же барьер в шаге checkout, один и тот же способ обхода интерфейса.

Для модерации держите три правила:
— не подсказывать ответ;
— не смешивать новые пользователи и опытных в один вывод;
— фиксировать дословные цитаты, а не пересказ исследователя.
Иначе потом в отчёте появляется красивый текст, который нельзя проверить по сырью.

После сессий не пишите «людям не нравится форма». Пишите: где именно они ошибаются, какой элемент вводит в заблуждение, какой сигнал не считывается. Это уже можно превратить в A/B-гипотезу, а не в общий комментарий к макету.

Лучшее UX-исследование — то, из которого можно извлечь повторяемый барьер и проверить его на продукте.
Forwarded from Потрачено! Клуб спящих бизнесменов!
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 aff.top — вся индустрия арбитража в одном месте
🧠 Блог про арбитраж и ИИ — как нейросети меняют залив и антифрод
🚨 База спамеров — ежедневно собираем спамеров и ведём рейтинг
🛠 70+ инструментов — от клоаки до антифрод-чека
🎬 1000+ видео — весь YouTube про трафик в одной ленте
👤 2400+ персон — байеры и фаундеры с контактами напрямую
Без регистрации, без платных «премиумов».
👇 Подписывайся на канал
CRO без магии: 7 проверок, которые спасают тест от ложного лифта

1) Формулируйте гипотезу как изменение поведения, а не «улучшение кнопки».
2) До старта фиксируйте primary metric и guardrails: конверсию, выручку, возвраты, ошибки формы.
3) Считайте минимально значимый эффект заранее: если тест не способен его поймать, он почти гарантированно даст шум.
4) Не режьте трафик по устройствам и гео без причины — иначе эффект легко потерять в подгруппах.

5) Смотрите на длительность по циклу спроса, а не по календарю: у e-commerce это часто важнее «ровных» 7 дней.
6) Проверяйте SRM и аномалии в логике сплита: перекос трафика убивает доверие к результату.
7) Если метрика выросла, но выросли и ошибки, и отказы, и время до оплаты — это не победа, а компромисс.

Финал простой: хороший CRO-тест начинается не с макета, а с метрики, выборки и правил остановки. Если этого нет, «лифт» почти всегда оказывается статистической иллюзией.