Ольга Шаврина написала об опыте а/б-тестов с помощью Google Optimize.
— Работает в связке с Google Analytics;
— Позволяет тестировать: а) Цвета, размеры и всё, что настраивается в CSS; б) Контент; в) Порядок и отображение блоков;
— Может таргетировать эксперимент на аудиторию, выбранную по 11 параметрам: URL, категория устройства и так далее.
Сначала загружается оригинальная страница со всем статическим и динамическим контентом, потом применяются изменения в рамках эксперимента. Если это текст заголовка в начале страницы, пользователь увидит изменение. Есть плагин, скрывающий страницу до применения изменений, но это задерживает загрузку страницы.
Эксперимент показал, что идея была удачной, и новый вариант дизайна работает лучше оригинального. Но от постановки задачи до внедрения проходит не одна неделя. Чтобы получить новый интерфейс уже сейчас, можно просто включить выигравший вариант на 100% аудитории.
Optimize не очень информативно показывает список завершенных и текущих экспериментов. Ольга завела табличку, где отмечает детали экспериментов: включён или нет, дата, цель (метрика для улучшения), таргетинг, гипотеза (что проверяю), результат (кто победил), выводы (что это означает).
#ab_testing
— Работает в связке с Google Analytics;
— Позволяет тестировать: а) Цвета, размеры и всё, что настраивается в CSS; б) Контент; в) Порядок и отображение блоков;
— Может таргетировать эксперимент на аудиторию, выбранную по 11 параметрам: URL, категория устройства и так далее.
Сначала загружается оригинальная страница со всем статическим и динамическим контентом, потом применяются изменения в рамках эксперимента. Если это текст заголовка в начале страницы, пользователь увидит изменение. Есть плагин, скрывающий страницу до применения изменений, но это задерживает загрузку страницы.
Эксперимент показал, что идея была удачной, и новый вариант дизайна работает лучше оригинального. Но от постановки задачи до внедрения проходит не одна неделя. Чтобы получить новый интерфейс уже сейчас, можно просто включить выигравший вариант на 100% аудитории.
Optimize не очень информативно показывает список завершенных и текущих экспериментов. Ольга завела табличку, где отмечает детали экспериментов: включён или нет, дата, цель (метрика для улучшения), таргетинг, гипотеза (что проверяю), результат (кто победил), выводы (что это означает).
#ab_testing
Olgashavrina
Как я подсела на А/Б тестирование интерфейса
Какого UX-ера не спроси «Что ты думаешь об А/Б-тестировании?» – все в один голос отвечают, что это самая необходимая в хозяйстве вещь и по-другому вообще нельзя. Но скажите честно, вы А/Б-тестите интерфейсы...
Ольга Шаврина продолжила рассказ об использовании Google Optimize для проведения а/б-тестов.
Как тестировать:
— Всплывающие блоки вроде по умолчанию скрытой плашки с календарём (режим Interactive mode);
— Сразу все типовые элементы на странице, например, карточки товаров в каталоге (кнопка Select similar);
— Совершенно новые элементы интерфейса ↓
Экспериментальный дизайн отображается после полной загрузки страницы, поэтому пользователь может заметить исчезновение новых элементов. Это снижает доверие. Скрытие всего содержимого страницы до загрузки эксперимента замедляет продукт. Чтобы избежать этого, новые элементы следует добавлять в скрытом виде (display: none), а в рамках эксперимента включать их. Тогда пользователь может заметить не исчезновение, а появление элементов, что вполне нормально для современных сайтов.
Почему лучше тестировать на всех языковых версиях одновременно:
— На результаты могут влиять неточности перевода;
— Поведение аудитории может отличаться (немцы и итальянцы);
— Объём контента может быть разным. В одной стране много товаров, в другой — мало, и появление нового параметра фильтрации будет чаще приводить к пустому списку;
— Больше выборка и статистически более значимые результаты.
Как проверять экспериментальный дизайн на мобильных устройствах: Preview → Share preview → Открытие полученной ссылки в любом браузере.
#ab_testing
Как тестировать:
— Всплывающие блоки вроде по умолчанию скрытой плашки с календарём (режим Interactive mode);
— Сразу все типовые элементы на странице, например, карточки товаров в каталоге (кнопка Select similar);
— Совершенно новые элементы интерфейса ↓
Экспериментальный дизайн отображается после полной загрузки страницы, поэтому пользователь может заметить исчезновение новых элементов. Это снижает доверие. Скрытие всего содержимого страницы до загрузки эксперимента замедляет продукт. Чтобы избежать этого, новые элементы следует добавлять в скрытом виде (display: none), а в рамках эксперимента включать их. Тогда пользователь может заметить не исчезновение, а появление элементов, что вполне нормально для современных сайтов.
Почему лучше тестировать на всех языковых версиях одновременно:
— На результаты могут влиять неточности перевода;
— Поведение аудитории может отличаться (немцы и итальянцы);
— Объём контента может быть разным. В одной стране много товаров, в другой — мало, и появление нового параметра фильтрации будет чаще приводить к пустому списку;
— Больше выборка и статистически более значимые результаты.
Как проверять экспериментальный дизайн на мобильных устройствах: Preview → Share preview → Открытие полученной ссылки в любом браузере.
#ab_testing
Olgashavrina
А/Б тестирование в Google Optimize. Уровень «Полубог»
За последние пару месяцев я неплохо продвинулась в А/Б тестировании маркетплейса с помощью Google Optimize, выпытала секреты у гуру из продуктовой команды соседнего стартапа и нашла несколько лайфхаков.
Владимир Меркушев написал вводную статью об а/б-тестировании.
— Суть в том, чтобы разделить аудиторию на части, показать им разные версии чего-либо и понять (на основе количественных данных), какая версия лучше;
— Протестировать можно, например, как разные призывы к действию влияют на конверсию, а также более долгосрочные метрики вроде среднего чека или прибыли;
— Тест лучше проводить с контрольной выборкой: для проверки 2 вариантов аудиторию делят на 3 группы, и двум из них показывают один и тот же вариант. Если метрики у этих двух групп не будут отличаться, значит, внешние факторы на результат не повлияли, и данным можно доверять;
— Если вариантов больше двух, можно провести мультивариантное тестирование. Так удобно тестировать комбинации вариантов, например, 4 призыва к действию и 2 цвета кнопки (будет тест с 8 вариантами);
— Стоит тестировать не только первое целевое действие (например, количество нажатий на кнопку), но и дальнейшее поведение пользователя (например, показатель отказов на открывшейся странице или конверсию в покупку);
— Не смешивайте выборки параллельно идущих тестов, так как варианты из одного теста могут влиять на восприятие вариантов из других тестов. Например, не стоит на главной странице одновременно тестировать кнопки меню и текст призыва к действию;
— А/б-тестирование скорее всего не подойдёт для B2B, B2G, премиального сегмента и продукта на старте, когда у него мало трафика;
— Калькуляторы для расчёта показателя статистической значимости обычно интегрированы в системы настройки тестов.
#ab_testing
— Суть в том, чтобы разделить аудиторию на части, показать им разные версии чего-либо и понять (на основе количественных данных), какая версия лучше;
— Протестировать можно, например, как разные призывы к действию влияют на конверсию, а также более долгосрочные метрики вроде среднего чека или прибыли;
— Тест лучше проводить с контрольной выборкой: для проверки 2 вариантов аудиторию делят на 3 группы, и двум из них показывают один и тот же вариант. Если метрики у этих двух групп не будут отличаться, значит, внешние факторы на результат не повлияли, и данным можно доверять;
— Если вариантов больше двух, можно провести мультивариантное тестирование. Так удобно тестировать комбинации вариантов, например, 4 призыва к действию и 2 цвета кнопки (будет тест с 8 вариантами);
— Стоит тестировать не только первое целевое действие (например, количество нажатий на кнопку), но и дальнейшее поведение пользователя (например, показатель отказов на открывшейся странице или конверсию в покупку);
— Не смешивайте выборки параллельно идущих тестов, так как варианты из одного теста могут влиять на восприятие вариантов из других тестов. Например, не стоит на главной странице одновременно тестировать кнопки меню и текст призыва к действию;
— А/б-тестирование скорее всего не подойдёт для B2B, B2G, премиального сегмента и продукта на старте, когда у него мало трафика;
— Калькуляторы для расчёта показателя статистической значимости обычно интегрированы в системы настройки тестов.
#ab_testing
skillsetter.io
10 стыдных вопросов об A/B-тестировании
Статья, после которой A/B-тестирование станет понятнее и ближе.
Виктория Гордеева написала о борьбе с сетевыми эффектами при проведении а/б-тестов.
— Сетевой эффект — влияние одного участника эксперимента на другого;
— Например, идёт тест изменения, которое должно повысить количество отправляемых сообщений. Пользователи из экспериментальной группы начинают активнее писать пользователям из контрольной группы, а те отвечают. Метрики меняются в обеих группах, и оценивать результаты а/б-теста становится сложно;
— С этим можно бороться: 1. Сравнивать метрики до и после изменения. Но на показатели могут повлиять внешние факторы вроде погоды;
— 2. Сравнивать разные натуральные кластеры пользователей, образовавшиеся естественным путём, например, людей из разных стран. Но они могут сильно отличаться поведенчески или быть слабо замкнутыми (пользователи из Беларуси и России часто взаимодействуют);
— 3. Сравнивать обычные кластеры. Но разные модели кластеризации дают разные результаты выборок, сценарий тестов нельзя унифицировать и применять всегда, результаты старых и новых тестов будут несопоставимыми;
— 4. Сравнивать эго-кластеры. Кластер формируют эго-вершины и альтер-вершины, которые связаны с эго-вершиной и взаимодействуют с ней;
— Эго-вершина должна подходить под критерии эксперимента;
— Кластер строится на основе графа взаимодействий, например, графа дружб, сообщений и так далее (надо подходить творчески);
— Минусы: не подходит для долгосрочных экспериментов, нужна большая аудитория, не подходит для тестирования изменений, направленных на расширение графа;
— Параметр Ignored vertices degree — отсечение эго-вершин, у которых альтер-вершин больше заданного предела. Такие эго-вершины повышают алгоритмическую нагрузку, плюс их альтер-вершины нельзя включать в другие кластеры.
#ab_testing
— Сетевой эффект — влияние одного участника эксперимента на другого;
— Например, идёт тест изменения, которое должно повысить количество отправляемых сообщений. Пользователи из экспериментальной группы начинают активнее писать пользователям из контрольной группы, а те отвечают. Метрики меняются в обеих группах, и оценивать результаты а/б-теста становится сложно;
— С этим можно бороться: 1. Сравнивать метрики до и после изменения. Но на показатели могут повлиять внешние факторы вроде погоды;
— 2. Сравнивать разные натуральные кластеры пользователей, образовавшиеся естественным путём, например, людей из разных стран. Но они могут сильно отличаться поведенчески или быть слабо замкнутыми (пользователи из Беларуси и России часто взаимодействуют);
— 3. Сравнивать обычные кластеры. Но разные модели кластеризации дают разные результаты выборок, сценарий тестов нельзя унифицировать и применять всегда, результаты старых и новых тестов будут несопоставимыми;
— 4. Сравнивать эго-кластеры. Кластер формируют эго-вершины и альтер-вершины, которые связаны с эго-вершиной и взаимодействуют с ней;
— Эго-вершина должна подходить под критерии эксперимента;
— Кластер строится на основе графа взаимодействий, например, графа дружб, сообщений и так далее (надо подходить творчески);
— Минусы: не подходит для долгосрочных экспериментов, нужна большая аудитория, не подходит для тестирования изменений, направленных на расширение графа;
— Параметр Ignored vertices degree — отсечение эго-вершин, у которых альтер-вершин больше заданного предела. Такие эго-вершины повышают алгоритмическую нагрузку, плюс их альтер-вершины нельзя включать в другие кластеры.
#ab_testing
Хабр
Как Одноклассники борются с сетевыми эффектами в A/B-экспериментах
Всем привет! На связи снова отдел продуктовой аналитики Одноклассников. Меня зовут Виктория Гордеева, я руковожу этим отделом, и сегодня я бы хотела поделиться нашими болями при проведении...
В RetailRocket написали об а/б-тестировании.
— Хороший источник — книга «Доверительное а/б-тестирование»;
— Большая проблема — отсутствие а/а-тестов, когда оба сегмента пользователей видят один и тот же контент;
— Значимые различия между сегментами в таком тесте показывают, что есть проблемы с делением трафика, недостаточностью данных (мало пользователей) или аномалиями. В этом случае а/б-тест запускать бессмысленно;
— Пример аномалии с метрикой «средняя выручка на пользователя» — покупатели с суммой заказа, в разы превышающей остальные заказы. Можно использовать метрики, менее чувствительные к аномалиям;
— Важная процедура — оценка мощности метрики, вероятности, что она значимо изменится в ответ на тестируемое изменение (достаточно 80%);
— Например, метрика «средняя выручка на пользователя» показывает пользу от блока с рекомендациями в денежном выражении, но её мощность ниже, чем у «среднее количество просмотренных карточек товаров» или «конверсия в пользователя с корзиной»;
— При краткосрочном тестировании пользу в деньгах можно не увидеть, если клиент добавит товар в корзину, а вернётся к покупке уже после окончания теста;
— Мощность также зависит от окружения. Чтобы проверить влияние блока с рекомендациями, лучше убрать с этой страницы другие инструменты, решающие ту же задачу. Также если блок находится на странице слишком низко, его влияние тоже будет ниже;
— Важно понимать, на что влияет тестируемая функциональность. Блок рекомендаций может увеличить количество покупателей, но ARPPU при этом может даже уменьшиться, если часть из них купит что-то по мелочи;
— Влияние на разные группы пользователей может отличаться. Блок рекомендаций для новых пользователей может влиять на конверсию, а для старых — на средний чек;
— Чаще всего не получится обойтись одним тестом;
— Оценить полезность инструмента можно и без а/б-теста. Можно проанализировать количество товаров с атрибутом «найдено с помощью системы рекомендаций».
#ab_testing
— Хороший источник — книга «Доверительное а/б-тестирование»;
— Большая проблема — отсутствие а/а-тестов, когда оба сегмента пользователей видят один и тот же контент;
— Значимые различия между сегментами в таком тесте показывают, что есть проблемы с делением трафика, недостаточностью данных (мало пользователей) или аномалиями. В этом случае а/б-тест запускать бессмысленно;
— Пример аномалии с метрикой «средняя выручка на пользователя» — покупатели с суммой заказа, в разы превышающей остальные заказы. Можно использовать метрики, менее чувствительные к аномалиям;
— Важная процедура — оценка мощности метрики, вероятности, что она значимо изменится в ответ на тестируемое изменение (достаточно 80%);
— Например, метрика «средняя выручка на пользователя» показывает пользу от блока с рекомендациями в денежном выражении, но её мощность ниже, чем у «среднее количество просмотренных карточек товаров» или «конверсия в пользователя с корзиной»;
— При краткосрочном тестировании пользу в деньгах можно не увидеть, если клиент добавит товар в корзину, а вернётся к покупке уже после окончания теста;
— Мощность также зависит от окружения. Чтобы проверить влияние блока с рекомендациями, лучше убрать с этой страницы другие инструменты, решающие ту же задачу. Также если блок находится на странице слишком низко, его влияние тоже будет ниже;
— Важно понимать, на что влияет тестируемая функциональность. Блок рекомендаций может увеличить количество покупателей, но ARPPU при этом может даже уменьшиться, если часть из них купит что-то по мелочи;
— Влияние на разные группы пользователей может отличаться. Блок рекомендаций для новых пользователей может влиять на конверсию, а для старых — на средний чек;
— Чаще всего не получится обойтись одним тестом;
— Оценить полезность инструмента можно и без а/б-теста. Можно проанализировать количество товаров с атрибутом «найдено с помощью системы рекомендаций».
#ab_testing
Хабр
«Подземные камни» А/Б-тестирования в e-commerce
Любой полезный бизнесу продукт меняется со временем: появляются новые функции, улучшаются старые. Возникает потребность оценить влияние таких изменений на пользователей продукта. Необходимо проверить,...
Паша Злобин написал о сервисах для а/б-тестирования.
— Google Optimize закрыт с сентября 2023 года;
— Сервисы из России: Varioqub (проект Яндекса, интегрируется с Метрикой), UX Rocket, Sigma;
— У первых двух есть бесплатные тарифы;
— Паша показал процесс настройки а/б-теста в первых двух (попробовать Сигму без подписания договора нельзя);
— В комментариях подсказали, что пользователи из России могут на собственном сервере поднять опенсорсный GrowthBook (есть бесплатный тариф).
#tool #ab_testing
— Google Optimize закрыт с сентября 2023 года;
— Сервисы из России: Varioqub (проект Яндекса, интегрируется с Метрикой), UX Rocket, Sigma;
— У первых двух есть бесплатные тарифы;
— Паша показал процесс настройки а/б-теста в первых двух (попробовать Сигму без подписания договора нельзя);
— В комментариях подсказали, что пользователи из России могут на собственном сервере поднять опенсорсный GrowthBook (есть бесплатный тариф).
#tool #ab_testing