КусьДев
468 subscribers
9 photos
15 links
Обучаю колич. исследованиям https://t.me/coosdev/31

- О культуре потребления исследований: ищем правду в статистике - в неравном бою с журналистикой
- User research / CustDev: как он задуман, во что выродился, и как с этим жить

Личка @fairelections
Download Telegram
Channel created
Channel photo updated
Когда хочешь пнуть пиарщика, но сапоги забыл надеть
Основное различие двух рейтингов упоминаемости персон не в датах, а в методике обработки. Второй рейтинг учитывает упоминания в контексте форума. То есть высказывания «пока лица и прочие части тела нашего общества пьют-гуляют, постят сиськи c форума, журналистику в лице Голунова в очередной раз нагибают, но в этот раз так просто не пройдет» - засчитывается во второй рейтинг. Что в таком свете показывает второй рейтинг (и, главное, для чего он такой нужен) - оставляет вопросы, кроме того, что даже с таким узким фильтром это все еще, мать их, ключевое обсуждаемое событие. https://t.me/c_behavior/452
👾1
̶P̶r̶e̶s̶s̶ release mutations!
Журналисты, проводящие глубокие расследования, на вес золота. Но примерно столько же журналистов страны в состоянии интерпретировать пресс-релизы по исследованиям, сильно не перепутав или намеренно не переврав. Особо сильные мутации инфоповод претерпевает, выползая в подводку и заголовок. Чтение рашнрисеч-новостей не имеет смысла без сверки по первоисточнику (да и с первоисточником не всегда, даже в приводимом ниже релизе есть нестыковки на графике). С прочими отечественными новостями дело обстоит ничуть не лучше, но у них и источники скорее не проверишь.

Коммерсант со ссылкой на Ipsos Comcon пишет, что «более половины россиян теперь покупают товары только по акциям». Для критически мыслящего это, как минимум, повод усомниться в искренности, для большинства журналистов - истерически перепечатать во все места. На сайте Ipsos Comcon легко найти результаты и описание прошлых подобных замеров. Так, в одном из прошлых пресс-релизов находим, что вопрос анкеты для этого показателя - согласие с утверждением «Я всегда ищу скидки и специальные предложения». То есть это про склонность, ориентацию на промо, а не про заболевание, при котором все продукты без желто-красной этикетки становятся непереносимы.

«Таким образом, показатель впервые превысил психологически важную отметку 50%» - тут нет никаких психологически важных отметок для читателя, кроме того, что журналисту психологически проще воздействовать ими через заголовки. Абсолютные значения в данном случае играют не столь значительную роль в интерпретации таких замеров. Куда важнее динамика, которая говорит о росте склонности к скидкам, формированию устойчивой привычки у потребителя при росте популярности проведения акций у ритейлеров.

«Дмитрий Востриков полагает, что выбраться из ловушки глубоких скидок сети смогут прежде всего за счет отличного от конкурентов товарного предложения» - Полагаю, что не все товарные предложения могут быть уникальны, и таки поможет также долгосрочный анализ маржи, сегментация клиентов и таргетирование промо-акций.
😎1
Новости из тьмы
vc.ru: «Россия заняла 1-е место по пользованию даркнетом: браузер Tor открывают более 600 тысяч человек — The Bell»

На проверку достоверности новостей в среднем уходит два перехода до первоисточника, так и тут. Кратко, что на самом деле: резкий рост активности в Tor, непохожей на человеческую (например, боты для ddos, спама, взлома и проч), с конца апреля в РФ, Казахстане, Литве (и в Беларуси с февраля) - сопоставимый в процентах среди стран.
Возгордиться особо не выходит, разве что активностью хакеров на постсоветском пространстве.

Статистика подключений Tor по странам доступна тут. По аномалиям можно отслеживать в частности крупные события, связанные с цензурой. Например, на скрине Россия
🙊1
Исследование рынка исследований
Приводимые экспертами угрозы рынка исследовательских агентств, которые, надо признать, звучат уже не первый год, - это проекция трендов на стороне клиента (далее цитаты):
- Компании стали реже проводить сложные и дорогие стратегические исследования и перешли на простые тактические.
- Исследовательские компании не имеют собственных возможностей анализировать готовые данные из-за слабой технологической оснащенности. Как следствие, сегмент переходит в ведение IT-компаний.
- Заказчики начинают проводить больше исследований самостоятельно

Держим в голове, что на графиках отчета - данные опроса по оборотам от 19% участников рынка, которые дают 65% всего оборота, поэтому изменения подвержены серьезным ошибкам как точности оценки, так и покрытия. И относиться к ним стоит очень философски.

Заметки по динамике за год:
- В количественных исследованиях онлайн-опросы по обороту обогнали телефонные. При этом личные интервью никуда уходить не собираются
- В качественниках глубинные интервью откусили немножко от фокус-групп. UX-методы вообще отдельно не выделяются, но и выборка агентств смещена в сторону социологии и маркетинга
- В разрезе тематики политические исследования опять вторые после FMCG
- В FMCG растут табачные изделия - привет от электронных сигарет
https://adindex.ru/news/researches/2019/07/31/274207.phtml
👍1💊1
Исследователи тоже мутят
Не всегда журналисты являются генераторами лже-инфоповодов. Иногда индульгенцию на искажение информации им выписывают сами исследователи.

Так, опрос ВЦИОМ об акции протеста в Москве содержит сразу несколько примеров формирующих вопросов.

Вопрос первый
Для участия в выборах в Мосгордуму кандидаты должны были собрать определенное количество подписей избирателей в свою поддержку. После проверки подписей Московская городская избирательная комиссия признала часть подписей недействительными. Недействительные подписи были выявлены у Геннадия и Дмитрия Гудкова, Ильи Яшина, Любови Соболь, некоторых других кандидатов. Одни считают, что избирательная комиссия в этой ситуации должна действовать в соответствии с законом и отказать в регистрации кандидатам, допустившим нарушения при сборе подписей. Другие считают, что, несмотря на нарушения, избирательная комиссия должна была зарегистрировать всех кандидатов. С какой точкой зрения Вы в большей степени согласны? (Москва)
⁃ 54% - Избирательная комиссия должна была отказать в регистрации кандидатам, допустившим нарушения
⁃ 29% - Необходимо было зарегистрировать всех кандидатов несмотря на нарушения
⁃ 17% - Затрудняюсь ответить
Вопрос предполагает, что у кандидатов были нарушения. Во-первых, пропущен предваряющий вопрос о том, считают ли респонденты, что нарушения были. Такая декомпозиция - базовая гигиеническая норма у социологов, уверен, что составители опроса имеют достаточную квалификацию, чтобы понимать это. Ловушка направлена на ответы тех, кто неосведомлен или плохо осведомлен об акции протеста, а таких в Москве 67% (а 18% даже не в курсе, была ли акция согласованной). О качестве постановки вопроса о решении избирательной комиссии также косвенно говорит высокая доля «затруднистов» - 17%. В таком раскладе даже 29% считающих регистрацию кандидатов необходимой - очень высокий показатель.

Сомневаюсь, что в этом же опросе не было вопросов об отношении к акции, особенно учитывая косвенные признаки наличия такого вопроса в других их опросах. Во всяком случае, есть основания полагать, что публичными стали лишь некоторые вопросы: такие анкеты крайне редко состоят из 4 вопросов + соцдем. Выборки опроса вполне достаточно, чтобы проанализировать ответы в срезах по знанию и отношению к акции.

Вопрос второй
27 июля в Москве состоялась несанкционированная акция протеста. Вы согласны или не согласны с мнением, что в подобных ситуациях власть должна действовать в соответствии с законом, даже если приходится применять жесткие меры?
(Москва/РФ)
⁃ 61/69% - Скорее согласен
⁃ 26/23% - Скорее не согласен
⁃ 13/8% - Затрудняюсь ответить

Тут все несколько хитрее. Прежде всего, в вопросе содержится ответ - акция несанкционированная, а власть должна действовать в соответствии с законом - против этих тезисов трудно поспорить. Второй прием - это неоднозначность трактовки применяемых терминов. Что представляют из себя эти законные действия? А жесткие меры - это какие?
Из вопроса вытекает, что эти жесткие меры будут проводиться в рамках закона. Мы же не против законных действий, так? Далее третий прием - это смешивание в одном вопросе двух оснований (выполнение закона и применимость мер), а первое, как мы говорили, имеет смысловое усиление.
Также от публичных глаз скрыто распределение шкалы «полностью / скорее / скорее не / полностью не». Сливать эти категории - обычная практика, но не исключено, что тут кроется разница во мнениях Москвы и РФ.

Следующие этапы воронки искажения - уже за пределами совести исследователя
Респонденты отвечают скорее на вопрос о законных мерах, а журналисты подхватывают вторую часть вопроса о поддержке жестких мер. Вольная трактовка этих мер оставляет простор для воспаленной фантазии. Последний штрих - выбор для заголовков цифры 69% по РФ как наибольшей. Помним, что россияне почти втрое хуже осведомлены об акциях (не будем спекулировать, откуда это знание может формироваться). Отсюда имеем инфоповоды о поддержке жестких мер ТАСС, МК, newsru.com и проч.
😘1
Алло, (опрос о) радио?

Всегда по возможности соглашаюсь на участие в опросах. Особенно любопытны телефонники, где живое общение обрамляет неколебимый скрипт анкеты. Правда, приходится лгать на вопросе-фильтре о сфере деятельности, что я не связан с исследованиями, но на что только не пойдешь из исследовательского любопытства.

И вот он, долгожданный опрос (сокращенно):
- Добрый день, меня зовут Галина. Скажите, любите ли вы слушать музыку по радио? Если да, не могли бы ответить на опрос?
- Добрый. Представьтесь, пожалуйста
- Галина
- Ну а какую компанию представляете?
- TNS Россия
- Такой компании нет. Есть Kantar TNS и Mediasсope* (прим.: бывший TNS Россия - до насильного поглощения государственным ВЦИОМом в 2016)
- Нет, такая компания есть, я представляю TNS Россия. Так вы любите слушать музыку по радио? Согласны пройти опрос?
- А вы опрашиваете только любителей слушать музыку по радио? К чему этот вопрос? Он некорректен.
- Согласны поучаствовать?
- Я не люблю слушать музыку по радио, извините, я вам не подхожу.
- Нет, нам как раз нужно опросить всех, иначе мы не охватим всех людей в нужных пропорциях
- А что, вопрос про любителей радио не нарушает пропорции?
- Поучаствуйте, пожалуйста
- Хорошо
- Работаете ли вы или ваши близкие в одной из следующих сфер?
- Маркетинговые исследования, - выдыхаю я, сознательно прервав интервью - вспомнил, что уже отвечал на такой опрос Mediascope в течение 40 минут, не слушая при этом радио, совсем
- Извините, в таком случае опрос завершен
- Да, я в курсе

Итого:
1. Анкета смещает выборку, завышая радио-аудиторию: неслушатели скорее сразу отвалятся на таком интро и прервутся в ходе длинной нерелевантной для них анкеты (ведь прерванные интервью не будут учтены), а «любите» - понятие не из области измерений аудитории (тут, будем надеяться, Галина сбилась со скрипта)
2. Интервьюеры бывают не в курсе, на кого работают, не говоря о проблематике исследования, пусть и не всегда это требуется
3. Фильтр по сфере деятельности в этом случае - исследовательский атавизм. Пусть в опросах, измеряющих отношение и восприятие, профессионально вовлеченные в сабж респонденты могут быть broken. Но в опросах о фактологии такие отбракованные респонденты скорее дадут более точные ответы и могут проявить эмпатию к интервьюеру - но не в этот раз.
👍1🙉1
В "качестве" гипотезы

Был как-то холивар в одном чатике рисечеров на тему проверки гипотез: можно ли проверять гипотезы качественниками. Начался он с моего недоумённого коммента на скинутую вакансию, где в задачах содержался пункт "проверять гипотезы качественными методами". А как раз за несколько дней до этого меня позвали на рисечерский подкаст поговорить о методах исследований. Казалось, что исследователи (кастдеверы сюда не относятся) всё и так знают про методы, чего там обсуждать. Но после холивара было решено: тема подкаста - проверка гипотез в quant и qual(!). Шагнул на чужую территорию, но отступать было некуда - Google Podcasts / Apple Podcasts

И вот немного рефлексии по мотивам подкаста. Откуда (кроме кастдева головного мозга) может родиться искушение проверять гипотезы качественными методами? Мне пришло в голову, что исследователи с опытом в ux, проверяющие гипотезы качественниками, подразумевают под гипотезами нечто иное, не статистическое, а бытовое значение. Хотя выводами могут вполне замахиваться на валидность и обобщаемость, если читать их дословно.

Так, все знают, что с помощью UX можно проверять свойства интерфейса. Действительно, если в тестировании возникли трудности хотя бы у одного подопытного, этого может быть достаточно, чтобы озаботиться переработкой. И если проблема критична для пользователя (и бизнеса), не так важна ее встречаемость. Выходит, что “качественную гипотезу” можно даже переложить на язык статистики. Например, можно ее формулировать как "все понимают, для чего эта кнопка", и тогда, найдя непонявшего человека, можно отвергнуть ее вполне статистически.

Далее возникает соблазн переложить такой паттерн проверки на метод интервью. У интервьюера такая "гипотеза" звучала бы: "такая-то потребность существует". И кто-то тихо кладет эту гипотезу в коробочку "на оценку", а кто-то рад сообщить, что "подтвердил гипотезу", доказав существование черного лебедя. Увы, аналогия не работает, поскольку интервью решает задачу выявить спектр потребностей, а не “доказать” конкретные.

Кстати, если чисто гипотетически предположить, что мы бы набрали на ux-тестирование и на глубинки вместо целевых групп подобие репрезентативной выборки ЦА по 30 человек и пытались бы “проверять гипотезы”, то ux-тест в своей области будет значительно надежней, чем интервью - дисперсия вскрытых проблем с интерфейсом (разнообразие когнитивных паттернов юзера) существенно меньше дисперсии мнений, суждений, помноженных на нестандартизированное взаимодействие с интервьюером.
Маломощность критерия

Две самые бесящие ошибки исследователей, связанные со статистикой:
- Фраза "с большой долей вероятности"
- Проверка гипотезы о различии средних двух выборок с помощью сравнения доверительных интервалов

Если первая ошибка просто приносит боль знакомому со статистикой (или стилистикой) собеседнику, то вред второй вполне осязаемый.

Встречаю ошибочную проверку интервалами не только в практике у менеджеров, но даже у quant-рисечеров на собеседованиях, а изредка и в онлайн-калькуляторах АБ-тестов, да чего уж там - она есть в наиболее хайповых курсах по продакт-менеджменту.

Проиллюстрируем ошибку:
- Возьмем 2 выборки с биномиальным распределением размером 300, доля успехов у обеих = 0.5
- Будем увеличивать успехи в одной выборке с шагом в 1 успех, чтобы поймать момент, когда доверительные интервалы наших выборок перестанут накладываться, и нарисуем зависимость от разницы долей
- Посчитаем и отложим для каждого случая p-value, посчитанный тестом для разницы долей двух независимых выборок

Видим (на картинке ниже) расхождение доверительных интервалов при разнице долей более 11 процентных пунктов. Парный тест проявляет значимость различия уже на разнице в 8 процентных пунктов.

Резюме: да, если дов. интервалы не пересекаются, то можно говорить о значимости различий. Если же пересекаются, то без проверки рано делать выводы - вполне возможно, что нулевую гипотезу можно отвергнуть. Конечно, интервалы бывают такие наглядненькие на графиках, что сложно устоять, но стоит ли ради этого так жертвовать мощностью теста? (нет)
💘1
U*X / X = 5

Наверняка вы тоже часто слышали утверждение, что для юзабилити-тестирования достаточно провести 5 тестов. Мне понятна логика, по которой для UX нужно меньше информантов, чем на качественниках (находки меньше разнятся среди подопытных из-за ограниченности паттернов считывания информации, а проблемы имеют меньше интерпретаций). Но я решил углубиться в первоисточники мифа о 5 юзерах.

Отправная точка поиска – заклинание-успокоение против неверующего менеджера: "5 человек достаточно - это подтвержденный исследованиями факт, об этом еще сам Нильсен писал научные статьи. Больше тестов особо ничего не даст. Раунд".

Утверждение отсылает нас к Якобу Нильсену, сооснователю компании Nielsen Norman Group (специализируются на UX-исследованиях). В статье 1993 года "A Mathematical Model of the Finding of Usability Problems" Нильсен, исследуя 11 UX-проектов (рассматриваются как пользовательские тесты, так и аудиторские), приходит к тому, что зависимость количества выявленных проблем от числа проведенных тестов неплохо аппроксимируется Пуассоном, и можно делать некие экстрапполяции.

Но в этой статье он не утверждает, что 5 тестов – достаточно (он толкает к этому в более свежей, неакадемической публикации, приводя график по большему числу проектов, где 5 тестируемых дают 80-85% находок - думаю, на этом многие останавливаются). Он идет дальше, оценивая стоимостной эффект от проведения тестов. Как оценить издержки понятно, с выгодами все гораздо менее очевидно. Но он как-то справляется и с ними. Затем автор, руководствуясь понятным правилом убывающей предельной отдачи, находит, что экономически оптимальным будет проведение 15 тестов. Откуда тогда взялось 5, справедливо спросите вы? Ну, где-то на 4-5 тестах, по его грубым прикидкам, отношение совокупных выгод к издержкам максимально. Поэтому он предлагает отложить остальные тесты на итерации с обновленными версиями интерфейса, где учтены выявленные ранее проблемы (итого 3 раза по 5). Это позволит как выявить остальные ненайденные проблемы, так и протестировать внесенные изменения.

Есть целый ряд "но", которые могут повлиять на оптимальное количество тестов:

- Правило пяти скорее уместно в случае итеративного дизайна, когда оставшиеся проблемы в скором будущем все равно будут закрыты
- Чем сложнее и дольше внедрение новых версий дизайна, тем больше (пяти) тестов за итерацию будет целесообразно
- Скилл исследователя: чем ниже, тем больше тестов на итерацию необходимо
- Сложность и специфика продукта может потребовать большего числа тестов за итерацию
- Стадия готовности интерфейса: для начальных этапов итерации будут короче
- Наличие нескольких целевых с предполагаемо разным паттерном пользования
- Качество рекрута
- На закуску: если у сервиса большая аудитория, выигрыш от добавочно вскрытых проблем может значительно перевешивать издержки дополнительных тестов, смещая оптимум к большему их числу

Что если вы продакт в компании-лидере с многомиллионной аудиторией, комплексным продуктом с несколькими типами юзеров, с длинной очередью на ux-тесты, проводимые стажерами? Вам 5 тестов завернуть?

P.S. А ниже относительно свежая картинка с зависимостью числа находок от количества тестов в исследовании. Автор использует как аргумент слабой корреляции. Кажется, если поработать с выбросами (что если клиент переборщил с хотелкой?), картинка может поменяться.
👍31🆒1
Вместе с инициативной группой исследователей провели независимый опрос о “военной операции в Украине”

Выкладываю материалы до публикаций и подведения формальных результатов, если есть желающие поработать над анализом и интерпретацией, создам открытый чат в телеге обсуждения:
- Анкета
- Массив данных исходный, содержит все статусы дозвона (кодировка открытого вопроса в процессе)
- Массив данных, в который сохранил достроенные переменные + свой синтаксис, который их воспроизводит (для удобства тех, кому захочется что-то пересчитать иначе, или воспроизвести расчеты)

Описание выборки:
Телефонный опрос граждан РФ 18+.
Сроки опроса: 28 февраля – 1 марта 2022. Всего опрошено 1642 респондента.
Опрос проводился по случайной выборке номеров мобильных телефонов. В качестве основы выборки использовалась информация о диапазонах, зарегистрированных на территории РФ. Выборка стратифицировалась по укрупнённым часовым поясам. Опрашивался человек, взявший трубку.
Результаты опроса взвешивались для выравнивания диспропорций по полу, возрасту и уровню образования. В качестве эталона для уровня образования использовалась экспертная поправка к данным микропереписи населения 2015 года, было принято, что у 35% населения РФ есть высшее или неоконченное высшее образование, у 65% уровень образования ниже. В качестве эталона для распределения по полу и возрасту использовались данные Росстата на 1.1.2021.
С учётом влияния весов величина 95% доверительного интервала не превышает 2,6 процентных пунктов.
👍2🗿1
Результаты совместной работы по опросу о "военной операции" https://www.extremescan.eu/post/1-chronicles-athena-project
💅1