Data&Knowledge
130 subscribers
25 photos
21 files
160 links
Работаем с данными
Download Telegram
Статябрь. День 4. Непарный тест Стьюдента. 

Итак, это один из самых важных тестов в статистике. Поэтому именно сегодня я предлагаю делиться ссылками на материалы в комментариях :)

#статябрь #статябрь2025 #statober #statober2025
Статябрь. День 5. Биномиальное распределение.

Давайте представим, что нам необходимо передать важные данные по каналу связи. Эти данные мы упакуем в пакеты. Мы знаем характеристики канала связи, к примеру, что пакет данных теряется с вероятностью 0.001. Мы можем отправлять один пакет многократно, но как узнать, какого количества будет достаточно?

Для моделирования событий с двоичным результатом (орел/решка, доставка/потеря пакета и т. д.) используется биномиальное распределение. Оно отражает распределение количества «успеха» в последовательности из n случайных величин. При достаточно больших n биномиальное распределение стремится к нормальному. Форма распределения показана на картинке, ну а по ссылке — пример вычисления.

Ссылка: https://colab.research.google.com/drive/1fbWZftHThAWb_hGyCyfQoKtOUw-qKHzc?usp=sharing

#статябрь #статябрь2025 #statober #statober2025
Картинка из вики
Статябрь. День 6. U-критерий Манна-Уитни.

Пока что все было просто — если мы хотим сравнить две популяции, то к нашему счастью они часто имеют нормальное распределение, мы сравниваем два колокола и все довольны. Но что, если наши выборки не имеют нормального распределения? Как тогда сравнить, есть ли статистические различия между двумя выборками? Тут нам на помощь приходит непараметрический U-критерий Манна-Уитни.

Проиллюстрирую идею на примере. Представьте, что у нас есть две спортивных команды. Атлеты одной из них заняли 1, 2, 3, 4, 5 и 9 места, а у второй — 6, 7, 8, 10, 11. Не надо знать статистику, чтобы увидеть, что атлеты первой команды лучше. Примерно в этом и состоит идея теста Манна-Уитни: а что если мы возьмем обе выборки и распределим места между участниками? Кажому участнику из каждой выборки мы присвоим место в совместном зачете. Места будем присваивать так: за наименьший результат даем первое место, за второй с конца — второе и т.д. Если в совместной выборке идут два результата подряд, то каждому присваиваем «среднее» место, к примеру, если на 6 и 7 месте стоят одинаковые показатели, то обоим присваиваем 6.5 место. А после присвоения мест в общей выборке мы смотрим, какая из выборок оказалась круче. Для этого мы и вычисляем сам U-критерий Манна-Уитни. О нем чуть подробнее в видео.

Видео по использованию критерия: https://www.youtube.com/watch?v=IN3bB8Ea_O8
Вики-страница на английском, где много продвинутой информации: https://en.wikipedia.org/wiki/Mann%E2%80%93Whitney_U_test

#статябрь #статябрь2025 #statober #statober2025
Статябрь. День 7. Гипергеометрическое распределение.

Часто бывает так, что нам нужно проконтролировать качество какого-то процесса. Одна из таких ситуаций: необходимо оценить вероятность получить определенное количество объектов с определенным признаком в партии. Признак может быть самым разным: машины с красным цветом в выборке из красных и черных машин; солдаты, способные держать автомат из всего количества срочников, количество козырных карт у противника. Разберем на примере.

Представим, что к нам пришла бабушка и сообщила, что принесла 20 кабачков. Правда, 12 из них уже испортились. Для ужина нам нужно два кабачка. Какова вероятность, что два наудачу вытащенных кабачка окажутся свежими?

Решить эту задачу довольно легко. Для этого нам надо сосчитать количество всех возможных вариантов вытащить два свежих кабачка и поделить на общее количество вариантов вытащить два кабачка. Это и будет искомая вероятность. Ответы пишите в комментариях :D

Так что же такое гипергеометрическое распределение? А оно как раз и задается формулой, которая подсчитывает вероятность вытянуть без возвращения n предметов, k из которых имеют искомый признак (при M предметах, имеющих искомый признак в совокупности объемом N).

Вики-страница: https://ru.wikipedia.org/wiki/%D0%93%D0%B8%D0%BF%D0%B5%D1%80%D0%B3%D0%B5%D0%BE%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5

#статябрь #статябрь2025 #statober #statober2025
Статябрь. День 8. Точный тест Фишера.

Предположим, что у нас есть группа испытуемых, и к части из них мы применяем некоторое воздействие. После этого мы наблюдаем результат этого воздействия в виде бинарной переменной: достигнут ли желаемый результат для каждого испытуемого. Наша задача — выяснить, внесло ли наше воздействие статистически значимый эффект. Рассмотрим на примере с кабачками.

Представим, что бабушка заметила наше недовольное лицо, когда мы вытащили два сгнивших кабачка. Она решила провести эксперимент: часть следующих кабачков она обработала водой, «заряженной» от телевизора. После этого она получила следующие результаты.
Как понять, имело ли бабушкино воздействие заряженной водой силу?

Чтобы решить эту задачу, нам нужно разобраться, что же такое статистические гипотезы и значение p. Статистическая гипотеза — это утверждение, которое можно опровергнуть или подтвердить с помощью статистического теста. Обычно, гипотезы формулируются парами: нулевая и альтернативная гипотезы. Нулевая гипотеза обычно утверждает, что между наблюдаемыми явлениями нет связи. К примеру, воздействие заряженной водой не влияет на количество несгнивших кабачков. Альтернативная гипотеза утверждает обратное, к примеру: количество несгнивших кабачков после обработки заряженной водой выше, чем без обработки.

Что же такое p-value? Для начала вспомним про колокол нормального распределения. Среднее значение этого колокола расположено у него в середине. Теперь представим, что мы сравниваем две выборки с такими колоколами. Мы формулируем нулевую гипотезу, что средние значения выборок не отличаются. Очевидно, что если выборки не отличаются, то и их средние будут лежать совсем рядом — у нас нет основания отклонить нулевую гипотезу. Сделать мы это можем только тогда, когда средние значения лежат далеко друг от друга. К примеру, если среднее значение второй выборки будет лежать не в центре, а где-то в хвосте первой выборки. Но как определить, что насколько эти значения далеки друг от друга? Тут-то на помощь и приходит p-value. Это числовое значение показывает вероятность получить такое же или более экстремальное значение статистики (к примеру, среднего или медианы) по сравнению с ранее наблюдаемым, при условии, что нулевая гипотеза верна.

Давайте снова рассмотрим на примере. Сперва мы формулируем нулевую и альтернативную гипотезы. Потом задаем уровень значимости, обычно он принимает значения 0.05 или 0.01. Это значение будет являться для нас разграничительной линией: если p-value меньше этого уровня, то мы отклоняем нулевую гипотезу. Затем мы вычисляем значение p. К примеру, если у нас два нормальных распределения и их средние сильно отличны, то мы получим низкое значение p, к примеру, p < 0.01. В итоге мы сможем отклонить нулевую гипотезу и принять альтернативную. Это и будет нашим результатом. Мы вычислили два средних, обнаружили, что крайне маловероятно, что они имеют одинаковое распределение, отклонили нулевую гипотезу, приняли альтернативну гипотезу о значимой разнице между двумя выборками.

Что ж, вернемся к бабушке с кабачками. Мы хотим узнать, было ли воздействие заряженной водой действенным. Мы сформулровали нулевую и альтернативную гипотезы, приняли уровень значимости 0.05 и теперь нам надо рассчитать значение p. Как же это сделать в нашем случае? Тест Фишера предлагает интересный подход.

Помните, что такое p-value? Это вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики, по сравнению с ранее наблюдаемым, при условии, что нулевая гипотеза верна. Что ж, давайте и начнем конструировать это p-value по шагам.

Шаг первый — ппосмотреть на распределение при верной нулевой гипотезе. Нулевая гипотеза говорит о независимости данных. Построим таблицу, в которой нет зависимости свежести кабачков от использования заряженной воды:
Шаг второй — построим таблицы для случаев, имеющих наблюдаемое распределение или более экстремальное (чем в таблице с независимыми данными). Наше изначальное и более экстремальные распределения:
Шаг третий — посчитать значение p, согласно его определению: сложить вероятности получения таких же или более экстремальных результатом. И как же посчитать каждый индивидуальный результ? А это мы уже умеем: для этого надо использовать формулу для величины имеющей гипергеометрическое распределение. В результате сложения, p должно получиться около 0.157. Это значение больше принятого уровня значимости 0.05, поэтому мы не можем отклонить нулевую гипотезу. А значит, что обработка кабачков заряженной водой не имела на них статистически значимого воздействия.

#статябрь #статябрь2025 #statober #statober2025
Статябрь. День 9. Распределение хи-квадрат.

Ранее мы рассмотрели нормальное («колоколообразное») распределение, которое оказалось крайне полезным. Мы знаем, что многие реальные величины имеют нормальное распределение, а значит, мы можем просто сравнивать соответствующие колокола. Если средние этих колоколов равны, то и выборки не различаются статистически при прочих равных. Если же среднее одной из выборок лежит где-то в хвосте колокола другой выборки, то, вероятно, что выборки различны.

Но не всегда нам интересно просто сравнить выборочные значения. Иногда, к примеру, мы хотим узнать, насколько полученные значения отличаются от ожидаемых, и на основе этого принять решение о различии выборок. Удобный способ сделать это — посчитать сумму квадратов разностей. Разности значений покажут различия, квадраты этих разностей переведут все числа в область положительных значений, а сумма квадратов покажет общую величину расхождения между двумя наборами данных.

Предположим, что мы посчитали эту величину различия. Как нам узнать, является ли она статистически значимой? Тут нам и приходит на помощь распределение хи-квадрат. Оно показывает распределение величины, являющейся суммой квадратов нормально распределенных величин с математическим ожиданием (средним), равным нулю, и среднеквадратическим отклонением, равным единице.

Далее все просто. У нас есть распределение хи-квадрат, мы получили некое значение различия выборок, остается посмотреть, насколько вероятно получить такое значение при верности нулевой гипотезы (которая утверждает, что различий нет) при определенном уровне значимости (к примеру, 0.05). Это можно сделать, рассчитав p-value на компьютере. Если оно меньше уровня значимости (например, 0.05), мы считаем, что наблюдаемое различие маловероятно при верности нулевой гипотезы, и, следовательно, различие статистически значимо.

Напоследок стоит отметить, что распределение хи-квадрат задается одним параметром — числом степеней свободы. О нем мы поговорим когда-набудь позже (если только кто-нибудь не скинет почитать про него в комментариях🙂).

Ссылка на вики: https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D1%85%D0%B8-%D0%BA%D0%B2%D0%B0%D0%B4%D1%80%D0%B0%D1%82

#статябрь #статябрь2025 #statober #statober2025
Еще одно стартап-мероприятие

В общем, я сходил на еще одно стартап-мероприятие для нетворкинга. Несколько человек питчили свои идеи, было бесплатное пиво и бутербродики, все ходили и разговаривали друг с другом. Если честно, то всё это казалось потерей времени - как будто люди просто собрались поболтать со старыми знакомыми.

Мне показалась более-менее интересной одна идея. Фитнес-тренер организовал группу из 50 человек и в ней реализовал несколько психологических уловок, чтобы мотивировать пользователей заниматься. Основная идея — пользователи распределяются по группам и видят прогресс других участников группы. Если ты не позанимался, то все видят, что ты пропустил день. В общем, незримое групповое осуждение должно помогать пользователю заниматься. Сам тренер утверждает, что метод работает, хотя он не проводил A/B-тестирование. На стартап-мероприятие он пришёл, чтобы найти того, кто разработает приложение, реализующее этот принцип для большой аудитории. Планируется также, что в приложении будет ИИ-модель, подбирающая упражнения.

К чему это я? Ах, да, если кому-то здесь эта идея интересна, то можете реализовать её в своей будущей фитнес телеграмм-группе. 😀

Эх, как же не хватает интересной и крутой стартап-движухи.
👍1
Статябрь. День 10. Тест Стьюдента для зависимых выборок.

Ранее мы говорили о том, как сравнивать две независимые выборки. Набираем случайных людей в обе группы, к одной применяем некое воздействие, например, даем таблетку для повышения IQ, измеряем интересующий нас параметр (IQ) у каждого испытуемого, ищем средние значения для обеих групп, проверяем гипотезу о том, что эти средние статистически равны или различны. Если мы получаем, что средние различны, то мы радуемся, что наша таблетка сработала и принимаем её сами. Но что делать, если у нас не набралось две группы? Что, если нам нужно понять, было ли эффективным воздействие на одной группе людей? У нас все еще будет два набора измерений — до и после воздействия — но они явно будут зависимы: это одни и те же люди! Тут нам на помощь приходит t-критерий Стьюдента для зависимых выборок.

Идея t-критерия Стьюдента для зависимых выборок довольно проста. Мы хотим узнать, имело ли наше воздействие результат, отличный от нуля. К примеру, если мы измеряем изменения уровня интеллекта в одной группе, то хотелось бы узнать, является ли различие в интеллекте после воздействия (принятия таблетки) значимым. Иными словами, мы хотим узнать, является ли наблюдаемое различие в среднем отличным от нуля. В этом и заключается идея t-критерия Стьюдента для зависимых выборок: как основную выборку мы берем не наши измерения, а набор разностей между наблюдаемым показателем после и до воздействия.

Давайте разберем пошагово на примере. У нас есть одна группа людей. Мы измеряем у них показатель IQ, затем мы даем им таблетку для его повышения и снова измеряем показатель IQ. Теперь мы выдвигаем нулевую гипотезу: среднее разностей показателя IQ до и после воздействия не отличается от нуля. Затем мы смотрим на колокол t-распределения со средним в нуля (он уже задан) и рассчитываем, насколько вероятно получить наше значение t при верности нулевой гипотезы. Иными словами, мы смотрим, насколько наше значение t отклоняется от нуля в соответствующем t-распределении Стьюдента с необходимым числом степеней свободы: чем дальше от нуля, тем ниже p-value. Степени свободы равны количеству парных измерений минус единица. Если p-value меньше некого заранее заданного (к примеру, 0.05), значит, наше значение статистически отличается от нуля, мы отклоняем нулевую гипотезу и делаем вывод, что таблетка сработала.

#статябрь #статябрь2025 #statober #statober2025
👍1
Статябрь. День 11. Распределение Пуассона

Некоторые события происходят редко, но с более или менее постоянной интенсивностью: появляется брак в партии, корректоры допускают ошибки в книгах, люди погибают в ДТП. Для описания вероятности происхождения возникновения определенного числа редких событий в некий промежуток времени используется распределение Пуассона. Оно задается одним параметром — интенсивностью редких событий. Эта интенсивность, в свою очередь, приближенна равна произведению общего числа возможных событий на вероятность редкого события. Таким образом, зная среднюю интенсивность событий, мы можем определить, например, какова будет вероятность получить количество брака в партии больше ожидаемого. На основе этого можно заложить дополнительные издержки на покрытие возможного брака.

Вики: https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9F%D1%83%D0%B0%D1%81%D1%81%D0%BE%D0%BD%D0%B0

#статябрь #статябрь2025 #statober #statober2025
👍1
Статябрь. День 12. Критерий Уилкоксона для связанных (связных) выборок.

Помните, мы проходили т-критерий для связных выборок? Данные у нас имели предположительно нормальное распределение и были интервальными (то есть расстояние между 1 и 2 такое же, как между 2 и 3 или 3 и 4). Но что делать, если данные не всегда интервальные, и, максимум, что мы можем сказать, это, что 1<2, а 2<3? Примером неинтервальных данных может служить конкурс по поеданию кабачков: съесть один кабачок легко для многих, съесть два кабачка уже слегка труднее, а съесть три кабачка для многих уже непосильная задача. Получается, что разность в сложности поедания между одним и двумя кабачками сильно меньше, чем между двумя и тремя. Такой тип данных с неравными интервалами называется порядковым.

Как же нам сравнить две связанные выборки с порядковыми данными? К примеру, пусть бабушка набрала команду внуков по поеданию кабачков. Она решает проверить следующую гипотезу: на вместительность внуков влияет время, проведенное за компьютером. В первый день она замеряет, сколько кабачков максимум может съесть каждый внук. Затем она проводит воздействие на внуков: отводит их на целый день в компьютерный клуб. На второй день она повторяет эксперимент и снова замеряет, сколько кабачков может съесть каждый из подопытных.

В нашем случае мы получаем набор порядковых данных из двух связанных выборок. В этом случае мы не можем напрямую использовать t-test: не выполняется требование о характере данных. Тут нам на помощь приходит критерий Уилкоксона для связанных выборок. Первым шагом необходимо вычислить разности между измерениями после и до воздействия. Кстати, наша нулевая гипотеза будет утверждать, что распределение разностей будет симметричным вокруг нуля. Затем мы ранжируем абсолютные значения (модули) этих разностей: наименьшая разность получает первое место и т. д. Следующим шагом каждому месту мы присваиваем знак соответствующей разности. При больших выборках распределение статистики W аппроксимируется нормальным, и тогда вычисляют соответствующую z-оценку. При малых же выборках мы используем точное распределение W. В обоих случаях мы определяем по соответствующему распределению, насколько вероятно получить такое значение статистики при верности нулевой гипотезы.

Напоследок, стоит упомянуть, что критерий Уилкоксона тоже накладывает определенные требования:
- симметрия распределения разностей
- независимость пар измерений между собой.

#статябрь #статябрь2025 #statober #statober2025
Кстати, как вам формат постов статобря? Мне кажется, что они слишком длинные, но при этом недостаточно длинные, чтобы хорошо объяснить материал с примером. Нормально ли их оставить такими или лучше сделать их в формате ссылок на ноутбуки?

#статябрь #статябрь2025 #statober #statober2025
Статябрь. День 13. Критерий МакНемара.

Как повлияла наша рекламная кампания на группу пользователей? Подействовала ли вакцина на группу пациентов? Изменилось ли мнение внуков о бабушке после двух дней кабачковой диеты? Чтобы ответить на такие вопросы, где: 1) наблюдения парные или сильно связаны между собой, 2) результат представлен категориальной переменной (любит/не любит, есть болезнь/нет болезни), можно использовать тест МакНеймара.

Продолжение в ноутбуке: https://colab.research.google.com/drive/1NLr9XDeqcC2PzFEj6QHQFUP948AxhrNn?usp=sharing

#статябрь #статябрь2025 #statober #statober2025