Data&Knowledge
130 subscribers
25 photos
21 files
160 links
Работаем с данными
Download Telegram
Статябрь. День 7. Гипергеометрическое распределение.

Часто бывает так, что нам нужно проконтролировать качество какого-то процесса. Одна из таких ситуаций: необходимо оценить вероятность получить определенное количество объектов с определенным признаком в партии. Признак может быть самым разным: машины с красным цветом в выборке из красных и черных машин; солдаты, способные держать автомат из всего количества срочников, количество козырных карт у противника. Разберем на примере.

Представим, что к нам пришла бабушка и сообщила, что принесла 20 кабачков. Правда, 12 из них уже испортились. Для ужина нам нужно два кабачка. Какова вероятность, что два наудачу вытащенных кабачка окажутся свежими?

Решить эту задачу довольно легко. Для этого нам надо сосчитать количество всех возможных вариантов вытащить два свежих кабачка и поделить на общее количество вариантов вытащить два кабачка. Это и будет искомая вероятность. Ответы пишите в комментариях :D

Так что же такое гипергеометрическое распределение? А оно как раз и задается формулой, которая подсчитывает вероятность вытянуть без возвращения n предметов, k из которых имеют искомый признак (при M предметах, имеющих искомый признак в совокупности объемом N).

Вики-страница: https://ru.wikipedia.org/wiki/%D0%93%D0%B8%D0%BF%D0%B5%D1%80%D0%B3%D0%B5%D0%BE%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5

#статябрь #статябрь2025 #statober #statober2025
Статябрь. День 8. Точный тест Фишера.

Предположим, что у нас есть группа испытуемых, и к части из них мы применяем некоторое воздействие. После этого мы наблюдаем результат этого воздействия в виде бинарной переменной: достигнут ли желаемый результат для каждого испытуемого. Наша задача — выяснить, внесло ли наше воздействие статистически значимый эффект. Рассмотрим на примере с кабачками.

Представим, что бабушка заметила наше недовольное лицо, когда мы вытащили два сгнивших кабачка. Она решила провести эксперимент: часть следующих кабачков она обработала водой, «заряженной» от телевизора. После этого она получила следующие результаты.
Как понять, имело ли бабушкино воздействие заряженной водой силу?

Чтобы решить эту задачу, нам нужно разобраться, что же такое статистические гипотезы и значение p. Статистическая гипотеза — это утверждение, которое можно опровергнуть или подтвердить с помощью статистического теста. Обычно, гипотезы формулируются парами: нулевая и альтернативная гипотезы. Нулевая гипотеза обычно утверждает, что между наблюдаемыми явлениями нет связи. К примеру, воздействие заряженной водой не влияет на количество несгнивших кабачков. Альтернативная гипотеза утверждает обратное, к примеру: количество несгнивших кабачков после обработки заряженной водой выше, чем без обработки.

Что же такое p-value? Для начала вспомним про колокол нормального распределения. Среднее значение этого колокола расположено у него в середине. Теперь представим, что мы сравниваем две выборки с такими колоколами. Мы формулируем нулевую гипотезу, что средние значения выборок не отличаются. Очевидно, что если выборки не отличаются, то и их средние будут лежать совсем рядом — у нас нет основания отклонить нулевую гипотезу. Сделать мы это можем только тогда, когда средние значения лежат далеко друг от друга. К примеру, если среднее значение второй выборки будет лежать не в центре, а где-то в хвосте первой выборки. Но как определить, что насколько эти значения далеки друг от друга? Тут-то на помощь и приходит p-value. Это числовое значение показывает вероятность получить такое же или более экстремальное значение статистики (к примеру, среднего или медианы) по сравнению с ранее наблюдаемым, при условии, что нулевая гипотеза верна.

Давайте снова рассмотрим на примере. Сперва мы формулируем нулевую и альтернативную гипотезы. Потом задаем уровень значимости, обычно он принимает значения 0.05 или 0.01. Это значение будет являться для нас разграничительной линией: если p-value меньше этого уровня, то мы отклоняем нулевую гипотезу. Затем мы вычисляем значение p. К примеру, если у нас два нормальных распределения и их средние сильно отличны, то мы получим низкое значение p, к примеру, p < 0.01. В итоге мы сможем отклонить нулевую гипотезу и принять альтернативную. Это и будет нашим результатом. Мы вычислили два средних, обнаружили, что крайне маловероятно, что они имеют одинаковое распределение, отклонили нулевую гипотезу, приняли альтернативну гипотезу о значимой разнице между двумя выборками.

Что ж, вернемся к бабушке с кабачками. Мы хотим узнать, было ли воздействие заряженной водой действенным. Мы сформулровали нулевую и альтернативную гипотезы, приняли уровень значимости 0.05 и теперь нам надо рассчитать значение p. Как же это сделать в нашем случае? Тест Фишера предлагает интересный подход.

Помните, что такое p-value? Это вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики, по сравнению с ранее наблюдаемым, при условии, что нулевая гипотеза верна. Что ж, давайте и начнем конструировать это p-value по шагам.

Шаг первый — ппосмотреть на распределение при верной нулевой гипотезе. Нулевая гипотеза говорит о независимости данных. Построим таблицу, в которой нет зависимости свежести кабачков от использования заряженной воды:
Шаг второй — построим таблицы для случаев, имеющих наблюдаемое распределение или более экстремальное (чем в таблице с независимыми данными). Наше изначальное и более экстремальные распределения:
Шаг третий — посчитать значение p, согласно его определению: сложить вероятности получения таких же или более экстремальных результатом. И как же посчитать каждый индивидуальный результ? А это мы уже умеем: для этого надо использовать формулу для величины имеющей гипергеометрическое распределение. В результате сложения, p должно получиться около 0.157. Это значение больше принятого уровня значимости 0.05, поэтому мы не можем отклонить нулевую гипотезу. А значит, что обработка кабачков заряженной водой не имела на них статистически значимого воздействия.

#статябрь #статябрь2025 #statober #statober2025
Статябрь. День 9. Распределение хи-квадрат.

Ранее мы рассмотрели нормальное («колоколообразное») распределение, которое оказалось крайне полезным. Мы знаем, что многие реальные величины имеют нормальное распределение, а значит, мы можем просто сравнивать соответствующие колокола. Если средние этих колоколов равны, то и выборки не различаются статистически при прочих равных. Если же среднее одной из выборок лежит где-то в хвосте колокола другой выборки, то, вероятно, что выборки различны.

Но не всегда нам интересно просто сравнить выборочные значения. Иногда, к примеру, мы хотим узнать, насколько полученные значения отличаются от ожидаемых, и на основе этого принять решение о различии выборок. Удобный способ сделать это — посчитать сумму квадратов разностей. Разности значений покажут различия, квадраты этих разностей переведут все числа в область положительных значений, а сумма квадратов покажет общую величину расхождения между двумя наборами данных.

Предположим, что мы посчитали эту величину различия. Как нам узнать, является ли она статистически значимой? Тут нам и приходит на помощь распределение хи-квадрат. Оно показывает распределение величины, являющейся суммой квадратов нормально распределенных величин с математическим ожиданием (средним), равным нулю, и среднеквадратическим отклонением, равным единице.

Далее все просто. У нас есть распределение хи-квадрат, мы получили некое значение различия выборок, остается посмотреть, насколько вероятно получить такое значение при верности нулевой гипотезы (которая утверждает, что различий нет) при определенном уровне значимости (к примеру, 0.05). Это можно сделать, рассчитав p-value на компьютере. Если оно меньше уровня значимости (например, 0.05), мы считаем, что наблюдаемое различие маловероятно при верности нулевой гипотезы, и, следовательно, различие статистически значимо.

Напоследок стоит отметить, что распределение хи-квадрат задается одним параметром — числом степеней свободы. О нем мы поговорим когда-набудь позже (если только кто-нибудь не скинет почитать про него в комментариях🙂).

Ссылка на вики: https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D1%85%D0%B8-%D0%BA%D0%B2%D0%B0%D0%B4%D1%80%D0%B0%D1%82

#статябрь #статябрь2025 #statober #statober2025
Еще одно стартап-мероприятие

В общем, я сходил на еще одно стартап-мероприятие для нетворкинга. Несколько человек питчили свои идеи, было бесплатное пиво и бутербродики, все ходили и разговаривали друг с другом. Если честно, то всё это казалось потерей времени - как будто люди просто собрались поболтать со старыми знакомыми.

Мне показалась более-менее интересной одна идея. Фитнес-тренер организовал группу из 50 человек и в ней реализовал несколько психологических уловок, чтобы мотивировать пользователей заниматься. Основная идея — пользователи распределяются по группам и видят прогресс других участников группы. Если ты не позанимался, то все видят, что ты пропустил день. В общем, незримое групповое осуждение должно помогать пользователю заниматься. Сам тренер утверждает, что метод работает, хотя он не проводил A/B-тестирование. На стартап-мероприятие он пришёл, чтобы найти того, кто разработает приложение, реализующее этот принцип для большой аудитории. Планируется также, что в приложении будет ИИ-модель, подбирающая упражнения.

К чему это я? Ах, да, если кому-то здесь эта идея интересна, то можете реализовать её в своей будущей фитнес телеграмм-группе. 😀

Эх, как же не хватает интересной и крутой стартап-движухи.
👍1
Статябрь. День 10. Тест Стьюдента для зависимых выборок.

Ранее мы говорили о том, как сравнивать две независимые выборки. Набираем случайных людей в обе группы, к одной применяем некое воздействие, например, даем таблетку для повышения IQ, измеряем интересующий нас параметр (IQ) у каждого испытуемого, ищем средние значения для обеих групп, проверяем гипотезу о том, что эти средние статистически равны или различны. Если мы получаем, что средние различны, то мы радуемся, что наша таблетка сработала и принимаем её сами. Но что делать, если у нас не набралось две группы? Что, если нам нужно понять, было ли эффективным воздействие на одной группе людей? У нас все еще будет два набора измерений — до и после воздействия — но они явно будут зависимы: это одни и те же люди! Тут нам на помощь приходит t-критерий Стьюдента для зависимых выборок.

Идея t-критерия Стьюдента для зависимых выборок довольно проста. Мы хотим узнать, имело ли наше воздействие результат, отличный от нуля. К примеру, если мы измеряем изменения уровня интеллекта в одной группе, то хотелось бы узнать, является ли различие в интеллекте после воздействия (принятия таблетки) значимым. Иными словами, мы хотим узнать, является ли наблюдаемое различие в среднем отличным от нуля. В этом и заключается идея t-критерия Стьюдента для зависимых выборок: как основную выборку мы берем не наши измерения, а набор разностей между наблюдаемым показателем после и до воздействия.

Давайте разберем пошагово на примере. У нас есть одна группа людей. Мы измеряем у них показатель IQ, затем мы даем им таблетку для его повышения и снова измеряем показатель IQ. Теперь мы выдвигаем нулевую гипотезу: среднее разностей показателя IQ до и после воздействия не отличается от нуля. Затем мы смотрим на колокол t-распределения со средним в нуля (он уже задан) и рассчитываем, насколько вероятно получить наше значение t при верности нулевой гипотезы. Иными словами, мы смотрим, насколько наше значение t отклоняется от нуля в соответствующем t-распределении Стьюдента с необходимым числом степеней свободы: чем дальше от нуля, тем ниже p-value. Степени свободы равны количеству парных измерений минус единица. Если p-value меньше некого заранее заданного (к примеру, 0.05), значит, наше значение статистически отличается от нуля, мы отклоняем нулевую гипотезу и делаем вывод, что таблетка сработала.

#статябрь #статябрь2025 #statober #statober2025
👍1
Статябрь. День 11. Распределение Пуассона

Некоторые события происходят редко, но с более или менее постоянной интенсивностью: появляется брак в партии, корректоры допускают ошибки в книгах, люди погибают в ДТП. Для описания вероятности происхождения возникновения определенного числа редких событий в некий промежуток времени используется распределение Пуассона. Оно задается одним параметром — интенсивностью редких событий. Эта интенсивность, в свою очередь, приближенна равна произведению общего числа возможных событий на вероятность редкого события. Таким образом, зная среднюю интенсивность событий, мы можем определить, например, какова будет вероятность получить количество брака в партии больше ожидаемого. На основе этого можно заложить дополнительные издержки на покрытие возможного брака.

Вики: https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9F%D1%83%D0%B0%D1%81%D1%81%D0%BE%D0%BD%D0%B0

#статябрь #статябрь2025 #statober #statober2025
👍1
Статябрь. День 12. Критерий Уилкоксона для связанных (связных) выборок.

Помните, мы проходили т-критерий для связных выборок? Данные у нас имели предположительно нормальное распределение и были интервальными (то есть расстояние между 1 и 2 такое же, как между 2 и 3 или 3 и 4). Но что делать, если данные не всегда интервальные, и, максимум, что мы можем сказать, это, что 1<2, а 2<3? Примером неинтервальных данных может служить конкурс по поеданию кабачков: съесть один кабачок легко для многих, съесть два кабачка уже слегка труднее, а съесть три кабачка для многих уже непосильная задача. Получается, что разность в сложности поедания между одним и двумя кабачками сильно меньше, чем между двумя и тремя. Такой тип данных с неравными интервалами называется порядковым.

Как же нам сравнить две связанные выборки с порядковыми данными? К примеру, пусть бабушка набрала команду внуков по поеданию кабачков. Она решает проверить следующую гипотезу: на вместительность внуков влияет время, проведенное за компьютером. В первый день она замеряет, сколько кабачков максимум может съесть каждый внук. Затем она проводит воздействие на внуков: отводит их на целый день в компьютерный клуб. На второй день она повторяет эксперимент и снова замеряет, сколько кабачков может съесть каждый из подопытных.

В нашем случае мы получаем набор порядковых данных из двух связанных выборок. В этом случае мы не можем напрямую использовать t-test: не выполняется требование о характере данных. Тут нам на помощь приходит критерий Уилкоксона для связанных выборок. Первым шагом необходимо вычислить разности между измерениями после и до воздействия. Кстати, наша нулевая гипотеза будет утверждать, что распределение разностей будет симметричным вокруг нуля. Затем мы ранжируем абсолютные значения (модули) этих разностей: наименьшая разность получает первое место и т. д. Следующим шагом каждому месту мы присваиваем знак соответствующей разности. При больших выборках распределение статистики W аппроксимируется нормальным, и тогда вычисляют соответствующую z-оценку. При малых же выборках мы используем точное распределение W. В обоих случаях мы определяем по соответствующему распределению, насколько вероятно получить такое значение статистики при верности нулевой гипотезы.

Напоследок, стоит упомянуть, что критерий Уилкоксона тоже накладывает определенные требования:
- симметрия распределения разностей
- независимость пар измерений между собой.

#статябрь #статябрь2025 #statober #statober2025
Кстати, как вам формат постов статобря? Мне кажется, что они слишком длинные, но при этом недостаточно длинные, чтобы хорошо объяснить материал с примером. Нормально ли их оставить такими или лучше сделать их в формате ссылок на ноутбуки?

#статябрь #статябрь2025 #statober #statober2025
Статябрь. День 13. Критерий МакНемара.

Как повлияла наша рекламная кампания на группу пользователей? Подействовала ли вакцина на группу пациентов? Изменилось ли мнение внуков о бабушке после двух дней кабачковой диеты? Чтобы ответить на такие вопросы, где: 1) наблюдения парные или сильно связаны между собой, 2) результат представлен категориальной переменной (любит/не любит, есть болезнь/нет болезни), можно использовать тест МакНеймара.

Продолжение в ноутбуке: https://colab.research.google.com/drive/1NLr9XDeqcC2PzFEj6QHQFUP948AxhrNn?usp=sharing

#статябрь #статябрь2025 #statober #statober2025
Критерий МакНемара и материалы.

Хотел коротко проиллюстрировать, чем мне не нравятся многие учебники. Есть статья по Критерию МакНемара (http://machinelearning.ru/wiki/index.php?title=%D0%9A%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D0%9C%D0%B0%D0%BA-%D0%9D%D0%B8%D0%BC%D0%B0%D1%80%D0%B0). Там есть и формулы, и пример. Чем мне не нравятся многие материалы по статистике и математике вообще: отсутствие мотивации (когда и зачем что-то применять) и отсутствие интуиции (как оно концептуально работает). Надеюсь, когда я стану богатым, то сделаю свой учебник, где не будет таких недостатков.
Статябрь. День 14. Показательное (экспоненциальное) распределение.

Сегодня мы совсем коротко поговорим о показательном (экспоненциальном) распределении. Оно является крайне полезным для моделирования времени ожидания или времени безотказной работы.

Попробуем понять логику безотказной работы. Вероятность безотказной работы начинается с единицы и экспоненциально убывает к нулю при увеличении времени. Иными словами, чтобы смоделировать вероятность безотказной работы, нам нужно найти такое распределение, которое бы начиналось с единицы и стремилось бы к нулю в бесконечности. Одним из лучших кандидатов в этом случае является экспенента.

Приятным свойством показательного распределения является отсутствие памяти. Цитируя учебник Гмурмана: вероятность безотказной работы элемента на интервале времени длительностью t не зависит от времени предшествующей работы до начала рассматриваемого интервала, а зависит только от длительности времени t (при заданной интенсивности отказов). Иными словами, вероятность того, что при известной интенсивности отказов новый телевизор сломается в первые десять лет такая же, что и вероятность телевизора сломаться в последующие десять лет, если он проработал без поломок первые десять лет.

#статябрь #статябрь2025 #statober #statober2025
Статябрь. День 15. Дисперсионный анализ.

Ранее мы научились сравнивать средние двух групп. Было все просто: формулируем нулевую гипотезу, выставляем уровень значимости, проводим измерения, находим вероятность получить такое значение тестовой статистики при верности нулевой гипотезы. Если эта вероятность (p-value) меньше уровня значимости (0.05), то мы отклоняем нулевую гипотезу. А что же делать, если у нас возможно несколько воздействий? Что если мы испытываем не один вид удобрений, а сразу несколько?

Читать далее в ноутбуке: https://colab.research.google.com/drive/1EysPyoswynvpv-G71vaeINHGZ8xwPTz6?usp=sharing

#статябрь #статябрь2025 #statober #statober2025
👍1
Статябрь. День 16. Непрерывное равномерное распределение.

Не все измеряемые величины подчиняются нормальному распределению. Одно из распространенных альтернативных распределений — непрерывное равномерное распределение. Если в нормальном распределении вероятность получить значение переменной, сильно отличное от среднего, довольно мала, то в равномерном распределении все иначе: вероятности получить определенные значения одинаковы на некотором интервале и равны нулю за его пределами. Это можно увидеть и на графике плотности вероятности.

Равномерное распределение часто используется как модель для описания случайных процессов без предпочтений или для аппроксимации ошибок измерения. Один из примеров: ошибка округления до ближайшего целого на измерительном приборе имеет равномерное распределение. Другой пример — вероятность получить определенного результата от генератора случайных значений.

Вики с графиком: https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%BF%D1%80%D0%B5%D1%80%D1%8B%D0%B2%D0%BD%D0%BE%D0%B5_%D1%80%D0%B0%D0%B2%D0%BD%D0%BE%D0%BC%D0%B5%D1%80%D0%BD%D0%BE%D0%B5_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5

#статябрь #статябрь2025 #statober #statober2025
Статябрь. День 17. Критерий Краскела-Уоллиса.

Сегодня у нас на очереди непараметрический тест для нескольких выборок. Он подходит для тех случаев, когда по каким-либо причинам мы не можем использовать дисперсионный анализ. Критерий является обобщением ранее рассмотренного критерия Манна-Уитни.

Суть критерия в следующем. Пусть у нас есть несколько выборок. Чтобы определить, есть ли среди них различия, мы, как и в критерии Манна-Уитни, ранжируем данные. Наше основное предположение состоит в том, что если группы одинаковые, то ранги распределяются случайным образом между ними. Иными словами, H-критерий Краскела-Уоллиса показывает наличие сдвига в параметрах положения (сдвиг медиан) двух или более сравниваемых выборок, имеющих одинаковые формы распределения. Этот критерий имеет асимптотическое распределение хи-квадрат с k-1 степенями свободы, где k — количество выборок.

Вывод формулы для критерия дан в русской вики: https://ru.wikipedia.org/wiki/%D0%9A%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D0%9A%D1%80%D0%B0%D1%81%D0%BA%D0%B5%D0%BB%D0%B0_%E2%80%94_%D0%A3%D0%BE%D0%BB%D0%BB%D0%B8%D1%81%D0%B0

#статябрь #статябрь2025 #statober #statober2025