Data&Knowledge – Telegram

Data&Knowledge

@datascienceforfun

130 subscribers

25 photos

21 files

160 links

Работаем с данными

Download Telegram

About

Blog

Apps

Platform

130 subscribers

"Когда уже видео?"

Я подумал, что нам будет интересно узнать, какие факторы влияют на вовлеченность людей при просмотре видео. Я нашел 20+ научных статей и сейчас читаю их и выделяю главное. В общем, через несколько дней вы сможете прочитать, какие же факторы влияют на вовлеченность зрителей с научной точки зрения 🤓
П.С. На картинке — текущий прогресс.
П.П.С. Первое видео планирую загрузить в ноябре.
#research #youtube #исследование

147 viewsedited 20:15

Я тут хочу в следующем месяце попытаться каждый проходить и публиковать материалы под одному статистическому методу. Как вам список? Мне хотелось изначально сделать только про стат. методы, но добавил еще темы про распределения. Но может их стоит убрать и найти еще методов? Или норм? Я еще не знаю, в каком формате это все провести? Просто предлагать людям читать статьи? Или что-то делать? Самим что-то предлагать?

Statober (Статябрь)
(учим статистику, каждый день по одной статистической теме)

Normal distribution
Z-test
Student's t distribution
Unpaired t test
Binomial distribution
Mann-Whitney test
Hypergeometric distribution
Fisher's test
Chi-squared distribution
Paired t test
Poisson distribution
Wilcoxon test
McNemar's test
Exponential distribution
ANOVA
Uniform distribution
Kruskal-Wallis test
Chi-square test
Repeated-measures ANOVA
Friedman test
Cochran's Q test
Pearson correlation
Spearman correlation
Cramer's V
Linear regression
Logistic regression
F Test
Kolmogorov–Smirnov test
Cohen's kappa
Fleiss's kappa
Shapiro–Wilk test

👍5

119 views15:57

Изучение немецкого: что работает, а что нет

Итак, пару месяцев назад я твердо решил учить немецкий каждый день (ха-ха). В этом посте я хочу рассказать, какие методы работали эффективно, а какие были крайне неэффективны. Что ж, поехали.

Смотреть мультфильмы детства на немецком (слабо, но работает)
Мне кажется, что я выучил не так много слов. Основная проблема была в том, что когда ты смотришь мультики (в перерывах), ты хочешь расслабиться. Ты не хочешь лезть в переводчик на каждое слово. Тем не менее, я выучил несколько новых слов, ну а так как мультики используют наиболее распространенные слова, то и эффект я ощутил почти сразу.

Проходить учебник по грамматике (от Buscha, A-Grammatik) (работает отлично)
В книгах по изучению языка пишут, что взрослые должны изучать грамматику. Считается, что таким образом взрослым легче понять, как устроен язык, и они быстрее его усваивают (быстрее, чем дети). В моем случае всё было именно так: учебник по грамматике был очень полезным и уложил пласт знаний в голове. Я прошел его полностью, всем рекомендую.

Читать новости о стартапах на немецком (https://www.deutsche-startups.de) + немецкий реддит (слабо, но работает)
Пока что трудно заставлять себя это делать, но иногда бывает интересно понять, о чем же пишут в очередном комментарии. Иногда лезешь в переводчик, а иногда лезть лень и пытаешься перевести сам.

Читать книги (работает хорошо)
За этот спринт я прочитал немецкую книжку "Эмиль и детективы". Это детская книжка, поэтому прочиталась она быстро. Единственная проблема была в том, что детские книжки все-таки довольно скучны для взрослых. Других проблем с этим методом не вижу. Я узнал много новых слов и познакомился с кучей конструкций. Сейчас принимаюсь за Хоббита, посмотрим, как пойдет.

Смотреть стримы на немецком (скорее не работает)
Если честно, то сначала я с энтузиазмом смотрел стримы, слушал живой язык, но со временем мне это просто надоело, да и язык я стал находить довольно повторяющимся.

Играть в игры на немецком (Mafia III, Ведьмак 3) (скорее не работает)
Я играл в Мафию 3 и я крайне не рекомендую такой метод обучения. Мне постоянно приходилось останавливать игру, чтобы перевести слово или фразу, и я толком не мог вникнуть в сюжет. В общем, я не получал удовольствия от игры и толком не изучал язык. К концу языкового спринта я перестал вникать и просто пытался насладиться игрой.

Тренировать разговорные фразы (видимо, с chatGPT) (работает отлично)
ИИ-модели — это прямо крутые помощники в изучении языка. Ты пытаешься сформулировать свою мысль, пишешь её, а тебе указывают на ошибки и говорят, как исправить. И ты еще можешь задать дополнительные вопросы! Очень эффективная штука, рекомендую.

Заучивать неправильные глаголы (не работает)
Я просто не мог себя заставить/постоянно забывал, что это надо делать. Я все еще хочу этим заняться, но каким-то образом оно постоянно выпадает из моего расписания.

Прорешивать учебник по немецкому для моего уровня (Anne Buscha, Szilvia Szita - Spektrum Deutsch B1+) (работает отлично)
В связке с ИИ работает отлично. Ты изучаешь грамматику, заучиваешь нужную лексику, тренируешь восприятие на слух и письмо, а ИИ-модель дает тебе обратную связь на твои тексты. Крайне мощная связка.

Резюме.
Итак, подведем итог. Для меня наиболее эффективным методом изучения немецкого с уровнем A2/B1 оказалась следующая связка:
книжка по грамматике + учебник немецкого + ИИ-чат + чтение книг + мультфильмы во время перерывов.
Заучивание слов, игры, стримы, новости оказались неэффективными в моем случае.

👍1

143 views12:06

Статябрь

Предлагаю каждый день в октябре коротко проходить по одной теме из статистики. Предлагаю делиться крутыми материалами и примерами на каждый топик. Таким образом мы повторим и углубим понимание каждой темы :)

#статябрь #статябрь2025 #statober #statober2025

👍1

735 viewsedited 13:36

Идея Статября в том, чтобы делиться крутыми примерами и материалами по темам. Поэтому, если вы найдете крутое объяснение или применение темы, кидайте в комментарии :)

Статябрь. День 1. Нормальное распределение.

Итак, представьте, что мы изобрели новое лекарство. Вообще говоря, неплохо было бы как-то сравнить наше новое лекарство с существующим, чтобы доказать, что оно работает. Но как это сделать? Мы не можем испробовать его на одном человеке — положительный эффект может быть случайным. Грубо говоря, действие лекарства обусловлено целым рядом случайных факторов для каждого человека.

А что если мы возьмем не одного человека, а группу людей? И здесь-то нам и приходит на помощь нормальное распределение. Оказывается, если взять целую группу людей и измерить у них некую случайную величину (действенность лекарства, уровень интеллекта, рост), отобразив её на графике, то последний примет куполообразную форму. Если говорить более точно, случайная величина будет иметь нормальное распределение. И теперь наша задача становится более простой: "сравнить два купола" для нового и старого лекарства (примеры куполов есть ниже на картинке). Если купол нового лекарства в среднем имеет большие значения действенности, значит оно более эффективно.

Почему же многие величины принимают нормальное распределение? Если коротко, то это случается, когда на измеряемую величину влияет целый ряд факторов. Для действенности лекарства — это индивидуальные особенности организма, для IQ — ряд генетических, экологических и социальных факторов, для роста — снова генетические и экологические факторы. В теории вероятностей этот феномен описывается Центральной Предельной Теоремой. Но о ней мы поговорим в другой раз.

Вики: https://ru.wikipedia.org/wiki/%D0%9D%D0%BE%D1%80%D0%BC%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B5_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5
Мой конспект по теме: https://drive.google.com/file/d/19EDlbrbnVSaGiekBhMW22CcHlxTEk_A_/view?usp=sharing

#статябрь #статябрь2025 #statober #statober2025

👍1

635 viewsedited 09:41

А так выглядят "купола" нормального распределения с разными характеристиками.

564 viewsedited 09:41

Статябрь. День 2. Z-test.

Итак, вчера мы узнали, что очень многие данные имеют колоколообразное нормальное распределение. И еще мы узнали, что, оказывается, можно сравнивать эти колокола, чтобы понять, есть ли разница между двумя группами людей. Давайте посмотрим на примере.

Итак, давайте предположим, что мы хотим выбрать школу для ребенка. Директор гордо утверждает, что выпускники его школы сдают ЕГЭ в среднем лучше, чем выпускники в среднем по стране. Как же это проверить?

Во-первых, нам необходимо знать характеристики распределения всей популяции сдавших ЕГЭ. Известно, что нормальное распределение определяется двумя параметрами: средним и дисперсией (мерой разброса значений). Во-вторых, мы должны вычислить те же характеристики купола для нашей выборки — учеников, сдававших ЕГЭ из конкретной школы. И после этого, мы должны вычислить Z-score — меру расстояния между средним популяции и средним выборки. Если она достаточно велика, то мы сможем заключить, что директор не врет, и ученики этой школы действительно показывают более высокие результаты.

У этого метода есть и ограничения. Во-первых, необходимо, чтобы величины были распределены нормально — не для всех величин это условие соблюдается. Во-вторых, нам необходимо знать дисперсию популяции. В нашем случае это возможно, такие данные могут публиковаться после проведения экзамена. Но очень часто доступа к таким данным нет, и точно оценить дисперсию популяции (а не выборки) нет возможности. В таких случаях используются другие тесты, о которых мы поговорим позже.

Чуть подробнее о Z-тесте: https://habr.com/ru/companies/otus/articles/793678/

Делитесь своими материалами и примерами в комментариях.

#статябрь #статябрь2025 #statober #statober2025

👍2

546 views12:11

Друзья, а нам тут поступил запрос на помощь с интересной проблемой. Человеку в рамках учебного проекта надо изучить причины и последствия отчислений (почему люди перестают учиться), а затем предложить стратегию для решения этой проблемы, опираясь на методы анализа данных. И он не знает, как вообще начать.

В общем, есть два вопроса:

1. Как подойти к проблеме? Университет новый и не имеет накопленных данных.

2. Где взять данные, а главное — какие?

103 viewsedited 19:40

Статябрь. День 3. Распределение Стьюдента.

Вчера мы поговорили о тесте, который сравнивает два колокола — два нормальных распределения. Но у нас была проблема: налагаются довольно серьезные ограничения на характер данных — должна быть известна дисперсия (мера разброса) данных генеральной совокупности, должен быть большой размер выборки. А что делать, если эти условия не выполняются? И у исследователей возникла идея: а давайте использовать другой колокол. Ведь чем плохи маленькие выборки? Случайное слишком большое или слишком маленькое значение могут сильно сместить и среднее, и увеличить дисперсию. К примеру, если мы измеряем IQ в одной группе, то там вполне могут оказаться два брата близнеца с крайне высоким показателем. И тогда у нас может получиться, что в нашей выборке из 20 человек у 10% людей очень высокий IQ. А это нереалистично, если посмотреть на нормальное распределение — его хвосты очень близки к 0%. Получить 10% с высоким IQ — крайне маловероятно.

Чтобы учесть такую особенность малых выборок, было введено распределение Стьюдента. Оно имеет чуть более высокие хвосты, допуская неточности в выборках. Кроме этого, в таких распределениях нет требования знать дисперсию генеральной совокупности. Распределение Стьюдента приведено по ссылке ниже. Оно не только похоже на нормальное распределение, оно еще и стремится к нормальному (становится очень близким к нему) при больших размерах выборки.

Ссылка на вики: https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0

Делитесь своими материалами и примерами в комментариях.

#статябрь #статябрь2025 #statober #statober2025

👍1

535 viewsedited 20:44

Статябрь. День 4. Непарный тест Стьюдента.

Итак, это один из самых важных тестов в статистике. Поэтому именно сегодня я предлагаю делиться ссылками на материалы в комментариях :)

#статябрь #статябрь2025 #statober #statober2025

480 views16:46

Статябрь. День 5. Биномиальное распределение.

Давайте представим, что нам необходимо передать важные данные по каналу связи. Эти данные мы упакуем в пакеты. Мы знаем характеристики канала связи, к примеру, что пакет данных теряется с вероятностью 0.001. Мы можем отправлять один пакет многократно, но как узнать, какого количества будет достаточно?

Для моделирования событий с двоичным результатом (орел/решка, доставка/потеря пакета и т. д.) используется биномиальное распределение. Оно отражает распределение количества «успеха» в последовательности из n случайных величин. При достаточно больших n биномиальное распределение стремится к нормальному. Форма распределения показана на картинке, ну а по ссылке — пример вычисления.

Ссылка: https://colab.research.google.com/drive/1fbWZftHThAWb_hGyCyfQoKtOUw-qKHzc?usp=sharing

#статябрь #статябрь2025 #statober #statober2025

Биномиальное распределение.ipynb

494 viewsedited 10:17

Картинка из вики

456 views10:19

Data&Knowledge pinned a photo

18:28

Статябрь. День 6. U-критерий Манна-Уитни.

Пока что все было просто — если мы хотим сравнить две популяции, то к нашему счастью они часто имеют нормальное распределение, мы сравниваем два колокола и все довольны. Но что, если наши выборки не имеют нормального распределения? Как тогда сравнить, есть ли статистические различия между двумя выборками? Тут нам на помощь приходит непараметрический U-критерий Манна-Уитни.

Проиллюстрирую идею на примере. Представьте, что у нас есть две спортивных команды. Атлеты одной из них заняли 1, 2, 3, 4, 5 и 9 места, а у второй — 6, 7, 8, 10, 11. Не надо знать статистику, чтобы увидеть, что атлеты первой команды лучше. Примерно в этом и состоит идея теста Манна-Уитни: а что если мы возьмем обе выборки и распределим места между участниками? Кажому участнику из каждой выборки мы присвоим место в совместном зачете. Места будем присваивать так: за наименьший результат даем первое место, за второй с конца — второе и т.д. Если в совместной выборке идут два результата подряд, то каждому присваиваем «среднее» место, к примеру, если на 6 и 7 месте стоят одинаковые показатели, то обоим присваиваем 6.5 место. А после присвоения мест в общей выборке мы смотрим, какая из выборок оказалась круче. Для этого мы и вычисляем сам U-критерий Манна-Уитни. О нем чуть подробнее в видео.

Видео по использованию критерия: https://www.youtube.com/watch?v=IN3bB8Ea_O8
Вики-страница на английском, где много продвинутой информации: https://en.wikipedia.org/wiki/Mann%E2%80%93Whitney_U_test

#статябрь #статябрь2025 #statober #statober2025

06 Критерий Манна Уитни

Проверка гипотез
независимые выборки
непараметрический критерий Манна-Уитни
таблица критические значений https://drive.google.com/file/d/1u8PwVJWCLngkd7UlJKw5QAXOTkGmM8K9/view?usp=sharing

451 views19:22

Статябрь. День 7. Гипергеометрическое распределение.

Часто бывает так, что нам нужно проконтролировать качество какого-то процесса. Одна из таких ситуаций: необходимо оценить вероятность получить определенное количество объектов с определенным признаком в партии. Признак может быть самым разным: машины с красным цветом в выборке из красных и черных машин; солдаты, способные держать автомат из всего количества срочников, количество козырных карт у противника. Разберем на примере.

Представим, что к нам пришла бабушка и сообщила, что принесла 20 кабачков. Правда, 12 из них уже испортились. Для ужина нам нужно два кабачка. Какова вероятность, что два наудачу вытащенных кабачка окажутся свежими?

Решить эту задачу довольно легко. Для этого нам надо сосчитать количество всех возможных вариантов вытащить два свежих кабачка и поделить на общее количество вариантов вытащить два кабачка. Это и будет искомая вероятность. Ответы пишите в комментариях :D

Так что же такое гипергеометрическое распределение? А оно как раз и задается формулой, которая подсчитывает вероятность вытянуть без возвращения n предметов, k из которых имеют искомый признак (при M предметах, имеющих искомый признак в совокупности объемом N).

Вики-страница: https://ru.wikipedia.org/wiki/%D0%93%D0%B8%D0%BF%D0%B5%D1%80%D0%B3%D0%B5%D0%BE%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5

#статябрь #статябрь2025 #statober #statober2025

Гипергеометрическое распределение

Гипергеометри́ческое распределе́ние в теории вероятностей моделирует количество удачных выборок без возвращения из конечной совокупности.

399 views15:44

Статябрь. День 8. Точный тест Фишера.

Предположим, что у нас есть группа испытуемых, и к части из них мы применяем некоторое воздействие. После этого мы наблюдаем результат этого воздействия в виде бинарной переменной: достигнут ли желаемый результат для каждого испытуемого. Наша задача — выяснить, внесло ли наше воздействие статистически значимый эффект. Рассмотрим на примере с кабачками.

Представим, что бабушка заметила наше недовольное лицо, когда мы вытащили два сгнивших кабачка. Она решила провести эксперимент: часть следующих кабачков она обработала водой, «заряженной» от телевизора. После этого она получила следующие результаты.

381 views12:36

339 views12:36

Как понять, имело ли бабушкино воздействие заряженной водой силу?

Чтобы решить эту задачу, нам нужно разобраться, что же такое статистические гипотезы и значение p. Статистическая гипотеза — это утверждение, которое можно опровергнуть или подтвердить с помощью статистического теста. Обычно, гипотезы формулируются парами: нулевая и альтернативная гипотезы. Нулевая гипотеза обычно утверждает, что между наблюдаемыми явлениями нет связи. К примеру, воздействие заряженной водой не влияет на количество несгнивших кабачков. Альтернативная гипотеза утверждает обратное, к примеру: количество несгнивших кабачков после обработки заряженной водой выше, чем без обработки.

Что же такое p-value? Для начала вспомним про колокол нормального распределения. Среднее значение этого колокола расположено у него в середине. Теперь представим, что мы сравниваем две выборки с такими колоколами. Мы формулируем нулевую гипотезу, что средние значения выборок не отличаются. Очевидно, что если выборки не отличаются, то и их средние будут лежать совсем рядом — у нас нет основания отклонить нулевую гипотезу. Сделать мы это можем только тогда, когда средние значения лежат далеко друг от друга. К примеру, если среднее значение второй выборки будет лежать не в центре, а где-то в хвосте первой выборки. Но как определить, что насколько эти значения далеки друг от друга? Тут-то на помощь и приходит p-value. Это числовое значение показывает вероятность получить такое же или более экстремальное значение статистики (к примеру, среднего или медианы) по сравнению с ранее наблюдаемым, при условии, что нулевая гипотеза верна.

Давайте снова рассмотрим на примере. Сперва мы формулируем нулевую и альтернативную гипотезы. Потом задаем уровень значимости, обычно он принимает значения 0.05 или 0.01. Это значение будет являться для нас разграничительной линией: если p-value меньше этого уровня, то мы отклоняем нулевую гипотезу. Затем мы вычисляем значение p. К примеру, если у нас два нормальных распределения и их средние сильно отличны, то мы получим низкое значение p, к примеру, p < 0.01. В итоге мы сможем отклонить нулевую гипотезу и принять альтернативную. Это и будет нашим результатом. Мы вычислили два средних, обнаружили, что крайне маловероятно, что они имеют одинаковое распределение, отклонили нулевую гипотезу, приняли альтернативну гипотезу о значимой разнице между двумя выборками.

Что ж, вернемся к бабушке с кабачками. Мы хотим узнать, было ли воздействие заряженной водой действенным. Мы сформулровали нулевую и альтернативную гипотезы, приняли уровень значимости 0.05 и теперь нам надо рассчитать значение p. Как же это сделать в нашем случае? Тест Фишера предлагает интересный подход.

Помните, что такое p-value? Это вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики, по сравнению с ранее наблюдаемым, при условии, что нулевая гипотеза верна. Что ж, давайте и начнем конструировать это p-value по шагам.

Шаг первый — ппосмотреть на распределение при верной нулевой гипотезе. Нулевая гипотеза говорит о независимости данных. Построим таблицу, в которой нет зависимости свежести кабачков от использования заряженной воды:

439 views12:36

414 views12:36

Шаг второй — построим таблицы для случаев, имеющих наблюдаемое распределение или более экстремальное (чем в таблице с независимыми данными). Наше изначальное и более экстремальные распределения:

383 views12:36

354 views12:36