Data&Knowledge
130 subscribers
25 photos
21 files
160 links
Работаем с данными
Download Telegram
На какую группу населения можно обычно распространить исследования по психологии?
Anonymous Quiz
33%
Всё человечество
23%
Люди, говорящие на языке исследования
44%
Студенты-бакалавры, проходящие курс психологии в этом университете
👍4
Что ж, те, кто начал проходить курс, уже знают, что такое генеральная совокупность и выборка. Вот вам небольшой шуточный опрос:
Немного о выборках. Предлагаю оценить следующую ситуацию. Есть ли какие-то ошибки в эксперименте, которые могут исказить результат?

Игорь учится в техническом университете. Он решил узнать, являются ли перчатки для виртуальной реальности более удобными для пользователей, чем классические джойстики.
Для того, чтобы провести эксперимент, Игорь решил набрать участников, развесив объявления в лифте университета. В эксперименте приняло участи 25 юношей и 5 девушек. В результате эксперимента, используя правильные опросники, Игорь выяснил, что перчатки для VR намного более удобны для пользователей, чем обычные джойстики.
Очень классный плэйлист по анализу данных:
https://www.youtube.com/playlist?list=PLlb7e2G7aSpRb95_Wi7lZ-zA6fOjV3_l7

Первые две лекции неплохо ложатся на то, что сейчас проходим на степике (https://stepik.org/course/76: 1.1-1.6)
Итак, еще одна задача на выборку и дизайн эксперимента.
Маша решила выяснить, какой способ преподавания статистики лучше - бумажный учебник или видеолекция. Она представила один и тот же текст в двух разных видах - в виде текста из учебника и в виде лекции.
Чтобы протестировать, какой из этих двух видов эффективнее, она провела эксперимент. Двум разным группам людей она предложила ознакомиться с материалом, а потом провела тестирование по прочитанному. Каждый человек проходил тестирование в звукоизолированной комнате, где его ничто не отвлекало. Чтобы выборка была репрезентативной, Маша расклеила объявления по всему городу с приглашением поучаствовать в эксперименте. В итоге она получила более двухсот участников, которые достаточно точно отображали популяцию жителей города - баланс полов и возрастов соблюдался в полной мере. В результате Маша, проанализировав данные, пришла к выводу, что видеолекции заметно превосходят книжный материал. Однако, после внедрения в университете в массовую практику этих выводов, результат и близко не оказался похожим.
В чем могла быть проблема с выборкой? В чем могла быть проблема с самим экспериментом?
Ренат работает директором небольшой компании. Внезапно, он решил узнать, почему же его работники довольно часто увольняются, что же их не устраивает.
Ренат нашел типовой опросник и разослал ссылку всем работникам - и в офисе, и на удаленке (анонимно, все работники честно прошли опрос). Ренат получил довольно интересные данные, увидел, какие факторы отрицательно влияют на настрой работников и попытался устранить эти факторы. Ренат был доволен - новый опрос показал, что работники стали существенно более довольными.
Однако через год Ренат внезапно обнаружил, что количество уволившихся работников за год значимо не поменялось. Что же было не так с опросом?
Напоминаю, что мы всё еще проходим курс https://stepik.org/course/76. По плану мы проходим пункты 1.1-1.6, и будем проходить их еще около недели (материалы, связанные с этими темами будут появляться в чате).
Вот ссылки на некоторые задачи, которые обсуждались в чате по теме выборки и генеральной совокупности:
https://t.me/datascienceforfun_chat/4538
https://t.me/datascienceforfun_chat/4666
https://t.me/datascienceforfun_chat/4725
Под каждой задачей в чате есть некоторое количество обсуждений.
В лекции 1.2 говорится про простую случайную выборку - когда мы из популяции выбираем совершенно случайные элементы генеральной совокупности. Однако, у простой случайно выборки тоже есть два варианта: с возвратом и без возврата. В большинстве случаев мы стараемся сделать так, чтобы один и тот же элемент не попал в выборку дважды (выборка без возврата).
Вопрос: в каких случаях элемент может попасть в выборку дважды, и как этого избежать? Когда может быть полезна простая случайная выборка с возвратом?
Итак, мы выяснили, что переменные бывают количественными и категориальными (номинативными). При этом количественные переменные могут быть непрерывными и дискретными, а категориальные - с отношением порядка между элементами (ранговыми) или без.
Вот пара опросов по теме.
Мы измерили вес участников с точностью до килограмма (целые числа). Какая это переменная?
Anonymous Quiz
72%
Дискретная
28%
Непрерывная
👍3
Мы измерили температуру с точностью до десятой доли градуса и записали её словами: "холодно", "тепло", "жарко". Сами числа отбросили. Какой тип переменной мы получили?
Anonymous Quiz
2%
Непрерывная
16%
Категориальная неупорядоченная
83%
Категориальная с отношением порядка (ранговая)
👍1
Вопрос: пусть среднее количество детей в семье - 2.5 ребенка. Но дети это дискретная переменная, их может быть 1, 2, 3, но не 2.5.
Делаем ли мы что-то не так, когда говорим, что среднее количество детей в семье - нецелое число?
Некоторые часто рекомендуемые учебники по статистике. Свои любимые книги я выделил жирным.

Гмурман В. Е. - Теория вероятностей и математическая статистика - 2004
Grami A. - Probability, Random Variables, Statistics, and Random Processes

Эти два учебника мне очень понравились по двум причинам. Во-первых, они описывают более-менее полно теорию вероятности и статистику. Во-вторых, в них есть задачи и ответы (!). К сожалению, у учебников есть и некоторые недостатки. К примеру, в Гмурмане описано далеко не всё, что хотелось бы увидеть, а в Grami некоторые понятия описаны достаточно скупо.


Если вы хотите углубиться в теорию вероятности, то я могу предложить, но не посоветовать учебник:

Ширяев А. Н. - Вероятность 1-2.

Этот учебник отличается тем, что там приведена аксиоматика Колмогорова, и вообще он более математичен. К сожалению, в нем нет ответов к задачам, поэтому удачи вам себя проверить.


В качестве развлекательного чтива я могу снова порекомендовать:

How to Lie With Statistics, Huff - 1954

Легко читается, думаю, что есть и русский перевод.


Есть еще одна замечательная книжка, которая уже более высокого уровня сложности:

Good P., Hardin J. - Common Errors in Statistics (and How to Avoid Them) - 2003


Если же вам мало обычного теорвера, вы понимаете, что ваша жизнь скучна с обычными вероятностями, то вас может потянуть во что-то необычное. К примеру, на наркотики. Или на байесовскую статистику. Одна из рекомендуемых книг по последней:

Gelman et al. - Bayesian Data Analysis (2021),

лежит в свободном доступе на сайте (http://www.stat.columbia.edu/~gelman/book/).


Тут же добавлю книгу с немного альтернативным подходом к объяснению статистики:

Лагутин М.Б - Наглядная математическая статистика -2009

Книга начинает объяснять статистику через физические явления в реальной жизни. У меня мозг начал закипать довольно быстро, но может кому-то зайдет.


А закончу список своим настольным справочником по статистике:

S. Boslaugh, P. A. Watters - Statistics in a Nutshel. A desktop quick reference

Очень крутая книга, где простым языком объясняются основные статистические тесты.

Вообще, книг по статистике очень много. Более того, в статистике можно углубиться в какую-то определенную тематику, к примеру, в обобщенные линейные модели, анализ временных рядов или в анализ категориальных данных. В этих случаях потребуются уже другие книги. Мой же топ книг - по базовой статистике технического ВУЗа. И не забывайте, что как и любой топ, он довольно субъективен.
👍5
Так как нам нужно будет брать откуда-то данные для экспериментов, то вот небольшая статья про различные встроенные датасеты в разных пакетах python: https://kolesnikov.ga/Datasets_in_Python/

Если у кого-то есть предложения по заданиям - пишите в личку мне (@embden). Я собираюсь в скором времени подготовить простые задания в виде юпитер-ноутбуков для python/R.
visual-vocabulary.pdf
3.7 MB
Сводная таблица о том, как визуализировать разные данные
Предлагаю тему на следующую неделю: Нормальное распределение. Для курса https://stepik.org/course/76 это темы 1.7-1.8.
Приветствую любые вопросы на тему нормального распределения, центральной предельной теоремы, теории больших чисел и прочего.
tests.jpg
322.7 KB
Какой статистический тест использовать?
Я сделал небольшое задание по медиане, моде и среднему: https://colab.research.google.com/drive/1jmxQOau9H3vfQLQ07jMm8fWT-1_dFOj9?usp=sharing

Google Colab - это среда совместного исполнения кода. Вы можете скопировать этот блокнот в "свой колаб" и попытаться выполнить задания там.

Критику по заданию и формулировкам принимаю.
Тот же самый материал, но теперь для языка R. Вы все так же можете скопировать этот колаб к себе, и попробовать выполнить его онлайн в своем гугл колабе.
https://colab.research.google.com/drive/1VwsW6bzuHX564_LiE1tU7dNC0JoIwze_?usp=sharing