Что ж, те, кто начал проходить курс, уже знают, что такое генеральная совокупность и выборка. Вот вам небольшой шуточный опрос:
Немного о выборках. Предлагаю оценить следующую ситуацию. Есть ли какие-то ошибки в эксперименте, которые могут исказить результат?
Игорь учится в техническом университете. Он решил узнать, являются ли перчатки для виртуальной реальности более удобными для пользователей, чем классические джойстики.
Для того, чтобы провести эксперимент, Игорь решил набрать участников, развесив объявления в лифте университета. В эксперименте приняло участи 25 юношей и 5 девушек. В результате эксперимента, используя правильные опросники, Игорь выяснил, что перчатки для VR намного более удобны для пользователей, чем обычные джойстики.
Игорь учится в техническом университете. Он решил узнать, являются ли перчатки для виртуальной реальности более удобными для пользователей, чем классические джойстики.
Для того, чтобы провести эксперимент, Игорь решил набрать участников, развесив объявления в лифте университета. В эксперименте приняло участи 25 юношей и 5 девушек. В результате эксперимента, используя правильные опросники, Игорь выяснил, что перчатки для VR намного более удобны для пользователей, чем обычные джойстики.
Очень классный плэйлист по анализу данных:
https://www.youtube.com/playlist?list=PLlb7e2G7aSpRb95_Wi7lZ-zA6fOjV3_l7
Первые две лекции неплохо ложатся на то, что сейчас проходим на степике (https://stepik.org/course/76: 1.1-1.6)
https://www.youtube.com/playlist?list=PLlb7e2G7aSpRb95_Wi7lZ-zA6fOjV3_l7
Первые две лекции неплохо ложатся на то, что сейчас проходим на степике (https://stepik.org/course/76: 1.1-1.6)
Итак, еще одна задача на выборку и дизайн эксперимента.
Маша решила выяснить, какой способ преподавания статистики лучше - бумажный учебник или видеолекция. Она представила один и тот же текст в двух разных видах - в виде текста из учебника и в виде лекции.
Чтобы протестировать, какой из этих двух видов эффективнее, она провела эксперимент. Двум разным группам людей она предложила ознакомиться с материалом, а потом провела тестирование по прочитанному. Каждый человек проходил тестирование в звукоизолированной комнате, где его ничто не отвлекало. Чтобы выборка была репрезентативной, Маша расклеила объявления по всему городу с приглашением поучаствовать в эксперименте. В итоге она получила более двухсот участников, которые достаточно точно отображали популяцию жителей города - баланс полов и возрастов соблюдался в полной мере. В результате Маша, проанализировав данные, пришла к выводу, что видеолекции заметно превосходят книжный материал. Однако, после внедрения в университете в массовую практику этих выводов, результат и близко не оказался похожим.
В чем могла быть проблема с выборкой? В чем могла быть проблема с самим экспериментом?
Маша решила выяснить, какой способ преподавания статистики лучше - бумажный учебник или видеолекция. Она представила один и тот же текст в двух разных видах - в виде текста из учебника и в виде лекции.
Чтобы протестировать, какой из этих двух видов эффективнее, она провела эксперимент. Двум разным группам людей она предложила ознакомиться с материалом, а потом провела тестирование по прочитанному. Каждый человек проходил тестирование в звукоизолированной комнате, где его ничто не отвлекало. Чтобы выборка была репрезентативной, Маша расклеила объявления по всему городу с приглашением поучаствовать в эксперименте. В итоге она получила более двухсот участников, которые достаточно точно отображали популяцию жителей города - баланс полов и возрастов соблюдался в полной мере. В результате Маша, проанализировав данные, пришла к выводу, что видеолекции заметно превосходят книжный материал. Однако, после внедрения в университете в массовую практику этих выводов, результат и близко не оказался похожим.
В чем могла быть проблема с выборкой? В чем могла быть проблема с самим экспериментом?
Довольно незаметно для меня начался новый набор на Deep Learning School.
https://vk.com/wall-155161349_1543
https://vk.com/wall-155161349_1543
VK
Deep Learning School
Мы открываем новый набор на курсы Школы глубокого обучения! Оставить заявку на курс можно по ссылке: https://www.dls.samcs.ru/apply. Подробнее о курсе читайте в прикрепленной статье.
В наших курсах вы научитесь решать практические задачи в области анализа…
В наших курсах вы научитесь решать практические задачи в области анализа…
Ренат работает директором небольшой компании. Внезапно, он решил узнать, почему же его работники довольно часто увольняются, что же их не устраивает.
Ренат нашел типовой опросник и разослал ссылку всем работникам - и в офисе, и на удаленке (анонимно, все работники честно прошли опрос). Ренат получил довольно интересные данные, увидел, какие факторы отрицательно влияют на настрой работников и попытался устранить эти факторы. Ренат был доволен - новый опрос показал, что работники стали существенно более довольными.
Однако через год Ренат внезапно обнаружил, что количество уволившихся работников за год значимо не поменялось. Что же было не так с опросом?
Ренат нашел типовой опросник и разослал ссылку всем работникам - и в офисе, и на удаленке (анонимно, все работники честно прошли опрос). Ренат получил довольно интересные данные, увидел, какие факторы отрицательно влияют на настрой работников и попытался устранить эти факторы. Ренат был доволен - новый опрос показал, что работники стали существенно более довольными.
Однако через год Ренат внезапно обнаружил, что количество уволившихся работников за год значимо не поменялось. Что же было не так с опросом?
Напоминаю, что мы всё еще проходим курс https://stepik.org/course/76. По плану мы проходим пункты 1.1-1.6, и будем проходить их еще около недели (материалы, связанные с этими темами будут появляться в чате).
Вот ссылки на некоторые задачи, которые обсуждались в чате по теме выборки и генеральной совокупности:
https://t.me/datascienceforfun_chat/4538
https://t.me/datascienceforfun_chat/4666
https://t.me/datascienceforfun_chat/4725
Под каждой задачей в чате есть некоторое количество обсуждений.
Вот ссылки на некоторые задачи, которые обсуждались в чате по теме выборки и генеральной совокупности:
https://t.me/datascienceforfun_chat/4538
https://t.me/datascienceforfun_chat/4666
https://t.me/datascienceforfun_chat/4725
Под каждой задачей в чате есть некоторое количество обсуждений.
В лекции 1.2 говорится про простую случайную выборку - когда мы из популяции выбираем совершенно случайные элементы генеральной совокупности. Однако, у простой случайно выборки тоже есть два варианта: с возвратом и без возврата. В большинстве случаев мы стараемся сделать так, чтобы один и тот же элемент не попал в выборку дважды (выборка без возврата).
Вопрос: в каких случаях элемент может попасть в выборку дважды, и как этого избежать? Когда может быть полезна простая случайная выборка с возвратом?
Вопрос: в каких случаях элемент может попасть в выборку дважды, и как этого избежать? Когда может быть полезна простая случайная выборка с возвратом?
Итак, мы выяснили, что переменные бывают количественными и категориальными (номинативными). При этом количественные переменные могут быть непрерывными и дискретными, а категориальные - с отношением порядка между элементами (ранговыми) или без.
Вот пара опросов по теме.
Вот пара опросов по теме.
Мы измерили вес участников с точностью до килограмма (целые числа). Какая это переменная?
Anonymous Quiz
72%
Дискретная
28%
Непрерывная
👍3
Мы измерили температуру с точностью до десятой доли градуса и записали её словами: "холодно", "тепло", "жарко". Сами числа отбросили. Какой тип переменной мы получили?
Anonymous Quiz
2%
Непрерывная
16%
Категориальная неупорядоченная
83%
Категориальная с отношением порядка (ранговая)
👍1
Вопрос: пусть среднее количество детей в семье - 2.5 ребенка. Но дети это дискретная переменная, их может быть 1, 2, 3, но не 2.5.
Делаем ли мы что-то не так, когда говорим, что среднее количество детей в семье - нецелое число?
Делаем ли мы что-то не так, когда говорим, что среднее количество детей в семье - нецелое число?
Некоторые часто рекомендуемые учебники по статистике. Свои любимые книги я выделил жирным.
Гмурман В. Е. - Теория вероятностей и математическая статистика - 2004
Grami A. - Probability, Random Variables, Statistics, and Random Processes
Эти два учебника мне очень понравились по двум причинам. Во-первых, они описывают более-менее полно теорию вероятности и статистику. Во-вторых, в них есть задачи и ответы (!). К сожалению, у учебников есть и некоторые недостатки. К примеру, в Гмурмане описано далеко не всё, что хотелось бы увидеть, а в Grami некоторые понятия описаны достаточно скупо.
Если вы хотите углубиться в теорию вероятности, то я могу предложить, но не посоветовать учебник:
Ширяев А. Н. - Вероятность 1-2.
Этот учебник отличается тем, что там приведена аксиоматика Колмогорова, и вообще он более математичен. К сожалению, в нем нет ответов к задачам, поэтому удачи вам себя проверить.
В качестве развлекательного чтива я могу снова порекомендовать:
How to Lie With Statistics, Huff - 1954
Легко читается, думаю, что есть и русский перевод.
Есть еще одна замечательная книжка, которая уже более высокого уровня сложности:
Good P., Hardin J. - Common Errors in Statistics (and How to Avoid Them) - 2003
Если же вам мало обычного теорвера, вы понимаете, что ваша жизнь скучна с обычными вероятностями, то вас может потянуть во что-то необычное. К примеру, на наркотики. Или на байесовскую статистику. Одна из рекомендуемых книг по последней:
Gelman et al. - Bayesian Data Analysis (2021),
лежит в свободном доступе на сайте (http://www.stat.columbia.edu/~gelman/book/).
Тут же добавлю книгу с немного альтернативным подходом к объяснению статистики:
Лагутин М.Б - Наглядная математическая статистика -2009
Книга начинает объяснять статистику через физические явления в реальной жизни. У меня мозг начал закипать довольно быстро, но может кому-то зайдет.
А закончу список своим настольным справочником по статистике:
S. Boslaugh, P. A. Watters - Statistics in a Nutshel. A desktop quick reference
Очень крутая книга, где простым языком объясняются основные статистические тесты.
Вообще, книг по статистике очень много. Более того, в статистике можно углубиться в какую-то определенную тематику, к примеру, в обобщенные линейные модели, анализ временных рядов или в анализ категориальных данных. В этих случаях потребуются уже другие книги. Мой же топ книг - по базовой статистике технического ВУЗа. И не забывайте, что как и любой топ, он довольно субъективен.
Гмурман В. Е. - Теория вероятностей и математическая статистика - 2004
Grami A. - Probability, Random Variables, Statistics, and Random Processes
Эти два учебника мне очень понравились по двум причинам. Во-первых, они описывают более-менее полно теорию вероятности и статистику. Во-вторых, в них есть задачи и ответы (!). К сожалению, у учебников есть и некоторые недостатки. К примеру, в Гмурмане описано далеко не всё, что хотелось бы увидеть, а в Grami некоторые понятия описаны достаточно скупо.
Если вы хотите углубиться в теорию вероятности, то я могу предложить, но не посоветовать учебник:
Ширяев А. Н. - Вероятность 1-2.
Этот учебник отличается тем, что там приведена аксиоматика Колмогорова, и вообще он более математичен. К сожалению, в нем нет ответов к задачам, поэтому удачи вам себя проверить.
В качестве развлекательного чтива я могу снова порекомендовать:
How to Lie With Statistics, Huff - 1954
Легко читается, думаю, что есть и русский перевод.
Есть еще одна замечательная книжка, которая уже более высокого уровня сложности:
Good P., Hardin J. - Common Errors in Statistics (and How to Avoid Them) - 2003
Если же вам мало обычного теорвера, вы понимаете, что ваша жизнь скучна с обычными вероятностями, то вас может потянуть во что-то необычное. К примеру, на наркотики. Или на байесовскую статистику. Одна из рекомендуемых книг по последней:
Gelman et al. - Bayesian Data Analysis (2021),
лежит в свободном доступе на сайте (http://www.stat.columbia.edu/~gelman/book/).
Тут же добавлю книгу с немного альтернативным подходом к объяснению статистики:
Лагутин М.Б - Наглядная математическая статистика -2009
Книга начинает объяснять статистику через физические явления в реальной жизни. У меня мозг начал закипать довольно быстро, но может кому-то зайдет.
А закончу список своим настольным справочником по статистике:
S. Boslaugh, P. A. Watters - Statistics in a Nutshel. A desktop quick reference
Очень крутая книга, где простым языком объясняются основные статистические тесты.
Вообще, книг по статистике очень много. Более того, в статистике можно углубиться в какую-то определенную тематику, к примеру, в обобщенные линейные модели, анализ временных рядов или в анализ категориальных данных. В этих случаях потребуются уже другие книги. Мой же топ книг - по базовой статистике технического ВУЗа. И не забывайте, что как и любой топ, он довольно субъективен.
👍5
Так как нам нужно будет брать откуда-то данные для экспериментов, то вот небольшая статья про различные встроенные датасеты в разных пакетах python: https://kolesnikov.ga/Datasets_in_Python/
Если у кого-то есть предложения по заданиям - пишите в личку мне (@embden). Я собираюсь в скором времени подготовить простые задания в виде юпитер-ноутбуков для python/R.
Если у кого-то есть предложения по заданиям - пишите в личку мне (@embden). Я собираюсь в скором времени подготовить простые задания в виде юпитер-ноутбуков для python/R.
kolesnikov.ga
Datasets in Python
There are many providers of free datasets for data science. Some of them are summarized here and here. These datasets are often provided through an API and are stored in different formats. Getting them into a pandas DataFrame is often an overkill if we just…
visual-vocabulary.pdf
3.7 MB
Сводная таблица о том, как визуализировать разные данные
Предлагаю тему на следующую неделю: Нормальное распределение. Для курса https://stepik.org/course/76 это темы 1.7-1.8.
Приветствую любые вопросы на тему нормального распределения, центральной предельной теоремы, теории больших чисел и прочего.
Приветствую любые вопросы на тему нормального распределения, центральной предельной теоремы, теории больших чисел и прочего.
Я сделал небольшое задание по медиане, моде и среднему: https://colab.research.google.com/drive/1jmxQOau9H3vfQLQ07jMm8fWT-1_dFOj9?usp=sharing
Google Colab - это среда совместного исполнения кода. Вы можете скопировать этот блокнот в "свой колаб" и попытаться выполнить задания там.
Критику по заданию и формулировкам принимаю.
Google Colab - это среда совместного исполнения кода. Вы можете скопировать этот блокнот в "свой колаб" и попытаться выполнить задания там.
Критику по заданию и формулировкам принимаю.
Google
basic_concepts_python.ipynb
Colaboratory notebook
Тот же самый материал, но теперь для языка R. Вы все так же можете скопировать этот колаб к себе, и попробовать выполнить его онлайн в своем гугл колабе.
https://colab.research.google.com/drive/1VwsW6bzuHX564_LiE1tU7dNC0JoIwze_?usp=sharing
https://colab.research.google.com/drive/1VwsW6bzuHX564_LiE1tU7dNC0JoIwze_?usp=sharing
Google
basic_concepts_r.ipynb
Colaboratory notebook
Ресурсы для подготовки к интервью на дата сайентиста:
https://github.com/rbhatia46/Data-Science-Interview-Resources
Будем готовиться? 😉
https://github.com/rbhatia46/Data-Science-Interview-Resources
Будем готовиться? 😉
GitHub
GitHub - rbhatia46/Data-Science-Interview-Resources: A repository listing out the potential sources which will help you in preparing…
A repository listing out the potential sources which will help you in preparing for a Data Science/Machine Learning interview. New resources added frequently. - rbhatia46/Data-Science-Interview-Res...
Ну-с, продолжаем проходить основы статистики, делюсь своими конспектами, а заодно и попытками освоить R.
Python: https://colab.research.google.com/drive/1e4wnuY-qOhmmqwdwSnJUeUqlAd_hkv5_?usp=sharing
R: https://colab.research.google.com/drive/1koPWMaCg3kO0fLbgBtGJfZIRLCl2e4S5?usp=sharing
Python: https://colab.research.google.com/drive/1e4wnuY-qOhmmqwdwSnJUeUqlAd_hkv5_?usp=sharing
R: https://colab.research.google.com/drive/1koPWMaCg3kO0fLbgBtGJfZIRLCl2e4S5?usp=sharing
Google
Measure of widespread.ipynb
Colaboratory notebook
👍1