Итак, мы выяснили, что переменные бывают количественными и категориальными (номинативными). При этом количественные переменные могут быть непрерывными и дискретными, а категориальные - с отношением порядка между элементами (ранговыми) или без.
Вот пара опросов по теме.
Вот пара опросов по теме.
Мы измерили вес участников с точностью до килограмма (целые числа). Какая это переменная?
Anonymous Quiz
72%
Дискретная
28%
Непрерывная
👍3
Мы измерили температуру с точностью до десятой доли градуса и записали её словами: "холодно", "тепло", "жарко". Сами числа отбросили. Какой тип переменной мы получили?
Anonymous Quiz
2%
Непрерывная
16%
Категориальная неупорядоченная
83%
Категориальная с отношением порядка (ранговая)
👍1
Вопрос: пусть среднее количество детей в семье - 2.5 ребенка. Но дети это дискретная переменная, их может быть 1, 2, 3, но не 2.5.
Делаем ли мы что-то не так, когда говорим, что среднее количество детей в семье - нецелое число?
Делаем ли мы что-то не так, когда говорим, что среднее количество детей в семье - нецелое число?
Некоторые часто рекомендуемые учебники по статистике. Свои любимые книги я выделил жирным.
Гмурман В. Е. - Теория вероятностей и математическая статистика - 2004
Grami A. - Probability, Random Variables, Statistics, and Random Processes
Эти два учебника мне очень понравились по двум причинам. Во-первых, они описывают более-менее полно теорию вероятности и статистику. Во-вторых, в них есть задачи и ответы (!). К сожалению, у учебников есть и некоторые недостатки. К примеру, в Гмурмане описано далеко не всё, что хотелось бы увидеть, а в Grami некоторые понятия описаны достаточно скупо.
Если вы хотите углубиться в теорию вероятности, то я могу предложить, но не посоветовать учебник:
Ширяев А. Н. - Вероятность 1-2.
Этот учебник отличается тем, что там приведена аксиоматика Колмогорова, и вообще он более математичен. К сожалению, в нем нет ответов к задачам, поэтому удачи вам себя проверить.
В качестве развлекательного чтива я могу снова порекомендовать:
How to Lie With Statistics, Huff - 1954
Легко читается, думаю, что есть и русский перевод.
Есть еще одна замечательная книжка, которая уже более высокого уровня сложности:
Good P., Hardin J. - Common Errors in Statistics (and How to Avoid Them) - 2003
Если же вам мало обычного теорвера, вы понимаете, что ваша жизнь скучна с обычными вероятностями, то вас может потянуть во что-то необычное. К примеру, на наркотики. Или на байесовскую статистику. Одна из рекомендуемых книг по последней:
Gelman et al. - Bayesian Data Analysis (2021),
лежит в свободном доступе на сайте (http://www.stat.columbia.edu/~gelman/book/).
Тут же добавлю книгу с немного альтернативным подходом к объяснению статистики:
Лагутин М.Б - Наглядная математическая статистика -2009
Книга начинает объяснять статистику через физические явления в реальной жизни. У меня мозг начал закипать довольно быстро, но может кому-то зайдет.
А закончу список своим настольным справочником по статистике:
S. Boslaugh, P. A. Watters - Statistics in a Nutshel. A desktop quick reference
Очень крутая книга, где простым языком объясняются основные статистические тесты.
Вообще, книг по статистике очень много. Более того, в статистике можно углубиться в какую-то определенную тематику, к примеру, в обобщенные линейные модели, анализ временных рядов или в анализ категориальных данных. В этих случаях потребуются уже другие книги. Мой же топ книг - по базовой статистике технического ВУЗа. И не забывайте, что как и любой топ, он довольно субъективен.
Гмурман В. Е. - Теория вероятностей и математическая статистика - 2004
Grami A. - Probability, Random Variables, Statistics, and Random Processes
Эти два учебника мне очень понравились по двум причинам. Во-первых, они описывают более-менее полно теорию вероятности и статистику. Во-вторых, в них есть задачи и ответы (!). К сожалению, у учебников есть и некоторые недостатки. К примеру, в Гмурмане описано далеко не всё, что хотелось бы увидеть, а в Grami некоторые понятия описаны достаточно скупо.
Если вы хотите углубиться в теорию вероятности, то я могу предложить, но не посоветовать учебник:
Ширяев А. Н. - Вероятность 1-2.
Этот учебник отличается тем, что там приведена аксиоматика Колмогорова, и вообще он более математичен. К сожалению, в нем нет ответов к задачам, поэтому удачи вам себя проверить.
В качестве развлекательного чтива я могу снова порекомендовать:
How to Lie With Statistics, Huff - 1954
Легко читается, думаю, что есть и русский перевод.
Есть еще одна замечательная книжка, которая уже более высокого уровня сложности:
Good P., Hardin J. - Common Errors in Statistics (and How to Avoid Them) - 2003
Если же вам мало обычного теорвера, вы понимаете, что ваша жизнь скучна с обычными вероятностями, то вас может потянуть во что-то необычное. К примеру, на наркотики. Или на байесовскую статистику. Одна из рекомендуемых книг по последней:
Gelman et al. - Bayesian Data Analysis (2021),
лежит в свободном доступе на сайте (http://www.stat.columbia.edu/~gelman/book/).
Тут же добавлю книгу с немного альтернативным подходом к объяснению статистики:
Лагутин М.Б - Наглядная математическая статистика -2009
Книга начинает объяснять статистику через физические явления в реальной жизни. У меня мозг начал закипать довольно быстро, но может кому-то зайдет.
А закончу список своим настольным справочником по статистике:
S. Boslaugh, P. A. Watters - Statistics in a Nutshel. A desktop quick reference
Очень крутая книга, где простым языком объясняются основные статистические тесты.
Вообще, книг по статистике очень много. Более того, в статистике можно углубиться в какую-то определенную тематику, к примеру, в обобщенные линейные модели, анализ временных рядов или в анализ категориальных данных. В этих случаях потребуются уже другие книги. Мой же топ книг - по базовой статистике технического ВУЗа. И не забывайте, что как и любой топ, он довольно субъективен.
👍5
Так как нам нужно будет брать откуда-то данные для экспериментов, то вот небольшая статья про различные встроенные датасеты в разных пакетах python: https://kolesnikov.ga/Datasets_in_Python/
Если у кого-то есть предложения по заданиям - пишите в личку мне (@embden). Я собираюсь в скором времени подготовить простые задания в виде юпитер-ноутбуков для python/R.
Если у кого-то есть предложения по заданиям - пишите в личку мне (@embden). Я собираюсь в скором времени подготовить простые задания в виде юпитер-ноутбуков для python/R.
kolesnikov.ga
Datasets in Python
There are many providers of free datasets for data science. Some of them are summarized here and here. These datasets are often provided through an API and are stored in different formats. Getting them into a pandas DataFrame is often an overkill if we just…
visual-vocabulary.pdf
3.7 MB
Сводная таблица о том, как визуализировать разные данные
Предлагаю тему на следующую неделю: Нормальное распределение. Для курса https://stepik.org/course/76 это темы 1.7-1.8.
Приветствую любые вопросы на тему нормального распределения, центральной предельной теоремы, теории больших чисел и прочего.
Приветствую любые вопросы на тему нормального распределения, центральной предельной теоремы, теории больших чисел и прочего.
Я сделал небольшое задание по медиане, моде и среднему: https://colab.research.google.com/drive/1jmxQOau9H3vfQLQ07jMm8fWT-1_dFOj9?usp=sharing
Google Colab - это среда совместного исполнения кода. Вы можете скопировать этот блокнот в "свой колаб" и попытаться выполнить задания там.
Критику по заданию и формулировкам принимаю.
Google Colab - это среда совместного исполнения кода. Вы можете скопировать этот блокнот в "свой колаб" и попытаться выполнить задания там.
Критику по заданию и формулировкам принимаю.
Google
basic_concepts_python.ipynb
Colaboratory notebook
Тот же самый материал, но теперь для языка R. Вы все так же можете скопировать этот колаб к себе, и попробовать выполнить его онлайн в своем гугл колабе.
https://colab.research.google.com/drive/1VwsW6bzuHX564_LiE1tU7dNC0JoIwze_?usp=sharing
https://colab.research.google.com/drive/1VwsW6bzuHX564_LiE1tU7dNC0JoIwze_?usp=sharing
Google
basic_concepts_r.ipynb
Colaboratory notebook
Ресурсы для подготовки к интервью на дата сайентиста:
https://github.com/rbhatia46/Data-Science-Interview-Resources
Будем готовиться? 😉
https://github.com/rbhatia46/Data-Science-Interview-Resources
Будем готовиться? 😉
GitHub
GitHub - rbhatia46/Data-Science-Interview-Resources: A repository listing out the potential sources which will help you in preparing…
A repository listing out the potential sources which will help you in preparing for a Data Science/Machine Learning interview. New resources added frequently. - rbhatia46/Data-Science-Interview-Res...
Ну-с, продолжаем проходить основы статистики, делюсь своими конспектами, а заодно и попытками освоить R.
Python: https://colab.research.google.com/drive/1e4wnuY-qOhmmqwdwSnJUeUqlAd_hkv5_?usp=sharing
R: https://colab.research.google.com/drive/1koPWMaCg3kO0fLbgBtGJfZIRLCl2e4S5?usp=sharing
Python: https://colab.research.google.com/drive/1e4wnuY-qOhmmqwdwSnJUeUqlAd_hkv5_?usp=sharing
R: https://colab.research.google.com/drive/1koPWMaCg3kO0fLbgBtGJfZIRLCl2e4S5?usp=sharing
Google
Measure of widespread.ipynb
Colaboratory notebook
👍1
Forwarded from Учим Питон
А между тем центр ШИФТ начинает новый набор на свои бесплатные курсы по Машинному обучению и Компьютерному зрению. В нашей группе даже есть истории успеха оттуда :)
https://vk.com/wall-52889732_2468
https://vk.com/wall-52889732_2468
VK
Центр Финансовых Технологий (ЦФТ)
Приглашаем на курсы ШИФТ по Machinе Learning и Computer Vision – регистрация открыта!
Курсы подойдут тем, кто уже знаком с основами ML и готов дальше изучать инструменты и модели, востребованные бизнесом.
❗Выбирай направление и подавай заявку❗
💡Machinе…
Курсы подойдут тем, кто уже знаком с основами ML и готов дальше изучать инструменты и модели, востребованные бизнесом.
❗Выбирай направление и подавай заявку❗
💡Machinе…
Ха, продолжаем проходить какой-то там курс по статистике. За эту неделю я освоил только гистограммы. Делюсь своим конспектом:
Python:
https://colab.research.google.com/drive/1OkhQKamTQUxt0UL4vlXp8W2M6KL-Yhc9?usp=sharing
R:
https://colab.research.google.com/drive/1w2WWphZH19j88AoHqlmR6FjpiwTSZ5HF?usp=sharing
Python:
https://colab.research.google.com/drive/1OkhQKamTQUxt0UL4vlXp8W2M6KL-Yhc9?usp=sharing
R:
https://colab.research.google.com/drive/1w2WWphZH19j88AoHqlmR6FjpiwTSZ5HF?usp=sharing
Google
Hists and box plots.ipynb
Colaboratory notebook
Forwarded from Учим Питон
Неплохо набор ключевых слов по графам и python: https://habr.com/ru/company/ruvds/blog/705368/
Хабр
Графы в Python: введение и знакомство с лучшими библиотеками
Граф – это математическая структура данных, представляющая собой множество связанных элементов. Поскольку графы, по своей сути, являются очень гибкими и позволяют сохранять информацию в знакомой и...
Forwarded from Учим Питон
Предлагаю совместно пройти курс по SQL на степике. Начнем прямо 3го января. Взаимоподдержку будем оказывать в чатах. Кто хочет поучаствовать?
SQL - это язык работы с базами данных, неотъемлемая часть работы большинства программистов и аналитиков.
SQL - это язык работы с базами данных, неотъемлемая часть работы большинства программистов и аналитиков.
Forwarded from Учим Питон
Кто хочет поучаствовать в совместном прохождении курса по SQL?
Anonymous Poll
25%
Я точно поучаствую
44%
Может быть попробую
31%
Посмотреть ответы
Продолжаю делиться своими конспектами по курсу https://stepik.org/course/76.
К гистограммам добавил немного про ящики с усами:
Python:
https://colab.research.google.com/drive/1OkhQKamTQUxt0UL4vlXp8W2M6KL-Yhc9?usp=sharing
R:
https://colab.research.google.com/drive/1w2WWphZH19j88AoHqlmR6FjpiwTSZ5HF?usp=sharing
А со следующей недели мы немного окунемся в теорию вероятности, стандартные виды распределений и оценку параметров!
К гистограммам добавил немного про ящики с усами:
Python:
https://colab.research.google.com/drive/1OkhQKamTQUxt0UL4vlXp8W2M6KL-Yhc9?usp=sharing
R:
https://colab.research.google.com/drive/1w2WWphZH19j88AoHqlmR6FjpiwTSZ5HF?usp=sharing
А со следующей недели мы немного окунемся в теорию вероятности, стандартные виды распределений и оценку параметров!
👍2
Forwarded from Учим Питон
Итак, я создал класс для совместного прохождения курса по SQL:
https://stepik.org/join-class/de2c1666c5acbf684da1c1eee3bd9b843f262420
Вступайте, можете начинать проходить, а официальный старт прохождения запланирован на 3 января.
Поддержка - в вк-беседе группы Учим Python:
https://vk.me/join/f3TH4PUvo/KO5n/P4hqoivIO6MS418GuUqc=
и в тг-чате:
https://t.me/learnpythonforfun_chat
https://stepik.org/join-class/de2c1666c5acbf684da1c1eee3bd9b843f262420
Вступайте, можете начинать проходить, а официальный старт прохождения запланирован на 3 января.
Поддержка - в вк-беседе группы Учим Python:
https://vk.me/join/f3TH4PUvo/KO5n/P4hqoivIO6MS418GuUqc=
и в тг-чате:
https://t.me/learnpythonforfun_chat
Stepik: online education
Promoting efficient learning by developing innovative educational technologies. Create an interactive lesson and employ automated grading software.
Небольшая задача на практику джойнов и мерждей.
Я тут решил учить немецкий язык. А там неправильные глаголы. По умолчанию они отсортированы в алфавитном порядке, а мне бы хотелось отсортировать их в частотном порядке (наиболее частые вначале). Как это можно сделать с помощью pandas/SQL/SPARK/R?
Файлы:
таблица неправильных глаголов
частотный словарь немецкого языка
Я тут решил учить немецкий язык. А там неправильные глаголы. По умолчанию они отсортированы в алфавитном порядке, а мне бы хотелось отсортировать их в частотном порядке (наиболее частые вначале). Как это можно сделать с помощью pandas/SQL/SPARK/R?
Файлы:
таблица неправильных глаголов
частотный словарь немецкого языка