Data&Knowledge
130 subscribers
25 photos
21 files
160 links
Работаем с данными
Download Telegram
Screenshot at 2022-04-04 12-06-56.png
34.9 KB
Небольшой хинт по инструменту для опросов Limesurvey. Если вы делаете array-вопросы, то не забудьте пронумеровать/назвать все варианты ответов, иначе при импорте в csv файл для анализа у вас будут пропуски.
К примеру, на картинке видно, что я часть вариантов не назвал, поэтому в csv файл эти варианты запишутся пустыми значениями.😐
Если кто-то ещё не проходил, то прошу вас пройти короткую игру-опрос (5 минут):
https://obrezkov.informatik.uni-bremen.de/game_survey?source=tg_ds

Результаты выложу позже для анализа.

П.С. Не проходите, если уже проходили.
Друзья, я опубликовал небольшое исследование по Росмолодежи: https://vc.ru/finance/411757-pochemu-rossiya-tak-neeffektivna-smotrim-na-primere-rosmolodezhi

Всё сделано с помощью python. В ближайшие пару недель постараюсь поделиться реализацией.
👍10
Forwarded from Ivan Tochilkin
👍1
Forwarded from Ivan Tochilkin
ML Bootcamp -2022 пройдет с 5 по 22 июля. Это программа для тех, кто делает первые шаги на пути к профессии специалиста в Data Science. Для успешного прохождения программы достаточно владеть математикой 9 класса.
👍5
Уже в понедельник стартует ML Zoomcamp для тех, кто хочет научиться обращаться с моделями машинного обучения.
https://datatalks.club/courses/2021-winter-ml-zoomcamp.html
Более подробно тут: https://github.com/alexeygrigorev/mlbookcamp-code/tree/master/course-zoomcamp
🎉4👍1
Итак, у нас есть три курса по статистике:
https://stepik.org/course/76
https://stepik.org/course/524
https://stepik.org/course/2152
Предлагаю начать проходить их в следующем формате. Проходим заданные темы на степике, там же выполняем задания без практики на R, а в чате задаем вопросы и делимся интересными ссылками. Грубо говоря, наша задача рассмотреть вопросы с нескольких сторон, чтобы лучше усвоить материал.
Темы на первые две недели (https://stepik.org/course/76): 1.1-1.6. В них рассматриваются начальные понятия статистики и графические представления данных.
Я надеюсь, что в чате позже общими трудами начнут появляться ссылки на материалы по теме, к примеру, на статьи по визуализации данных на питон с хабра.
Курс должен быть несложным, поэтому всем удачного прохождения и до встречи в чате.
На какую группу населения можно обычно распространить исследования по психологии?
Anonymous Quiz
33%
Всё человечество
23%
Люди, говорящие на языке исследования
44%
Студенты-бакалавры, проходящие курс психологии в этом университете
👍4
Что ж, те, кто начал проходить курс, уже знают, что такое генеральная совокупность и выборка. Вот вам небольшой шуточный опрос:
Немного о выборках. Предлагаю оценить следующую ситуацию. Есть ли какие-то ошибки в эксперименте, которые могут исказить результат?

Игорь учится в техническом университете. Он решил узнать, являются ли перчатки для виртуальной реальности более удобными для пользователей, чем классические джойстики.
Для того, чтобы провести эксперимент, Игорь решил набрать участников, развесив объявления в лифте университета. В эксперименте приняло участи 25 юношей и 5 девушек. В результате эксперимента, используя правильные опросники, Игорь выяснил, что перчатки для VR намного более удобны для пользователей, чем обычные джойстики.
Очень классный плэйлист по анализу данных:
https://www.youtube.com/playlist?list=PLlb7e2G7aSpRb95_Wi7lZ-zA6fOjV3_l7

Первые две лекции неплохо ложатся на то, что сейчас проходим на степике (https://stepik.org/course/76: 1.1-1.6)
Итак, еще одна задача на выборку и дизайн эксперимента.
Маша решила выяснить, какой способ преподавания статистики лучше - бумажный учебник или видеолекция. Она представила один и тот же текст в двух разных видах - в виде текста из учебника и в виде лекции.
Чтобы протестировать, какой из этих двух видов эффективнее, она провела эксперимент. Двум разным группам людей она предложила ознакомиться с материалом, а потом провела тестирование по прочитанному. Каждый человек проходил тестирование в звукоизолированной комнате, где его ничто не отвлекало. Чтобы выборка была репрезентативной, Маша расклеила объявления по всему городу с приглашением поучаствовать в эксперименте. В итоге она получила более двухсот участников, которые достаточно точно отображали популяцию жителей города - баланс полов и возрастов соблюдался в полной мере. В результате Маша, проанализировав данные, пришла к выводу, что видеолекции заметно превосходят книжный материал. Однако, после внедрения в университете в массовую практику этих выводов, результат и близко не оказался похожим.
В чем могла быть проблема с выборкой? В чем могла быть проблема с самим экспериментом?
Ренат работает директором небольшой компании. Внезапно, он решил узнать, почему же его работники довольно часто увольняются, что же их не устраивает.
Ренат нашел типовой опросник и разослал ссылку всем работникам - и в офисе, и на удаленке (анонимно, все работники честно прошли опрос). Ренат получил довольно интересные данные, увидел, какие факторы отрицательно влияют на настрой работников и попытался устранить эти факторы. Ренат был доволен - новый опрос показал, что работники стали существенно более довольными.
Однако через год Ренат внезапно обнаружил, что количество уволившихся работников за год значимо не поменялось. Что же было не так с опросом?
Напоминаю, что мы всё еще проходим курс https://stepik.org/course/76. По плану мы проходим пункты 1.1-1.6, и будем проходить их еще около недели (материалы, связанные с этими темами будут появляться в чате).
Вот ссылки на некоторые задачи, которые обсуждались в чате по теме выборки и генеральной совокупности:
https://t.me/datascienceforfun_chat/4538
https://t.me/datascienceforfun_chat/4666
https://t.me/datascienceforfun_chat/4725
Под каждой задачей в чате есть некоторое количество обсуждений.
В лекции 1.2 говорится про простую случайную выборку - когда мы из популяции выбираем совершенно случайные элементы генеральной совокупности. Однако, у простой случайно выборки тоже есть два варианта: с возвратом и без возврата. В большинстве случаев мы стараемся сделать так, чтобы один и тот же элемент не попал в выборку дважды (выборка без возврата).
Вопрос: в каких случаях элемент может попасть в выборку дважды, и как этого избежать? Когда может быть полезна простая случайная выборка с возвратом?
Итак, мы выяснили, что переменные бывают количественными и категориальными (номинативными). При этом количественные переменные могут быть непрерывными и дискретными, а категориальные - с отношением порядка между элементами (ранговыми) или без.
Вот пара опросов по теме.
Мы измерили вес участников с точностью до килограмма (целые числа). Какая это переменная?
Anonymous Quiz
72%
Дискретная
28%
Непрерывная
👍3
Мы измерили температуру с точностью до десятой доли градуса и записали её словами: "холодно", "тепло", "жарко". Сами числа отбросили. Какой тип переменной мы получили?
Anonymous Quiz
2%
Непрерывная
16%
Категориальная неупорядоченная
83%
Категориальная с отношением порядка (ранговая)
👍1
Вопрос: пусть среднее количество детей в семье - 2.5 ребенка. Но дети это дискретная переменная, их может быть 1, 2, 3, но не 2.5.
Делаем ли мы что-то не так, когда говорим, что среднее количество детей в семье - нецелое число?