Статистика и R в науке и аналитике
3.92K subscribers
37 photos
75 links
Всем привет!
Подробнее о канале со списком самого интересного: https://t.me/stats_for_science/108
Чат канала: https://t.me/chat_stats_for_science
По всем вопросам - @lena_astr
Download Telegram
Всем привет! Давненько тут не было постов, исправляюсь. На этот раз предлагаю подборку обучающих материалов по статистике с моими очень ценными комментариями и мнениями о них)

Книги:
1. Статистика и котики. Информация например здесь
Книгу все советуют для новичков в статистике, признаться, я сама ее прочитала уже спустя некоторое время работы со статистикой, поэтому мне было особенно легко ее воспринимать. Книга действительно очень забавная, написана приятным языком, мне понравилось. Однако могу отметить, что более сложные темы стат анализа, например про факторный анализ написано скорее запутанно, чем понятно, поэтому я бы тоже рекомендовала книгу именно новичкам в статистике.

2. Голая статистика. Информация здесь
Эту книгу тоже советуют новичкам, ее я не читала, но судя по отзывам, там довольно простой стиль изложения, многим нравится.

3. Медико-биологическая статистика Гланца. Скачать здесь http://medstatistic.ru/articles/glantz.pdf
Относительно неплохая книга, раньше тоже советовали начинающим статистикам-биологам и медикам, особенно когда не было вышеприведенных книг. Здесь чуть более строгий язык повествования, но все еще не перегруженный формулами и терминами. Существенный минус - книжка старая, здесь нет описания поправок на множественное тестирование FDR.

4. Теория вероятностей и математическая статистика, Гмурман В.Е. http://lib.maupfib.kg/wp-content/uploads/2015/12/Teoria_veroatnosty_mat_stat.pdf
Книга уже чуть более сложная, помимо базовых вещей, здесь разобрано про Монте-Карло пермутационные тесты и немного про скрытые марковские модели.

5. Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R. В.К. Шитиков, Г.С. Розенберг
http://www.ievbras.ru/ecostat/Kiril/Article/A32/Starb.pdf
Это уже немного в сторону от базовых вещей в статистике, здесь действительно целая книга, посвященная применению бутстрепа для анализа данных. Не могу похвастаться что осилила ее, но мне очень понравилось введение про сам принцип, во многом опиралась на него, пока писала про бутстреп на канале. Очень рекомендую почитать тем, кто интересуются бутстрепом.

6. Statistics in a Nutshell, Sarah Boslaugh. Издательство O'Reilly.
Нашла ссылку только на первое издание https://theswissbay.ch/pdf/Gentoomen%20Library/Maths/Statistics/OReilly.Statistics.in.a.Nutshell.A.Desktop.Quick.Reference.Aug.2008.pdf
Есть перевод на русский, говорят неплохой, но находили неточности в переводе. Мне кажется именно эта книга должна быть мастхев для интересующихся и работающих со статистикой людей, потому что здесь есть баланс между простым языком изложения и в то же время не поверхностным.
Единственное, что вызвало у меня недоумение, это отсутствие главы про поправки на множественное тестирование вообще, хотя книга относительно новая. Зато здесь есть много других очень важных вещей, например принципы планирования исследования, анализ мощности стат тестов, работа с пропущенными значениями и тп. Сама планирую приобрести бумажную версию книги.

Курсы:
Здесь все просто, советую три курса по статистике на степике от Анатолия Карпова
https://stepik.org/course/76/syllabus
https://stepik.org/course/524/syllabus
https://stepik.org/course/2152/syllabus
курсы замечательные, именно с первой части курса я перестала бояться и начала осваивать статистику. Думаю, все и так про них наслышаны, я присоединяюсь к позитивным отзывам и рекомендациям.
Есть еще вот такой курс, Математическая статистика
https://stepik.org/course/326/syllabus
Это курс для продвинутых, я его пока не прошла, но когда-нибудь соберусь.

Пишите комментарии, что читали и проходили, понравилось или нет, а также добавляйте свои материалы!

#literature #base_stat #recommendation #stat_hard
Квартет Энскомба (Anscombe's) или важность визуализации данных перед началом анализа

Подготовила небольшую статью о таком любопытном наборе данных, который показывает что нужно опираться не только на средние-стандартные отклонения, но и точно знать, что происходит в данных, опираясь на визуализацию.
https://rpubs.com/lena_astr/958484

Бонусом список ссылок на книги и статьи по качественному представлению данных.
Попробовала сделать свой первый документ на quarto, пока полет нормальный, но почему-то на github pages слетело форматирование, поэтому пока залила на rpubs.
Конечно, не всегда можно так легко отразить на одном или нескольких графиках, что происходит в данных. Так что о способах визуализировать многомерные данные, например данные экспрессии генов, поговорим в следующий раз.

#R #base_stat
Пределы погрешностей: что это, зачем использовать и как интерпретировать?

Продолжаем тему базовой статистики (кстати базовой не значит простой). Рада представить разбор видов error bar, их различий и правильной интерпретации:

https://ubogoeva.github.io/R4Analytics/posts/types_of_error_bars.html

Тема оказалась сложнее, чем я рассчитывала, например, я сама не знала что пределы погрешностей существуют двух принципиально разных типов. Но думаю получилось интересно, по крайней мере мне точно было интересно писать. В этот раз сверстала в Rmd файл, с quarto пока не разобралась, почему на github pages размещается некрасиво.
Бонусом альтернативные способы визуализации данных. Прикрепляю еще небольшой тизер к посту, очень нравится получившаяся картинка.

Пишите комментарии, какие виды error bar используете для представления своих данных, сталкивались ли с их неправильной интерпретацией и понравились ли предложенные способы визуализации?

#base_stat #R #ggplot2 #data_vis
Новое видео про описательные статистики 📊

Я после перерыва выпустила первое видео из серии статистики, посмотреть его можно здесь. К сожалению не успела на этих выходных записать продолжение, но чуть позже должна найти время на запись. Немного непривычен формат коротких лекций без общения с аудиторией, психологически проще рассказывать кому-то и в менее сжатой форме. Для ютуб-формата нужно делать материал более концентрированным с четкими границами тем. Думаю, это более удобно для слушателя, но сложнее для лектора.

А какой формат для восприятия более удобен и привычен вам? Короткие 10-15 минутные видео по одной теме или полуторачасовые лекции на более широкий спектр тем? Пишите в комментарии или ставьте реакции: ✍️ за длинные лекции, 👀 за более короткий ютуб-формат.

#stats #base_stat
Долгожданный разбор курса “Основы статистики” на степике

Итак, это свершилось, я наконец-то дописала разбор и опубликовала его здесь

https://ubogoeva.github.io/R4Analytics/posts/review_of_statistics_course.html

Немного контекста: в качестве вводного курса по статистике часто рекомендуют курс “Основы статистики” Анатолия Карпова на степике. Однако многие считают, что курс устарел и содержит много неточностей и ошибок, и я решила подробно разобрать, какие именно.
Постаралась следовать формату “критикуешь - предлагай” и самостоятельно раскрыть темы, которые были недостаточно объяснены в курсе, дополнив их источниками для дальнейшего изучения.

В конце разбора предлагаю свой список рекомендованных источников для изучения статистики на любой уровень подготовки.

В вычитке и корректировке формулировок финальной версии мне очень помог крутой статистик Матвей Славенко (рекомендую подписаться на его канал душно про дату).

#base_stat #stats