Статистика и R в науке и аналитике
3.9K subscribers
37 photos
74 links
Всем привет!
Подробнее о канале со списком самого интересного: https://t.me/stats_for_science/108
Чат канала: https://t.me/chat_stats_for_science
По всем вопросам - @lena_astr
Download Telegram
Подборка материалов по освоению языка программирования R

Книги:
1. R in a Nutshell
неплохая книга для того чтобы начать знакомство с R, разбираются базовые концепции языка, необходимые для работы с ним (основные типы объектов, функции, ввод и вывод данных). Далее есть довольно значительный разбор применения R именно для анализа данных. Книгу рекомендую для в первую очередь пользователей R (а не разработчиков).
UPD: похоже, что книга немного устарела

2. R in action

Кроме того, есть перевод книги на русский язык, у меня кстати есть бумажная версия, я ее почти дочитала, мне очень понравился подробный разбор статистических моделей и методов. С одной стороны он был недостаточно подробен, чтобы перейти на сухой язык формул, но достаточно доходчив, хотя и рассчитан, пожалуй, для не новичков в статистике. Примеры применения например перестановочных и бутстреп тестов в R тоже порадовали.
Бумажную версию можно купить здесь:
https://dmkpress.com/catalog/computer/statistics/978-5-94074-912-7/

3. R for Data Science
Соавтор этой книги Хадли Викхам (Hadley Wickham), разработчик среды/экосистемы tidyverse, разработчик IDE R Studio и вообще один из центральных игроков в развитии R как языка программирования. Книга эта, как следует из названия, подходит для т.н. датасаенса, то есть для всяческой работы с данными: анализ, визуализация, проверка статистических гипотез. У меня книга пока в списке для чтения.

4. Advanced R
Книга предназначена больше для программистов, для тех кто собирается погрузиться в разработку языка, здесь объясняется почему при выполнении определенных действий происходит так, а не иначе. Подробно разбирается ООП-парадигма программирования в языке R: основные классы, S3, S4, R6. Планирую разобраться с классами в R и с принципом метапрограммирования.

5. Введение в язык программирования R
https://textbook.rintro.ru/index.html
Одна из немногих книг на русском языке про R, на мой взгляд, подойдет для знакомства с языком и для дальнейшего продвижения, поскольку в ней затрагиваются довольно продвинутые вещи. Более детально смогу оценить, когда прочитаю сама)

6. Книга Ивана Позднякова "Анализ данных и статистика в R". Очень крутая, всем рекомендую! https://pozdniakov.github.io/tidy_stats/index.html

Курсы:
На степике
Очень люблю эту платформу, поэтому советовать буду на основании личного опыта прохождения курсов.
https://stepik.org/course/129 Анализ данных в R
https://stepik.org/course/724 Анализ данных в R. Часть 2.
Оба курса от Анатолия Карпова, замечательные курсы с бОльшим акцентом на анализ данных
https://stepik.org/course/497 Основы программирования на R
Не менее хороший курс, а может и более, поскольку здесь разбираются темы, более актуальные для разработки. Это неудивительно, потому что автор курса опирался в том числе на вышеупомянутую книгу Advanced R.

Кроме того, существуют курсы на курсере, но про их качество я точно сказать не смогу.

Пишите комментарии, какие курсы проходили и какие книги читали, а также советуйте свои источники, будем пополнять информацию!

#literature #R #recommendation
Всем привет! Давненько тут не было постов, исправляюсь. На этот раз предлагаю подборку обучающих материалов по статистике с моими очень ценными комментариями и мнениями о них)

Книги:
1. Статистика и котики. Информация например здесь
Книгу все советуют для новичков в статистике, признаться, я сама ее прочитала уже спустя некоторое время работы со статистикой, поэтому мне было особенно легко ее воспринимать. Книга действительно очень забавная, написана приятным языком, мне понравилось. Однако могу отметить, что более сложные темы стат анализа, например про факторный анализ написано скорее запутанно, чем понятно, поэтому я бы тоже рекомендовала книгу именно новичкам в статистике.

2. Голая статистика. Информация здесь
Эту книгу тоже советуют новичкам, ее я не читала, но судя по отзывам, там довольно простой стиль изложения, многим нравится.

3. Медико-биологическая статистика Гланца. Скачать здесь http://medstatistic.ru/articles/glantz.pdf
Относительно неплохая книга, раньше тоже советовали начинающим статистикам-биологам и медикам, особенно когда не было вышеприведенных книг. Здесь чуть более строгий язык повествования, но все еще не перегруженный формулами и терминами. Существенный минус - книжка старая, здесь нет описания поправок на множественное тестирование FDR.

4. Теория вероятностей и математическая статистика, Гмурман В.Е. http://lib.maupfib.kg/wp-content/uploads/2015/12/Teoria_veroatnosty_mat_stat.pdf
Книга уже чуть более сложная, помимо базовых вещей, здесь разобрано про Монте-Карло пермутационные тесты и немного про скрытые марковские модели.

5. Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R. В.К. Шитиков, Г.С. Розенберг
http://www.ievbras.ru/ecostat/Kiril/Article/A32/Starb.pdf
Это уже немного в сторону от базовых вещей в статистике, здесь действительно целая книга, посвященная применению бутстрепа для анализа данных. Не могу похвастаться что осилила ее, но мне очень понравилось введение про сам принцип, во многом опиралась на него, пока писала про бутстреп на канале. Очень рекомендую почитать тем, кто интересуются бутстрепом.

6. Statistics in a Nutshell, Sarah Boslaugh. Издательство O'Reilly.
Нашла ссылку только на первое издание https://theswissbay.ch/pdf/Gentoomen%20Library/Maths/Statistics/OReilly.Statistics.in.a.Nutshell.A.Desktop.Quick.Reference.Aug.2008.pdf
Есть перевод на русский, говорят неплохой, но находили неточности в переводе. Мне кажется именно эта книга должна быть мастхев для интересующихся и работающих со статистикой людей, потому что здесь есть баланс между простым языком изложения и в то же время не поверхностным.
Единственное, что вызвало у меня недоумение, это отсутствие главы про поправки на множественное тестирование вообще, хотя книга относительно новая. Зато здесь есть много других очень важных вещей, например принципы планирования исследования, анализ мощности стат тестов, работа с пропущенными значениями и тп. Сама планирую приобрести бумажную версию книги.

Курсы:
Здесь все просто, советую три курса по статистике на степике от Анатолия Карпова
https://stepik.org/course/76/syllabus
https://stepik.org/course/524/syllabus
https://stepik.org/course/2152/syllabus
курсы замечательные, именно с первой части курса я перестала бояться и начала осваивать статистику. Думаю, все и так про них наслышаны, я присоединяюсь к позитивным отзывам и рекомендациям.
Есть еще вот такой курс, Математическая статистика
https://stepik.org/course/326/syllabus
Это курс для продвинутых, я его пока не прошла, но когда-нибудь соберусь.

Пишите комментарии, что читали и проходили, понравилось или нет, а также добавляйте свои материалы!

#literature #base_stat #recommendation #stat_hard
Небольшой апдейт к предыдущему посту. В одном биоинформатическом чате в пух и прах раскритиковали курсы Карпова за неточности в описании центральной предельной теоремы (ЦПТ) и о требованиях к данным для применения корреляции Пирсона. Почитать можно здесь: несколько грубовато, но ошибки разобраны. Ошибки в курсе уже исправлены, спасибо воинам статистики за то что стоят на страже истины!
В ходе дискуссии я вспомнила про статквест, который уже ранее упоминала на канале:
https://www.youtube.com/c/joshstarmer/videos
Очень хорошо разобран материал про статистику, машинное обучение, статистические модели в рнк-секах и не только.

Курс от курсеры очень рекомендовал вышеупомянутый воин статистики
https://www.coursera.org/specializations/statistics
Как ни странно, с моего аккаунта курсеры, привязанного к университету (НГУ), мне удалось получить доступ к материалам курса. Однако при попытке зарегистрировать новый аккаунт, мне сообщили что не предоставляют услуги для юзеров в санкционных странах. Так что да, курсеру уже так просто не пройти, к сожалению. Посмотрела программу, вроде бы да, очень достойно выглядит. Еще понравилось, что там есть предустановленная среда R со всеми нужными пакетами, можно кодить прямо в браузере без необходимости установки R себе (вдруг у кого есть сложности с этим).

Кроме того, небольшое дополнение к посту про R:
https://textbook.rintro.ru/ учебник по языку R на русском (!), мне кажется очень годный. Понравилась глава про историю языка, пока прочитала только ее, довольно любопытно осознавать контекст, в котором развивался язык. Первые три четверти книги вроде бы для начинающих пользователей, а дальше уже про ООП, работу с памятью, производительностью кода - то есть материал скорее для программистов.
И еще вот подборка материалов из чата по R
https://t.me/hotlineR_EU/7692

#literature #R #recommendation
Советы для эффективной организации работы в R

Опрос показал, что очень малый процент подписчиков использует проекты в RStudio (19%), это меньше чем процент людей, не пользующихся R (23%).

Поэтому я написала небольшой пост с набором рекомендаций о работе в R.

https://telegra.ph/R-how-to-organize-work-08-08

Об этом к сожалению не всегда рассказывают на курсах, например ар-проекты я начала применять спустя 5 лет после начала работы с R (стыдно признать).
Также собрала лайфхаки для удобной работы и ссылки, чтобы двигаться в правильном направлении.
Бонусом презентация о правильном наименовании файлов, которая будет полезна вообще всем, не только пользователям R.


И еще я обновила рекомендуемую литературу по R классной книгой Ивана, которая к тому же на русском языке. Очень радует, что русскоязычное R-сообщество развивается и появляются книги, посвященные языку!

#R #lifehack #literature