Наука и данные
Creating Effective Display Tables with the gt Package Библиотека {gt} позволяет эффективно создавать стильные и функциональные таблицы, предназначенные для публикации как в веб-формате (HTML), так и в экспортирования виде PDF-документов. Книга Creating Effective…
Очень жаль, конечно, что так
😁3
Forwarded from Evgeny Materov
Не печальтесь, если нужна связка Typst + Quarto + {gt} —> PDF, я исправлю это досадное "недоразумение" в своем тексте, как его закончу. А рассказать там есть что.
Е.Н. (Наука и данные)
Е.Н. (Наука и данные)
Частично прочитал книгу Discrete Data Analysis with R Майкла Френдли (да, фамилия действительно классная).
Похоже, на этот материал определённо стоит потратить время.
Похоже, на этот материал определённо стоит потратить время.
👍3
Forwarded from Наука и данные
Categorical Data Analysis
Michael Friendly сделал ревизию своего курса Categorical Data Analysis от 2023 года, который разработан как широкое прикладное введение в статистический анализ категориальных (или дискретных) данных, таких как подсчеты, доли, номинальные переменные, порядковые переменные, дискретные переменные с небольшим количеством значений, непрерывные переменные, сгруппированные в небольшое количество категорий и т. д.
Очень интересно как привычные непрерывные понятия переносятся на дискретные переменные, рекомендую.
Michael Friendly сделал ревизию своего курса Categorical Data Analysis от 2023 года, который разработан как широкое прикладное введение в статистический анализ категориальных (или дискретных) данных, таких как подсчеты, доли, номинальные переменные, порядковые переменные, дискретные переменные с небольшим количеством значений, непрерывные переменные, сгруппированные в небольшое количество категорий и т. д.
Очень интересно как привычные непрерывные понятия переносятся на дискретные переменные, рекомендую.
❤4
Forwarded from Maksim Kuznetsov
Я не помню, что раньше наталкивался на эту статью.
Пока только пролистал, выглядит интересной.
What is Not What in Statistics аж 1977 года
Пока только пролистал, выглядит интересной.
What is Not What in Statistics аж 1977 года
Forwarded from Bioinformatics Institute
Открыт набор на модульный интенсив «Продвинутые разделы биостатистики», который пройдет с 24 февраля по 28 апреля!
bioinf.me/education/workshops/hardstat | Регистрация до 19 марта 23:59 МСК
В этом году интенсив состоит из 8 модулей, и у вас есть возможность выбрать 2, 4, 6 или все 8 модулей!
1. Смешанные линейные модели
2. Продвинутые модели анализа выживаемости
3. Разработка интерактивных приложений в R/Shiny
4. Машинное обучение в R
5. Обработка пропущенных значений
6. Методы на основе ресемплинга
7. Введение в байесовскую статистику
8. Причинно-следственный вывод
🌑 Лекции и практические занятия будут проходить по вечерам вторников и субботам.
🌑 Стоимость:
2 блока: 25 000 р.
4 блока: 35 000 р.
6 блоков: 45 000 р.
8 блоков: 50 000 р.
🐚 Предоставляются скидки выпускникам программ переподготовки и интенсивов Института биоинформатики!🐚
Приглашаем всех, кто имеет базовые знания биостатистики и навыки программирования в R, погрузиться в более сложные методы анализа данных!
#bioinf_online #bioinf_education #bioinf_workshop
@bioinformatics_institute
bioinf.me/education/workshops/hardstat | Регистрация до 19 марта 23:59 МСК
В этом году интенсив состоит из 8 модулей, и у вас есть возможность выбрать 2, 4, 6 или все 8 модулей!
1. Смешанные линейные модели
2. Продвинутые модели анализа выживаемости
3. Разработка интерактивных приложений в R/Shiny
4. Машинное обучение в R
5. Обработка пропущенных значений
6. Методы на основе ресемплинга
7. Введение в байесовскую статистику
8. Причинно-следственный вывод
2 блока: 25 000 р.
4 блока: 35 000 р.
6 блоков: 45 000 р.
8 блоков: 50 000 р.
Приглашаем всех, кто имеет базовые знания биостатистики и навыки программирования в R, погрузиться в более сложные методы анализа данных!
#bioinf_online #bioinf_education #bioinf_workshop
@bioinformatics_institute
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Forwarded from R in Action (ru)
|> Таможенный досмотр
У каждого может случиться тот неловкий момент, когда ему в руки приносят jupyter notebook с «готовыми результатами».
Но не все пропало, есть варианты.
Следите за руками.
1. Install Quarto & Positron
2.
3.
4.
Пепел можно незаметно стряхнуть в мусорное ведро.
#R #python
У каждого может случиться тот неловкий момент, когда ему в руки приносят jupyter notebook с «готовыми результатами».
Но не все пропало, есть варианты.
Следите за руками.
1. Install Quarto & Positron
2.
pip install uv3.
uv venv4.
quarto convert notebook.ipynbПепел можно незаметно стряхнуть в мусорное ведро.
#R #python
🔥2
Как мне кажется, здесь есть очень интересные мысли
Forwarded from RSS bot
What to do in 2026: Your statistics diary
https://statmodeling.stat.columbia.edu/2026/02/14/what-to-do-in-2026-your-statistics-diary/
https://statmodeling.stat.columbia.edu/2026/02/14/what-to-do-in-2026-your-statistics-diary/
🔥1
Forwarded from Bioinformatics Institute
Завтра, 24 февраля в 19:30 МСК, пройдёт открытая лекция в рамках модульного интенсива «Продвинутые разделы биостатистики»!
bioinf.me/education/workshops/hardstat
Сомневаетесь, идти ли на интенсив?
Мы решили сделать вводную лекцию Евгения Бакина «Реальная биостатистика: где заканчиваются классические методы» открытой, чтобы вы точно смогли определиться!
🌑 Присоединятесь завтра к трансляции: https://kinescope.io/0cxqehjLuwBBeJ1NPAi51L
🌑 Подавайте заявку на интенсив до 19 марта 23:59 МСК!
До встречи!
✨Мы в VK | Мы в почте | Мы в Telegram
#bioinf_online #bioinf_education #bioinf_workshop
@bioinformatics_institute
bioinf.me/education/workshops/hardstat
Сомневаетесь, идти ли на интенсив?
Мы решили сделать вводную лекцию Евгения Бакина «Реальная биостатистика: где заканчиваются классические методы» открытой, чтобы вы точно смогли определиться!
До встречи!
✨Мы в VK | Мы в почте | Мы в Telegram
#bioinf_online #bioinf_education #bioinf_workshop
@bioinformatics_institute
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Поскольку у автора поста нельзя ставить палец вниз.
Поставлю его здесь: 👎
Не делайте так никогда, пожалуйста.
Поставлю его здесь: 👎
Не делайте так никогда, пожалуйста.
❤5👍1
Forwarded from статИИстик
Как искать конфаундеры с помощью GLM. Часть 1.
Недавно передо мной стояла задача сравнить две группы пациентов по числу проведенных аферезов гемопоэтических стволовых клеток (ГСК) и по количеству заготовленных ГСК. На первом этапе все достаточно просто: можно использовать стандартные методы сравнения количественных показателей между двумя группами — например, тест Уэлча, Брауна–Муда или Манна–Уитни. Это позволяет оценить, есть ли различия между группами в целом. Это есть в приложении статИИстик.
Однако далее задача усложнилась. Нужно было понять, объясняются ли найденные различия только основной группирующей переменной или на результат также влияют другие факторы. Такие факторы называются конфаундерами — они могут искажать оценку эффекта, если их не учитывать в модели. В обсервационных исследованиях одной из главных методологических проблем является конфаундинг — ситуация, при которой связь между экспозицией и исходом искажается третьей переменной. Конфаундер связан как с воздействием, так и с исходом, и при его игнорировании оценка эффекта может быть смещена. Подробнее можно почитать здесь.
Для решения этой задачи применяются обобщенные линейные модели (GLM), которые позволяют анализировать влияние нескольких факторов одновременно. Подробнее здесь. Сложность заключалась в типе зависимых переменных. В одном случае это было число процедур (дискретные значения от 1 до 7), в другом — количество заготовленных клеток (непрерывная положительная величина). При этом все независимые переменные, включая основную группирующую и возможные конфаундеры, были бинарными.
Классическая линейная регрессия здесь не подходит, потому что она предполагает нормальное распределение зависимой переменной. Логистическая регрессия тоже не подходит, так как используется для бинарных исходов. Поэтому для анализа числа аферезов была выбрана регрессия Пуассона, которая предназначена для моделирования счетных данных. А для анализа количества заготовленных клеток использовалась гамма-регрессия, поскольку эта модель лучше подходит для непрерывных положительных показателей с асимметричным распределением.
В моделях обобщенной линейной регрессии, включая линейную, логистическую и пуассоновскую регрессию, один из наиболее распространенных практических подходов к выявлению конфаундеров основан на оценке изменения коэффициента регрессии при добавлении потенциальной переменной в модель.
Сначала строится «грубая» модель без конфаундеров. Затем добавляется предполагаемый конфаундер, и сравнивается коэффициент регрессии у основного переменной (группирующей). То есть мы усложняем модель и смотрим как ведут себя коэффциенты регрессии. Если после добавления новой переменной коэффициент заметно изменяется, это трактуется как наличие конфаундинга. Исторически в литературе закрепилось эмпирическое правило: если изменение превышает 10%, переменную считают конфаундером и оставляют в модели. На этом задачу можно счиатать выполненной. Кто не хочет на этом останавливаться, читайте часть 2.
Недавно передо мной стояла задача сравнить две группы пациентов по числу проведенных аферезов гемопоэтических стволовых клеток (ГСК) и по количеству заготовленных ГСК. На первом этапе все достаточно просто: можно использовать стандартные методы сравнения количественных показателей между двумя группами — например, тест Уэлча, Брауна–Муда или Манна–Уитни. Это позволяет оценить, есть ли различия между группами в целом. Это есть в приложении статИИстик.
Однако далее задача усложнилась. Нужно было понять, объясняются ли найденные различия только основной группирующей переменной или на результат также влияют другие факторы. Такие факторы называются конфаундерами — они могут искажать оценку эффекта, если их не учитывать в модели. В обсервационных исследованиях одной из главных методологических проблем является конфаундинг — ситуация, при которой связь между экспозицией и исходом искажается третьей переменной. Конфаундер связан как с воздействием, так и с исходом, и при его игнорировании оценка эффекта может быть смещена. Подробнее можно почитать здесь.
Для решения этой задачи применяются обобщенные линейные модели (GLM), которые позволяют анализировать влияние нескольких факторов одновременно. Подробнее здесь. Сложность заключалась в типе зависимых переменных. В одном случае это было число процедур (дискретные значения от 1 до 7), в другом — количество заготовленных клеток (непрерывная положительная величина). При этом все независимые переменные, включая основную группирующую и возможные конфаундеры, были бинарными.
Классическая линейная регрессия здесь не подходит, потому что она предполагает нормальное распределение зависимой переменной. Логистическая регрессия тоже не подходит, так как используется для бинарных исходов. Поэтому для анализа числа аферезов была выбрана регрессия Пуассона, которая предназначена для моделирования счетных данных. А для анализа количества заготовленных клеток использовалась гамма-регрессия, поскольку эта модель лучше подходит для непрерывных положительных показателей с асимметричным распределением.
В моделях обобщенной линейной регрессии, включая линейную, логистическую и пуассоновскую регрессию, один из наиболее распространенных практических подходов к выявлению конфаундеров основан на оценке изменения коэффициента регрессии при добавлении потенциальной переменной в модель.
Сначала строится «грубая» модель без конфаундеров. Затем добавляется предполагаемый конфаундер, и сравнивается коэффициент регрессии у основного переменной (группирующей). То есть мы усложняем модель и смотрим как ведут себя коэффциенты регрессии. Если после добавления новой переменной коэффициент заметно изменяется, это трактуется как наличие конфаундинга. Исторически в литературе закрепилось эмпирическое правило: если изменение превышает 10%, переменную считают конфаундером и оставляют в модели. На этом задачу можно счиатать выполненной. Кто не хочет на этом останавливаться, читайте часть 2.
Forwarded from Наука и данные
Hadley Wickham жалуется что капчу с пайпами стало проходить все сложнее. 😊
Хороших выходных! 👋
Хороших выходных! 👋
❤9
Forwarded from Data Medicine (Artemiy Okhotin)
Ротман и Дали опубликовали свою пирамиду в виде препринта. Теперь можно ссылаться.
Dahly, D., & Rothman, K. (2025). The Rothman-Dahly Evidence Pyramid. Zenodo. https://doi.org/10.5281/zenodo.18084434
Dahly, D., & Rothman, K. (2025). The Rothman-Dahly Evidence Pyramid. Zenodo. https://doi.org/10.5281/zenodo.18084434
😁6❤1💯1
Forwarded from Bioinformatics Institute
В мае начинается третий сезон открытого онлайн-лектория «Разрушители статистических мифов»!
Регистрация | 19 мая, 16 июня, 7 июля
В новом сезоне преподаватели трека по биостатистике Института биоинформатики продолжат разбирать привычные статистические практики, которые выглядят безобидно, но иногда ведут исследователя совсем не туда!
На этот раз поговорим о том, в какие дебри могут завести автоматические методы отбора признаков для регрессионных моделей, обсудим тонкости (не)правильного описания признаков в Таблице I, а также подробно разберём стандартное оправдание: «нам просто не хватило мощности».
19 мая, 19:00 МСК | Евгений Бакин
16 июня, 19:00 МСК | Алексей Глазков
7 июля, 19:00 МСК | Матвей Славенко
Будет (само)критично, местами болезненно, но, как всегда, с любовью к статистике и здравому смыслу❤️
✨ Мы в VK | Мы в почте | Мы в Telegram
#bioinf_online #bioinf_education
@bioinformatics_institute
Регистрация | 19 мая, 16 июня, 7 июля
В новом сезоне преподаватели трека по биостатистике Института биоинформатики продолжат разбирать привычные статистические практики, которые выглядят безобидно, но иногда ведут исследователя совсем не туда!
На этот раз поговорим о том, в какие дебри могут завести автоматические методы отбора признаков для регрессионных моделей, обсудим тонкости (не)правильного описания признаков в Таблице I, а также подробно разберём стандартное оправдание: «нам просто не хватило мощности».
19 мая, 19:00 МСК | Евгений Бакин
🦖 Миф №7: Автоматизированный выбор многофакторной модели: кто ищет, тот всегда найдёт
16 июня, 19:00 МСК | Алексей Глазков
🦖 Миф №8: Придай нормальности описательной статистике
7 июля, 19:00 МСК | Матвей Славенко
🦖 Миф №9: Расчёт мощности: лучше поздно, чем никогда
Будет (само)критично, местами болезненно, но, как всегда, с любовью к статистике и здравому смыслу
#bioinf_online #bioinf_education
@bioinformatics_institute
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍2🔥2
Апдейт по книге Bayesian Workflow
1. Гелман анонсировал выход печатной версии, про электронную со свободным доступом пока информации нет
2. Вехтари опубликовал примеры из книги (используются cmdstanr, brms, marginaleffects, есть и биомедицинские примеры)
1. Гелман анонсировал выход печатной версии, про электронную со свободным доступом пока информации нет
2. Вехтари опубликовал примеры из книги (используются cmdstanr, brms, marginaleffects, есть и биомедицинские примеры)
Substack
The Bayesian Workflow book is coming!
We’re very excited about this book.
🔥5❤3👍1