Biostatistics on the Table
314 subscribers
108 photos
5 videos
1 file
114 links
Место, где ML расшифровывается как Maximum Likelihood
Download Telegram
Ещё сегодня вышел один полезный препринт.
Я пока его не читал, но, судя по составу авторов, он должен быть очень хорош.

How to interpret hazard ratios
👍4🔥3
Creating Effective Display Tables with the gt Package

Библиотека {gt} позволяет эффективно создавать стильные и функциональные таблицы, предназначенные для публикации как в веб-формате (HTML), так и в экспортирования виде PDF-документов. Книга Creating Effective Display Tables with the gt Package, которую написал Richard Iannone, один из авторов {gt}, призвана показать, как, добавляя компоненты и стили постепенно, пошагово создавать таблицы, которые помогут читателям ориентироваться в сложной информации.

Эта книга написана для пользователей R, желающих повысить свои навыки создания таблиц и хорошо дополнит материалы Creating beautiful tables in R with {gt} (автор Albert Rapp) + gt cookbook и gt blog (автор Tom Mock) + Posit blog.
4
Спасибо, Евгений Николаевич! Будем ждать 🙂
1
Forwarded from Evgeny Materov
Не печальтесь, если нужна связка Typst + Quarto + {gt} —> PDF, я исправлю это досадное "недоразумение" в своем тексте, как его закончу. А рассказать там есть что.

Е.Н. (Наука и данные)
Частично прочитал книгу Discrete Data Analysis with R Майкла Френдли (да, фамилия действительно классная).
Похоже, на этот материал определённо стоит потратить время.
👍3
Categorical Data Analysis

Michael Friendly сделал ревизию своего курса Categorical Data Analysis от 2023 года, который разработан как широкое прикладное введение в статистический анализ категориальных (или дискретных) данных, таких как подсчеты, доли, номинальные переменные, порядковые переменные, дискретные переменные с небольшим количеством значений, непрерывные переменные, сгруппированные в небольшое количество категорий и т. д.

Очень интересно как привычные непрерывные понятия переносятся на дискретные переменные, рекомендую.
4
Forwarded from Maksim Kuznetsov
Я не помню, что раньше наталкивался на эту статью.
Пока только пролистал, выглядит интересной.
What is Not What in Statistics аж 1977 года
Forwarded from Bioinformatics Institute
Открыт набор на модульный интенсив «Продвинутые разделы биостатистики», который пройдет с 24 февраля по 28 апреля!
bioinf.me/education/workshops/hardstat | Регистрация до 19 марта 23:59 МСК

В этом году интенсив состоит из 8 модулей, и у вас есть возможность выбрать 2, 4, 6 или все 8 модулей!

1. Смешанные линейные модели
2. Продвинутые модели анализа выживаемости
3. Разработка интерактивных приложений в R/Shiny
4. Машинное обучение в R
5. Обработка пропущенных значений
6. Методы на основе ресемплинга
7. Введение в байесовскую статистику
8. Причинно-следственный вывод

🌑 Лекции и практические занятия будут проходить по вечерам вторников и субботам.

🌑 Стоимость:
2 блока: 25 000 р.
4 блока: 35 000 р.
6 блоков: 45 000 р.
8 блоков: 50 000 р.

🐚Предоставляются скидки выпускникам программ переподготовки и интенсивов Института биоинформатики!🐚

Приглашаем всех, кто имеет базовые знания биостатистики и навыки программирования в R, погрузиться в более сложные методы анализа данных!

#bioinf_online #bioinf_education #bioinf_workshop
@bioinformatics_institute
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from R in Action (ru)
|> Таможенный досмотр

У каждого может случиться тот неловкий момент, когда ему в руки приносят jupyter notebook с «готовыми результатами».
Но не все пропало, есть варианты.

Следите за руками.

1. Install Quarto & Positron
2. pip install uv
3. uv venv
4. quarto convert notebook.ipynb

Пепел можно незаметно стряхнуть в мусорное ведро.

#R #python
🔥2
Апдейт по книжке Bayesian Workflow от Гелмана
3
Как мне кажется, здесь есть очень интересные мысли
Forwarded from RSS bot
🔥1
Forwarded from Bioinformatics Institute
Завтра, 24 февраля в 19:30 МСК, пройдёт открытая лекция в рамках модульного интенсива «Продвинутые разделы биостатистики»!
bioinf.me/education/workshops/hardstat

Сомневаетесь, идти ли на интенсив?
Мы решили сделать вводную лекцию Евгения Бакина «Реальная биостатистика: где заканчиваются классические методы» открытой, чтобы вы точно смогли определиться!

🌑 Присоединятесь завтра к трансляции: https://kinescope.io/0cxqehjLuwBBeJ1NPAi51L

🌑 Подавайте заявку на интенсив до 19 марта 23:59 МСК!

До встречи!

Мы в VK | Мы в почте | Мы в Telegram

#bioinf_online #bioinf_education #bioinf_workshop
@bioinformatics_institute
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Поскольку у автора поста нельзя ставить палец вниз.
Поставлю его здесь: 👎
Не делайте так никогда, пожалуйста.
5👍1
Forwarded from статИИстик
Как искать конфаундеры с помощью GLM. Часть 1.

Недавно передо мной стояла задача сравнить две группы пациентов по числу проведенных аферезов гемопоэтических стволовых клеток (ГСК) и по количеству заготовленных ГСК. На первом этапе все достаточно просто: можно использовать стандартные методы сравнения количественных показателей между двумя группами — например, тест Уэлча, Брауна–Муда или Манна–Уитни. Это позволяет оценить, есть ли различия между группами в целом. Это есть в приложении статИИстик.

Однако далее задача усложнилась. Нужно было понять, объясняются ли найденные различия только основной группирующей переменной или на результат также влияют другие факторы. Такие факторы называются конфаундерами — они могут искажать оценку эффекта, если их не учитывать в модели. В обсервационных исследованиях одной из главных методологических проблем является конфаундинг — ситуация, при которой связь между экспозицией и исходом искажается третьей переменной. Конфаундер связан как с воздействием, так и с исходом, и при его игнорировании оценка эффекта может быть смещена. Подробнее можно почитать здесь.

Для решения этой задачи применяются обобщенные линейные модели (GLM), которые позволяют анализировать влияние нескольких факторов одновременно. Подробнее здесь. Сложность заключалась в типе зависимых переменных. В одном случае это было число процедур (дискретные значения от 1 до 7), в другом — количество заготовленных клеток (непрерывная положительная величина). При этом все независимые переменные, включая основную группирующую и возможные конфаундеры, были бинарными.

Классическая линейная регрессия здесь не подходит, потому что она предполагает нормальное распределение зависимой переменной. Логистическая регрессия тоже не подходит, так как используется для бинарных исходов. Поэтому для анализа числа аферезов была выбрана регрессия Пуассона, которая предназначена для моделирования счетных данных. А для анализа количества заготовленных клеток использовалась гамма-регрессия, поскольку эта модель лучше подходит для непрерывных положительных показателей с асимметричным распределением.

В моделях обобщенной линейной регрессии, включая линейную, логистическую и пуассоновскую регрессию, один из наиболее распространенных практических подходов к выявлению конфаундеров основан на оценке изменения коэффициента регрессии при добавлении потенциальной переменной в модель.

Сначала строится «грубая» модель без конфаундеров. Затем добавляется предполагаемый конфаундер, и сравнивается коэффициент регрессии у основного переменной (группирующей). То есть мы усложняем модель и смотрим как ведут себя коэффциенты регрессии. Если после добавления новой переменной коэффициент заметно изменяется, это трактуется как наличие конфаундинга. Исторически в литературе закрепилось эмпирическое правило: если изменение превышает 10%, переменную считают конфаундером и оставляют в модели. На этом задачу можно счиатать выполненной. Кто не хочет на этом останавливаться, читайте часть 2.
Hadley Wickham жалуется что капчу с пайпами стало проходить все сложнее. 😊

Хороших выходных! 👋
9
😁3
Как вам такая терминология?
Мне в ней что-то не нравится, но пока не могу точно сформулировать, что именно.
1
Forwarded from Data Medicine (Artemiy Okhotin)
Ротман и Дали опубликовали свою пирамиду в виде препринта. Теперь можно ссылаться.
Dahly, D., & Rothman, K. (2025). The Rothman-Dahly Evidence Pyramid. Zenodo. https://doi.org/10.5281/zenodo.18084434
😁61💯1
Forwarded from Bioinformatics Institute
В мае начинается третий сезон открытого онлайн-лектория «Разрушители статистических мифов»!
Регистрация | 19 мая, 16 июня, 7 июля

В новом сезоне преподаватели трека по биостатистике Института биоинформатики продолжат разбирать привычные статистические практики, которые выглядят безобидно, но иногда ведут исследователя совсем не туда!

На этот раз поговорим о том, в какие дебри могут завести автоматические методы отбора признаков для регрессионных моделей, обсудим тонкости (не)правильного описания признаков в Таблице I, а также подробно разберём стандартное оправдание: «нам просто не хватило мощности».

19 мая, 19:00 МСК | Евгений Бакин
🦖 Миф №7: Автоматизированный выбор многофакторной модели: кто ищет, тот всегда найдёт


16 июня, 19:00 МСК | Алексей Глазков
🦖 Миф №8: Придай нормальности описательной статистике


7 июля, 19:00 МСК | Матвей Славенко
🦖 Миф №9: Расчёт мощности: лучше поздно, чем никогда


Будет (само)критично, местами болезненно, но, как всегда, с любовью к статистике и здравому смыслу ❤️

Мы в VK | Мы в почте | Мы в Telegram

#bioinf_online #bioinf_education
@bioinformatics_institute
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍2🔥2