Biostatistics on the Table
314 subscribers
108 photos
5 videos
1 file
114 links
Место, где ML расшифровывается как Maximum Likelihood
Download Telegram
Артемий очень хорошо сформулировал.

Я сам использовал GPT для самообразования, спрашивал объяснений, когда спотыкался на задачках по линалу, очень помогло, но, как ни странно, в них всегда все было концептуально просто, сложности чисто технические.
Forwarded from Data Medicine (Artemiy Okhotin)
По поводу использования ИИ в образовании сформулировал такую сложность.
Несмоненно, есть польза от возможности "поговорить" с учителем в любое время и задать ему самые глупые вопросы без страха опозориться. Вообще, думаю, что страх показаться глупым — один из очень сильных барьеров в обучении. Но тут возникает такая ситуация. Если задача студента не уточнить какой-нибудь факт, а разобраться в концепции, то часто недостаточно просто прочесть объяснение. Надо в него вникнуть, для этого несколько раз перечесть, попытаться для себя переформулировать, иногда чего-то начертить или написать, и только после некоторой интеллектуальной работы вдруг начинает доходить, что хотел сказать учитель. И потом смотришь на те же формулировки и удивляешься, почему они казались непонятными.
Но для того, чтобы так вот биться с непонятным, нужно доверие: надо быть уверенным, что учитель сам понимает, о чем говорит, а не пересказывает чужие глупости. С GPT проблема в том, что ты читаешь, и если непонятно, то возникает вопрос: это ты не понимаешь, или GPT чего-то наплел. И хотя в принципе разбираться до конца с ерундой бывает очень полезно и иногда позволяет превзойти учителей, это сложнее, чем разобраться в сказанном по делу, а главное — чревато еще большим разочарованием в себе. Думаешь, наверное, я тупой и никогда этого не пойму. А оказывается, что тупой был не ты.
Можно возразить, что и учителя бывают тупыми и часто пересказывают чужую ерунду, не задумываясь. Но учителей можно выбирать, и со временем вырабатывается чутье: этот говорит непонятно, но не врет, а этот любит красивые слова, но особо не разбирается. С языковыми моделями это не пройдет: они легко врут и не врут с одними и теми же интонациями, и глазки у них не бегают.
7
Также хочу повторить свою рекомендацию.

У Андрея Карпатого, одного из ведущих специалистов по DL и со-создателя OpenAI, есть несколько видео для general audience.
Мне кажется, что очень полезно понимать хотя бы в общих чертах как устроено то, с чем ты взаимодействуешь, особенно, считая что оно обладает "экспертным мнением".

По поводу анализа данных он там хорошо говорит, что ChatGPT может провести анализ на уровне junior-аналитика. Это нужно расшифровывать строго так: чтобы его использовать для анализа данных вам нужно быть хотя бы на уровень выше, потому что все нужно перепроверять (в том числе код).
2👍2🔥1
Biostatistics on the Table
Также хочу повторить свою рекомендацию. У Андрея Карпатого, одного из ведущих специалистов по DL и со-создателя OpenAI, есть несколько видео для general audience. Мне кажется, что очень полезно понимать хотя бы в общих чертах как устроено то, с чем ты взаимодействуешь…
Также выскажусь по поводу всех этих курсов/гайдов по "промт-инжинирингу" в околонаучных задачах.
Промт-инжиниринг – это не новая штука, просто название поменялось. Раньше это называлось "написать ТЗ".
Первое. Я за годы своего взаимодействия с врачами, учеными по поводу анализа данных ни разу не получал грамотно составленного ТЗ, бывали достаточно неплохие, но редко, все равно они не были полностью состоятельными, не требующими уточнений. Я подчеркну НИ РАЗУ.
Второе. То, что указано в первом пункте вполне понятно и нормально. Люди, умеющие составлять ТЗ, учатся этому годами взаимодействия с техническими исполнителями, получая обратную связь.
5
Forwarded from Matt
Вообще есть практика переворачивания ТЗ, когда оно называется "понимание задачи", его пишет исполнитель и утверждает у заказчика. Можно подробнее почитать у тусовки вокруг Бюро Горбунова.

Я как-то интуитивно к этому пришёл. Ну и вводная консультация со статистиком примерно так и работает же.
🔥2
Еще, что дико раздражает.
Появившиеся в последнее время в наших профессиональных чатах сообщения, где топикстартеры начинают свой вопрос с "вот я спросил у ИИ"
Запросы на анализ данных, начинающиеся этим же.
Перепроверки аргументации (в которой, в том числе, есть, блин, все ссылки на литературу) с помощью ИИ.
👍3
Вот, у Матвея талант подмечать корни проблемы
💯2
Forwarded from Matt
Вообще это продолжает мою мысль о том, что не существует критического мышления в вакууме, есть доменная экспертиза. Точнее, эта моя мысль объясняет такой подход людей. Потому что чтобы читать литературу по матстату, даже прицельно конкретный раздел по наводке, надо иметь доменную экспертизу хотя бы базового уровня в матстате, простого "умею читать книжки, в том числе технические" не хватит: математика вообще и матстат в частности - очень сектантские области со своим очень специфичным птичьим языком и магическими письменами. В итоге запрос на экспертизу есть, а реализовать его сложно, поэтому такие кадавры рождаются типа "я попросил ии проанализировать мою дату, он отлично справился".
2
В общем так. Еще до ИИ.

Most real life statistical problems have one or more nonstandard features. There are no routine statistical questions, only questionable statistical routines.

Sir David R. Cox

The quote may be found on page 240 in Christopher Chatfield's 1991 article "Avoiding Statistical Pitfalls" in "Statistical Science".
4
Ладно, разбавим все это шуткой про машин лёрнинг
😁4
Matt
я попросил ии проанализировать мою дату, он отлично справился
Подумал еще вот что. Даже, если ИИ сделал все правильно (или не так уж неправильно), то хорошо бы еще прочувствовать, как в результате аналитических решений у тебя отрос тяжелый хвост распределения Коши допущений, на которых будут строится вся твоя интерпретация и все твои выводы.
3
Forwarded from Борзило
😁5
Борзило
Photo
Ну и полезное к этому )
Потому что кажется это то, чем многие пользовались бы, но не в курсе, что оно существует
https://migariane.github.io/DeltaMethodEpiTutorial.nb.html
2👍2🔥1
Все не могу найти повод, но не выходит из головы, что нужно этим поделиться.

Замечательный Noah Greifer не так давно объединил концептуальную часть документации пакетов MatchIt и WeightIt, а также, видимо, свои ответы на вопросы по мэтчингу и использованию весов на CrossValidated в книгу (книжечку) Matching and Weighting for Causal Inference: A Primer and Tutorial.

Это просто обязательно к прочтению (очень полезно будет и тем, кто не использует R).
Заметил, про мэтчинг (и особенно, в первую очередь, про PSM) часто думают совсем не так, как нужно и говорят совсем не то, что нужно, это и меня касается. На самом деле, мэтчинг – это крайне сложная тема и к тому же активно развивающаяся. Про веса вообще молчу. Что уж говорить, я бы не наделал столько ерунды, за которую теперь очень стыдно, если бы была возможность познакомиться с этим материалом раньше.

Блог автора тоже нужно читать, он там не ограничивается указанными темами.
3👍1🔥1
Forwarded from Записки Ппилифа (Ppilif)
О том как незнание центральной предельной теоремы позволяло отмывать бабло в средневековой Англии

Незнание того, как именно размер выборки влияет на статистические различия, создавало хаос на протяжении тысячелетия. В людском эпосе накопилось довольно много историй про это. Часть из них рассказана в статье “The Most Dangerous Equation”.

Что из себя может представлять опасное уравнение? Опасность может представлять два вида формул: те, которые вы знаете и те, которые вы не знаете. Первая категория уравнений может открывать для людей двери, за которыми находится смертельная опасность. Например, уравнение Эйнштейна открыло человечеству дорогу к атомной бомбе.

Однако нам интереснее другие уравнения. Уравнения, которые раскрывают свою опасность не тогда, когда мы знаем о них, а скорее тогда, когда мы их не знаем. Находясь под рукой, эти уравнения позволяют нам ясно понимать как работает природа. Незнание оставляет нас в опасном неведении.

В 1150 году было решено, что король Англии не может чеканить деньги и присваивать им любую ценность по своему выбору. Вместо этого ценность монеты должна была быть внутренней, основанной на том, сколько в её составе драгоценных материалов. Были установлены стандарты, сколько в какой монете должно быть золота. Чтобы проверить соответствует ли новая партия монет стандартам, проводили испытание Пикса.

Пикс (pyx) — это деревянный ящик, в котором находились стандартные монеты с правильным содержанием золота. Проверками занималась независимая организация, Монетный двор. Она состояла из баронов короля.

Монетный двор прекрасно понимал, что нельзя отчеканить абсолютно точную монету. Поэтому брали выборку новых монет, например сотню, и сравнивали её со стандартом. Надо было, чтобы эта сотня соответствовала заявленному уровню плюс минус некоторая погрешность. В качестве погрешности выбрали 1/400 веса.

Вес монет тогда измеряли в гранах, grain. Это единица измерения массы, основанная на весе ячменного зерна. Одна монета должна была весить 128 гран. Получается, что суммарный вес сотни монет должен был оказаться в диапазоне 12800 ± 32 гран.

Если мы пробили левую границу, надо казнить чеканщика за воровство. Если мы пробили правую границу, надо брать всю партию и переделывать, так как потрачено слишком много золота. Проблема в том, что интервал для суммы оказывался слишком широким, так как Монетный двор предполагал, что погрешность изменяется пропорционально числу монет. О том, что погрешность пропорциональна квадратному корню из числа монет, станет известно только через 600 лет благадоря Муавру.

Из-за слишком широкого интервала и страха казни, перекос был в сторону слишком тяжёлых монет. Скорее всего, были люди, которые чувствовали этот косяк в методологии Монетного двора и использовали его. Надо было просто брать из свежей партии монет самые тяжёлые, переплавлять их и навариваться на переплавке в типовые.

P.S. У автора оригинальной статьи почему-то 1/400 * 128 = 0.28. Видимо, он у баронов в доле.
👍61
4😁3
Вот еще чем хотел поделиться

Вчера я закончил свой первый проект с использованием Typst (причем в Positron'е). До этого я просто экспериментировал с ним, а здесь вот небольшой проектик получился.

Не то чтобы в последнее время мне так часто нужен инструмент для верстки pdf-документов, но я никогда не испытывал особо теплых чувств к привычному многим LaTeX. А тут, новый инструмент, написанный на модном Rust. Да к тому же не просто язык разметки, а полноценный язык программирования (с переменными, функциями, управляющими конструкциями и т.д.). Я, честно сказать, в восторге, несмотря на достаточно сложные синтаксис и семантику. Полностью удовлетворен первым опытом.

Вообще, хочется сказать, что эти "хипстеры", пишущие на Rust, похоже, очень классные и полезные для общества люди (мечтаю к ним присоединиться, но уж очень сложный путь). Я периодически пробую использовать их альтернативы классическим инструментам, например, эмулятор терминала Rio, Zellij как замену Tmux, текстовый редактор Helix как замену Vim, GitUI для git и этот их великолепный менеджер проектов и пакетов Cargo, от всего только положительные эмоции.
Считаю, что им памятники из нержавеющей стали нужно ставить.
1
Для контекста можно посмотреть фильм "Человек, который познал бесконечность" и этот исторический анекдот от Райгородского
🔥2
Biostatistics on the Table
"Человек, который познал бесконечность" и этот исторический анекдот от Райгородского
Кстати, Харди, который один из основных персонажей фильма и о котором Райгородский говорит, это вот тот самый Харди из формулы Харди-Вайнберга, которую, думаю, медики знают, помнят и любят
🔥3