Data&Knowledge
130 subscribers
25 photos
21 files
160 links
Работаем с данными
Download Telegram
Всё ещё пишу свою диссертацию, но осталось уже буквально пара недель и затем, вероятно, я смогу вернуться к изучению статистики, NLP, нейронок и прочих вещей.

Из обновлений: в мае я собираюсь поучаствовать в стартап кэмпе с одной NLP-темой. Попробую предложить сервис извлечения основной информации из научных статей для борьбы с галлюцинациями у LLM моделей.
Еще нашел недавно интересную книжку:
Rodrigues, Miguel RD, and Yonina C. Eldar, eds. Information-theoretic methods in data science. Cambridge University Press, 2021.
В ней рассказывается о теории информации и дата сайнс - давно мечтал почитать что-то подобное.

В общем, пока что всё. И небольшой опрос напоследок :)
Вы что-нибудь слышали про bias-variance tradeoff?
Anonymous Poll
29%
Да
47%
Нет
24%
Посмотреть ответы
Нашел ещё один учебник по машинному обучению: https://education.yandex.ru/handbook/ml. В некоторых местах (про Байесовский подход), он мне показался довольно сложным и спутанным. Но, думаю, сойдет как альтернативный источник знаний.

Меня уже долгое время волнует вопрос: зачем люди делают всё новые и новые учебники, вместо того, чтобы сделать ресурс, где одни и те же темы будут объяснены под разными углами. У самого сделать такой ресурс просто не доходят руки :(
Что могу сказать, пара недель дописывания немного затянулась. К счастью, вчера я уже подал диссертацию, а это значит две вещи. Во-первых, через 2-4 месяца у меня будет защита. Во-вторых, мне надо повторить те статистические методы, что я использовал 😬

Итак, небольшой план на ближайшие пару месяцев:
1. Chi-square test
2. Fisher exact test
3. ANOVA
4. Factor Analysis
5. Structural Equation Modeling
6. Effect sizes, power analysis.

P.S. Покупка графического планшета не сделала создание постов проще, зато можно использовать стилус как элемент фото.
👍4
pearson1900.pdf
822.9 KB
Я тут попробовал разобраться, почему работает тест хи-квадрат. Чуть позже напишу про него подробнее, но я наконец понял, зачем нужен был матанализ в универе. Я ничего из него не помню и, честно, не смог пока разобраться в хи-квадрате. Если кто-то хочет окунуться в глубины отчаяния, вот оригинальная работа Пирсона по хи-квадрат. В более простом виде, вывод можно посмотреть на вики (https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test#Derivation). А я, как и сказал, постараюсь на днях описать, а что же это за тест, как его применять, и только в общих чертах, почему же он работает.
Вопрос: как делать посты?

Я решил, что неплохо бы делать посты на тему всяких статистических штук, но я не очень понимаю, как это сделать лучше. С одной стороны в постах будут картинки и формулы, поэтому телеграм не особо-то подходит. С другой же - давать ссылки на колаб-ноутбуки кажется не эффективным, люди просто не будут переходить.
Я тут сделал небольшой шаблон на английском для материалов по статистике. В нем сочетаются две идеи. Первая: материал должен быть интересен для читающих, люди должны понимать, зачем им это читать. Поэтому в пояснениях можно увидеть требования давать примеры использования и давать общие пояснения. Вторая идея - наш мозг работает чередуя периоды возбуждения и релаксации. Поэтому в шаблоне интересный и простой материал (мотивация, примеры) чередуется с более сложным (основные формулы и разбор принципов работы). Надеюсь, что нибудь из этого получится.
👍1
Задача.

Есть три коробки:

первая содержит две золотых монеты.
вторая содержит две серебряные монеты.
третья содержит одну золотую и одну серебряную монету.

После выбора случайной коробки и случайной монеты из нее, выбранная монета оказалась золотой. Какова вероятность того, что вторая монета в выбранной коробке также золотая?
Какова вероятность, что вторая выбранная монета также золотая?
Anonymous Quiz
19%
2/3
51%
1/2
6%
5/6
24%
1/3
Задача.

Еще одна задача из той же серии.

Представьте, что вы стали участником игры, в которой вам нужно выбрать одну из трёх дверей. За одной из дверей находится автомобиль, за двумя другими дверями — козы. Вы выбираете одну из дверей, например, номер 1, после этого ведущий, который знает, где находится автомобиль, а где — козы, открывает одну из оставшихся дверей, например, номер 3, за которой находится коза. После этого он спрашивает вас — не желаете ли вы изменить свой выбор и выбрать дверь номер 2? Увеличатся ли ваши шансы выиграть автомобиль, если вы примете предложение ведущего и измените свой выбор?
Увеличатся ли ваши шансы выиграть автомобиль, если вы примете предложение ведущего и измените свой выбор?
Anonymous Quiz
68%
Увеличатся
6%
Уменьшатся
26%
Не изменятся
Какова вероятность, что автомобиль находится за оставшейся дверью (не выбранной вами и не открытой ведущим)?
Anonymous Quiz
2%
5/6
36%
1/2
16%
1/3
44%
2/3
2%
3/4
Для тех, кто хочет понять, как работает метод обратного распространения ошибки: https://www.youtube.com/watch?v=VMj-3S1tku0

Человек пошагово всё объясняет, необходимо только знание английского, школьного курса математики и базового python. Вдобавок, автор придерживает API pytorch, а не придумывает новых названий функций.
Догадайтесь, у кого сегодня последний рабочий день. Надеюсь, что следующий рабочий день будет где-то через год: мне бы хотелось подтянуть дата сайнс + попробовать создать несколько пет-проектов.
В этом чате я хочу публиковать свои короткие заметки и ссылки на ресурсы - других идей у меня нет. А, ну еще я не против поучаствовать в хакатонах. Если у вас есть пожелания к содержанию постов - пишите в комментариях 🙂
🎉4👍2
Я тут продолжаю изучать chi-squared. Давно наткнулся на интересную книжку и только сейчас дошли руки почитать её. И она неплоха! Довольно простым (хе-хе) языком в ней рассказывается про работу с категориальными данными. Особо не углубляясь, в введении показывается почему биноминальное распределение аппроксимируется нормальным и как можно построить доверительные интервалы.

Книжка:
Agresti, Alan. "An introduction to categorical data analysis." (1996).

Своё 3 издание я нашел на либгене, а первое издание доступно тут: https://mregresion.wordpress.com/wp-content/uploads/2012/08/agresti-introduction-to-categorical-data.pdf

А есть еще и более глубокая от того же автора 😭:
https://lin-yu.me/books/AGRESTI_categorical_data_analysis_2nd.pdf
👍1
Посмотрел второе видео из серии по нейронным сетям:
https://www.youtube.com/watch?v=PaCmpygFfXo

Оно тоже классное! Андрей показывает две модели для создания имен: одну на биграммах и вторую на однослойной нейронной сети. Особенно интересно то, какая разница между сгенерированными результатами.
Data&Knowledge
Я тут продолжаю изучать chi-squared. Давно наткнулся на интересную книжку и только сейчас дошли руки почитать её. И она неплоха! Довольно простым (хе-хе) языком в ней рассказывается про работу с категориальными данными. Особо не углубляясь, в введении показывается…
Вторая книжка действительно глубже - в ней даётся сразу два объяснения почему критерий Пирсона хи-квадрат имеет распределение хи-квадрат. А еще там есть забавная история.

Про Менделя и Фишера.

Все же знают Менделя, открывшего законы скрещивания генов? Тесты с горохом и вот это вот всё. Меднель поставил несколько таких опытов. А в 1936 году Фишер взял данные Менделя и проверили их все вместе на следование теоретическому распределению. И он получил результат очень близкий к единице (P=0.99996). Слишком близкий к единице. На основе этого Фишер сделал заключение, что результаты, вероятно, были подделаны помощником Менделя - последний точно знал, каких результатов ожидает его наставник. Это дало начало спорам вокруг исследований Менделя.

Это, кстати, довольно известная особенность. К примеру, если вы считаете меру согласия экспертов (inter-rater reliability) и получаете результат крайне близкий к единице, то часто это говорит не о прекрасных результатах, а либо об ошибке, либо о том, что эксперты в сговоре.
👍1
Совместное прохождение матанализа и алгебры

Небольшой апдейт про курсы по матану и алгебре. Три человека откликнулись в чате на моё сообщение, а это на три человека больше, чем я ожидал, поэтому совместному прохождению быть!
Я планирую с ноября-декабря начать проходить два курса: по матанализу и по линалу. Я попробую найти курсы, а к ним и подходящие материалы. В канале я постараюсь делать интересные заметки о применимости знаний, ну и вести какой-то отчет о прохождении. А еще я надеюсь, что смогу сделать доказательства лемм и теорем понятными.

Зачем это нужно?

Алгебра и матан - это база для машинного обучения. Тензоры являются базовым примитивом в том же pytorch, а для получения решения используются методы оптимизации из матанализа (тот же градиентный спуск, chain rule). Кроме этого, алгебра и матан - это база для кучи смежных дисциплин, таких как цифровая обработка сигналов и теория информации. А ещё мне кажется, что это полезно просто для саморазвития: понять доказательства, начать мыслить в новых терминах (группы, морфизмы, ядра и т.д).
👍3
Точный тест Фишера

Тема на эту неделю "Точный тест Фишера" (Fisher’s Exact Test). Этот тест применяется, на малых выборках, когда использование критерия хи-квадрат невозможно. Интересно, что тест опирается на гипергеометрическое распределение и не является приблизительным (как, к примеру, хи-квадрат).

Вопросы на эту неделю:
Как и почему работает тест Фишера?
Почему он называется точным?
Какие границы его применимости?
Покажет ли он такие же результаты, как и тест хи-квадрат на больших выборках?
👍1
Я сейчас прохожу вот этот вот курс по NLP: https://stepik.org/course/54098
Если честно, то я не понимаю, откуда у него такая высокая оценка. Преподаватель на второй неделе делает обработку данных с помощью логистической регрессии. Только делает это он используя один слой нейронной сети. Сами нейронные сети особо не объясняются. Пока что ютюб-ролики от Андрея (см. посты раньше) мне нравятся гораздо больше.