Data&Knowledge – Telegram

Data&Knowledge

@datascienceforfun

130 subscribers

25 photos

21 files

160 links

Работаем с данными

Download Telegram

About

Blog

Apps

Platform

130 subscribers

Всё ещё пишу свою диссертацию, но осталось уже буквально пара недель и затем, вероятно, я смогу вернуться к изучению статистики, NLP, нейронок и прочих вещей.

Из обновлений: в мае я собираюсь поучаствовать в стартап кэмпе с одной NLP-темой. Попробую предложить сервис извлечения основной информации из научных статей для борьбы с галлюцинациями у LLM моделей.
Еще нашел недавно интересную книжку:
Rodrigues, Miguel RD, and Yonina C. Eldar, eds. Information-theoretic methods in data science. Cambridge University Press, 2021.
В ней рассказывается о теории информации и дата сайнс - давно мечтал почитать что-то подобное.

В общем, пока что всё. И небольшой опрос напоследок :)

234 views10:36

Вы что-нибудь слышали про bias-variance tradeoff?

Anonymous Poll

Посмотреть ответы

17 voters251 views10:36

Нашел ещё один учебник по машинному обучению: https://education.yandex.ru/handbook/ml. В некоторых местах (про Байесовский подход), он мне показался довольно сложным и спутанным. Но, думаю, сойдет как альтернативный источник знаний.

Меня уже долгое время волнует вопрос: зачем люди делают всё новые и новые учебники, вместо того, чтобы сделать ресурс, где одни и те же темы будут объяснены под разными углами. У самого сделать такой ресурс просто не доходят руки :(

education.yandex.ru

Учебник по машинному обучению

Онлайн-учебник по машинному обучению от ШАД — для тех, кто не боится математики и хочет разобраться в технологиях ML.

264 views09:46

Что могу сказать, пара недель дописывания немного затянулась. К счастью, вчера я уже подал диссертацию, а это значит две вещи. Во-первых, через 2-4 месяца у меня будет защита. Во-вторых, мне надо повторить те статистические методы, что я использовал 😬

Итак, небольшой план на ближайшие пару месяцев:
1. Chi-square test
2. Fisher exact test
3. ANOVA
4. Factor Analysis
5. Structural Equation Modeling
6. Effect sizes, power analysis.

P.S. Покупка графического планшета не сделала создание постов проще, зато можно использовать стилус как элемент фото.

👍4

183 viewsedited 11:11

pearson1900.pdf

Я тут попробовал разобраться, почему работает тест хи-квадрат. Чуть позже напишу про него подробнее, но я наконец понял, зачем нужен был матанализ в универе. Я ничего из него не помню и, честно, не смог пока разобраться в хи-квадрате. Если кто-то хочет окунуться в глубины отчаяния, вот оригинальная работа Пирсона по хи-квадрат. В более простом виде, вывод можно посмотреть на вики (https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test#Derivation). А я, как и сказал, постараюсь на днях описать, а что же это за тест, как его применять, и только в общих чертах, почему же он работает.

161 viewsedited 12:17

Вопрос: как делать посты?

Я решил, что неплохо бы делать посты на тему всяких статистических штук, но я не очень понимаю, как это сделать лучше. С одной стороны в постах будут картинки и формулы, поэтому телеграм не особо-то подходит. С другой же - давать ссылки на колаб-ноутбуки кажется не эффективным, люди просто не будут переходить.

162 views13:12

Я тут сделал небольшой шаблон на английском для материалов по статистике. В нем сочетаются две идеи. Первая: материал должен быть интересен для читающих, люди должны понимать, зачем им это читать. Поэтому в пояснениях можно увидеть требования давать примеры использования и давать общие пояснения. Вторая идея - наш мозг работает чередуя периоды возбуждения и релаксации. Поэтому в шаблоне интересный и простой материал (мотивация, примеры) чередуется с более сложным (основные формулы и разбор принципов работы). Надеюсь, что нибудь из этого получится.

👍1

181 viewsedited 11:21

Задача.

Есть три коробки:

первая содержит две золотых монеты.
вторая содержит две серебряные монеты.
третья содержит одну золотую и одну серебряную монету.

После выбора случайной коробки и случайной монеты из нее, выбранная монета оказалась золотой. Какова вероятность того, что вторая монета в выбранной коробке также золотая?

959 views07:44

Какова вероятность, что вторая выбранная монета также золотая?

Anonymous Quiz

121 voters918 views07:44

Задача.

Еще одна задача из той же серии.

Представьте, что вы стали участником игры, в которой вам нужно выбрать одну из трёх дверей. За одной из дверей находится автомобиль, за двумя другими дверями — козы. Вы выбираете одну из дверей, например, номер 1, после этого ведущий, который знает, где находится автомобиль, а где — козы, открывает одну из оставшихся дверей, например, номер 3, за которой находится коза. После этого он спрашивает вас — не желаете ли вы изменить свой выбор и выбрать дверь номер 2? Увеличатся ли ваши шансы выиграть автомобиль, если вы примете предложение ведущего и измените свой выбор?

904 views09:38

Увеличатся ли ваши шансы выиграть автомобиль, если вы примете предложение ведущего и измените свой выбор?

Anonymous Quiz

Увеличатся

Уменьшатся

Не изменятся

102 voters845 views09:38

Какова вероятность, что автомобиль находится за оставшейся дверью (не выбранной вами и не открытой ведущим)?

Anonymous Quiz

87 voters927 views09:38

Для тех, кто хочет понять, как работает метод обратного распространения ошибки: https://www.youtube.com/watch?v=VMj-3S1tku0

Человек пошагово всё объясняет, необходимо только знание английского, школьного курса математики и базового python. Вдобавок, автор придерживает API pytorch, а не придумывает новых названий функций.

The spelled-out intro to neural networks and backpropagation: building micrograd

This is the most step-by-step spelled-out explanation of backpropagation and training of neural networks. It only assumes basic knowledge of Python and a vague recollection of calculus from high school.

Links:
- micrograd on github: https://github.com/k…

157 views10:39

Кажется, что ресурсов для изучения глубокого обучения стало слишком много. Вот еще один:
https://course.fast.ai/

Practical Deep Learning for Coders

Practical Deep Learning for Coders - Practical Deep Learning

A free course designed for people with some coding experience, who want to learn how to apply deep learning and machine learning to practical problems.

195 views10:32

Догадайтесь, у кого сегодня последний рабочий день. Надеюсь, что следующий рабочий день будет где-то через год: мне бы хотелось подтянуть дата сайнс + попробовать создать несколько пет-проектов.
В этом чате я хочу публиковать свои короткие заметки и ссылки на ресурсы - других идей у меня нет. А, ну еще я не против поучаствовать в хакатонах. Если у вас есть пожелания к содержанию постов - пишите в комментариях 🙂

🎉4👍2

181 views14:16

Я тут продолжаю изучать chi-squared. Давно наткнулся на интересную книжку и только сейчас дошли руки почитать её. И она неплоха! Довольно простым (хе-хе) языком в ней рассказывается про работу с категориальными данными. Особо не углубляясь, в введении показывается почему биноминальное распределение аппроксимируется нормальным и как можно построить доверительные интервалы.

Книжка:
Agresti, Alan. "An introduction to categorical data analysis." (1996).

Своё 3 издание я нашел на либгене, а первое издание доступно тут: https://mregresion.wordpress.com/wp-content/uploads/2012/08/agresti-introduction-to-categorical-data.pdf

А есть еще и более глубокая от того же автора 😭:
https://lin-yu.me/books/AGRESTI_categorical_data_analysis_2nd.pdf

👍1

142 viewsedited 11:03

Посмотрел второе видео из серии по нейронным сетям:
https://www.youtube.com/watch?v=PaCmpygFfXo

Оно тоже классное! Андрей показывает две модели для создания имен: одну на биграммах и вторую на однослойной нейронной сети. Особенно интересно то, какая разница между сгенерированными результатами.

The spelled-out intro to language modeling: building makemore

We implement a bigram character-level language model, which we will further complexify in followup videos into a modern Transformer language model, like GPT. In this video, the focus is on (1) introducing torch.Tensor and its subtleties and use in efficiently…

141 views10:33

Я тут продолжаю изучать chi-squared. Давно наткнулся на интересную книжку и только сейчас дошли руки почитать её. И она неплоха! Довольно простым (хе-хе) языком в ней рассказывается про работу с категориальными данными. Особо не углубляясь, в введении показывается…

Вторая книжка действительно глубже - в ней даётся сразу два объяснения почему критерий Пирсона хи-квадрат имеет распределение хи-квадрат. А еще там есть забавная история.

Про Менделя и Фишера.

Все же знают Менделя, открывшего законы скрещивания генов? Тесты с горохом и вот это вот всё. Меднель поставил несколько таких опытов. А в 1936 году Фишер взял данные Менделя и проверили их все вместе на следование теоретическому распределению. И он получил результат очень близкий к единице (P=0.99996). Слишком близкий к единице. На основе этого Фишер сделал заключение, что результаты, вероятно, были подделаны помощником Менделя - последний точно знал, каких результатов ожидает его наставник. Это дало начало спорам вокруг исследований Менделя.

Это, кстати, довольно известная особенность. К примеру, если вы считаете меру согласия экспертов (inter-rater reliability) и получаете результат крайне близкий к единице, то часто это говорит не о прекрасных результатах, а либо об ошибке, либо о том, что эксперты в сговоре.

👍1

149 views13:44

Совместное прохождение матанализа и алгебры

Небольшой апдейт про курсы по матану и алгебре. Три человека откликнулись в чате на моё сообщение, а это на три человека больше, чем я ожидал, поэтому совместному прохождению быть!
Я планирую с ноября-декабря начать проходить два курса: по матанализу и по линалу. Я попробую найти курсы, а к ним и подходящие материалы. В канале я постараюсь делать интересные заметки о применимости знаний, ну и вести какой-то отчет о прохождении. А еще я надеюсь, что смогу сделать доказательства лемм и теорем понятными.

Зачем это нужно?

Алгебра и матан - это база для машинного обучения. Тензоры являются базовым примитивом в том же pytorch, а для получения решения используются методы оптимизации из матанализа (тот же градиентный спуск, chain rule). Кроме этого, алгебра и матан - это база для кучи смежных дисциплин, таких как цифровая обработка сигналов и теория информации. А ещё мне кажется, что это полезно просто для саморазвития: понять доказательства, начать мыслить в новых терминах (группы, морфизмы, ядра и т.д).

👍3

138 views09:34

Точный тест Фишера

Тема на эту неделю "Точный тест Фишера" (Fisher’s Exact Test). Этот тест применяется, на малых выборках, когда использование критерия хи-квадрат невозможно. Интересно, что тест опирается на гипергеометрическое распределение и не является приблизительным (как, к примеру, хи-квадрат).

Вопросы на эту неделю:
Как и почему работает тест Фишера?
Почему он называется точным?
Какие границы его применимости?
Покажет ли он такие же результаты, как и тест хи-квадрат на больших выборках?

👍1

138 viewsedited 11:10

Я сейчас прохожу вот этот вот курс по NLP: https://stepik.org/course/54098
Если честно, то я не понимаю, откуда у него такая высокая оценка. Преподаватель на второй неделе делает обработку данных с помощью логистической регрессии. Только делает это он используя один слой нейронной сети. Сами нейронные сети особо не объясняются. Пока что ютюб-ролики от Андрея (см. посты раньше) мне нравятся гораздо больше.

147 views13:50