Data&Knowledge

Я тут сделал небольшой шаблон на английском для материалов по статистике. В нем сочетаются две идеи. Первая: материал должен быть интересен для читающих, люди должны понимать, зачем им это читать. Поэтому в пояснениях можно увидеть требования давать примеры использования и давать общие пояснения. Вторая идея - наш мозг работает чередуя периоды возбуждения и релаксации. Поэтому в шаблоне интересный и простой материал (мотивация, примеры) чередуется с более сложным (основные формулы и разбор принципов работы). Надеюсь, что нибудь из этого получится.

👍1

181 viewsedited 11:21

Data&Knowledge

Задача.

Есть три коробки:

первая содержит две золотых монеты.
вторая содержит две серебряные монеты.
третья содержит одну золотую и одну серебряную монету.

После выбора случайной коробки и случайной монеты из нее, выбранная монета оказалась золотой. Какова вероятность того, что вторая монета в выбранной коробке также золотая?

959 views07:44

Data&Knowledge

Какова вероятность, что вторая выбранная монета также золотая?

Anonymous Quiz

121 voters918 views07:44

Data&Knowledge

Задача.

Еще одна задача из той же серии.

Представьте, что вы стали участником игры, в которой вам нужно выбрать одну из трёх дверей. За одной из дверей находится автомобиль, за двумя другими дверями — козы. Вы выбираете одну из дверей, например, номер 1, после этого ведущий, который знает, где находится автомобиль, а где — козы, открывает одну из оставшихся дверей, например, номер 3, за которой находится коза. После этого он спрашивает вас — не желаете ли вы изменить свой выбор и выбрать дверь номер 2? Увеличатся ли ваши шансы выиграть автомобиль, если вы примете предложение ведущего и измените свой выбор?

904 views09:38

Data&Knowledge

Увеличатся ли ваши шансы выиграть автомобиль, если вы примете предложение ведущего и измените свой выбор?

Anonymous Quiz

102 voters845 views09:38

Data&Knowledge

Какова вероятность, что автомобиль находится за оставшейся дверью (не выбранной вами и не открытой ведущим)?

Anonymous Quiz

87 voters927 views09:38

Data&Knowledge

Для тех, кто хочет понять, как работает метод обратного распространения ошибки: https://www.youtube.com/watch?v=VMj-3S1tku0

Человек пошагово всё объясняет, необходимо только знание английского, школьного курса математики и базового python. Вдобавок, автор придерживает API pytorch, а не придумывает новых названий функций.

YouTube

The spelled-out intro to neural networks and backpropagation: building micrograd

This is the most step-by-step spelled-out explanation of backpropagation and training of neural networks. It only assumes basic knowledge of Python and a vague recollection of calculus from high school.

Links:
- micrograd on github: https://github.com/k…

157 views10:39

Data&Knowledge

Кажется, что ресурсов для изучения глубокого обучения стало слишком много. Вот еще один:
https://course.fast.ai/

Practical Deep Learning for Coders

Practical Deep Learning for Coders - Practical Deep Learning

A free course designed for people with some coding experience, who want to learn how to apply deep learning and machine learning to practical problems.

195 views10:32

Data&Knowledge

Догадайтесь, у кого сегодня последний рабочий день. Надеюсь, что следующий рабочий день будет где-то через год: мне бы хотелось подтянуть дата сайнс + попробовать создать несколько пет-проектов.
В этом чате я хочу публиковать свои короткие заметки и ссылки на ресурсы - других идей у меня нет. А, ну еще я не против поучаствовать в хакатонах. Если у вас есть пожелания к содержанию постов - пишите в комментариях 🙂

🎉4👍2

181 views14:16

Data&Knowledge

Я тут продолжаю изучать chi-squared. Давно наткнулся на интересную книжку и только сейчас дошли руки почитать её. И она неплоха! Довольно простым (хе-хе) языком в ней рассказывается про работу с категориальными данными. Особо не углубляясь, в введении показывается почему биноминальное распределение аппроксимируется нормальным и как можно построить доверительные интервалы.

Книжка:
Agresti, Alan. "An introduction to categorical data analysis." (1996).

Своё 3 издание я нашел на либгене, а первое издание доступно тут: https://mregresion.wordpress.com/wp-content/uploads/2012/08/agresti-introduction-to-categorical-data.pdf

А есть еще и более глубокая от того же автора 😭:
https://lin-yu.me/books/AGRESTI_categorical_data_analysis_2nd.pdf

👍1

142 viewsedited 11:03

Data&Knowledge

Посмотрел второе видео из серии по нейронным сетям:
https://www.youtube.com/watch?v=PaCmpygFfXo

Оно тоже классное! Андрей показывает две модели для создания имен: одну на биграммах и вторую на однослойной нейронной сети. Особенно интересно то, какая разница между сгенерированными результатами.

YouTube

The spelled-out intro to language modeling: building makemore

We implement a bigram character-level language model, which we will further complexify in followup videos into a modern Transformer language model, like GPT. In this video, the focus is on (1) introducing torch.Tensor and its subtleties and use in efficiently…

141 views10:33

Data&Knowledge

Вторая книжка действительно глубже - в ней даётся сразу два объяснения почему критерий Пирсона хи-квадрат имеет распределение хи-квадрат. А еще там есть забавная история.

Про Менделя и Фишера.

Все же знают Менделя, открывшего законы скрещивания генов? Тесты с горохом и вот это вот всё. Меднель поставил несколько таких опытов. А в 1936 году Фишер взял данные Менделя и проверили их все вместе на следование теоретическому распределению. И он получил результат очень близкий к единице (P=0.99996). Слишком близкий к единице. На основе этого Фишер сделал заключение, что результаты, вероятно, были подделаны помощником Менделя - последний точно знал, каких результатов ожидает его наставник. Это дало начало спорам вокруг исследований Менделя.

Это, кстати, довольно известная особенность. К примеру, если вы считаете меру согласия экспертов (inter-rater reliability) и получаете результат крайне близкий к единице, то часто это говорит не о прекрасных результатах, а либо об ошибке, либо о том, что эксперты в сговоре.

👍1

149 views13:44

Data&Knowledge

Совместное прохождение матанализа и алгебры

Небольшой апдейт про курсы по матану и алгебре. Три человека откликнулись в чате на моё сообщение, а это на три человека больше, чем я ожидал, поэтому совместному прохождению быть!
Я планирую с ноября-декабря начать проходить два курса: по матанализу и по линалу. Я попробую найти курсы, а к ним и подходящие материалы. В канале я постараюсь делать интересные заметки о применимости знаний, ну и вести какой-то отчет о прохождении. А еще я надеюсь, что смогу сделать доказательства лемм и теорем понятными.

Зачем это нужно?

Алгебра и матан - это база для машинного обучения. Тензоры являются базовым примитивом в том же pytorch, а для получения решения используются методы оптимизации из матанализа (тот же градиентный спуск, chain rule). Кроме этого, алгебра и матан - это база для кучи смежных дисциплин, таких как цифровая обработка сигналов и теория информации. А ещё мне кажется, что это полезно просто для саморазвития: понять доказательства, начать мыслить в новых терминах (группы, морфизмы, ядра и т.д).

👍3

138 views09:34

Data&Knowledge

Точный тест Фишера

Тема на эту неделю "Точный тест Фишера" (Fisher’s Exact Test). Этот тест применяется, на малых выборках, когда использование критерия хи-квадрат невозможно. Интересно, что тест опирается на гипергеометрическое распределение и не является приблизительным (как, к примеру, хи-квадрат).

Вопросы на эту неделю:
Как и почему работает тест Фишера?
Почему он называется точным?
Какие границы его применимости?
Покажет ли он такие же результаты, как и тест хи-квадрат на больших выборках?

👍1

138 viewsedited 11:10

Data&Knowledge

Я сейчас прохожу вот этот вот курс по NLP: https://stepik.org/course/54098
Если честно, то я не понимаю, откуда у него такая высокая оценка. Преподаватель на второй неделе делает обработку данных с помощью логистической регрессии. Только делает это он используя один слой нейронной сети. Сами нейронные сети особо не объясняются. Пока что ютюб-ролики от Андрея (см. посты раньше) мне нравятся гораздо больше.

147 views13:50

Data&Knowledge

Кстати, о роликах Андрея. Посмотрел очередной ролик: https://www.youtube.com/watch?v=TCH_1BHY58I.
В этом ролике автор показывает, как построить векторную модель букв, используя перцептрон. Как обычно, все показывается по шагам + показываются пара-тройка интересных фишек из pytorch.

YouTube

Building makemore Part 2: MLP

We implement a multilayer perceptron (MLP) character-level language model. In this video we also introduce many basics of machine learning (e.g. model training, learning rate tuning, hyperparameters, evaluation, train/dev/test splits, under/overfitting, etc.).…

176 views13:54

Data&Knowledge

Explain Like I am 5 (Объясни, как будто мне пять лет)

А сегодня произошло интересное: я попытался объяснить жене тест Фишера и хи-квадрат. Оказалось, что объяснить это человеку без опыта далеко не просто. Для начала надо было объяснить простыми словами, как всё работает. Потом - что такое нулевая гипотеза. Потом - что такое распределение. И тут-то и случается заковырка - если ты не в полной мере понимаешь все аспекты объясняемого материала, то и простыми словами ты объяснить не сможешь. Это и произошло со мной. Когда я читал материал, то всё вроде было понятно, было понятно, как применять знания, как всё примерно работает. Но примерного понимания недостаточно.

Какие же уроки можно извлечь из этого? Во-первых, я бы хотел сделать несколько конспектов. Качественные конспекты, мне кажется, помогут самому глубже разобраться. Во-вторых, теперь понятно, как готовиться к экзаменам. Надо просто пытаться объяснить тему человеку, который ничего в этом не соображает. Техника Фейнмана, если хотите.

157 views20:49

Data&Knowledge

Кстати, наткнулся тут на одну книжку по комплексным числам. Комплексные числа часто используются при обработке изображение или временных рядов. К примеру, они фигурируют в рядах Фурье, которые часто используются при анализе временных данных.
Говорят, что неплохая книжка: https://www.amazon.com/Visual-Complex-Analysis-25th-Anniversary/dp/0192868926/
Её можно скачать на либгене (libgen.is).

#комплексныечисла

160 views10:13

Data&Knowledge

Нашел пример на яндекс практикуме.

Пример. Недалеко от пользователя есть 9 ресторанов. Из них надо выбрать 4, которые будут отображаться на главном экране. Сколько есть способов выбрать рестораны?

Что нужно использовать для подсчета: сочетания или размещения?

В сочетаниях порядок элементов не важен, в размещениях важен (1234 и 4321 - два разных размещения). См. всплывающее сообщение после ответ на опрос.

158 views13:58

Data&Knowledge

Что использовать?

Anonymous Quiz

27 voters142 views13:58

Data&Knowledge

Точный тест Фишера Тема на эту неделю "Точный тест Фишера" (Fisher’s Exact Test). Этот тест применяется, на малых выборках, когда использование критерия хи-квадрат невозможно. Интересно, что тест опирается на гипергеометрическое распределение и не является…

Точный тест Фишера

У нас был набор вопросов на неделю:
Как и почему работает тест Фишера?
Почему он называется точным?
Какие границы его применимости?
Покажет ли он такие же результаты, как и тест хи-квадрат на больших выборках?
Попробую на них ответить.

Вообще, тест Фишера применяется тогда же, когда можно применить тест хи-квадрат: есть несколько категориальных переменных, каждая из которых может принимать несколько значений. В отличие от теста хи-квадрат тест Фишера может применяться на достаточно малых данных или когда выборка не сбалансирована.

Как и почему работает тест Фишера?

Тест Фишера опирается на гипергеометрическое распределение. Напомню, что такое гипергеометрическое распределение. Это дискретное вероятностное распределение, которое моделирует вероятность k успехов в n извлечений объекта из выборки, при этом извлечения происходят без возвращения, всего в выборке N объектов, K объектов с искомой фичей, и каждое извлечение является либо успехом либо неудачей.
Давайте представим, что мы проводим некоторый эксперимент. К примеру, смотрим, насколько курение влияет на вероятность рака легких. Если мы знаем, сколько у нас всего курильщиков/некурильщиков, сколько среди них людей с раком легких/без рака легких, то мы можем смоделировать эту проблему с помощью гипергеометрического распределения. Вся выборка у нас будет размера N (курильщики + некурильщики), K объектов с искомой фичей (рак легких), и в первой клетке таблицы сопряжения мы получаем k успехов (курильщики с раком легких). Тест Фишера же состоит в том, чтобы посчитать, насколько вероятен текущий или более экстремальный вариант данных (к примеру, получить больше курильщиков с раком легких).

Почему он называется точным?

Тест называется точным, потому что ситуация точно моделируется гипергеометрическим распределение. Хи-критерий, к примеру, является приближенным, потому что выборочное распределение стремится к распределению Хи-квадрат с увеличением размера выборки.

Какие границы его применимости?

Тест Фишера является вычислительно сложным из-за присутствия факториалов. Однако, сейчас с помощью приближенных методов можно вычислять критерий Фишера для таблиц любых размеров. Дополнительно, стоит помнить, что критерий Фишера дает консервативные оценки, поэтому иногда применяют корректировку, к примеру, Mid-P correction.

150 views11:58

About

Blog

Apps

Platform