Data&Knowledge
130 subscribers
25 photos
21 files
160 links
Работаем с данными
Download Telegram
Я тут сделал небольшой шаблон на английском для материалов по статистике. В нем сочетаются две идеи. Первая: материал должен быть интересен для читающих, люди должны понимать, зачем им это читать. Поэтому в пояснениях можно увидеть требования давать примеры использования и давать общие пояснения. Вторая идея - наш мозг работает чередуя периоды возбуждения и релаксации. Поэтому в шаблоне интересный и простой материал (мотивация, примеры) чередуется с более сложным (основные формулы и разбор принципов работы). Надеюсь, что нибудь из этого получится.
👍1
Задача.

Есть три коробки:

первая содержит две золотых монеты.
вторая содержит две серебряные монеты.
третья содержит одну золотую и одну серебряную монету.

После выбора случайной коробки и случайной монеты из нее, выбранная монета оказалась золотой. Какова вероятность того, что вторая монета в выбранной коробке также золотая?
Какова вероятность, что вторая выбранная монета также золотая?
Anonymous Quiz
19%
2/3
51%
1/2
6%
5/6
24%
1/3
Задача.

Еще одна задача из той же серии.

Представьте, что вы стали участником игры, в которой вам нужно выбрать одну из трёх дверей. За одной из дверей находится автомобиль, за двумя другими дверями — козы. Вы выбираете одну из дверей, например, номер 1, после этого ведущий, который знает, где находится автомобиль, а где — козы, открывает одну из оставшихся дверей, например, номер 3, за которой находится коза. После этого он спрашивает вас — не желаете ли вы изменить свой выбор и выбрать дверь номер 2? Увеличатся ли ваши шансы выиграть автомобиль, если вы примете предложение ведущего и измените свой выбор?
Увеличатся ли ваши шансы выиграть автомобиль, если вы примете предложение ведущего и измените свой выбор?
Anonymous Quiz
68%
Увеличатся
6%
Уменьшатся
26%
Не изменятся
Какова вероятность, что автомобиль находится за оставшейся дверью (не выбранной вами и не открытой ведущим)?
Anonymous Quiz
2%
5/6
36%
1/2
16%
1/3
44%
2/3
2%
3/4
Для тех, кто хочет понять, как работает метод обратного распространения ошибки: https://www.youtube.com/watch?v=VMj-3S1tku0

Человек пошагово всё объясняет, необходимо только знание английского, школьного курса математики и базового python. Вдобавок, автор придерживает API pytorch, а не придумывает новых названий функций.
Догадайтесь, у кого сегодня последний рабочий день. Надеюсь, что следующий рабочий день будет где-то через год: мне бы хотелось подтянуть дата сайнс + попробовать создать несколько пет-проектов.
В этом чате я хочу публиковать свои короткие заметки и ссылки на ресурсы - других идей у меня нет. А, ну еще я не против поучаствовать в хакатонах. Если у вас есть пожелания к содержанию постов - пишите в комментариях 🙂
🎉4👍2
Я тут продолжаю изучать chi-squared. Давно наткнулся на интересную книжку и только сейчас дошли руки почитать её. И она неплоха! Довольно простым (хе-хе) языком в ней рассказывается про работу с категориальными данными. Особо не углубляясь, в введении показывается почему биноминальное распределение аппроксимируется нормальным и как можно построить доверительные интервалы.

Книжка:
Agresti, Alan. "An introduction to categorical data analysis." (1996).

Своё 3 издание я нашел на либгене, а первое издание доступно тут: https://mregresion.wordpress.com/wp-content/uploads/2012/08/agresti-introduction-to-categorical-data.pdf

А есть еще и более глубокая от того же автора 😭:
https://lin-yu.me/books/AGRESTI_categorical_data_analysis_2nd.pdf
👍1
Посмотрел второе видео из серии по нейронным сетям:
https://www.youtube.com/watch?v=PaCmpygFfXo

Оно тоже классное! Андрей показывает две модели для создания имен: одну на биграммах и вторую на однослойной нейронной сети. Особенно интересно то, какая разница между сгенерированными результатами.
Data&Knowledge
Я тут продолжаю изучать chi-squared. Давно наткнулся на интересную книжку и только сейчас дошли руки почитать её. И она неплоха! Довольно простым (хе-хе) языком в ней рассказывается про работу с категориальными данными. Особо не углубляясь, в введении показывается…
Вторая книжка действительно глубже - в ней даётся сразу два объяснения почему критерий Пирсона хи-квадрат имеет распределение хи-квадрат. А еще там есть забавная история.

Про Менделя и Фишера.

Все же знают Менделя, открывшего законы скрещивания генов? Тесты с горохом и вот это вот всё. Меднель поставил несколько таких опытов. А в 1936 году Фишер взял данные Менделя и проверили их все вместе на следование теоретическому распределению. И он получил результат очень близкий к единице (P=0.99996). Слишком близкий к единице. На основе этого Фишер сделал заключение, что результаты, вероятно, были подделаны помощником Менделя - последний точно знал, каких результатов ожидает его наставник. Это дало начало спорам вокруг исследований Менделя.

Это, кстати, довольно известная особенность. К примеру, если вы считаете меру согласия экспертов (inter-rater reliability) и получаете результат крайне близкий к единице, то часто это говорит не о прекрасных результатах, а либо об ошибке, либо о том, что эксперты в сговоре.
👍1
Совместное прохождение матанализа и алгебры

Небольшой апдейт про курсы по матану и алгебре. Три человека откликнулись в чате на моё сообщение, а это на три человека больше, чем я ожидал, поэтому совместному прохождению быть!
Я планирую с ноября-декабря начать проходить два курса: по матанализу и по линалу. Я попробую найти курсы, а к ним и подходящие материалы. В канале я постараюсь делать интересные заметки о применимости знаний, ну и вести какой-то отчет о прохождении. А еще я надеюсь, что смогу сделать доказательства лемм и теорем понятными.

Зачем это нужно?

Алгебра и матан - это база для машинного обучения. Тензоры являются базовым примитивом в том же pytorch, а для получения решения используются методы оптимизации из матанализа (тот же градиентный спуск, chain rule). Кроме этого, алгебра и матан - это база для кучи смежных дисциплин, таких как цифровая обработка сигналов и теория информации. А ещё мне кажется, что это полезно просто для саморазвития: понять доказательства, начать мыслить в новых терминах (группы, морфизмы, ядра и т.д).
👍3
Точный тест Фишера

Тема на эту неделю "Точный тест Фишера" (Fisher’s Exact Test). Этот тест применяется, на малых выборках, когда использование критерия хи-квадрат невозможно. Интересно, что тест опирается на гипергеометрическое распределение и не является приблизительным (как, к примеру, хи-квадрат).

Вопросы на эту неделю:
Как и почему работает тест Фишера?
Почему он называется точным?
Какие границы его применимости?
Покажет ли он такие же результаты, как и тест хи-квадрат на больших выборках?
👍1
Я сейчас прохожу вот этот вот курс по NLP: https://stepik.org/course/54098
Если честно, то я не понимаю, откуда у него такая высокая оценка. Преподаватель на второй неделе делает обработку данных с помощью логистической регрессии. Только делает это он используя один слой нейронной сети. Сами нейронные сети особо не объясняются. Пока что ютюб-ролики от Андрея (см. посты раньше) мне нравятся гораздо больше.
Кстати, о роликах Андрея. Посмотрел очередной ролик: https://www.youtube.com/watch?v=TCH_1BHY58I.
В этом ролике автор показывает, как построить векторную модель букв, используя перцептрон. Как обычно, все показывается по шагам + показываются пара-тройка интересных фишек из pytorch.
Explain Like I am 5 (Объясни, как будто мне пять лет)

А сегодня произошло интересное: я попытался объяснить жене тест Фишера и хи-квадрат. Оказалось, что объяснить это человеку без опыта далеко не просто. Для начала надо было объяснить простыми словами, как всё работает. Потом - что такое нулевая гипотеза. Потом - что такое распределение. И тут-то и случается заковырка - если ты не в полной мере понимаешь все аспекты объясняемого материала, то и простыми словами ты объяснить не сможешь. Это и произошло со мной. Когда я читал материал, то всё вроде было понятно, было понятно, как применять знания, как всё примерно работает. Но примерного понимания недостаточно.

Какие же уроки можно извлечь из этого? Во-первых, я бы хотел сделать несколько конспектов. Качественные конспекты, мне кажется, помогут самому глубже разобраться. Во-вторых, теперь понятно, как готовиться к экзаменам. Надо просто пытаться объяснить тему человеку, который ничего в этом не соображает. Техника Фейнмана, если хотите.
Кстати, наткнулся тут на одну книжку по комплексным числам. Комплексные числа часто используются при обработке изображение или временных рядов. К примеру, они фигурируют в рядах Фурье, которые часто используются при анализе временных данных.
Говорят, что неплохая книжка: https://www.amazon.com/Visual-Complex-Analysis-25th-Anniversary/dp/0192868926/
Её можно скачать на либгене (libgen.is).

#комплексныечисла
Нашел пример на яндекс практикуме.

Пример. Недалеко от пользователя есть 9 ресторанов. Из них надо выбрать 4, которые будут отображаться на главном экране. Сколько есть способов выбрать рестораны?

Что нужно использовать для подсчета: сочетания или размещения?

В сочетаниях порядок элементов не важен, в размещениях важен (1234 и 4321 - два разных размещения). См. всплывающее сообщение после ответ на опрос.
Data&Knowledge
Точный тест Фишера Тема на эту неделю "Точный тест Фишера" (Fisher’s Exact Test). Этот тест применяется, на малых выборках, когда использование критерия хи-квадрат невозможно. Интересно, что тест опирается на гипергеометрическое распределение и не является…
Точный тест Фишера

У нас был набор вопросов на неделю:
Как и почему работает тест Фишера?
Почему он называется точным?
Какие границы его применимости?
Покажет ли он такие же результаты, как и тест хи-квадрат на больших выборках?
Попробую на них ответить.

Вообще, тест Фишера применяется тогда же, когда можно применить тест хи-квадрат: есть несколько категориальных переменных, каждая из которых может принимать несколько значений. В отличие от теста хи-квадрат тест Фишера может применяться на достаточно малых данных или когда выборка не сбалансирована.

Как и почему работает тест Фишера?

Тест Фишера опирается на гипергеометрическое распределение. Напомню, что такое гипергеометрическое распределение. Это дискретное вероятностное распределение, которое моделирует вероятность k успехов в n извлечений объекта из выборки, при этом извлечения происходят без возвращения, всего в выборке N объектов, K объектов с искомой фичей, и каждое извлечение является либо успехом либо неудачей.
Давайте представим, что мы проводим некоторый эксперимент. К примеру, смотрим, насколько курение влияет на вероятность рака легких. Если мы знаем, сколько у нас всего курильщиков/некурильщиков, сколько среди них людей с раком легких/без рака легких, то мы можем смоделировать эту проблему с помощью гипергеометрического распределения. Вся выборка у нас будет размера N (курильщики + некурильщики), K объектов с искомой фичей (рак легких), и в первой клетке таблицы сопряжения мы получаем k успехов (курильщики с раком легких). Тест Фишера же состоит в том, чтобы посчитать, насколько вероятен текущий или более экстремальный вариант данных (к примеру, получить больше курильщиков с раком легких).

Почему он называется точным?

Тест называется точным, потому что ситуация точно моделируется гипергеометрическим распределение. Хи-критерий, к примеру, является приближенным, потому что выборочное распределение стремится к распределению Хи-квадрат с увеличением размера выборки.

Какие границы его применимости?

Тест Фишера является вычислительно сложным из-за присутствия факториалов. Однако, сейчас с помощью приближенных методов можно вычислять критерий Фишера для таблиц любых размеров. Дополнительно, стоит помнить, что критерий Фишера дает консервативные оценки, поэтому иногда применяют корректировку, к примеру, Mid-P correction.