Борис опять – Telegram

Борис опять

15.9K subscribers

1.46K photos

72 videos

34 files

1.5K links

life = curiosity + irreducible noise

Whois: https://t.me/boris_again/3400

Лс: @btseytlin

Download Telegram

About

Blog

Apps

Platform

Борис опять

15.9K subscribers

Борис опять

Ученые совершенно не умеют делать презентации и выступать

👍1

188 views11:25

Борис опять

Кто-то в комментариях шутил, про 100 картинок и 10000 эпох в диплернинге. Так вот на конфе была статья, где 500 картинок, и 50 эпох. Не ну может и правда работает, но блин

178 views13:26

Борис опять

Я упоролся и решил изобрести новый статистический метод, но кажется у меня не получилось.

Типичная ситуация: у нас есть две колонки X и Y. Мы хотим знать есть ли истиная зависимость между Y от X. Однако в нашем распоряжении только выборка пар (x, y), которая может не отражать истиной зависимости.

167 views11:47

Борис опять

1 картинка: вся совокупность
2: наш семпл

170 views11:48

Борис опять

При этом зависимости может вообще не быть. А ещё может быть такое, что зависимости на самом деле нет, но нам попалась такая "удачный" выборка, что кажется, будто зависимость есть.

Чтобы принять какое-то решение, есть зависимость или нет, мы считаем корреляцию Пирсона между X и Y. Это число от -1 до 1, и чем оно ближе к 1 или -1, тем больше линейная зависимость. Корреляция около 1 примерно значит "всегда, когда X больше своего среднего на eps стандартных отклонений, соответствующий Y тоже больше своего среднего на eps стандартных отклонений". Однако для "удачной" выборки мы всё ещё можем получить большую корреляцию, просто потому что нам не повезло.

Поэтому мы так же считаем p-value: вероятность, с которой наблюдаемая корреляция могла возникнуть случайно. Мы наобум задаемся каким-то уровнем значимости alpha таким, что если p-value меньше этого уровня, мы принимаем, что наблюдаемая зависимость неслучайна. Часто используют alpha=0.05. Это примерно означает, что 5% раз мы будем принимать ложную зависимость за настоящую, и нам это ок.

173 viewsedited 11:54

Борис опять

Я подумал: пусть у нас есть датасет, мы посчитали на нём корреляцию и p-value, и прилетает новая точка (x, y).
Пересчитываем p-value и тогда:
* Если реальная зависимость есть, то новая точка скорее всего должна уменьшить p-value. Т.е. более вероятно, что новая точка будет указывать на имеющуюся зависимость.
* Если реальной зависимости нет, то скорее всего новая точка по крайней мере не уменьшит p-value.

Конечно нам может снова неповезти с конкретными точками, поэтому "скорее всего" тут означает "в среднем".
То есть для выборки с настоящей зависимостью добавление новых данных должно чаще подвтерждать эту зависимоть, а не размывать её.

163 viewsedited 11:59

Борис опять

На основе этого придумал такой метод:
1. Берем половину выборки, считаем на ней p-value для корреляции
2. Докидываем по 10 точек из второй половины, пересчитываем p-value
3. Получаем завивисомть p-value от количества данных в выборке
4. ???

Вот чё с этим делать я пока не придумал, но первая идея такая: если p-value в среднем уменьшается, то всё круто и делаем вывод о значимости. Чтобы понять уменьшается она или нет, возьмем производную в каждой точке, и посчитаем среднюю производную. Получается что-то типа среднего наклона зависимости p-value от количества данных

167 viewsedited 12:01

Борис опять

Раскочегарил jupyter notebook, нагеренил два датасета: чисто шум и слабая зависимость, взял мелкие семплы из обоих, проверил этот метод.

Реально кажется, будто p-value для настоящей зависимости (inf) падает с добавлением данных, а для шума растет. P-value на оси Y на графике

🔥1

169 viewsedited 12:05

Борис опять

Переформулировал эту штуку как задачу классификации: пусть нам на вход поступает семпл, а нам надо по нему ответить: он из датасета с реальной зависимостью (1) или из шума (0). Далее считаем точность

Запустил кросс-валидацию

167 viewsedited 12:06

Борис опять

Для моего велосипеда получлось так: 75% аккураси

174 viewsedited 12:07

Борис опять

А вот что получается, если не выделываться и просто по сеплу считать корреляцию и p-value: 90% аккураси, гораздо лучше велосипеда

175 viewsedited 12:07

Борис опять

В случае с методом "не выделываться" я предсказывал, что зависимость есть (1), просто если p-value меньше alpha.
В случае с новым методом, я предсказывал 1 если среднее/медианная производная p-value при добавлении данных меньше нуля (p-value умеьшается) и p-value меьнше alpha

179 views12:09

Борис опять

Короче говоря, не сработало, но меня не оставляет ощущение, что что-то в этом есть, и что мне не хватает мозгов понять, что именно. Другой вариант в том, что возможно нет никакой информации в добавлении новых данных, потому что все точки независимы между собой. Или корреляция пирсона уже внутри себя учитывает эффект, который я пытаюсь найти.

Можете поиграться: https://colab.research.google.com/drive/1AhAoTAzhvpXyLkk-7xmkzdF7RW29HgyA?usp=sharing

Вопросы в зал:
* Что за велосипед я изобрел? Может кто-то более погруженный в статистику узнает в нём что-то давно изобретенное?
* Как можно это докрутить?
* Как можно это опровергнуть? Моё предположение, что с добавлением новых данных мы ожидаем уменьшения p-value только если зависимость есть, неверное?

new_method.ipynb

Colaboratory notebook

👍1

225 viewsedited 12:12

Борис опять

В комментах описали всю суть ML рисерч

👍2

246 views12:48

Борис опять

😐

235 views10:05

Борис опять

Интересно, как всё в науке работает задом-наперед.

Обычно: заказчик ставит задачу, согласует её с исполнителем, исполнитель делает, сдает работу.
В науке: несколько месяцев делаешь что-то, потом пытаешься найти журнал, куда это примут, подгоняешь структуру/результат под требования журнала.

Ещё пример: публикация в журнале стоит $500 - $2000. Если ты афилирован с университетом, то он платит за тебя. Однако процесс тоже задом-наперед: ты сначала платишь из своих денег, а потом подаешь запрос на возмещение. И тебе вполне могут не возместить.

207 views12:15

Борис опять

Forwarded from Just links

https://twitter.com/lawrennd/status/1406380063596089346

@lawrennd @roydanroy @deliprao I just did a retrospective analysis of 2014 NeurIPS ... There was no correlation between reviewer quality scores and paper's eventual impact. inverseprobability.com/talks/notes/th…

184 views05:08

Борис опять

Forwarded from Small Data Science for Russian Adventurers

#блог
Результаты опроса...
https://dyakonov.org/2021/06/21/ds/

Анализ малых данных

Работа DS: зарплаты, занятость и желания

Подводим итоги опроса по работе аналитиков данных, который ранее запускали на телеграм-канале. Спасибо всем, кто принял участие! Было желание опросить 1000 человек, к тому же в предварительном опро…

179 views12:24

Борис опять

Больше всего интересен этот вывод: у людей работающих с графами больше денег. Я удивлен, я думал графы в индустрии встречаются относительно редко

198 views12:25