я обучала одну модель
4.59K subscribers
457 photos
29 videos
21 files
379 links
Shitposting on various subjects

PS рекламы в канале нет
Download Telegram
датасет со звуками города
@
gun_shot
@
america yeeeeaaahhhh
Озон начал кастомизировать рекламу перед видосами в ютуб и выдавать там то, что ты в последний раз искал)))) хочется передать тем, кто им контекстную рекламу настраивает, что такая хуйня у меня побуждает не желание вернуться на сайт и купить эти чудесные ботинки, а желание выйти из интернета нахуй навсегда))))))
Состояние сегодня такое
Итак в ходе собеседования я:
* забыла все алгоритмику кроме bubble sort, в голове крутился видос, где методы сортировки иллюстрируют румынскими танцами, но воспроизвести названия я не смогла
* перепутала umap и mapreduce
* поговорила на английском о своем favourite subject и о Evgenii Sokolov, но мне сказали calm down
* сказала, что t-test работает с относительными значениями (не особо блять)
Прикладываю все ссылки, использованные мной, чтобы заботать a/b тесты за полтора дня:

1. Вообще что это такое
2. Очень подробно про t-test, критерий Манна-Уитни и бутстрап (включая ограничения и преимущества каждого из подходов)
3. Отдельно про бутстрап и перестановочные тесты + тестрование стат гипотез бутстрапом
4. Огромный гайдлайн от VK Tech – тут есть и про a/a тесты, что важно, и описание state of the art подходов и статистических тестов, также есть более продвинутые штуки вроде пуассоновского бутстрапа, чтобы не семплить на огромных выборках, симуляция данных, и вообще прикольно
Есть еще интервью с чуваком из ВК, где он все это более гуманитарно объясняет без матеши
5. Про minimum detectable effect (MDE) + как именно его считать и в чем математический смысл
6. Объяснение связи MDE, мощности критерия и уровня значимости (с графиками)
7. Про t-test, дисперсионный анализ и анализ таблиц сопряженности


Зачем-то еще перед интервью ботала DBSCAN и другие методы кластеризации и градиентный бустинг
👍1
Остановите русскую gpt3 пока не поздно
Перерывчик небольшой от материалов по проге

В целом интересная статья о том, как в том числе из-за эпидемий интерьер внутри домов стал почти полностью металлическим и пластиковым, тогда как раньше все было деревянным и обитым тканями. Еще про то, почему все хрущевки строили с балконами, как придумали санаторий, и то, как эти же санатории породили моду на прозрачные дома, панорамные окна и вообще свободную планировку (про виллу "Савой" там тоже есть)

https://knife.media/tuberculosis-modernism/
Что сука характерно на собесе мне опять помогли не графы а DBSCAN, всем срочно ботать DBSCAN
Тайны эйчара сбера (хайрят по фотке)
что волнует американский народ [2]
Как известно, Твиттер почти никогда не дает свой стриминг апи русским, по причине русских хакеров, которые в 2016 украли выборы. Недавно вы могли видеть громкие слова о том, что Твиттер opening up its full tweet archive to academic researchers for free, но это тоже только для девелоперов.
Что делать, если вы русский и все еще хотите ресерчить, что там пишут пендосы? На самом деле решений дохуя и больше.
1. При наличии айди твитов (их периодически выкладывают в открытых датасетах на гитхабе, так как это не противорчит политике конфиденциальности), можно подрубить Hydrator и восстановить сами твиты с некоторой метаинформацией типа описания профиля юзера. Парсится долго и нудно, но чет мне подсказывает, что стриминг апи не очень быстрее. Еще периодически вас могут банить, так как софт симулирует открытие самих твитов с вашего аккаунта, ну и когда вы за час смотрите несколько тысяч твитов без перерыва, твиттеру становится странно.
2. Совершенно волшебный пакет для R, который без наличия апи твиттера (но при наличии совершенно рандомного пустого акка, который вам не жалко) может дать вам считать инфу о пользователях. Если быть точнее, эта штука вытаскивает одновременно 90 (девяносто) параметров по юзерам, вплоть до графов пользователей (!!! вообще это фича только для девов). Очень интересно, почему в твиттере всем так похуй, что это все можно выкачать просто вот так. Конечно, есть лимит запросов, но вроде он исчисляется десятками тысяч.
И немного демонстрации того, что можно вытащить через этот пакет
Мы тут с товарищами кстати запилили нейронку, которая генерит твиты в стиле Пушкина. Пока это все в тестовом режиме, но скоро будут нормальные почищенные данные + видимо нам дадут ru gpt3 xl сберовскую 👀
Уже сейчас моделька может выдавать кеки типа этого:
https://twitter.com/NeuralPushkin/status/1386751533447012357
Этой ночью хочется признаться в любви цветовым палитрам viridis из ggplot2