Озон начал кастомизировать рекламу перед видосами в ютуб и выдавать там то, что ты в последний раз искал)))) хочется передать тем, кто им контекстную рекламу настраивает, что такая хуйня у меня побуждает не желание вернуться на сайт и купить эти чудесные ботинки, а желание выйти из интернета нахуй навсегда))))))
Итак в ходе собеседования я:
* забыла все алгоритмику кроме bubble sort, в голове крутился видос, где методы сортировки иллюстрируют румынскими танцами, но воспроизвести названия я не смогла
* перепутала umap и mapreduce
* поговорила на английском о своем favourite subject и о Evgenii Sokolov, но мне сказали calm down
* сказала, что t-test работает с относительными значениями (не особо блять)
* забыла все алгоритмику кроме bubble sort, в голове крутился видос, где методы сортировки иллюстрируют румынскими танцами, но воспроизвести названия я не смогла
* перепутала umap и mapreduce
* поговорила на английском о своем favourite subject и о Evgenii Sokolov, но мне сказали calm down
* сказала, что t-test работает с относительными значениями (не особо блять)
Прикладываю все ссылки, использованные мной, чтобы заботать a/b тесты за полтора дня:
1. Вообще что это такое
2. Очень подробно про t-test, критерий Манна-Уитни и бутстрап (включая ограничения и преимущества каждого из подходов)
3. Отдельно про бутстрап и перестановочные тесты + тестрование стат гипотез бутстрапом
4. Огромный гайдлайн от VK Tech – тут есть и про a/a тесты, что важно, и описание state of the art подходов и статистических тестов, также есть более продвинутые штуки вроде пуассоновского бутстрапа, чтобы не семплить на огромных выборках, симуляция данных, и вообще прикольно
Есть еще интервью с чуваком из ВК, где он все это более гуманитарно объясняет без матеши
5. Про minimum detectable effect (MDE) + как именно его считать и в чем математический смысл
6. Объяснение связи MDE, мощности критерия и уровня значимости (с графиками)
7. Про t-test, дисперсионный анализ и анализ таблиц сопряженности
Зачем-то еще перед интервью ботала DBSCAN и другие методы кластеризации и градиентный бустинг
1. Вообще что это такое
2. Очень подробно про t-test, критерий Манна-Уитни и бутстрап (включая ограничения и преимущества каждого из подходов)
3. Отдельно про бутстрап и перестановочные тесты + тестрование стат гипотез бутстрапом
4. Огромный гайдлайн от VK Tech – тут есть и про a/a тесты, что важно, и описание state of the art подходов и статистических тестов, также есть более продвинутые штуки вроде пуассоновского бутстрапа, чтобы не семплить на огромных выборках, симуляция данных, и вообще прикольно
Есть еще интервью с чуваком из ВК, где он все это более гуманитарно объясняет без матеши
5. Про minimum detectable effect (MDE) + как именно его считать и в чем математический смысл
6. Объяснение связи MDE, мощности критерия и уровня значимости (с графиками)
7. Про t-test, дисперсионный анализ и анализ таблиц сопряженности
Зачем-то еще перед интервью ботала DBSCAN и другие методы кластеризации и градиентный бустинг
👍1
Перерывчик небольшой от материалов по проге
В целом интересная статья о том, как в том числе из-за эпидемий интерьер внутри домов стал почти полностью металлическим и пластиковым, тогда как раньше все было деревянным и обитым тканями. Еще про то, почему все хрущевки строили с балконами, как придумали санаторий, и то, как эти же санатории породили моду на прозрачные дома, панорамные окна и вообще свободную планировку (про виллу "Савой" там тоже есть)
https://knife.media/tuberculosis-modernism/
В целом интересная статья о том, как в том числе из-за эпидемий интерьер внутри домов стал почти полностью металлическим и пластиковым, тогда как раньше все было деревянным и обитым тканями. Еще про то, почему все хрущевки строили с балконами, как придумали санаторий, и то, как эти же санатории породили моду на прозрачные дома, панорамные окна и вообще свободную планировку (про виллу "Савой" там тоже есть)
https://knife.media/tuberculosis-modernism/
Нож
Пространства света и чистоты: как борьба с туберкулезом повлияла на модернистскую архитектуру
Линолеум и пылесосы, окна в пол и кафель в ванной — сегодня наследие санитарного движения рубежа веков стало таким привычным, что мы его даже не замечаем!
Что я ботала по графам за полтора дня:
1. Теория графов для самых маленьких на Фоксфорде
2. Теория графов для взрослых и заебанных от МФТИ
3. Реально самое понятное объяснение метода ветвей и границ
4. Реально самое понятное объяснение алгоритма Дейкстры
5. Реально самое понятное объяснение алгоритма Флойда
1. Теория графов для самых маленьких на Фоксфорде
2. Теория графов для взрослых и заебанных от МФТИ
3. Реально самое понятное объяснение метода ветвей и границ
4. Реально самое понятное объяснение алгоритма Дейкстры
5. Реально самое понятное объяснение алгоритма Флойда
Что сука характерно на собесе мне опять помогли не графы а DBSCAN, всем срочно ботать DBSCAN
я обучала одну модель
Прикладываю все ссылки, использованные мной, чтобы заботать a/b тесты за полтора дня: 1. Вообще что это такое 2. Очень подробно про t-test, критерий Манна-Уитни и бутстрап (включая ограничения и преимущества каждого из подходов) 3. Отдельно про бутстрап…
It's official: эти ссылки + 40 задачек на sql-ex + знание nlp и берта в частности дадут вам хороший оффер
Как известно, Твиттер почти никогда не дает свой стриминг апи русским, по причине русских хакеров, которые в 2016 украли выборы. Недавно вы могли видеть громкие слова о том, что Твиттер opening up its full tweet archive to academic researchers for free, но это тоже только для девелоперов.
Что делать, если вы русский и все еще хотите ресерчить, что там пишут пендосы? На самом деле решений дохуя и больше.
1. При наличии айди твитов (их периодически выкладывают в открытых датасетах на гитхабе, так как это не противорчит политике конфиденциальности), можно подрубить Hydrator и восстановить сами твиты с некоторой метаинформацией типа описания профиля юзера. Парсится долго и нудно, но чет мне подсказывает, что стриминг апи не очень быстрее. Еще периодически вас могут банить, так как софт симулирует открытие самих твитов с вашего аккаунта, ну и когда вы за час смотрите несколько тысяч твитов без перерыва, твиттеру становится странно.
2. Совершенно волшебный пакет для R, который без наличия апи твиттера (но при наличии совершенно рандомного пустого акка, который вам не жалко) может дать вам считать инфу о пользователях. Если быть точнее, эта штука вытаскивает одновременно 90 (девяносто) параметров по юзерам, вплоть до графов пользователей (!!! вообще это фича только для девов). Очень интересно, почему в твиттере всем так похуй, что это все можно выкачать просто вот так. Конечно, есть лимит запросов, но вроде он исчисляется десятками тысяч.
Что делать, если вы русский и все еще хотите ресерчить, что там пишут пендосы? На самом деле решений дохуя и больше.
1. При наличии айди твитов (их периодически выкладывают в открытых датасетах на гитхабе, так как это не противорчит политике конфиденциальности), можно подрубить Hydrator и восстановить сами твиты с некоторой метаинформацией типа описания профиля юзера. Парсится долго и нудно, но чет мне подсказывает, что стриминг апи не очень быстрее. Еще периодически вас могут банить, так как софт симулирует открытие самих твитов с вашего аккаунта, ну и когда вы за час смотрите несколько тысяч твитов без перерыва, твиттеру становится странно.
2. Совершенно волшебный пакет для R, который без наличия апи твиттера (но при наличии совершенно рандомного пустого акка, который вам не жалко) может дать вам считать инфу о пользователях. Если быть точнее, эта штука вытаскивает одновременно 90 (девяносто) параметров по юзерам, вплоть до графов пользователей (!!! вообще это фича только для девов). Очень интересно, почему в твиттере всем так похуй, что это все можно выкачать просто вот так. Конечно, есть лимит запросов, но вроде он исчисляется десятками тысяч.
The Verge
Twitter is opening up its full tweet archive to academic researchers for free
A full searchable archive of public tweets will now be available for free.
Мы тут с товарищами кстати запилили нейронку, которая генерит твиты в стиле Пушкина. Пока это все в тестовом режиме, но скоро будут нормальные почищенные данные + видимо нам дадут ru gpt3 xl сберовскую 👀
Уже сейчас моделька может выдавать кеки типа этого:
https://twitter.com/NeuralPushkin/status/1386751533447012357
Уже сейчас моделька может выдавать кеки типа этого:
https://twitter.com/NeuralPushkin/status/1386751533447012357
Twitter
Neural Pushkin
Сегодня в метро услышал, как один из проводников по громкоговорителю сообщил: «Сейчас за мной придет женщина и принесет мне стакан воды». Я опешил. Оказывается на этот счет есть статья Уголовного кодекса — до двух лет лишения свободы условно с испытательным…
Этой ночью хочется признаться в любви цветовым палитрам viridis из ggplot2