Aspiring Data Science

#ml #applied #dyakonov #pzad

Интересные схемы взвешивания наблюдений, с оптимизацией кэфов на CV

https://www.youtube.com/watch?v=8DdHctyl6t0&list=PLaRUeIuewv8CMFox0oEjlyePUhUmo-x0h&index=5&ab_channel=AlexanderD%27yakonov

YouTube

ПЗАД2020. Лекция 3. CASE: Прогнозирование визитов покупателей супермаркетов и сумм их покупок

курс "Прикладные задачи анализа данных", ВМК МГУ, Дьяконов Александр (https://dyakonov.org/ag/)
страница курса: https://github.com/Dyakonov/PZAD/blob/master/README.md

🔥2

55 viewsedited 06:53

Aspiring Data Science

#ml #applied #dyakonov #pzad #anscombe

Продолжаем разбор прогнозирования дня визита и суммы покупок. Крутая идея с доминошками.

https://www.youtube.com/watch?v=6xRqHGkfc6Y&list=PLaRUeIuewv8CMFox0oEjlyePUhUmo-x0h&index=4&ab_channel=AlexanderD%27yakonov

YouTube

ПЗАД2020. Лекция 4. Искусство визуализации (часть 1 - историческая)

❤1

55 viewsedited 11:43

Aspiring Data Science

#ml #applied #dyakonov #pzad

На 16:48 про генерацию некоррелирующих признаков MAD из двух видов средних подумалось провести мини-исследование: нагенерить много случайных 1d массивов с разным распределением, возможно, взять какие-то реальные датасеты, для них всех рассчитать все возможные комбинации таких средних и MAD, посмотреть, какие наиболее некоррелированы (в линейном смысле и смысле взаимной информации) с остальными того же датасета. Возможно, даже потестировать предсказательную силу таких фичей (если составить искусственные зависимости) по сравнению со случайной подвыборкой. Не знаю, можно ли тут ожидать вообще какого-то стабильного обобщения, но если такое вдруг обнаружится, это позволит в реальной работе быстро проверять экзотические "киллер фичи", до которых в конкретном проекте и руки бы не дошли.. Хм, тогда уже и комбинации математических операций полезные исследовать на 18:40.

https://www.youtube.com/watch?v=kOaMvRo2YPI

YouTube

ПЗАД2020. Лекция 6. Искусство визуализации (часть 2 - одномерный анализ)

58 viewsedited 06:28

Aspiring Data Science

#ml #applied #dyakonov #pzad

Крайне интересная идея о дополнительных фичах: взять одномерный сигнал, предсказывать его на N шагов (каким-то простым способом), считать от такого прогноза разные метрики, и уже их использовать как фичи (ну и сами коэффициенты приближения). Высший пилотаж.

https://youtu.be/zX7hzjVBqeM?list=PLaRUeIuewv8CMFox0oEjlyePUhUmo-x0h&t=151

YouTube

ПЗАД2020. Лекция 10. Качество в задачах классификации

❤3

56 viewsedited 05:55

Aspiring Data Science

#ml #applied #dyakonov #pzad #featureselection #permutationimportance #mid #pfi #boruta #ace

Artificial contrasts with ensembles - примечательный метод. Ещё интересна идея, что в обёрточных методах FS оценивать важность признаков надо не тем классом моделей, который будет в итоге обучаться для решения самой ML задачи.

https://www.youtube.com/watch?v=ZRa7-F5PvRk&list=PLaRUeIuewv8CMFox0oEjlyePUhUmo-x0h&index=28

YouTube

ПЗАД2020. Лекция 25. Важность признаков в ансамблях деревьев

134 viewsAnatoly Alekseev, edited 21:14

Aspiring Data Science

#ml #randomforest #pzad #dyakonov #syntheticrf #tricks #mlgems #oof

Понравился совет, как определить n_estimators для лесов, и аргументация, почему его не надо тюнить с HPT.

Оказывается, подрезание деревьев снижает калибровку.

Крутой трюк с подбором порогов для выравнивания распределений в "целочисленной регрессии" (у С. Семёнова это вообще вылилось в подзадачу ML). Кстати, а почему нету лесов, которые могут выдавать медиану в листьях вместо среднего?

OOF-прогнозы - тоже интересная техника, особенно для генерации новых признаков.

https://www.youtube.com/watch?v=sAcjGjMHduc&list=PLaRUeIuewv8CMFox0oEjlyePUhUmo-x0h&

YouTube

ПЗАД2020. Лекция 24. Случайный лес

88 viewsAnatoly Alekseev, edited 13:03

Aspiring Data Science

#ml #gradientboosting #treeboost #pzad #dyakonov #efb #goss #dart

Интересно про Exclusive Feature Bundling, GOSS, DART.

https://www.youtube.com/watch?v=Xrm_evAhDeU&list=PLaRUeIuewv8CMFox0oEjlyePUhUmo-x0h&index=29

YouTube

ПЗАД2020. Лекция 26. Градиентный бустинг

запись 2021 года
курс "Прикладные задачи анализа данных", ВМК МГУ, Дьяконов Александр (https://dyakonov.org/ag/)
страница курса: https://github.com/Dyakonov/PZAD/blob/master/README.md

90 viewsAnatoly Alekseev, edited 14:47

Aspiring Data Science

#featureengineering #dyakonov #pzad

Понравилось:

монотонное преобразование для порядковых признаков (напр, возведение в квадрат);

совет пересоздать признаки, даже если они уже посчитаны в оригинальных данных, сверить во избежание сюрпризов;

трюк с обратными признаками для линейных (только ли?) моделей;

Ordinal/LabelEncoding с индуцированным порядком (лексикографическим, по мере появления категории в датасете, по длине токена и пр);

вообще случайный порядок категорий, с многократным обучением одной и той же базовой модели;

кодирование мелких категорий в одну (сразу мысль, а нельзя ли это как-то улучшить с помощью теории информации? Что, если в категориальном признаке только некоторые уровни несут информацию о таргете, нельзя ли все остальные сплавить в "общую категорию бесполезных"?);

"Applied machine learning is basically feature engineering."
Andrew Ng

https://www.youtube.com/watch?v=QX6ZAhW9yQ8

YouTube

ПЗАД2020. Лекция 16. Генерация признаков (часть 1)

120 viewsAnatoly Alekseev, edited 19:59

Aspiring Data Science

#featureengineering #dyakonov #pzad

Понравилось:

Count Encoding+шум;

Киллер фича кодирования категориальных признаков другими категориальными, через crosstab+SVD;

Target Encoding как форма стекинга;

Target Encoding+мультипликативный шум;

"Экспертное кодирование";

Category Embeddings;

Расстояние (ядро) до какого-то "идеального"/"нормального" объекта как новая фича;

Линейная модель на признаках нелинейной модели (например, сплитах дерева, random forest-based feature induction);

Кодирование M циклических признаков (вместо последовательных возрастающих целочисленных номеров) в 2 новых вектора x,y как t=np.linspace(0,2*np.pi, M+1), x=np.sin(t), y=np.cos(t); -надо бы замутить какой-то CyclicEncoder, кстати.

https://www.youtube.com/watch?v=bTusKjEa4KE

YouTube

ПЗАД2020. Лекция 17. Генерация признаков (часть 2)

110 viewsAnatoly Alekseev, edited 12:37

About

Blog

Apps

Platform