Aspiring Data Science
369 subscribers
427 photos
11 videos
11 files
1.89K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
😁1
#timeseries #ensembling #hetboost #pmdarima #todo

Вот попался классный пример, где идея "гетерогенного бустинга" отлично отрабатывает.

Лектор на синтетике сравнивает ариму и ансамбль линрег+дерево.

В задачах на временные ряды декомпозиция на тренд, сезонность и остаточные нерегулярный сигнал очевидна и необходима, но можно посмотреть на проблему в общем - классы моделей имеют свои ограничения (деревянные модели регрессии, к примеру, плохо моделируют линейные зависимости), и обучение модели одного класса на невязках модели другого класса способно показать отличные результаты.

В то же время, сейчас самыми распространёнными методами ансамблирования являются стэкинг (когда для моделей последующего уровня меняется признаковое пространство) и гомогенный бустинг (например, градиентный над деревьями в catboost/xgboost/lightgbm), а вот идею бустинга гетерогенного как будто никто и не рассматривает, и как будто бы нет опенсорсных реализаций.

Истоки такого предубеждения, похоже, растут из ранних статей о бустинговом подходе над "слабыми моделями" (weak learners). Выбор именно слабых моделей аргументировался контролем переобучения, равномерностью шагов процесса обучения, фокусом на сложных для предсказания примерах (которые более сильная модель могла бы просто запомнить).

Мне кажется, "слабость" и одинаковость участников ансамбля не всегда благо, и на практике есть смысл в каждой конкретной задаче проверять (на CV) наиболее выгодный подход к ансамблированию, от простого усреднения моделей и ensemble selection (который мы недавно рассматривали) до стэкинга и двух видов бустинга, одно- и разнородного.

На этот год планирую сравнительное исследование )

Видимо, относительно небольшая статья о том, как стать лучше в DS, которую я подготовил, столкнувшись с неспособностью современных библиотек градиентного бустинга хорошо смоделировать простую зависимость Y=X, вырастет в большое сравнение алгоритмов ансамблирования.

Постараюсь захватить Ensemble Selection (1, 2, 3), опции ансамблирования рассмотренные в #kagglebook (1, 2, 3), и Cascade Generalization/Cascading/Delegating (or Selective Routing)/Arbitrating.
🔥4👍1
#ensembling #tabm #anns

Из интересного:

эмбеддинги непрерывных признаков позволяют лучше учиться - выучивают "высокочастотные" зависимости, делают сеть НЕинвариантной к поворотам
ансамбли оптимизируются как единое целое, синхронно по итерациям


https://www.youtube.com/watch?v=qpdGUFF7vsI
👍1
#hpo #hpt #optuna

Приятное интро в Оптуну, с примерами, в т.ч. пруннинга. Вообще у него классный ютуб-канал по ML/DS, такие темы отличные поднимает, и очень продуктивный лектор.

https://www.youtube.com/live/QejQVLkkgRA?si=eiBKOrAQ6bbt4y24
#sklearn

А вот пример роутинга метаданных в sklearn, появившийся относительно недавно. Раньше подобных эффектов (передачи произвольных именованных массивов/объектов любым компонентам конвейера) можно было достичь лишь частично, с использованием глобальных переменных, что к тому же было ненадёжно, неэлегантно и криво.

https://www.youtube.com/watch?v=lQ_-Aja-slA
🔥1
#nlp #pca #dimreducers

Интересный рецепт: блок, дающий разреженные (sparse) признаки, после него PCA, дающий на выходе уже разумное количество плотных (dense) признаков.

https://www.youtube.com/watch?v=x7RX8VprCnE
#fairness #weights

Извечный вопрос: большая модель для всей популяции, или индивидуальные модели для подгрупп?

Автор предлагает еще более успешную альтернативу - учиться на всём датасете, а для нужной подгруппы использовать большие веса.

И даже подбирать веса важной группы на CV - хотя тут CV будет нестандартной, ибо веса не являются гиперпараметром модели, формально они на самом деле параметры метода fit )

https://www.youtube.com/watch?v=REIg5NH2SNc
2
#music #poetry #gpt

"А ты подбросила мне грамм" )

"Here it comes, it's beginning now,
Someone knocks, hear the knocking sound.
Soon the door will be breaking down,
It won’t hold, they will force it out.

Hello, I knew,
The final act would come for me and you.
I knew,
But never thought it’s you—
Them and you,
With those honest eyes so true.
You recall, I said before,
Love will strike us to the core.

It could have been another face,
But for you, it was set in stone—
Drop a gram, then leave no trace,
Wear a badge and play their role.

Hello, I knew,
The final act would come for me and you.
I knew,
But never thought it’s you—
Them and you,
With those honest eyes so true.
You recall, I said before,
Love will strike us to the core.

And you planted me that gram..."

https://www.youtube.com/watch?v=o0e3NYC6tjE
👍1
#politics

О, как и сообщала компания СВР & Соловей еще год назад, талибов собираются "ратифицировать". В то же время в тюрьму сажают честных смелых людей, которые высказываются против войны, а террористами признают журналистов и россиян, делавших небольшие пожертвования в ФБК на борьбу с коррупцией в стране.

"Новость дня, которая многое говорит о сегодняшней России.

Генпрокуратура попросила Верховный Суд разрешить в России движение «Талибан»

Исковое заявление за подписью генерального прокурора уже поступило в Верховный Суд и принято к производству. Заседание назначено на 17 апреля. Проведёт его судья Олег Нефёдов, который в ноябре 2023 года признал «экстремистским» и запретил в России несуществующее «движение ЛГБТ».
Надзорное ведомство просит приостановить запрет на деятельность движения «Талибан», которое находится в списке террористических организаций больше 20 лет.

В суде уже уточнили, что заседание пройдет в закрытом режиме. То есть журналисты скорее всего не услышат причин, по которым Генпрокуратура считает талибов друзьями.

Несмотря на запрещенный статус, представители «Талибана» уже несколько лет ездят на официальные мероприятия в Россию: они принимали участие в международных форумах в Санкт-Петербурге и Казани, где обсуждали борьбу с терроризмом, наркотрафиком и высказывались о проблемах образования. В прошлом году Путин назвал их «союзниками».

В декабре Госдума приняла закон, позволяющий исключать организации из списка террористических. Ранее эту идею поддержали в Минюсте и Министерстве иностранных дел.

Напомним, что талибы пришли к власти в Афганистане в 2021 году. Они запрещают женщинам учиться даже в начальной школе, выходить на улицу без чадры, ходить в спортзалы и гулять в парках с мужчинами. Представители движения неоднократно говорили о намерении забивать женщин камнями за измены, а также публично пороть."
Original-Microsoft-Source-Code.pdf
94.5 MB
#basic #gates

"Altair BASIC он назвал «самым крутым кодом, который я когда-либо писал». Источником вдохновения для этого проекта послужил номер журнала Popular Electronics за январь 1975 года — на его обложке был компьютер Altair 8800, побудивший Гейтса заняться разработкой ПО. Он и Аллен обратились в выпустившую компьютер компанию MITS (Micro Instrumentation and Telemetry Systems) и предложили интерпретатор языка программирования BASIC для этой модели.

Этот продукт позволил бы большому числу пользователей с лёгкостью создавать собственные программы, но Гейтсу и Аллену потребовались несколько месяцев, чтобы добиться этого результата. Altair BASIC стал первым продуктом, который Гейтс и Аллен разработали для новой компании, тогда называвшейся Micro-Soft, а от дефиса они избавились позже. Исходный код занимает 157 страниц."

https://3dnews.ru/1120740/k-50letiyu-microsoft-bill-geyts-opublikoval-samiy-krutoy-kod-kotoriy-kogdalibo-pisal