Aspiring Data Science
373 subscribers
425 photos
11 videos
10 files
1.87K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#automl #autogluon #lama

Маленькая история о том, как я неудачно пытался протащить automl в проект в последний момент.

В проекте использовали библиотеки своей разработки над бустингами, я запланировал в следующем релизе добавить automl. Ролики Autogluon, где авторы долго хвастаются, какой у них хороший фреймворк, засорили мне мозг (и, видимо, отпечатались на подкорке), а с LaMa у меня был позитивный личный опыт (правда, давно).

Я вспомнил слова Саши Рыжкова, автора LaMa, с презенташки годовой давности, что на бенчмарках autogluon себя плохо показал, т.к. забивал диск моделями, которые его никто не просил сохранять. Но как-то подумал, ну за год же это глупое поведение исправили или позволили отключать, правда?

НЕТ. Herr там. autogluon засрал весь диск облачного сервера, причём выяснилось, что он дампит на диск не только модели, но и ПРИЗНАКИ, полный датасет. Причем делает это снова и снова, если вы обучаете новую модель на тех же данных. И отключить это нельзя, а вручную подчищать за ним данные я не рискнул, потом неясно, запустится ли без подчищенных файлов инференс. В топку. А хвастались-то больше всех.

Ну с Ламой-то проблем не возникло? Тоже не так. ML-сервер с окружением был настроен с python 3.13, что уже казалось рискованным решением, так и вышло, LaMa на этой версии просто не пошла, а пересоздавать окружение не было возможности ) Так что до сл релиза.

Эрго: не берите последнюю версию Питона для ML проектов, берите хотя бы last-1.