DenoiseLAB

🤐

🤐Очень интересное наблюдение провел. Сижу на Kaggle и решаю таски по продуктовой аналитике и предсказанию поведения пользователей на одном из соревнований. Есть датасет на 64 фичи. Он сборный из несколько частей, то есть исходный датасет состоит из 6 разношерстных датасетов, которые собирались как лоскутное одеяло по кускам и после этого делалось очистка датасета и генерация новых фичей.

🥵

🥵Стояла задача оптимизации решения, чтобы уменьшить размер датасета (датафрейма), но вместе с тем не потерять в точности по скору модели, при этом надо было пройти еще по памяти, так как Kaggle, дает лишь 30 гигабайт оперативной памяти на решение. На чанки разбивать не хотелось, поэтому было принято решение все ужать до единого куска и попробовать поработать плотно с ним.

😶‍🌫️

😶‍🌫️Перерыл всю сеть на все возможные комбинации по решению, плотно поработал с разрядностью данных и представлением фичей в общем контексте, какие ролевантные какие нет, и как их можно использовать в более удобном формате, чтобы они давали больше профита на финале. То есть пошел не накручивать модели и их гиперпараметры, больше углубился в математику "сырых" данных.

🥳

🥳В итоге, удалось время обучения сократить на целый час и 30 минут, Карл !!! 1.5 часа выигрыша. Невероятно, я предполагал, что будет выигрышь, но не настолько круто, при этом скор по модели был улучшен.

😆

😆 Да, соревнование не новое, но мне захотелось "потестить" и посмотреть, что в итоге получится и поработать с данными в более "спокойной" обстановке плюс здесь есть обширный набор фичей. В общем, плотно заходим на Kaggle и мутим там таски, благо на это сейчас есть время и ресурсы. В целом я доволен результатом, но можно еще улучшить. Все пруфы прилагаю. Из 2621 решения мое оказалось на 401. Максимальный скор, 0.40914, я показал 0.40223. В целом можно еще дожимать и поднимать скор, но задача была именно поработать с сырыми данными и посмотреть профит от оптимизации. Считаю в целом получилось.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3

84 views20:10