🏆 Data Feeling 🤹
10.5K subscribers
472 photos
78 videos
4 files
256 links
ML лидер в Dodo Brands 🦤🍕
Прокачиваю людей в Data Science 🚀
Победитель Stepik Awards 🏆
IT предприниматель и препод 🧑‍🏫
Kaggle Expert 🤹‍♀️
Создатель @Speakadora_bot @Avatar_resume_bot

Александр Миленькин @Ale_v2
Download Telegram
Учусь у самого себя

Год назад проводил онлайн-вебинар по организации кода и прочие продакшен приемчики по анализу данных.

Недавно мне понадобилось снова прочитать этот вебинар. Поймал себя на мысли, что не помню, как организовывал практику. Начал пересматривать запись вебинара. И тут меня накрыло. Примерно 30% процентов того что "я" рассказываю, я настоящий уже не помню так детально. Слушаю и понимаю, что какие-то вещи для меня чуть ли не в новинку. А некоторые вопросы студентов настолько тогда были актуальны, что я даже пару недель назад ими сам задавался. Хотя год назад мы активно дискутировали, и прошлый "я" был уже "в теме".

Эффект был настолько странный, что я даже в один момент начал конспектировать самого себя. Записывать в блокнот вещи, которые "я" год назад свободно брал прям из головы.

Вывод: постоянно освежайте в памяти best practices. Сейчас у вас в "кэше" только то, что нужно прям сейчас. Не думайте, что всегда будете помнить все, даже если ранее этим вещам виртуозно учили других людей .
Недавно закончили очередной запуск марафона - "Хочу крутой оффер" на английском.

Теперь у нас есть новая фича - "звездные гости". В прошлый раз расшевелил ребят Михаил Романов. Мне вот интересно, а много ли тут кто тех, кто знает его?)

Даже для меня гость до последнего был в секрете. Мне прям хорошо зашли более глубокие диалоги про CV/DL на английском.

Кстати, именно с курса Михаила началось мое погружение в CV.
...Не зря месяц виртился чатился с сотрудником одной каршеринговой фирмы...

Ценность курса по анализу данных определяется, в том числе, интересностью и практичностью решаемых бизнес задач на основе реальных данных.

Так вот, недавно удалось получил обезличенный фрагмент данных реальных каршеринговых поездок. Да еще и с интересными таргетами, которые хорошо прогнозируются.

До этого делал попытки добыть данных от других фирм, но все они были слишком неповоротливы, чтоб хотя б агрегированные варианты предоставить.

+ 10 к бизнесовости моего предстоящего курса.

Почему было тупо не взять с Kaggle, спросите вы?! - А вот не смог подобрать такой, чтоб максимально покрыть интересующие меня техники. А теперь покрывается ~90% программы
Открыл для себя новый вид блендинга моделей.

Блендим разные версии фреймворков. Сами посмотрите какая диверсификация =)
This media is not supported in your browser
VIEW IN TELEGRAM
Обучении ML моделей или подготовка данных иногда занимают часы.

Впервые скоротал это время в «ином мире». Не заметил как несколько часов провел в виртуальной онлайн вселенной. Резался в какой онлайн шутер. Сильно затягивает, обратно в реальность потом выходить сложно.

😳 Ранее много слышал про VR/AR, но это было не так интересно. А вот когда пробуешь технологии на вкус в реальности - то начинаешь понимать, что будущее уже тут. Едва ли такой мир вокруг можно себе нафантазировать самостоятельно.

🤔 После карьеры в соревновательном DS уйду в GameDev. Эта индустрия очень далеко шагнула.

#Oculus2
#Redmadrobot
\

update:

Случайно в кармане нажалось😅
Давайте тогда просто пообщаемся что ли?!
Пишите в коменты вопросы/боли
Такс, чемпионы!

Как вы помните, недавно прошёл второй запуск программы “Хочу крутой оффер”. Мы целый месяц гоняли группу ребят по тех собесами, собрали итоговый фидбэк, и пришли к парадоксальному выводу:
Чтобы успешно проходить собесы, надо ходить на собесы.
Хотя бы на тренировочные, что мы устраивали каждую неделю.

За два запуска мы выработали методику проведения таких собесов, чтобы участники могли проработать: 1) уверенность в себе 2) софт-вопросы 3) хард-вопросы. И были готовы к чему угодно на реальных собесах.

Эти командные “прожарки” мощно забустили ребят. Теперь мы решили проводить их масштабнее! И добавить не только английский, но и русский трек.

Если ты тоже хочешь побороть свой страх собесов и отполировать свои ответы, приходи на ближайшую Командную прожарку! Подробности здесь.

Чтобы попасть в ближайший пак, заполни анкету до конца этого четверга, и уже на этих выходных мы встретимся на Командной прожарке!

😈 Особый гость - Рома. Если смотрели выпуск про Рому, то вам должно быть страшно...
Убежден, что хотя бы в выходные надо позволять себе отдыхать и приходить в эти дни на работу не раньше 12:00.
Доброе утро, чемпионы!

Понял, что вчера был неправ. Нельзя заставлять людей идти против своей воли и отдыхать в выходные. Поэтому сегодня я отменяю любой отдых. Можете работать с кайфом хоть до полуночи. Не благодарите.
Финишировали American Express на Kaggle.

Ставьте 👍 или 👎
Если верите или не верите, что меня подкинет в медали соответственно.

Всего 5к участников. До медалей лететь 400 мест =)

Добрых снов.
🏆 Data Feeling 🤹
Финишировали American Express на Kaggle. Ставьте 👍 или 👎 Если верите или не верите, что меня подкинет в медали соответственно. Всего 5к участников. До медалей лететь 400 мест =) Добрых снов.
Плох тот преподаватель по Data Science, который не может попасть в медали на Kaggle.

Как итог, поднялись на привате на 700 мест вверх и забрали серебро🥈🏆

💪🤪 Это мой самый большой шейкап к топу. А вы знаете, я всегда поднимаюсь только вверх, и в этом нет никакой случайности. Про стабилизации и диверсификации моделей я знаю не мало. Это один из крупнейших чемпионатов по количеству участников - 5к человек 😱

😊 Отдельная гордость - это мои марафонцы с 169 места. Ребята одной рукой решают производственные задачи в red_mad_robot, а другой фармят медали на Kaggle. Мечта, а не жизнь! Мы с ними уже сильно прокачались и дальше будем фармить уже только золото🥇 Целимся в Computer Vision 🚀

Кстати, с моим товарищем / тиммейтом Иваном я познакомился, когда тот пришел к нам разносить мок-интервью. Собес не разнёс, но медали зарабатывать научился.

Секрет успеха:
🏌️ Не брать решения с форума на Kaggle
🧠 Умение писать хороший код
👨🏻‍🌾 Feature Engineering
🤠 Навык тюнить бустинги
📈 Качественная валидация
Да кто такой этот ваш Алерон?!

Меня зовут Александр Миленькин. Тут рассказываю, как двигаюсь по карьере и развлекаюсь в мире IT и AI. Пишу про личные успехи и неудачи открыто. Про маркетинг и разработку.

🚦Кратко про себя:
Вырос в Сочи. Окончил Физтех. Работал генным инженером. Ушел в IT. Жил год в Азии. Организовал бизнес с оборотом 10М в год. Выиграл Stepik Awards 2023. Уже 7+ лет в IT с уклоном в машинное обучение. Kaggle Expert.

🏄 Где работал?
👉 Insilico Medicine 👉 Gero 👉 Асна 👉 Х5 👉 red_mad_robot 👉 Dodo Brands. В последнем лидирую команду из 7+ Data Scientist'ов. Решаем разные задачи сети из 1000+ пиццерий.

🏎 Почему Data Science?
В первую очередь, тут есть чемпионаты с лидербордами (рейтинг участников). Меня драйвит чувство конкуренции. Строя ML модели и вскарабкиваясь по лидерборду вверх, я испытываю теплое чувство азарта. Желание обойти лидеров индустрии и занять топ-1 вынуждает быстро развиваться и погружаться в задачи глубже.
А еще приятно, что умение конвертировать данные в деньги делает меня востребованным специалистом. Выработанная интуиция извлекать пользу из данных - это залог успеха. Отсюда название канала - Data Feeling.

🎯 Какие планы на жизнь?
Д
о конца года развиться в роли лидера быстрорастущего ML отдела, поднять $1М выручки на Gen AI, завоевать титул Kaggle Grand Master'а. Следи за каналом, и я покажу тебе, как этого добиться 🎯

🧠 Куда дальше?
Развивать свои команды и прокачивать тебя своими постами!

Почему Алерон?
Так меня в шутку называют дома. А еще к имени Алерон проще привязать личный бренд. Мне нравится имя Александр, но Алерон такой один.

Чем увлекаюсь?
Запускаю IT проекты. Путешествую. Обожаю активности (вейк-борд / сноуборд / коньки). Раньше профессионально занимался парусным спортом, выигрывал регаты. Любовь соревноваться осталась, но деятельность поменялась. Киноман. Много гуляю по паркам. Нравятся art выставки и прогулки «глазами инженера». Люблю стейки и свиные ребра.

🎚️ Подписывайтесь @datafeeling
Please open Telegram to view this post
VIEW IN TELEGRAM
А что далеко ходить то!?

Оставляете книжку про вашу сферу деятельности на доступном языке в уборной. Как итог, через пару месяцев родня внезапно начинает вас понимать. Проверено.
🥳 С первым днем осени вас, чемпионы!

🤔 Утром понял, что надо вести мелкого в первый класс написать статью, про свои идеи решений по недавним двум соревнованиями на Kaggle, принесшим мне медали🥉🥈. Amex оказался самым разнообразным в плане идей💪

Прикладываю схему, которую разберу в статье на Хабр. Так же, расскажу еще про решение других участников. Там есть очень классные задумки😳

Вижу тренд, как трансформеры начинают успешно конкурировать сочетаться с бустингами.
Год назад слушал доклад по авто-ML от LAMA, и как тот автоматизирует работу DS'ов в Сбере.

🧠 Тогда пришел мыслями к критерию. Если ты знаешь, как обойти авто-ML по точности, значит, ты будешь востребованным специалистом.

🙅‍♂️ Кстати, наивную идею на изи выигрывать, используя авто-ML я слил еще год назад, когда три чемпионата подряд ничего не выиграл. Под капотом много сильных идей. Быстро выходишь в топ, но потом тебя запросто скидывают вниз скилованные ребята без всякого автомл'я.

Update:
🤔 А вот критерий успешности для AutоML - это способность обойти 95% участников по точности в задаче классификации / регрессии.
Переверну календарь за вас. Недорого.
Когда собесишь джуна и в конце спрашиваешь его, какими задачами он хотел бы заниматься. А он такой:
Логарифмируй таргет иначе зачем математики придумали логарифм?!

Помните пост про логарифмирование таргета в задаче регрессии? Логарифмирование таргета хорошо помогает в случае линейных моделей📈 А вот более сложным моделям по типу градиентных бустингов (Catboost / LigthGBM / XgBoost) неважно распределение таргета📉 И или все-таки важно?

🤓 С одной стороны, при построении "дерева" в бустинге абсолютно неважна шкала по которой делать сплит, то есть логарифмирование таргета не важно.

🤔 Однако, как показывает практика (Raif-Hack 2021), логарифмирование таргета все же может помочь поднять скор. Как так?!

Моя версия: при построении дерева валидационная метрика все же зависит от шкалы (MSE/MAE/MAPE и тп). Поэтому от логарифмирования все же зависит построение дерева.

А как вы думаете, что может при построении дерева в бустинге измениться? Или это все бред и эффекта от этого не будет?!

Услышал еще клевую идею про влияние на сцепку признаков от @Ppilif и про влияние на бинаризацию признаков от @slivka_83


🤫 Умение самому себе отвечать на такие вопросы делает вас сильным оппонентом в вопросе построения моделей.
👨🏻‍🌾 Мне в личку часто пишут платные предложения о размещении вакансий. Однако, мой канал был придуман не для этого, и я почти всегда отказываюсь или реферю кентов.

🧠 Тем не менее, я хочу, чтоб HR'ы присылали не только мне свои открытые и интересные вакансии. Поэтому, как вы помните, я создал под это дело специальный канал, куда регулярно отправляю всех HR'ов, которые стучатся мне в личку. Так я делюсь вакансиями с вами.

🤫 Недавно там снова замелькали вакансии на Data Engineer'ов и ML Engineer'ов в Турцию. Кому-то это будет интересно. Забирайте.

Вот сам канал. В нем уже больше 3к человек😱🤪😊

Добавляйтесь сами и добавляйте знакомых HR'ов. Свободу информации! Всем крутых вакансий!

#Алерон_делится
В Русский орфографический словарь внесли 150 новых слов. Это первое масштабное обновление словаря в текущем году. Множество новых слов относится к IT-сфере. Я погуглил и был приятно удивлен, среди новых есть такие слова как:

- Телеграм-канал
- Погуглить
- Фармить
- Каглер / Грендмастер
- Бэггинг / Бустинг
- Блендинг / Стэкинг
- Приват / Паблик
- Бутстрэп / Семплирование
- Псевдолейблинг
- Шейкап
- Голда / Сологолд
- Фаанг
- Удаленка / Коворкинг
- Пруф / Апвот / Апруф
- ...

Можете на досуге изучить значения, чтоб понимать меня и других блогеров лучше😅

#fake_news
Доброе утро!

Мы тут с парнями из red_mad_robot пытаемся выиграть медали в HubMAP (задача сегментации изображений). Вчера миновали точку объединения в команды. Остается неделя - неделя упорной работы и отчаянной проверки новых гипотез, в надежде подняться вверх. Сейчас мы в топ-200 из 1200 участников.

🤔 Ради эксперимента, решил пригласить пару Kaggle мастеров в команду. Как итог, проснулись с новыми тиммейтами.

🤹‍♂️ Посмотрим к чему это приведет. Пока что я скептичен. Буду держать вас updated.

👇 Гоу "приват шейринг" в комменты!