Про Gain и может ли он быть отрицательным.
Во всём разобрались. Выше в канале мы обсуждали, почему он не может быть отрицательным в классическом дереве. И это действительно так: в стандартном DecisionTree из sklearn'a нет никаких регуляризаций, которые бы могли на это повлиять.
Теперь про XGBoost. Вот хороший курс по нему, на котором основывалось занятие из прошлого поста: https://youtu.be/OtD8wVaFm6E
В этом видео на 4:17 видно, что мы вводим регуляризацию (с использованием лямбд) в расчёт Similarity. И именно из-за этого мы начинаем получать отрицательные gain'ы.
Таким образом, верный ответ на вопрос "Может ли Information Gain быть отрицательным?" такой: "В классических деревьях без использования регуляризации - нет, не может. Но в более сложных алгоритмах (вроде бустинга) мы в расчёт similarity и gain'а начинаем вводить новые переменные (например лямбду), которые могут сделать его отрицательным"
Во всём разобрались. Выше в канале мы обсуждали, почему он не может быть отрицательным в классическом дереве. И это действительно так: в стандартном DecisionTree из sklearn'a нет никаких регуляризаций, которые бы могли на это повлиять.
Теперь про XGBoost. Вот хороший курс по нему, на котором основывалось занятие из прошлого поста: https://youtu.be/OtD8wVaFm6E
В этом видео на 4:17 видно, что мы вводим регуляризацию (с использованием лямбд) в расчёт Similarity. И именно из-за этого мы начинаем получать отрицательные gain'ы.
Таким образом, верный ответ на вопрос "Может ли Information Gain быть отрицательным?" такой: "В классических деревьях без использования регуляризации - нет, не может. Но в более сложных алгоритмах (вроде бустинга) мы в расчёт similarity и gain'а начинаем вводить новые переменные (например лямбду), которые могут сделать его отрицательным"
YouTube
XGBoost Part 1 (of 4): Regression
XGBoost is an extreme machine learning algorithm, and that means it's got lots of parts. In this video, we focus on the unique regression trees that XGBoost uses when applied to Regression problems.
NOTE: This StatQuest assumes that you are already familiar…
NOTE: This StatQuest assumes that you are already familiar…
#вакансии
По опросам выше понял, что аудитория канала очень разнообразная. А у нас в команде как раз есть вакансии на самые позциии Data Scientist, Data Engineer, Business Analyst разных уровней (в т.ч. и джунов, но только на фулл-тайм)
Если совсем кратко: мы сейчас активно развиваем направление Data Science в Магните: уже созданы и функционируют 4 команды: Оптимизация Ассортимента, Оптимизация Промо, Ценообразование и CVM. Базируемся в Сколково (https://sk.ru/news/v-skolkovo-otkrylsya-cifrovoy-ofis-magnita/), но сейчас все сотрудники работают официально удалённо. Думаю, все знают насколько крута команда DS в x5, мы потихоньку растём и выходим на схожий уровень. У вас есть возможность присоединиться к команде в самом начале пути 🙂
Ну и естественно крутая команда и конкурентно-способные зп прилагаются.
Стек:
Python (знание ML библиотек, ООП)
SQL (знание Teradata будет плюсом)
Опыт ведения проектов в GitHub
Hadoop, Spark (как плюс)
Azure Databricks (как плюс)
IDE Pycharm
Кроме этого, естственно, для DS'ов - знание статистики, понимание моделей машинного обучения.
Если интересно - кидайте резюме в личку @RAVasiliev
По опросам выше понял, что аудитория канала очень разнообразная. А у нас в команде как раз есть вакансии на самые позциии Data Scientist, Data Engineer, Business Analyst разных уровней (в т.ч. и джунов, но только на фулл-тайм)
Если совсем кратко: мы сейчас активно развиваем направление Data Science в Магните: уже созданы и функционируют 4 команды: Оптимизация Ассортимента, Оптимизация Промо, Ценообразование и CVM. Базируемся в Сколково (https://sk.ru/news/v-skolkovo-otkrylsya-cifrovoy-ofis-magnita/), но сейчас все сотрудники работают официально удалённо. Думаю, все знают насколько крута команда DS в x5, мы потихоньку растём и выходим на схожий уровень. У вас есть возможность присоединиться к команде в самом начале пути 🙂
Ну и естественно крутая команда и конкурентно-способные зп прилагаются.
Стек:
Python (знание ML библиотек, ООП)
SQL (знание Teradata будет плюсом)
Опыт ведения проектов в GitHub
Hadoop, Spark (как плюс)
Azure Databricks (как плюс)
IDE Pycharm
Кроме этого, естственно, для DS'ов - знание статистики, понимание моделей машинного обучения.
Если интересно - кидайте резюме в личку @RAVasiliev
sk.ru
В «Сколково» открылся Цифровой офис «Магнита»
В «Сколково» открылся Цифровой офис «Магнита» 11 сентября 2020 года в Инновационном центре «Сколково» состоялось …
Умение работать с unix-подобными системами, а в частности с терминалом - штука очень полезная. Ловите клёвую подборку команд:
https://tproger.ru/articles/useful-linux-commands/?utm_medium=messenger&utm_source=telegram
P.S. Про некоторое (например, прогноз погоды в терминале) даже я не знал, хотя на линуксовых системах достатончо давно)
https://tproger.ru/articles/useful-linux-commands/?utm_medium=messenger&utm_source=telegram
P.S. Про некоторое (например, прогноз погоды в терминале) даже я не знал, хотя на линуксовых системах достатончо давно)
Tproger
Работаем в терминале Linux как профи: подборка полезных команд
Видели продвинутых пользователей Linux, эффективно работающих в терминале? Хотите так же? Не вопрос: мы собрали много команд для повышения продуктивности.
Книжка выглядит прям супер-годной. Поделюсь тут со ссылкой на блог Александра Дьяконова, там можно найти много интересностей :)
Forwarded from Small Data Science for Russian Adventurers
C4. Data Science Interview.pdf
15.6 MB
#карьера
Вопросы для DS-собеседования
Вопросы для DS-собеседования
Полезная шпаркалка по Encoding'у категориальных фичей:
+хорошая статья [ENG]: https://towardsdatascience.com/all-about-categorical-variable-encoding-305f3361fd02
+хорошая статья [ENG]: https://towardsdatascience.com/all-about-categorical-variable-encoding-305f3361fd02
❤2
Start Career in DS
Мне тут недавно пришлось очень плотно поработать с временными рядами, нашел супер-крутую библиотеку от Facebook для этого: https://facebook.github.io/prophet/ Пишут, что хорошо работает с рядами, в которых выражена сезонность. Имеет очень удобный интерфейс…
Ещё один инструмент для работы с временными рядами:
https://github.com/facebookresearch/Kats
https://github.com/facebookresearch/Kats
GitHub
GitHub - facebookresearch/Kats: Kats, a kit to analyze time series data, a lightweight, easy-to-use, generalizable, and extendable…
Kats, a kit to analyze time series data, a lightweight, easy-to-use, generalizable, and extendable framework to perform time series analysis, from understanding the key statistics and characteristi...
«Как проходит собес на DS? Про что обычно спрашивают? В каком порядке?»
Такие вопросы часто появляются у тех, кто готовится к интервью.
Нашёл несколько примеров, которые в той или иной степени описывают процесс собеседования и несут в себе много полезных инсайтов. #видео_собеседования
Одно из них:
https://youtu.be/svk9GmIMR3U
Такие вопросы часто появляются у тех, кто готовится к интервью.
Нашёл несколько примеров, которые в той или иной степени описывают процесс собеседования и несут в себе много полезных инсайтов. #видео_собеседования
Одно из них:
https://youtu.be/svk9GmIMR3U
#sql
Две статьи про то, почему понимать джойны пересечениями кругов (множеств) не совсем правильно:
https://habr.com/ru/post/448072/
https://habr.com/ru/post/450528/
Две статьи про то, почему понимать джойны пересечениями кругов (множеств) не совсем правильно:
https://habr.com/ru/post/448072/
https://habr.com/ru/post/450528/
Хабр
Понимание джойнов сломано. Это точно не пересечение кругов, честно
Так получилось, что я провожу довольно много собеседований на должность веб-программиста. Один из обязательных вопросов, который я задаю — это чем отличается INN...
«Что делать в ситуациях дисбаланса классов?» - популярный вопрос на собеседованиях всех уровней.
Статья Александра Дьяконова отвечает на этот вопрос:
https://dyakonov.org/2021/05/27/imbalance/
Статья Александра Дьяконова отвечает на этот вопрос:
https://dyakonov.org/2021/05/27/imbalance/
Анализ малых данных
Дисбаланс классов
Рассмотрим ситуацию несбалансированных классов – что нужно уточнить при выработке стратегии решения задачи классификации, какие стратегии бывают, как отвечать на вопрос про дисбаланс на собеседован…
Статья "Feature Engineering, о чём молчат online-курсы"
Если просмотреть наискосок, то может показаться, что какая-то муть. Но часто придумать признаки для модели совсем не так просто.
Лично я например про метод "Отображения времени на круг" узнал относительно не так давно и он показался мне очень красивым 🙂
https://habr.com/ru/company/mailru/blog/346942/
Если просмотреть наискосок, то может показаться, что какая-то муть. Но часто придумать признаки для модели совсем не так просто.
Лично я например про метод "Отображения времени на круг" узнал относительно не так давно и он показался мне очень красивым 🙂
https://habr.com/ru/company/mailru/blog/346942/
Хабр
Feature Engineering, о чём молчат online-курсы
Sherlock by ThatsWhatSheSayd Чтобы стать великим сыщиком, Шерлоку Холмсу было достаточно замечать то, чего не видели остальные, в вещах, которые находились у вс...
Парадоксы статистики.
Часто от вас на собеседованиях хотят не нарешанных задачек, а именно понимания статистики. Его можно достигнуть разными способами, но один из наиболее интересных на мой взгляд - научпоп.
Со мной поделились замечательным видео, которое несёт в себе целую кучу парадоксов статистики.
Разогрею ваш интерес тем, что про несколько из них (например, про интервалы времени между автобусами) спрашивали сразу нескольких моих знакомых на собеседованиях в Яндекс :)
#статистика
https://youtu.be/9NYtSfIlRB4
Часто от вас на собеседованиях хотят не нарешанных задачек, а именно понимания статистики. Его можно достигнуть разными способами, но один из наиболее интересных на мой взгляд - научпоп.
Со мной поделились замечательным видео, которое несёт в себе целую кучу парадоксов статистики.
Разогрею ваш интерес тем, что про несколько из них (например, про интервалы времени между автобусами) спрашивали сразу нескольких моих знакомых на собеседованиях в Яндекс :)
#статистика
https://youtu.be/9NYtSfIlRB4
YouTube
Как статистика обманывает нас?
Все технологии и функции безопасности в Яндекс.Такси: https://ya.cc/847tg
Вокруг нас столько информации, что когда мы ее анализируем, совершаем очень много ошибок. Все потому-что мы не знаем законов статистики и теории вероятностей. В этом выпуске мы обсудим…
Вокруг нас столько информации, что когда мы ее анализируем, совершаем очень много ошибок. Все потому-что мы не знаем законов статистики и теории вероятностей. В этом выпуске мы обсудим…
Где искать #вакансии в DS новичкам и не только?
0. Друзья/знакомые. Да-да, как бы банально не было. Если кто-то из вашего окружения работает в айти (не обязательно аналитике) - обязательно узнайте нет ли у них вакансий. Потому что часто бывает так, что при приводе новых ребят компании выплачивают бонусы тем, кто их приводит, так что это будет полезно и вам, и товарищу :)
1. LinkedIn. Если у вас есть хоть какой-то релевантный опыт (универские/учебные проекты, проекты на стажировке/работе) - описывайте его как можно подробнее. Про Линк даже был отдельный пост: https://t.me/start_ds/93
2. Канал #_jobs в ODS (если не знаете что это - читайте https://t.me/start_ds/44). Там свежие вакансии выкладываются постоянно + с жесткими требования (например, там обязательно должна быть указана вилка зп).
3. Каналы в tg. Их много, но я опишу те, на которые обращаю внимание сам.
Сначала узкие:
Вакансии МГУ, но кажется, что если вы из МИФИ/МГТУ/ВШЭ, вас тоже радостно рассмотрят: https://t.me/vacancyMSU
Вакансии Яндекса, часто проскальзывает аналитика: https://t.me/ya_jobs
Каналы и бот с кучей самых разных вакансий для аналитиков и DS-ов:
https://t.me/foranalysts
https://t.me/datasciencejobs
https://t.me/g_jobbot
https://t.me/datajob
https://t.me/sberlogajobs
4. Прости господи, hh. Я его ставлю на не самый высокий приоритет, но порой там и правда можно найти что-то годное.
5. Start career in DS, по мере появления мы тоже будем потихоньку публиковать вакансии :)
Если у вас есть какие-то свои секретные (и не очень) места поиска вакансий - пишите в комментариях!
0. Друзья/знакомые. Да-да, как бы банально не было. Если кто-то из вашего окружения работает в айти (не обязательно аналитике) - обязательно узнайте нет ли у них вакансий. Потому что часто бывает так, что при приводе новых ребят компании выплачивают бонусы тем, кто их приводит, так что это будет полезно и вам, и товарищу :)
1. LinkedIn. Если у вас есть хоть какой-то релевантный опыт (универские/учебные проекты, проекты на стажировке/работе) - описывайте его как можно подробнее. Про Линк даже был отдельный пост: https://t.me/start_ds/93
2. Канал #_jobs в ODS (если не знаете что это - читайте https://t.me/start_ds/44). Там свежие вакансии выкладываются постоянно + с жесткими требования (например, там обязательно должна быть указана вилка зп).
3. Каналы в tg. Их много, но я опишу те, на которые обращаю внимание сам.
Сначала узкие:
Вакансии МГУ, но кажется, что если вы из МИФИ/МГТУ/ВШЭ, вас тоже радостно рассмотрят: https://t.me/vacancyMSU
Вакансии Яндекса, часто проскальзывает аналитика: https://t.me/ya_jobs
Каналы и бот с кучей самых разных вакансий для аналитиков и DS-ов:
https://t.me/foranalysts
https://t.me/datasciencejobs
https://t.me/g_jobbot
https://t.me/datajob
https://t.me/sberlogajobs
4. Прости господи, hh. Я его ставлю на не самый высокий приоритет, но порой там и правда можно найти что-то годное.
5. Start career in DS, по мере появления мы тоже будем потихоньку публиковать вакансии :)
Если у вас есть какие-то свои секретные (и не очень) места поиска вакансий - пишите в комментариях!
Telegram
Start Career in DS
Если hh - так себе, то что делать? Где рассказать о своих успехах и выложить резюме?
По моему опыту, LinkedIn - очень хороший инструмент. Для тех кто не знает - это своего рода Facebook, только для поиска вакансий/сотрудников/деловых контактов. Пару лет…
По моему опыту, LinkedIn - очень хороший инструмент. Для тех кто не знает - это своего рода Facebook, только для поиска вакансий/сотрудников/деловых контактов. Пару лет…
Start Career in DS
Где искать #вакансии в DS новичкам и не только? 0. Друзья/знакомые. Да-да, как бы банально не было. Если кто-то из вашего окружения работает в айти (не обязательно аналитике) - обязательно узнайте нет ли у них вакансий. Потому что часто бывает так, что при…
#вакансии #стажировки
Нашёл тут на просторах интернета агрегатор стажировок различных компаний:
https://github.com/MrHakimov/russian-internships
Нашёл тут на просторах интернета агрегатор стажировок различных компаний:
https://github.com/MrHakimov/russian-internships
GitHub
GitHub - mrhakimov/russian-internships: IT internships in Russia 🇷🇺
IT internships in Russia 🇷🇺. Contribute to mrhakimov/russian-internships development by creating an account on GitHub.
В канале ещё не было материалов по #spark, хотя штука очень полезная и применяется широко в огромном количестве компаний.
Восполняем пробелы.
По ссылке ниже - куча примеров использования спарка. По ним удобно и знания освежить перед собесом, и что-то новое для себя узнать
https://sparkbyexamples.com/
P.S. Ссылка выше ведёт вас на оригинальный спарк (с кодом на Scala), если вы хотите начать с чего-то более близкого, вот аналогичная про pySpark: https://sparkbyexamples.com/pyspark-tutorial/
Восполняем пробелы.
По ссылке ниже - куча примеров использования спарка. По ним удобно и знания освежить перед собесом, и что-то новое для себя узнать
https://sparkbyexamples.com/
P.S. Ссылка выше ведёт вас на оригинальный спарк (с кодом на Scala), если вы хотите начать с чего-то более близкого, вот аналогичная про pySpark: https://sparkbyexamples.com/pyspark-tutorial/
Spark By {Examples}
Apache Spark Tutorial with Examples - Spark By {Examples}
Apache Spark Tutorial - Apache Spark is an Open source analytical processing engine for large-scale powerful distributed data processing applications.
Forwarded from Инжиниринг Данных (Roman Ponomarev)
А вот и вебинар на подходе (2 сентября 2021 в 20:00 по мск)
Кого, чего:
Как подготовиться в первым собесам в DS и найти вакансии?
Вебинар проведёт Васильев Роман, Senior Data Scientist в компании Магнит. Роман когда-то руководил наймом и развитием стажёров DS-ов в российской телеком-компании, а сейчас развивает уже полноценную команду в одной из крупнейших ритейл-компаний РФ.
Вы услышите ответы на вопросы:
1. Что нужно изучить чтобы идти на первые собеседования?
2. Где искать вакансии новичкам в DS?
3. Как грамотно подготовить резюме?
4. Как выстроить подготовку, что повторить?
5. Чего ждать на собеседовании?
Даже если не собираетесь в DS, приходите, так как инфа будет полезная :)
Канал спикера: https://t.me/start_ds
Ссылка на вебинар:
https://youtu.be/SKItc7yHnVY
Кого, чего:
Как подготовиться в первым собесам в DS и найти вакансии?
Вебинар проведёт Васильев Роман, Senior Data Scientist в компании Магнит. Роман когда-то руководил наймом и развитием стажёров DS-ов в российской телеком-компании, а сейчас развивает уже полноценную команду в одной из крупнейших ритейл-компаний РФ.
Вы услышите ответы на вопросы:
1. Что нужно изучить чтобы идти на первые собеседования?
2. Где искать вакансии новичкам в DS?
3. Как грамотно подготовить резюме?
4. Как выстроить подготовку, что повторить?
5. Чего ждать на собеседовании?
Даже если не собираетесь в DS, приходите, так как инфа будет полезная :)
Канал спикера: https://t.me/start_ds
Ссылка на вебинар:
https://youtu.be/SKItc7yHnVY
YouTube
Как подготовиться в первым собесам в DS и найти вакансии / Роман Васильев
Как подготовиться в первым собесам в DS и найти вакансии?
Вебинар проведёт Васильев Роман, Senior Data Scientist в компании Магнит. Роман когда-то руководил наймом и развитием стажёров DS-ов в российской телеком-компании, а сейчас развивает уже полноценную…
Вебинар проведёт Васильев Роман, Senior Data Scientist в компании Магнит. Роман когда-то руководил наймом и развитием стажёров DS-ов в российской телеком-компании, а сейчас развивает уже полноценную…
Start Career in DS
В канале ещё не было материалов по #spark, хотя штука очень полезная и применяется широко в огромном количестве компаний. Восполняем пробелы. По ссылке ниже - куча примеров использования спарка. По ним удобно и знания освежить перед собесом, и что-то новое…
#pyspark
Статья-переводчик с «пандасовского» на «пайспарковский» язык:
https://towardsdatascience.com/from-pandas-to-pyspark-fd3a908e55a0
Статья-переводчик с «пандасовского» на «пайспарковский» язык:
https://towardsdatascience.com/from-pandas-to-pyspark-fd3a908e55a0
Medium
From pandas to PySpark
Leveraging your pandas data manipulation skills to learn PySpark
Инжиниринг Данных
А вот и вебинар на подходе (2 сентября 2021 в 20:00 по мск) Кого, чего: Как подготовиться в первым собесам в DS и найти вакансии? Вебинар проведёт Васильев Роман, Senior Data Scientist в компании Магнит. Роман когда-то руководил наймом и развитием стажёров…
Напоминаю про сегодняшний вебинар 🙂
Буду рад рассказать полезные штуки и поотвечать на вопросы онлайн!
Бонусом для пришедших будет инсайдерская информация по крутой образовательно-практической программе (в виде стажировки) в крупной российской компании 🙂
Буду рад рассказать полезные штуки и поотвечать на вопросы онлайн!
Бонусом для пришедших будет инсайдерская информация по крутой образовательно-практической программе (в виде стажировки) в крупной российской компании 🙂