Start Career in DS
11.9K subscribers
93 photos
1 video
10 files
317 links
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev

№ 5141779667
Download Telegram
Если вы работаете с данными, какой у вас опыт работы?
Anonymous Poll
59%
<1 года
25%
1-3 года
16%
>3 лет
Прошу прощения что завалил опросами субботним вечером, но торжественно клянусь, что буду использовать их результаты во благо 🙂
Почему hh - такая себе затея для поиска работы в DS?
Один из вопросов, который задают очень часто - где искать вакансии начинающим DS'ерам. И многие говорят, что, цитата "на hh вакансий толком нет". И правильно - я не знаю ни одного человека, который бы нашёл работу там. Но зато знаю десятки людей, которые нашли работу через знакомых/на хакатонах/в ODS. А всё потому что hh совсем не заточен на нашу область - там нет ряда полей, которые хотели бы видеть работодатели, нет удобной навигации и подробной информации по вакансиям. Разве что, hh удобен для первичного ознакомления с описанием вакансии, но вот целенаправленно рыться там во имя поиска работы - занятие сомнительное. Определенная вероятность успеха конечно есть, но кажется, что она очень мала.
Нашёл для вас очень свежее видео от Data Science Guy на эту тему: https://www.youtube.com/watch?v=Y8gij2WtE6I
Он подробно описывает то, где и как найти свою первую работу в DS 🙂
Start Career in DS
Почему hh - такая себе затея для поиска работы в DS? Один из вопросов, который задают очень часто - где искать вакансии начинающим DS'ерам. И многие говорят, что, цитата "на hh вакансий толком нет". И правильно - я не знаю ни одного человека, который бы нашёл…
Если hh - так себе, то что делать? Где рассказать о своих успехах и выложить резюме?
По моему опыту, LinkedIn - очень хороший инструмент. Для тех кто не знает - это своего рода Facebook, только для поиска вакансий/сотрудников/деловых контактов. Пару лет назад его заблочили в России, но им всё равно продолжают пользоваться и hr-ы, и непосредственно кандидаты (заходить можно с помощью VPN). Он очень удобен поскольку позволяет явно описать свои навыки, проекты, получить подтверждения навыков от самого линка (пройдя тестик) и от коллег. Но самое главное - можно качественно и в удобном формате описать свои проекты. Если профиль заполнен хорошо (примеры будут в конце), то нужно набрать себе контактов чтобы алгоритмы Линка заработали. Добавляйте всех людей из интересных вам компаний, с интересующим вас опытом и бэграундом. Через какое-то время и к вам начнут добавляться люди. А через какое-то время - и писать hr-ы :)
Мне самому пишут достаточно часто основываясь на навыках, которые описаны в профиле. Если у вас уже есть стоящие проекты (в университете или на стажировке/первой работе) - описывайте их там как можно подробнее.
Вот несколько профилей с очень клёвыми на мой взгляд описаниями
https://www.linkedin.com/mwlite/in/mchera
https://www.linkedin.com/mwlite/in/ravasiliev
https://www.linkedin.com/mwlite/in/dmitry-kostenev
https://www.linkedin.com/mwlite/in/seleznev-artem

Как подрубиться к VPN опишу в комментариях
👍2
Про Gain и может ли он быть отрицательным.
Во всём разобрались. Выше в канале мы обсуждали, почему он не может быть отрицательным в классическом дереве. И это действительно так: в стандартном DecisionTree из sklearn'a нет никаких регуляризаций, которые бы могли на это повлиять.

Теперь про XGBoost. Вот хороший курс по нему, на котором основывалось занятие из прошлого поста: https://youtu.be/OtD8wVaFm6E
В этом видео на 4:17 видно, что мы вводим регуляризацию (с использованием лямбд) в расчёт Similarity. И именно из-за этого мы начинаем получать отрицательные gain'ы.

Таким образом, верный ответ на вопрос "Может ли Information Gain быть отрицательным?" такой: "В классических деревьях без использования регуляризации - нет, не может. Но в более сложных алгоритмах (вроде бустинга) мы в расчёт similarity и gain'а начинаем вводить новые переменные (например лямбду), которые могут сделать его отрицательным"
#вакансии

По опросам выше понял, что аудитория канала очень разнообразная. А у нас в команде как раз есть вакансии на самые позциии Data Scientist, Data Engineer, Business Analyst разных уровней (в т.ч. и джунов, но только на фулл-тайм)

Если совсем кратко: мы сейчас активно развиваем направление Data Science в Магните: уже созданы и функционируют 4 команды: Оптимизация Ассортимента, Оптимизация Промо, Ценообразование и CVM. Базируемся в Сколково (https://sk.ru/news/v-skolkovo-otkrylsya-cifrovoy-ofis-magnita/), но сейчас все сотрудники работают официально удалённо. Думаю, все знают насколько крута команда DS в x5, мы потихоньку растём и выходим на схожий уровень. У вас есть возможность присоединиться к команде в самом начале пути 🙂
Ну и естественно крутая команда и конкурентно-способные зп прилагаются.

Стек:
Python (знание ML библиотек, ООП)
SQL (знание Teradata будет плюсом)
Опыт ведения проектов в GitHub
Hadoop, Spark (как плюс)
Azure Databricks (как плюс)
IDE Pycharm

Кроме этого, естственно, для DS'ов - знание статистики, понимание моделей машинного обучения.

Если интересно - кидайте резюме в личку @RAVasiliev
Умение работать с unix-подобными системами, а в частности с терминалом - штука очень полезная. Ловите клёвую подборку команд:
https://tproger.ru/articles/useful-linux-commands/?utm_medium=messenger&utm_source=telegram

P.S. Про некоторое (например, прогноз погоды в терминале) даже я не знал, хотя на линуксовых системах достатончо давно)
Книжка выглядит прям супер-годной. Поделюсь тут со ссылкой на блог Александра Дьяконова, там можно найти много интересностей :)
Полезная шпаркалка по Encoding'у категориальных фичей:

+хорошая статья [ENG]: https://towardsdatascience.com/all-about-categorical-variable-encoding-305f3361fd02
2
«Как проходит собес на DS? Про что обычно спрашивают? В каком порядке?»
Такие вопросы часто появляются у тех, кто готовится к интервью.
Нашёл несколько примеров, которые в той или иной степени описывают процесс собеседования и несут в себе много полезных инсайтов. #видео_собеседования
Одно из них:
https://youtu.be/svk9GmIMR3U
Статья "Feature Engineering, о чём молчат online-курсы"
Если просмотреть наискосок, то может показаться, что какая-то муть. Но часто придумать признаки для модели совсем не так просто.
Лично я например про метод "Отображения времени на круг" узнал относительно не так давно и он показался мне очень красивым 🙂
https://habr.com/ru/company/mailru/blog/346942/
Парадоксы статистики.
Часто от вас на собеседованиях хотят не нарешанных задачек, а именно понимания статистики. Его можно достигнуть разными способами, но один из наиболее интересных на мой взгляд - научпоп.
Со мной поделились замечательным видео, которое несёт в себе целую кучу парадоксов статистики.
Разогрею ваш интерес тем, что про несколько из них (например, про интервалы времени между автобусами) спрашивали сразу нескольких моих знакомых на собеседованиях в Яндекс :)
#статистика
https://youtu.be/9NYtSfIlRB4