Start Career in DS
11.9K subscribers
93 photos
1 video
10 files
317 links
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev

№ 5141779667
Download Telegram
#cv
Судя по статистике, тема про написание резюме очень зашла :)
Так что нашёл ещё больше крутых материалов.
https://youtu.be/kJTxH1hCa7c

В этом видео ребята рассказывают про hiring process as it is, объясняют как проходит процесс обработки резюме и на что нужно сакцентировать внимание. Кроме того, разбирают несколько примеров резюме и подробно их комментируют.
Материал на английском, но он там вполне понятный (для технарей)
Когда начинаешь работать с новым методом/алгоритмом, порой очень хочется найти простой код с его использованием.
Нашел тут блок индийца, который собрал кучу простейших примеров использования различных методов в одну кучу:
https://thecleverprogrammer.com/2020/11/27/machine-learning-algorithms-with-python/
👍1
#курсы
Скоро стартует новый поток Data Mining In Action: https://vk.com/wall-78553823_2621
Я проходил несколько направлений ещё в очном формате и могу сказать, что это было мега-полезно. Куча практических кейсов, очень живые преподаватели и интересные домашки.
Аналогов направлению "Индустрия" я вообще не встречал - там разбирают различные кейсы применения ML-решений в бизнесе
Не так давно число участнико перевалило за 1500, спасибо всем вам за доверие контенту этого замечательного канала :)

Думаю, самое время нам с вами познакомиться :)
Меня зовут Рома Васильев, я долгое время работал в DS команде Мегафона, где занимался целой кучей самых разных задач. Ко всему прочему, я некоторое время руководил набором и работой с группами стажёров. Тогда я понял, что многие ребята действительно очень неплохо шарят, но вот именно скиллов прохождения собеседований у них не хватает. И решил забабахать канал, в котором буду делиться всем, что помогло бы начинающим карьеру ребятам.
Сейчас я уже ушёл из Мегафона, собираю себе команду, которая будет заниматься оптимизацией ассортимента в Магните (Magnit Tech, если быть точнее).
Мы собеседуем самых разных ребят и я вижу, что многие из их ошибок мы в той или иной мере обсуждали в этом канале и это очень приятно.
Буду и дальше двигаться по градиенту полезности контента :)

tg: @RAVasiliev
Linkedin: https://www.linkedin.com/in/ravasiliev
Мне бы очень хотелось познакомиться как можно лучше с аудиторией канала, чтобы иметь больше возможностей для улучшения качества контента.
Потыкайте опросы ниже - это займёт не более 30 секунд, но я смогу понять, что вам будет действительно интересно видеть здесь 🙂
Кем вы сейчас работаете? (Или что из нижеперечисленного наиболее близко к вашей деятельности?)
Anonymous Poll
22%
Data Scientist
5%
Data Engineer
12%
Бизнес-аналитик
25%
Работаю совсем в другой области
30%
Пока что не работаю
7%
Другое
Если вы работаете с данными, какой у вас опыт работы?
Anonymous Poll
59%
<1 года
25%
1-3 года
16%
>3 лет
Прошу прощения что завалил опросами субботним вечером, но торжественно клянусь, что буду использовать их результаты во благо 🙂
Почему hh - такая себе затея для поиска работы в DS?
Один из вопросов, который задают очень часто - где искать вакансии начинающим DS'ерам. И многие говорят, что, цитата "на hh вакансий толком нет". И правильно - я не знаю ни одного человека, который бы нашёл работу там. Но зато знаю десятки людей, которые нашли работу через знакомых/на хакатонах/в ODS. А всё потому что hh совсем не заточен на нашу область - там нет ряда полей, которые хотели бы видеть работодатели, нет удобной навигации и подробной информации по вакансиям. Разве что, hh удобен для первичного ознакомления с описанием вакансии, но вот целенаправленно рыться там во имя поиска работы - занятие сомнительное. Определенная вероятность успеха конечно есть, но кажется, что она очень мала.
Нашёл для вас очень свежее видео от Data Science Guy на эту тему: https://www.youtube.com/watch?v=Y8gij2WtE6I
Он подробно описывает то, где и как найти свою первую работу в DS 🙂
Start Career in DS
Почему hh - такая себе затея для поиска работы в DS? Один из вопросов, который задают очень часто - где искать вакансии начинающим DS'ерам. И многие говорят, что, цитата "на hh вакансий толком нет". И правильно - я не знаю ни одного человека, который бы нашёл…
Если hh - так себе, то что делать? Где рассказать о своих успехах и выложить резюме?
По моему опыту, LinkedIn - очень хороший инструмент. Для тех кто не знает - это своего рода Facebook, только для поиска вакансий/сотрудников/деловых контактов. Пару лет назад его заблочили в России, но им всё равно продолжают пользоваться и hr-ы, и непосредственно кандидаты (заходить можно с помощью VPN). Он очень удобен поскольку позволяет явно описать свои навыки, проекты, получить подтверждения навыков от самого линка (пройдя тестик) и от коллег. Но самое главное - можно качественно и в удобном формате описать свои проекты. Если профиль заполнен хорошо (примеры будут в конце), то нужно набрать себе контактов чтобы алгоритмы Линка заработали. Добавляйте всех людей из интересных вам компаний, с интересующим вас опытом и бэграундом. Через какое-то время и к вам начнут добавляться люди. А через какое-то время - и писать hr-ы :)
Мне самому пишут достаточно часто основываясь на навыках, которые описаны в профиле. Если у вас уже есть стоящие проекты (в университете или на стажировке/первой работе) - описывайте их там как можно подробнее.
Вот несколько профилей с очень клёвыми на мой взгляд описаниями
https://www.linkedin.com/mwlite/in/mchera
https://www.linkedin.com/mwlite/in/ravasiliev
https://www.linkedin.com/mwlite/in/dmitry-kostenev
https://www.linkedin.com/mwlite/in/seleznev-artem

Как подрубиться к VPN опишу в комментариях
👍2
Про Gain и может ли он быть отрицательным.
Во всём разобрались. Выше в канале мы обсуждали, почему он не может быть отрицательным в классическом дереве. И это действительно так: в стандартном DecisionTree из sklearn'a нет никаких регуляризаций, которые бы могли на это повлиять.

Теперь про XGBoost. Вот хороший курс по нему, на котором основывалось занятие из прошлого поста: https://youtu.be/OtD8wVaFm6E
В этом видео на 4:17 видно, что мы вводим регуляризацию (с использованием лямбд) в расчёт Similarity. И именно из-за этого мы начинаем получать отрицательные gain'ы.

Таким образом, верный ответ на вопрос "Может ли Information Gain быть отрицательным?" такой: "В классических деревьях без использования регуляризации - нет, не может. Но в более сложных алгоритмах (вроде бустинга) мы в расчёт similarity и gain'а начинаем вводить новые переменные (например лямбду), которые могут сделать его отрицательным"
#вакансии

По опросам выше понял, что аудитория канала очень разнообразная. А у нас в команде как раз есть вакансии на самые позциии Data Scientist, Data Engineer, Business Analyst разных уровней (в т.ч. и джунов, но только на фулл-тайм)

Если совсем кратко: мы сейчас активно развиваем направление Data Science в Магните: уже созданы и функционируют 4 команды: Оптимизация Ассортимента, Оптимизация Промо, Ценообразование и CVM. Базируемся в Сколково (https://sk.ru/news/v-skolkovo-otkrylsya-cifrovoy-ofis-magnita/), но сейчас все сотрудники работают официально удалённо. Думаю, все знают насколько крута команда DS в x5, мы потихоньку растём и выходим на схожий уровень. У вас есть возможность присоединиться к команде в самом начале пути 🙂
Ну и естественно крутая команда и конкурентно-способные зп прилагаются.

Стек:
Python (знание ML библиотек, ООП)
SQL (знание Teradata будет плюсом)
Опыт ведения проектов в GitHub
Hadoop, Spark (как плюс)
Azure Databricks (как плюс)
IDE Pycharm

Кроме этого, естственно, для DS'ов - знание статистики, понимание моделей машинного обучения.

Если интересно - кидайте резюме в личку @RAVasiliev
Умение работать с unix-подобными системами, а в частности с терминалом - штука очень полезная. Ловите клёвую подборку команд:
https://tproger.ru/articles/useful-linux-commands/?utm_medium=messenger&utm_source=telegram

P.S. Про некоторое (например, прогноз погоды в терминале) даже я не знал, хотя на линуксовых системах достатончо давно)
Книжка выглядит прям супер-годной. Поделюсь тут со ссылкой на блог Александра Дьяконова, там можно найти много интересностей :)
Полезная шпаркалка по Encoding'у категориальных фичей:

+хорошая статья [ENG]: https://towardsdatascience.com/all-about-categorical-variable-encoding-305f3361fd02
2
«Как проходит собес на DS? Про что обычно спрашивают? В каком порядке?»
Такие вопросы часто появляются у тех, кто готовится к интервью.
Нашёл несколько примеров, которые в той или иной степени описывают процесс собеседования и несут в себе много полезных инсайтов. #видео_собеседования
Одно из них:
https://youtu.be/svk9GmIMR3U