Start Career in DS
11.9K subscribers
93 photos
1 video
10 files
317 links
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev

№ 5141779667
Download Telegram
Ещё один хороший сборник вопросов с собеседований на тему #статистика.
Важно: лично мне кажется, что ответы на некоторые вопросы тут даны ну прям уж совсем краткие (та же стат. значимость). Так что советую перед собесом более подробно пробежаться по ним и покопаться в теме.
https://proglib.io/sh/q6rCD0Nca1
На собеседованиях часто задают вопросы с используемыми в работе DS'a библиотеками.
В частности, про #numpy
Если хотите поупражняться, вот хороший репозиторий для этого:
https://github.com/rougier/numpy-100
Там 100 заданий самого разного уровня - над тремя звёздочками уверен, что многим придётся подумать :)

P.S. Для тех кто боится гита.
Можете просто тыкнуть зелёную кнопку Code, затем Download ZIP. Потом разахривируйте на своём компьютере и используйте файлики 100_Numpy_exercises.ipynb (сами задания), 100_Numpy_exercises_with_hints.md (задания с подсказками), 100_Numpy_exercises_with_hints_with_solutions.md (решения)
#визуализация
Копаясь по работе с графиками, наткнулся на вот эту классную заметку: https://neptune.ai/blog/pandas-plot-deep-dive-into-plotting-directly-with-pandas

Честно признаюсь - сам долго не знал, что графики можно рисовать просто приписав .plot() к датафрейму в Pandas. В этой статьей есть куча примеров рисования разнообразных визуализаций с помощью этого
super-cheatsheet-machine-learning.pdf
1.3 MB
Наткнулся тут на просторах интернета на "Super VIP Cheatsheet: Machine Learning" от ребят из Stanford University.
Я бы описал его так: оочень краткий конспект некоторых основных тем в ML с самыми важными формулами и наглядными иллюстрациями.
Некоторые темы раскрыты прям круто: функции потерь, град. спуск, регрессии, обучение без учителя, метрики. А вот про деревянные модели рассказали как-то не очень подробно.
Кроме того, в конце есть блок "Refreshers", который покрывает, как мне кажется, очень большую часть базовой математической теории, которая используется в алгоритмах.
Для тех кто не любит большие книжки - там всего 16 страниц! Прям самое то на полистать и вспомнить формулы перед собеседованием.
#книжки
👍1🔥1
Ну и по традиции содержание брошюры, чтобы быстро понять о чём речь:
#алгоритмы
Выше в этом треде писалось о том, что в некоторых компаниях на собеседованиях любят спрашивать про алгоритмы и структуры данных.
Удобная шпаргалка по сложности взаимодействия с разными структурами данных:
15-31-02-shpargalka.png
1.1 MB
В высоком качестве:
В статье выше есть даже примерная схемка в какой ситуации какой критерий выбирать:
Мне тут недавно пришлось очень плотно поработать с временными рядами, нашел супер-крутую библиотеку от Facebook для этого:
https://facebook.github.io/prophet/

Пишут, что хорошо работает с рядами, в которых выражена сезонность. Имеет очень удобный интерфейс и позволяет находу отрисовывать красивые графики
Start Career in DS
Мне тут недавно пришлось очень плотно поработать с временными рядами, нашел супер-крутую библиотеку от Facebook для этого: https://facebook.github.io/prophet/ Пишут, что хорошо работает с рядами, в которых выражена сезонность. Имеет очень удобный интерфейс…
Спасибо большое @cosadesl за классную книжку по работе с временными рядами в комментариях!
Там глава конкретно про Prophet очень крутая, думаю, всем будет полезно:
https://ranalytics.github.io/tsa-with-r/ch-intro-to-prophet.html

Хоть и описываются функции R'овские, но в Python синтаксис не сильно отличается. А вот описание основных функций, гиперпараметров и особенностей на русском - штука полезная.
#softskills - штука очень полезная и нужная в работе. Часто мало сделать задачу круто - важно объяснить своё решение коллегам/руководству и убедить их в том, что оно действительно поможет принести value для бизнеса.
Кажется, самая большая подборка материалов по софтам, которую я встречал:
https://vc.ru/education/101011-samaya-bolshaya-podborka-po-prokachke-soft-skills-hvatit-na-vsyu-zhizn
Каждый уважающий себя DS гоняет xgboost :)
Но далеко не каждый понимает что означают те или иные его параметры. Вот статья, в которой рассказывают про смысл большинства из них:
https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/
🔥1
#softskills
Я тут недавно осознал, что синдром самозванца - большая проблема, из-за которой многие страдают. Причем как стажеры, так и ребята с опытом.
Важно всегда помнить, что если вас взяли на стажировку/работу - значит, вы круты! И в этом сомневаться не нужно.
Статья, в которой рассказывают как со всем этим жить:
https://m.habr.com/ru/post/548384/
👍21
hes-resume-cover-letter-guide.pdf
1.3 MB
Методичка по написанию грамотного #cv (резюме) и cover letter на английском.
Тут есть и основные правила, и глаголы, которые стоит использовать, и куча примеров непосредственно резюме
👍2
#cv
Судя по статистике, тема про написание резюме очень зашла :)
Так что нашёл ещё больше крутых материалов.
https://youtu.be/kJTxH1hCa7c

В этом видео ребята рассказывают про hiring process as it is, объясняют как проходит процесс обработки резюме и на что нужно сакцентировать внимание. Кроме того, разбирают несколько примеров резюме и подробно их комментируют.
Материал на английском, но он там вполне понятный (для технарей)
Когда начинаешь работать с новым методом/алгоритмом, порой очень хочется найти простой код с его использованием.
Нашел тут блок индийца, который собрал кучу простейших примеров использования различных методов в одну кучу:
https://thecleverprogrammer.com/2020/11/27/machine-learning-algorithms-with-python/
👍1
#курсы
Скоро стартует новый поток Data Mining In Action: https://vk.com/wall-78553823_2621
Я проходил несколько направлений ещё в очном формате и могу сказать, что это было мега-полезно. Куча практических кейсов, очень живые преподаватели и интересные домашки.
Аналогов направлению "Индустрия" я вообще не встречал - там разбирают различные кейсы применения ML-решений в бизнесе
Не так давно число участнико перевалило за 1500, спасибо всем вам за доверие контенту этого замечательного канала :)

Думаю, самое время нам с вами познакомиться :)
Меня зовут Рома Васильев, я долгое время работал в DS команде Мегафона, где занимался целой кучей самых разных задач. Ко всему прочему, я некоторое время руководил набором и работой с группами стажёров. Тогда я понял, что многие ребята действительно очень неплохо шарят, но вот именно скиллов прохождения собеседований у них не хватает. И решил забабахать канал, в котором буду делиться всем, что помогло бы начинающим карьеру ребятам.
Сейчас я уже ушёл из Мегафона, собираю себе команду, которая будет заниматься оптимизацией ассортимента в Магните (Magnit Tech, если быть точнее).
Мы собеседуем самых разных ребят и я вижу, что многие из их ошибок мы в той или иной мере обсуждали в этом канале и это очень приятно.
Буду и дальше двигаться по градиенту полезности контента :)

tg: @RAVasiliev
Linkedin: https://www.linkedin.com/in/ravasiliev
Мне бы очень хотелось познакомиться как можно лучше с аудиторией канала, чтобы иметь больше возможностей для улучшения качества контента.
Потыкайте опросы ниже - это займёт не более 30 секунд, но я смогу понять, что вам будет действительно интересно видеть здесь 🙂
Кем вы сейчас работаете? (Или что из нижеперечисленного наиболее близко к вашей деятельности?)
Anonymous Poll
22%
Data Scientist
5%
Data Engineer
12%
Бизнес-аналитик
25%
Работаю совсем в другой области
30%
Пока что не работаю
7%
Другое