Start Career in DS
11.9K subscribers
93 photos
1 video
10 files
317 links
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev

№ 5141779667
Download Telegram
Channel created
Всем привет!
Я достаточно часто в последнее время общаюсь с ребятами, которые только начинают карьеру. Поэтому решил сделать канал, куда буду выкладывать полезные материалы и где буду отвечать на часто задаваемые вопросы :)
1
#kaggle
За время знакомства с машинным обучением вы точно не раз услышите что-то вроде "этот чувак тащит кэгл" или "я зарешал несколько соревнований на кэгле и влетел в DS".
Вот эта статья позволит вам немного разобраться в том, что же такое Kaggle:
https://tproger.ru/translations/kaggle-competitions-introduction/

Окончательно понять зачем оно нужно можно лишь начав решать соревнования :)
#статистика
Ссылка: https://disk.yandex.ru/i/PMGHlkVApxm1gA
Часто спрашивают хорошую русскую литературу по статистике. Вот книжка, которая мне в своё время очень помогла с подготовкой к собесам. Ключевое отличие от других - тут всё разбирается на примерах (отталкивается от них).
Но, тем не менее, суровой математики тут тоже немало. Так что очень советую выделять определенное количество времени (например, по часу) и подробно сидеть разбираться в интересующих вас главах.

Особенно советую:
•Часть III - Проверка гипотез
•Часть V - Анализ многомерных данных (фактически - базовые алгоритмы ML)
🔥1
#python
Как быстро въехать в Python? Практика и только практика!
А где её найти? Чтобы было много разных заданий, да ещё и с качественными примерами решений?
https://py.checkio.org/
В своё время я постигал язык с помощью этой игры. Она позволяет поработать с питоном с разных сторон. + ко всему после прохождения задания вы можете посмотреть решения других пользователей. Это порой помогает взглянуть на задачу с другой стороны :)
1
Pandas_Cheat_Sheet.pdf
172.4 KB
#python
Мини-шпаргалка по Pandas
python.pdf
335.4 KB
#python
Шпаргалка по основам Python
#интересное
Крутое выступление, которое позволит понять кто же такие DS'ы:
https://youtu.be/Cs3ae65tmKA

Тут Валера говорит про то, что на самом деле непосредственно Data Scientist'ов не существует, но зато есть более точные роли - ML Engineer, Data Analyst, Data Engineer, ML Researcher, Analyst, DevOps.
Проблема в том, что на практике большинство компаний под DS'ами подразумевают некоторую совокупность этих ролей с более-менее определенными коэффициентами. Кто-то хочет чтобы вы умели и сбор таблиц настраивать, и модельки делать, кто-то - чтобы вы умели напрямую взаимодействовать с бизнесом, строить модели и оценивать бизнес-эффект от них.
Эти пропорции важно понимать на этапе общения с представителями компании, чтобы не строить ложных надежд. Потому что согласитесь - печально устроиться DS'ом и сутками ковырять эксельки (а о таких случаях в некоторых компаниях я слышал)
#алгоритмы
Тем, кто уже разобрался с основами, и хочет глубже погрузиться в один из самых распространëнных методов:
https://youtu.be/UYDwhuyWYSo

Тут Анна Вероника рассказывает про многие полезные особенности CatBoost'а. Но лекция непростая, поэтому лучше на входе иметь чёткое представление относительно того, что из себя представляет бустинг
👍4
Ещë немного про #kaggle - как это помогает в карьере и помогает ли вообще?
Рассказывает Паша Плесков, один из мировых лидеров по соревнованиям в области машинного обучения.
https://youtu.be/fXnzjJMbujc
#интересное, #python
Визуализация - мощный инструмент, которым нужно хорошо владеть DS'ам. Почему? Да потому что построить модели из коробки могут многие, а вот грамотно представить данные так, чтобы были видны их особенности и закономерности - нет. Качественная визуализация позволяет быстро погрузиться в область задачи и понять её особенности.

Советую очень хороший сайт, который даёт кучу примеров визуализации в разбиении по типам данных:
https://www.data-to-viz.com/
Мне тут студенты задали очень интересный вопрос. Давайте без гугла - правда очень интересно. Чуть позже сделаем подробный разбор :)
Может ли Information Gain при разбиении в дереве быть отрицательным?
Anonymous Poll
34%
Да
66%
Нет
👍2
Интересная статья про фичи и их отбор. На английском, но он тут достаточно простой:
https://machinelearningmastery.com/feature-selection-with-real-and-categorical-data/
👍2