Start Career in DS
11.9K subscribers
93 photos
1 video
10 files
317 links
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev

№ 5141779667
Download Telegram
В комментариях Максим поделился своими бесплатными курсами по #SQL. Посмотрел, понравились, делюсь с вами 🙂

Что мне зашло:
1. Вы не живёте в ваккуме степика/sql-ex/другой предподготовленной среды. В рамках второго занятия вы ставите себе Oracle (попутно прочувствовав все боли) и работаете уже в нём;
2. У курсов есть чат в tg с поддержкой, Максим там отвечает на вопросы по заданиям и не только. Этого часто не хватает;
3. Расширенный курс реально расширенный, как бы это забавно не звучало. В частности, там есть уроки по тонкостям работы с Oracle PL/SQL, мне такого урока во время работы на прошлом месте очень не хватало 🙂

1. Базовый курс по SQL для аналитиков и менеджеров
https://www.youtube.com/playlist?list=PLKl9v2TQvIkq4i_hZwZ1PmobxJSkIGwBf

2. Расширенные возможности SQL
https://youtube.com/playlist?list=PLKl9v2TQvIkqHEOvM1sLX3rNJ3WZJRKQ9
👍30🔥3🤩1
Ещё одна статья про оконные функции в #SQL.
Она позволит понять что это такое и зачем оно нужно (с красивыми иллюстрациями). Единственное - там рекламируется курс от SQL Lite по оконкам, его рекомендовать не могу т.к. не проходил. Но статья очень наглядная.
https://antonz.ru/window-functions/

Первая статья - тут. В ней есть примеры кода на SQL, но наглядность имхо чуть ниже.

P.S. Заметил, что в последнее время в канале стало много SQL, этим постом поток информации по ним временно остановим 🙂
👍9🔥4🤩1
#релокация
Подготовил для вас небольшую подборку материалов по теме:

1. Ролик от Future Today про ребят, которые работают в DS за границей: https://youtu.be/9Mmm0VGSTqM. Тут и про поиск работы, и про то, как и где искать работу, и про организацию переезда. И истории ребят очень вдохновляющие 🙂

2. Ребята из Proglib недавно написали статью, но она про айтишников в целом. Тем не менее, в ней можно найти много хороших советов, которые будут актуальны и для даты + подборку сайтов, по которым можно поискать вакансии. https://proglib.io/sh/alMdjIAUb6

3. Команда Толи Карпова пару дней назал провела прямой эфир про устройство на работу вне России: https://t.me/karpovcourseschat/48378
Пока не добрался послушать целиком, но знаю что там брали интервью у Марселя, который работает продуктовым аналитиком

4. Если вы мыслите сразу масштабно, то можете почитать статью о доходах в FAANG и пойти в канал Валеры Бабушкина, у него есть целый цикл статей про подготовку в FAANG (MAANG?): раз и два

Если у кого есть ещё полезные материалы - накидывайте в комментарии, думаю, всем будет полезно 🙂
И если вам нравится подобный контент - ставьте реакции, а то в последнее время как-то совсем скромненько с ними
👍42🔥9👎6🤩2
👍3
data-science-cheatsheet.pdf
1.1 MB
#cheatsheet
У нас в канале уже появлялись шпаргалки по python, по pandas (и даже расширенная по анализу данных с помощью pandas!), по SQL и по ключевым идеям машинного обучения

Нашёл ещё одну классную подборку, тут очень сжато есть и про базовую теорию вероятности, и про предподготовку данных, и про модели, и даже про фреймворки для работы с большими данными немного. Все материалы на английском, но тут такой английский, который DS-ам понимать уж точно стоит :)
🔥28👍6🤩1
Про банки и кредитный скоринг 🏦
Не так давно на канале вышло интервью с Толей Карповым, он в нём несколько раз сказал про то, что очень здорово понимать специфику задач компании, в которую вы собеседуетесь.
Поэтому появилась идея сделать цикл постов про различные задачи, которые решаются в тех или иных областях. Порой они пересекаются (то же самое uplift-моделирование делают уже, кажется, все), поэтому постараемся учесть и специфические области :)
Одна из самых классических задач, которую решают в банках - кредитный скоринг.

Про кредитный скоринг в классическом понимании можно почитать в очень наглядной статье от ребят из Glowbyte: https://habr.com/ru/company/glowbyte/blog/519382/
Но иногда DS-команды заходят сильно дальше - вот статья ребят из Альфы, которые работают с потранзакционным анализом, используя DL подходы: https://habr.com/ru/company/alfa/blog/657577/. Там и про проблемы предобработки транзакционных данных, и про архитектуру решения
🔥30👍10🤩4
Хочу порекомендовать бесплатного бота🤖 с книгами на технические темы.
Там есть и книги по программированию, и по статистике, и по машинному обучению.

В частности, мне зашла книга Основы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование
Хасти Тревор, Тибришани Роберт, Джером Фридман
(в боте /dl_1377)
В ней очень подробно разобраны классические алгоритмы машинного обучения как со статистической, так и с прикладной точки зрения.

Информация должна быть доступна и бесплатна🎓
https://t.me/searchIT_bookbot
👍14🔥6
Пожалуй, самая подробная статья про градиентные бустинги (да и в целом про деревья решений и всё что с ними связано) на русском языке:
https://habr.com/ru/company/ods/blog/645887/

Тут есть ответы на очень большое количество вопросов, но статью за один присест вряд ли прочитаешь. Когда-то я начал делать цикл роликов по ключевым моментам алгоритмов (линейная регрессия часть 1 и часть 2). Тыкайте 👍 если стоит сделать такие же ролики и по деревьям/бустингам 🙂
👍100🔥6🤩1
Exploratory Data Analysis - часто самая загадочная и непонятная часть в анализе данных. Всем рекомендую посмотреть видео Александра Дьяконова, в которых он делает EDA для нескольких датасетов:
Хакатон МКБ: https://youtu.be/LDSMqYSE1vI
Google Brain - Ventilator Pressure Prediction: https://youtu.be/3Ri0l9hhlmM

P.S. Если кто не знает - у Александра есть канал, там много полезностей можно найти 🙂
👍22🔥6🎉1
Продолжаем серию постов про специфику задач в различных областях.
Меня тут очень занесло и я зачитался про то, как под капотом работает Я.Такси.
Многие статьи старые (2018-2019), но ключевые задачи у ребят наверняка сохранились.

Что происходит, когда вы делаете заказ: https://vc.ru/yandex.go/40971-pod-kapotom-yandeks-taksi
[Eng] Machine Learning for the Win: https://medium.com/@underthehood21/machine-learning-for-the-win-7fad19f0e358
[ENG] How Yandex.Taxi Algorithms Steer Drivers To Higher Earnings: https://medium.com/swlh/how-yandex-taxi-algorithms-steer-drivers-to-higher-earnings-e683c3feb3eb
Динамическое ценообразование: https://habr.com/ru/company/yandex/blog/429226/
Прогноз времени подачи авто: https://habr.com/ru/company/yandex/blog/431196/
Доставка через такси: https://vc.ru/yandex.go/127822-vash-zakaz-dostavit-yandeks-taksi
Про историю приложения: https://vc.ru/yandex.go/312161-ot-spiska-taksoparkov-do-superappa
👍124🔥4🤩1
🔥🔥🔥 Летим дальше: Advanced Career in DS.

За последнее время я познакомился с крутыми ребятами, которые ведут свои блоги: Время Валеры, Data Feeling, Нескучный Data Science, Модель для сборки

Блоги (как и их авторы) очень крутые, их объединяет одно: они пишут про жизнь, свои реальные задачи, проблемы и способы их решения. Мне тоже есть что рассказать :)
Решил оставить SCIDS супер-сборником материалов по всем ключевым аспектам DS и сделать его продолжение.
Там будет больше замёток из жизни и мыслей относительно менеджмента, развития команд, больше серьёзных технических тем, да и просто жизни :)
Уже написал пару постов: Про теорию Жоп и про то, почему важно периодически сваливать куда-нибудь подальше.

Подписывайтесь, будет круто: https://t.me/advanced_ds
🔥13👍10🤩3
Что делать если вы накосячили при работе с гитом?
Вот тут есть ответы на ряд вопросов, которые обычно задают в полуистерике:
- ****, я накосячил, где у git волшебная машина времени!?!
- ****, я закоммитил и вспомнил, что кое-что забыл!
- ****, мне нужно изменить сообщение моего последнего коммита!
- ****, я случайно закоммитил что-то в мастер, хотя это должно быть в новой ветке!
- ****, я случайно закоммитил не в ту ветку!
- ****, я пытаюсь открыть diff, но ничего не происходит?!
- ****, мне нужно отменить коммит, который был 5 коммитов назад!
- ****, мне нужно отменить изменения в файле!
- В **** всё, я сдаюсь.

У ребят есть дипломатичная версия: https://dangitgit.com/ru
И не очень дипломатичная: https://ohshitgit.com/ru
👍29🔥9🤩6
Бесплатные (официально бесплатные!!!) курсы Я.Практикума

Для тех, кто в начале пути:
1. https://practicum.yandex.ru/career-advisor/ - Курс по выбору профессии в IT. Тут вам наконец расскажут чем отличается аналитик данных от Data Scientist'а, зачем нужны продакты и какие вообще профессии есть
2. https://practicum.yandex.ru/math-foundations/ - Основы математики для цифровых профессий. Бесплатный тренажёр

Прокачать текущие навыки, подготовиться к собеседованиям:
1. https://practicum.yandex.ru/algorithms-interview/ - Подготовка к алго-интервью. Этот курс выделяю жирным, т.к. я его сам прошёл, мне очень зашло.
2. https://practicum.yandex.ru/ycloud - Курс «Инженер облачных сервисов», заточен на Яндексовые сервисы: Yandex.Cloud, Yandex DataLens
3. https://practicum.yandex.ru/excel-for-work/ - Excel для работы. от самой базы до заморочных ВПРов и хитрых функций. Excel многие очень не любят, но делать быстрые расчёты на коленке и крутить данные (если их объём позволяет) очень удобно.
4. https://practicum.yandex.ru/visual-presentation/ - Создание красивых презентаций. курс относительно короткий, по основам грамотного донесения информации. Примечательно, что его автор - Максим Ильяхов, автор достаточно известных книжек "Пиши, сокращай" и "Новые правила деловой переписки".

Естественно там везде есть реклама платных курсов Практикума внутри, но на мой взгляд не слишком навязчивая.
И курсы реально полноценные. То есть на курсе по выбору IT-профессии реально подробно рассказывают про ключевые профессии. А после курса по подготовке к алго-интервью можно идти и вполне осознанно нарешивать литкод. Это звучит очевидно, но есть куча курсов, цель у которых просто затащить вас заплатить денег. Тут не так
👍70🔥13🤩4👎1
Про навыки аналитиков на разных уровнях

В этой статье рассказывается про роль аналитика данных и грейды в Яндексе.
Мне очень понравилось что в ней есть и собранные в табличку ключевые навыки (см. файл), и подробно расписанные скиллы как для аналитиков, так и для руководителей.

По ней можно:
1. Понять чем занимаются аналитики
2. Понять стандартную структуру грейдов
👍39🔥11👎2🤩1
#SQL и #Pandas очень похожи. Настолько, что если вы знаете одно, то научиться писать на другом сможете буквально за день 🙂

К слову, если вы работаете бизнес-аналитиком/аналитиком (который использует Excel/SQL), то научиться работать на Pandas - самое первое что вам стоит сделать. Потому что это во-первых будет просто для вас, а во вторых - вы сможете быстро понять, почему крутить данные в питоне сильно быстрее и удобнее.

Классная статья, в которой проводятся аналогии между SQL и Pandas запросами (своего рода словарик):
https://tproger.ru/translations/rewrite-sql-queries-in-pandas/
👍48🔥9
Про прогноз спроса в ритейле 🛒

Одна из самых важных и денежных задач в ритейле - предсказание спроса. Именно проекты связанные со спросом часто бывают ключевыми в работе DS команд крупнейших игроков рынка.
Причём спрос как таковой можно прогнозировать как для первостепенной цели - автопополнения распределительных центров/торговых точек, так и для косвенных. К примеру, можно построить зависимость спроса от цен (фактически, усложнённую эластичность) и таким образом управлять ценообразованием, чтобы максимизировать ожидаемую выручку. Либо же строить зависимость спроса от ассортимента и формировать ассортимент, который будет максимизировать спрос.

Подборка материалов, которые помогут разобраться в теме:
1. Прогноз спроса для промо акций в Магните: часть 1 (более бизнесовая) и часть 2 (более техническая). Ребята выиграли несколько премий в этом году, так что знают о чём говорят 🙂
2. Доклад про предсказание спроса от ребят из Rubbles и х5. Есть ещё один от Саши Фонарёва, более подробный. Оба скорее бизнесовые.
3. #кудажебезвалеры Валерий Бабушкин про предсказание спроса в х5 (но обратите внимание что видео от 2020 года, часть инфы устарела). Тут есть.и про признаки, и про построение непосредственно моделей.
4. Евгений Бурнаев: Топологический анализ временных рядов для прогнозирования спроса
5. Топовый вебинар Богдана Печёнкина по ценообразованию (тут есть модели спроса и целый блок про признаки)
6. Доклад Максима Гончарова про управление ассортиментом на основе моделей спроса
7. Учебное соревнование по прогнозу продаж на Kaggle. А ещё есть соренование от Walmart и от Favorita.
Здесь в ноутбуках можно найти примеры применения различных подходов.

За помощь в создании подборки большое спасибо Максиму
👍57🔥14🎉2🤩1
🔥🔥🔥 Интервью с Александром Дьяконовым!

Обсудили в нём ряд интересных вопросов, в частности:
- Что было в первых требования к Data Scientist’у в России?
- Зачем учить то, что не используется в проде (теорию)?
- Как отличить качественные курсы от не очень качественных?
- Что ждёт аналитику и глубокое обучение в будущем?

https://youtu.be/0sa8XT0oC9o
🔥44🤩8👍6🎉2
Подборка ресурсов по математике для Data Science:

Уровни:
⭐️ - закончил универ сто лет назад, ничего не помню
⭐️⭐️ - знаю и помню базу (матан, линал, тервер, матстат)
⭐️⭐️⭐️ - хорошо разбираюсь в высшей математике, хочу поднатаскать специфические для DS темы


⭐️Наглядный разбор теории в серии «X для чайников»: что такое вектор, как считать производную, матричные уравнения и т.д.
⭐️Материалы с лекций и семинаров ВМК МГУ от «Ёжика в матане»: VK, YouTube. Тут можете спокойно начинать с лекций и семинаров Никитина по математическому анализу, их читают в самом начале

⭐️⭐️ Хорошие задачки с подробным разбором решений на Матбюро: линейная алгебра, теория вероятностей, математическая статистика.
⭐️⭐️Курс Райгородского «Основы теории вероятностей». Тут наглядно и на пальцах объясняются базовые аспекты
⭐️⭐️ [Eng] Курс «Matrix Methods in Data Analysis, Signal Processing, and Machine Learning», в нём есть вся ключевая математика для DS

⭐️⭐️⭐️[Eng] Сборник задач и теории по базовой математике (линейная алгебра, оптимизация, графы) и машинному обучению:
Pen and Paper Exercises in Machine Learning
⭐️⭐️⭐️[Eng] Книга «Математика для Data Science»: https://mml-book.github.io/
👍61🔥40🤩1