Start Career in DS
11.9K subscribers
93 photos
1 video
10 files
317 links
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev

№ 5141779667
Download Telegram
К слову про задачки на теорию вероятностей.
Я тут недавно нашёл вот такой вот такую подборку задач из Я, которую давали на одном из дней карьеры в МГУ.
За, кажется, 4 решённых задачи можно было получить что-то вроде футболки и скип одного из первых этапов отбора на стажировку :)
👍17🔥10
🔥🔥🔥 Интервью с Андреем Лукьяненко, лидом из MTS AI, мастером соревнований и грандмастером ноутбуков на Kaggle!

Андрей прошёл путь из ERP консалтинга в DL и сейчас является одним из самых узнаваемых участников российского DS-комьюнити 🙂

https://youtu.be/pjvJoGwXVXU

P.S. Поддержите видео лайком + комментом, это будет безумно полезно для продвижения канала!
🔥16👍7🎉1
Курс по нейронкам с уклоном в CV от Samsung.
Буквально вчера допрошёл очень зашедший мне курс "Нейронные сети и компьютерное зрение".
Зашёл он мне по ряду причин:
1. Большинство сложных вещей объясняют реально на пальцах. Вплоть до того, что "Для того, чтобы понять градиентный спуск - представьте что вам нужно спуститься с горы к озеру. Как вы это будете делать?"
2. Достаточное количество теоретических задач. Их я бы сказал много, но необходимо их решать на сертификат с отличием, если проходите курс просто по фану - можно пропустить. Тем не менее, многие из них - вопросы, которые во-первых реально позволяют лучшие понять тему (к примеру, руками считать производные выхода нейронки по параметрам), во-вторых - реально встречаются на собеседованиях
3. Хорошие практические задания. Местами дебильные и муторные (ручная реализация свёрточного слоя), но, опять же, позволяющие лучше понять что происходит
4. Последний семинар - фактически готовый гайд для старта участия в соревнованиях по CV на Kaggle. Ну и, собственно, задание там - побить baseline в одном из мейнстримных соревнований (Cleaned vs Dirty).
5. Курс целиком и полностью бесплатный 🙂

Имхо если вы помните универскую математику, +- уверенно программируете на питоне и хотите познать CV - он вам зайдёт.

В общем, рекомендую:
https://stepik.org/course/50352
👍33🔥4🤩1
Учебник ШАДа продолжает пополняться!
Почитал про алгоритмы и оценку моделей - одни из лучших объяснений, которые я видел. В том плане, что погружение достаточно плавное: сначала даётся интуитивное понимание (которого и многим не хватает), а потом уже постепенное погружение в детали.

Очень советую всем как минимум почитать блок про градиентный бустинг, как максимум - прям поразбираться со всеми блоками.
Ссылка: https://ml-handbook.ru
👍29🔥4🤩4
В канале часто появляются материалы относительно тех или иных ML-алгоритмов. Но вот конкретные приложения к прикладным задачам найти не так просто.
У Вани Максимова есть очень хороший канал ML for Value. В нем он разбирает применение различных подходов к решению практических задач.
Ваня долгое время работал в DS консалтинге, сейчас руководит одной из DS команд в Delivery Club, так что ему есть что рассказать 🙂
Ссылка на канал: https://t.me/ml4value
🔥8👍7
Для тех, кто пропустил: ODS запускает поток своего бесплатного курса по по Data Science! Курс уже стартанул, но войти в него можно и сейчас.

https://ods.ai/tracks/open-ml-course/about

Подробную инфу про курс и про то, как на него записаться, можно почитать тут.
Там очень хорошее разнообразие тем и ведёт его Петя Ермаков - я проходил его курсы в DataGym, он очень клёво умеет объяснять :)
👍18🔥8🤩2
Ещё один клёвый тренажёр+учебник по #SQL.
Кому sql-ex кажется сложноватым и некрасивым - этот ресурс зайдёт.
На сайте есть платная версия (которая позволяет смотреть авторские решения), но можно вполне обойтись и без неё.

Тут можно потренироваться в хитрых джойнах, агрегациях и понабивать руку. Интерфейс очень приятный и позволяет потыкать схему БД, даёт подсказки как в коде, так и непосредственно по решению. В более сложные штуки (к примеру, в оконные функции) этот ресурс не лезет. Ну и запросы даже в самых сложных задачках получаются не сказать чтобы громоздкие.

Ссылка: https://sql-academy.org/ru/trainer
👍13🔥3
Пару постов выше в комментариях написали про тренажёр по #SQL от ДВФУ.
Решил в него потыкаться, за несколько ночей пробежал интересные для себя задания.

Моё мнение: удобный и интересный формат, в начале даже даётся кусок теории (по терминологии работы с БД).
Далее блок за блоком рассматривается использование различных SQL-операторов. Тем, кто с SQL вообще не знаком, точно зайдёт.
Единственное что мне не понравилось - многие задания связаны с обновлением имеющихся таблиц (UPDATE).
На практике чаще всего работаешь с боевыми таблицами, которые менять очень плохо/невозможно. А для каждой созданной в своей схеме здорово иметь скрипт, который её собирает. Если вы после создания таблицы делаете в ней какие-то апдейты, то их можно легко забыть и потерять воспроизводимость. В общем, не очень люблю я UPDATE, а тут пришлось изрядно так с ним повозиться.
И оконных функций в курсе фактически нет. Но кажется, что они уже являются продвинутым уровнем 🙂

Ссылка на курс: https://stepik.org/course/63054/
👍17🔥2🤩2
Многие коллеги (авторы tg-каналов) в виду сложившейся ситуации приостановили постинг материалов, я долгое время тоже думал на эту тему. Пока я думал, несколько людей из разных стран обратились в личку с вопросами относительно поиска работы (в том числе из-за переезда из родных мест). Поэтому принял решение продолжить выкладывать материалы. Моя позиция относительно всего этого такая: человеческая жизнь - самое дорогое, что есть на свете. И нам очень важно ценить её.
Миссия этого канала - помочь всем вам развивать свои навыки для того, чтобы сделать жизнь лучше (как в материальном, так и в моральном плане).
Поэтому материалы продолжат выходить в стандартном режиме. Давайте будем использовать этот канал как библиотеку знаний, которую каждый сможет использовать для апгрейда своих навыков.

К слову, обновил наш сборник материалов на Notion всеми последними постами.
Кроме того, прямо сейчас находится в монтаже интервью с создателем одной из самых сильных школ по аналитике в СНГ, которого знают, кажется, все. Догадатесь о ком речь?)
👍69🔥8
В комментариях Максим поделился своими бесплатными курсами по #SQL. Посмотрел, понравились, делюсь с вами 🙂

Что мне зашло:
1. Вы не живёте в ваккуме степика/sql-ex/другой предподготовленной среды. В рамках второго занятия вы ставите себе Oracle (попутно прочувствовав все боли) и работаете уже в нём;
2. У курсов есть чат в tg с поддержкой, Максим там отвечает на вопросы по заданиям и не только. Этого часто не хватает;
3. Расширенный курс реально расширенный, как бы это забавно не звучало. В частности, там есть уроки по тонкостям работы с Oracle PL/SQL, мне такого урока во время работы на прошлом месте очень не хватало 🙂

1. Базовый курс по SQL для аналитиков и менеджеров
https://www.youtube.com/playlist?list=PLKl9v2TQvIkq4i_hZwZ1PmobxJSkIGwBf

2. Расширенные возможности SQL
https://youtube.com/playlist?list=PLKl9v2TQvIkqHEOvM1sLX3rNJ3WZJRKQ9
👍30🔥3🤩1
Ещё одна статья про оконные функции в #SQL.
Она позволит понять что это такое и зачем оно нужно (с красивыми иллюстрациями). Единственное - там рекламируется курс от SQL Lite по оконкам, его рекомендовать не могу т.к. не проходил. Но статья очень наглядная.
https://antonz.ru/window-functions/

Первая статья - тут. В ней есть примеры кода на SQL, но наглядность имхо чуть ниже.

P.S. Заметил, что в последнее время в канале стало много SQL, этим постом поток информации по ним временно остановим 🙂
👍9🔥4🤩1
#релокация
Подготовил для вас небольшую подборку материалов по теме:

1. Ролик от Future Today про ребят, которые работают в DS за границей: https://youtu.be/9Mmm0VGSTqM. Тут и про поиск работы, и про то, как и где искать работу, и про организацию переезда. И истории ребят очень вдохновляющие 🙂

2. Ребята из Proglib недавно написали статью, но она про айтишников в целом. Тем не менее, в ней можно найти много хороших советов, которые будут актуальны и для даты + подборку сайтов, по которым можно поискать вакансии. https://proglib.io/sh/alMdjIAUb6

3. Команда Толи Карпова пару дней назал провела прямой эфир про устройство на работу вне России: https://t.me/karpovcourseschat/48378
Пока не добрался послушать целиком, но знаю что там брали интервью у Марселя, который работает продуктовым аналитиком

4. Если вы мыслите сразу масштабно, то можете почитать статью о доходах в FAANG и пойти в канал Валеры Бабушкина, у него есть целый цикл статей про подготовку в FAANG (MAANG?): раз и два

Если у кого есть ещё полезные материалы - накидывайте в комментарии, думаю, всем будет полезно 🙂
И если вам нравится подобный контент - ставьте реакции, а то в последнее время как-то совсем скромненько с ними
👍42🔥9👎6🤩2
👍3
data-science-cheatsheet.pdf
1.1 MB
#cheatsheet
У нас в канале уже появлялись шпаргалки по python, по pandas (и даже расширенная по анализу данных с помощью pandas!), по SQL и по ключевым идеям машинного обучения

Нашёл ещё одну классную подборку, тут очень сжато есть и про базовую теорию вероятности, и про предподготовку данных, и про модели, и даже про фреймворки для работы с большими данными немного. Все материалы на английском, но тут такой английский, который DS-ам понимать уж точно стоит :)
🔥28👍6🤩1
Про банки и кредитный скоринг 🏦
Не так давно на канале вышло интервью с Толей Карповым, он в нём несколько раз сказал про то, что очень здорово понимать специфику задач компании, в которую вы собеседуетесь.
Поэтому появилась идея сделать цикл постов про различные задачи, которые решаются в тех или иных областях. Порой они пересекаются (то же самое uplift-моделирование делают уже, кажется, все), поэтому постараемся учесть и специфические области :)
Одна из самых классических задач, которую решают в банках - кредитный скоринг.

Про кредитный скоринг в классическом понимании можно почитать в очень наглядной статье от ребят из Glowbyte: https://habr.com/ru/company/glowbyte/blog/519382/
Но иногда DS-команды заходят сильно дальше - вот статья ребят из Альфы, которые работают с потранзакционным анализом, используя DL подходы: https://habr.com/ru/company/alfa/blog/657577/. Там и про проблемы предобработки транзакционных данных, и про архитектуру решения
🔥30👍10🤩4
Хочу порекомендовать бесплатного бота🤖 с книгами на технические темы.
Там есть и книги по программированию, и по статистике, и по машинному обучению.

В частности, мне зашла книга Основы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование
Хасти Тревор, Тибришани Роберт, Джером Фридман
(в боте /dl_1377)
В ней очень подробно разобраны классические алгоритмы машинного обучения как со статистической, так и с прикладной точки зрения.

Информация должна быть доступна и бесплатна🎓
https://t.me/searchIT_bookbot
👍14🔥6
Пожалуй, самая подробная статья про градиентные бустинги (да и в целом про деревья решений и всё что с ними связано) на русском языке:
https://habr.com/ru/company/ods/blog/645887/

Тут есть ответы на очень большое количество вопросов, но статью за один присест вряд ли прочитаешь. Когда-то я начал делать цикл роликов по ключевым моментам алгоритмов (линейная регрессия часть 1 и часть 2). Тыкайте 👍 если стоит сделать такие же ролики и по деревьям/бустингам 🙂
👍100🔥6🤩1