Start Career in DS
10.7K subscribers
89 photos
10 files
276 links
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev
Download Telegram
🌐 ML на графах для решения задачи матчинга

Один из наших подписчиков, Иван, написал очень крутую статью про решение задач матчинга с помощью графовых нейронных сетей.

А если конкретнее - про применение алгоритмов кластеризации на графах при поиске одинаковых товаров в онлайн-магазине.

Классический подход для  решения такой задачи состоит из двух этапов:
1. Подбор кандидатов. На этом этапе используется грубый, но быстрый алгоритм для подбора большого количества схожих объектов, потенциальных пар
2. Проверка пар моделью (т. н. матчинг) — более точная проверка того, действительно ли в паре одинаковые объекты.

У объекта может быть более одного дубликата, и хочется их объединять в одну группу, один кластер.

Просто склеить все найденные пары в один кластер — не лучшая идея, поскольку предсказания модели на 2 этапе имеют не нулевой процент ошибок, а такая склейка их только размножит.

В статье рассказывается про то, как алгоритмы Community Detection позволяют эту проблему решать

Статья на хабре тут
🧑‍🎓 Leetcode по ML/DS

Думаю, все знают про leetcode, с помощью которого можно отлично натаскаться на алгоритмические задачки.
Нашли аналогичный сервис по ML/DS задачкам, на котором можно попрактиковаться в решении задач по SQL, Python, Теории вероятностей и статистике. В нём собраны задачки, которые спрашивают топовых компаниях вроде Tesla/Twitter/Facebook/Linkedin и т.д.

Отличная штука для того, чтобы попрактиковаться перед собеседованием 🙂

https://datalemur.com/questions
📉 Кажется, мы стали забывать БАЗУ

За последнее время я несколько раз почувствовал себя олдом. Один из них - когда понял, что многие не знают про великие курсы Анатолия Карпова по статистике!

В них Толя (один из создателей школы karpov courses) рассказывает на пальцах про все ключевые темы в статистике, которые нужно знать для начала карьеры в DS. И именно по этим курсам огромное количество людей (если верить степику, 271к+) изучали статистику :)

Все эти курсы бесплатные и лежат на степике тут:
Часть 1, Часть 2, Часть 3
🎓 Где можно потренироваться писать код на SQL?

Если вы только изучили основы SQL (или собираетесь это сделать), то очень советуем закрепить знания на практике.
В рамках собеседований на DS позиции очень часто просят реализовывать различные запросы, попрактиковаться с этим перед интервью всегда полезно.

1. Тренажер ДВФУ на Степике
В начале есть теория, можешь начинать разбираться прям с нуля
Хорошая база чтобы понять базовый синтаксис, но практически нет заковыристых задач

2. Классика жанра, sql-ex.ru
Огромное количество задач, на которых можно поупражняться с самыми разными запросами.
Иногда причиняет боль. На sql-ex есть будто бы вообще всё, что только можно придумать. Это и плюс, и недостаток. Иногда сложно найти то, что нужно именно вам

2. SQLTest - наглядный сервис для нарешивания задачек
Ограниченное число задач, которые очень похожи на то, что реально приходится считать в жизни. Из минусов - их относительно немного и все они крутятся вокруг одного набора данных

4. SQL Academy - Сервис с очень приятным и понятным интерфейсом, частично платный
Из крутого - в нём можно повизуализировать связи таблиц, интерактивно порассматривать схемы данных и т.д. Задач много и они разбиты по уровням

5. Симулятор SQL от Karpov.Courses
В нём есть и блок теории, и блок практики, в котором можно потыкаться с реальными задачками

Если хотите больше подобных подборок - накидывайте 🔥 под постом!
🚀Вакансия в Яндекс Лавку

На связи Рома Васильев, создатель этого канала 🙂
Ищу себе человека в команду аналитики ассортимента Яндекс.Лавки.
Формальное описание вакансии можно почитать тут

Чем предстоит заниматься:
- Аналитика матчинга товаров, разработка алгоритмов матчинга, метрик и отчетов поверх них
- Автоматизация процессов запуска новых товаров
- Разработка новых метрик и отчетов для оценки эффективности ассортимента

Что нужно знать, что будет на собесах:
- SQL, Python
- Статистику и теор. вер (используем для оптимизации алгоритмов и проведения тестов)

Ищу кандидатов уровня middle/middle+, если у вас есть опыт работы в е-коме - вдвойне круто.
За подробностями и с откликами можно приходить в личку
🐍 Где практиковать написание кода на Python

Ну, раз уж писали про SQL, хорошо бы и про Python написать 🙂
Итак, сборник ресурсов, на которых можно пописать код для тренировки перед собесами и не только:

1. Хэнбук Яндекса - повторить/узнать базу
Отлично хорошо структурированный вводный курс. Тут по каждой основной теме есть блок теории + блок практических заданий.
Покрываются как базовые темы (например условные операторы, циклы) так и data-библиотеки (numpy, pandas)

2. py.Checkio - глубоко поковыряться в особенностях синтаксиса и пописать всё на свете
Очень много заданий, можно залипнуть буквально на несколько месяцев

3. Leetcode, куда же без него. Классика по натаскиванию на алго-задачки
Однако, там ОЧЕНЬ много задач. Если начать решать всё подряд - будет очень больно. Но есть вот такая схемка, которая позволит пройтись по всем основным блокам, от простого к сложному

4. Точечное повторение Numpy и Pandas
Конечно, работу с этими библиотеками лучше тренировать на практике, но вспомнить основной функционал можно с помощью этих тренажеров

Ничего не забыли?
Если хотите больше подобных подборок - накидывайте 🔥 под постом!
💙 Weekend оффер в аналитику Лавки и Еды

В прошлый раз по ровно такой же программе к нам пришло несколько очень крутых ребят.
На этой неделе повторим!
Если вы давно хотели податься в аналитику Яндекса, но сомневались - это шанс для вас 🙂

Буквально до завтра можно решить тестовое (базовый тервер+python), а в выходные - пройти секции и получить оффер. Кстати, вот здесь я подробно рассказывал про секции и про то, как к ним готовиться

Регистрироваться тут
🖥 База знаний SCiDS

Вы просили - мы сделали!
Пересобрали базу знаний по всем материалам, которые собирали в этом канале. Более 300 постов теперь доступны в максимально системном формате. Новые посты тоже обязательно будем доливать, поэтому если вы еще не подписаны - подписывайтесь! 🙂

Наша база знаний лежит здесь: [Ссылка на Notion]

Основные блоки:
🎬 Наш канал на YouTube
🆕 Для новичков (чтобы понять, что такое DA/DS)
💼 Подготовка к собеседованию, составление резюме и поиск работы
📝 Математика и статистика
⌨️ Языки программирования
🧠 Машинное обучение
📊 Аналитика
⚙️ Инструменты
🔍 Специфика задач в разных областях
🗒️ Полезная информация и шпаргалки


---

💡 Создатель нашего канала, Рома Васильев, также ведёт персональный блог, в котором делится идеями касательно образования, обучения и развития в анализе данных.
Если готовы нырнуть в это всё глубже - приходите читать: @ravasiliev_ch
🧑‍🏫 Записи лекций по курсу МФТИ "Теория вероятностей" от А.М.Райгородского

Один из самых крутых базовых курсов по Теории вероятностей!
Позволяет быстро понять все основные темы. А Андрей Михайлович - мега-крутой преподаватель, который умеет вовлечь в тему и объяснить всё на примерах.

Собрали для вас все лекции с их коротким описанием, чтобы можно было выбрать и посмотреть интересную/нужную вам:
1. Геометрическая вероятность. Условная вероятность и независимость событий

2. Формула полной вероятности и формула Байеса. Схема испытаний Бернулли
3. Случайные графы. Полиномиальная схема. Конечное вероятностное пространство. Аксиоматика Колмогорова
4. Предельные теоремы схемы испытаний Бернулли. Случайные величины и функции распределения (начало)
5. Случайные величины и функции распределения (продолжение)
6. Математические ожидания случайной величины. Независимость случайных величин, корреляция
7. Неравенства Маркова и Чебышёва. Свойства дисперсии случайной величины
8. Закон больших чисел. Неравенства уклонения в случайном блуждании
9. Формула обращения. Многомерные функции распределения
10. Распределения случайных векторов. Вероятностная сходимость
11. Сходимость по распределению. Усиленный закон больших чисел
12. Характеристические функции. Центральная предельная теорема
13. Центральная предельная теорема (продолжение)

Накидайте 🔥 это посту если хотите больше материалов по базе 🙂
📐 Задачи на геометрическую вероятность из экзаменов в ШАД

Задачи на геометрическую вероятность позволяют отлично понять суть вероятности, вспомнить геометрию и размять мозги.
А ещё их очень любят периодически давать на собеседованиях!

Вашему вниманию предлагаются три задачки. Попробуйте решить их сами:
1. Внутри правильного треугольника единичной площади случайным образом выбирается точка и соединяется с двумя вершинами. Какого математическое ожидание площади полученного треугольника?
2. На окружности выбираются три случайных точки - вершины треугольника. Какова вероятность того, что центр треугольника будет находиться внутри треугольника?
3. Плоскость разбита на прямоугольники 10x20. Выбирается окружность диаметра 4 с центром в случайном месте плоскости. Какова вероятность того, что окружность пересечет три прямугольника (будет иметь хотя бы одну общую точку с каждым из них)?

Здесь все они разбираются с очень красивыми визуализациями и примерами

Накидывайте 🔥 этому посту, если хотите больше подобных задачек!
💻 Топовое видео про архитектуру бэкенда

Как мы рассказывали в этом посте, отличный способ погрузиться в data science – начать свой проект. Вот [ENG] классная мотивирующая статья от Пола Грэма, в которой он рассказывает, как создать Гугл (спойлер: делать проекты)

Но каждый проект, помимо аналитических и ml-ных штук, требует грамотной бэкенд архитектуры. Часто нет знакомого бэкендера, который готов за бесплатно написать всю оболочку для вашего pet-проекта, и приходится самим погружаться во все это (но это на самом деле хорошо, потому что так вы получаете знания, благодаря которым, например, в соло сможете быстро развернуть mvp своего стартапа)

Недавно в рекомендациях встретил видео, в котором чувак очень просто рассказывает про современную архитектуру бэкенда:
– базы данных
– http, rest
– кэш
– микросервисы
– репликации
– балансеры
– брокеры сообщений
и т. д.

Если вы хотите делать свои проекты – обязательно посмотрите этот видос, даже если вы новичок.

Ставьте огоньки под этот пост🔥, если он вам понравился, и сердечки ❤️, если вы хотите больше постов про pet-проекты/стартапы
🪙 Как понять честная ли монетка/случайно ли работает алгоритм?

Классическая задачка, которую в разных вариациях часто спрашивают на собеседованиях.

Вот в этом видео можно подробно на экспериментах понять как оно работает: видео
Вот здесь можно проверить свою интуицию и самостоятельно попробовать половить обманщиков на монетках: тык

Если коротко, алгоритм такой (и он очень похож на процесс проведения АВ тестов!):
1. Фиксируем ошибку 1 и 2 рода.
Ошибка 1 рода = как часто мы будем ошибочно говорить что монетка нечестная, когда она честная. Обычно берут за 0.05
Ошибка 2 рода = как часто мы будем ошибочно говорить что монетка честная, когда она нечестная. Обычно берут за 0.2

2. Считаем требуемый объём выборки. Это хорошо бы уметь делать руками, но для тренировки есть калькуляторы, например этот
В нашем случае он зависит от трех факторов: ошибки 1 и 2 рода (которую мы выбрали на шаге 1) и MDE (минимального эффекта, который мы хотим наблюдать). К примеру, если мы видеть отклонение монетки на 20% (если вероятность орла 0.6 место 0.5), то нам нужно 93 подбарсывания, а если хотим видеть отклонение монетки на 10% (вероятность орла 0.55 место 0.5), то нужно уже 388 подбрасываний

3. Проводим эксперимент - ряд подбрасываний монетки согласно рассчитанному в пункте 2 числу

4. Считаем с какой вероятностью мы могли получить такое или более критическое значение (долю орлов/решки) при условии, что монетка честная. Если это значение получается больше 0.05, то говорим, что монетка нечестная, а если меньше 0.05 - говорим, что в условиях нашго теста мы не можем сказать, что монетка нечестная
Это значение называется p-value. А как его считать - вы можете как раз подробно посмотреть в видео
🧑‍🏫 Открытый курс по прикладной статистике от Академии Аналитиков Авито (часть первая)

Ребята из Авито сделали крутой курс по прикладной статистике.
А мы специально для вас разбили его на блоки! Можете выбрать то, что интересно именно вам и пойти освежить знания по теме 🙂

1. Статистический критерий

1.1 Статистический критерий
1.2 Создание статистических критериев в Python
1.3 Cтатистический критерий уровня статзначимости α
1.4. Двусторонние критерии

2. Статистическая мощность
2.1. Статистическая мощность
2.2. Мощность для задачи про доставку
2.3. Minimum Detectable Effect - MDE
2.4. Доверительный интервал
2.4/1. Доверительный интервал. Продолжение
2.4/2. Доверительный интервал Уилсона
2.5. Алгоритм проверки гипотез

3. Z-test
3.1. Критерии сравнения средних
3.2. Z-test
3.3. Занятие со звездочкой, Z-test

4. T-test
4.1. Критерии сравнения средних. T-критерий Стьюдента
4.2. T-test
4.3. Доверительный интервал
4.4. АБ-тесты. Двувыборочный Т-test
4.5. MDE для T-test

5. Метод Монте-Карло
5.1. Метод Монте-Карло
5.2. Метод Монте-Карло (на исторических данных)
5.3. Метод Монте-Карло (определение мощности на исторических данных)

Вот здесь можно найти ноутбуки по курсу

Накидайте 🔥 это посту если хотите больше материалов по прикладной статистике 🙂
📊 Задачи на теорему Байеса от ведущих компаний

Байесовская статистика – это мощный инструмент для анализа данных и принятия решений в условиях неопределенности. Ее активно используют в различных областях, от медицинской диагностики до машинного обучения. А еще задачи на теорему Байса часто задают на собеседованиях в топовые компании!

Мы подготовили для вас три интересные задачи на байесовскую статистику. Попробуйте решить их самостоятельно:
1. В компании работают 80% программистов и 20% аналитиков данных. Программисты в среднем реже допускают ошибки в коде. Какова вероятность, что случайно выбранное исправление бага сделано аналитиком данных, если известно, что эта ошибка повторялась 3 раза до полного устранения?
2. В медицинском тесте на редкое заболевание вероятность ложноположительного результата составляет 5%, а истинного положительного – 99%. Если у человека положительный тест, какова вероятность, что у него действительно есть заболевание?
3. В конвейере по производству деталей 95% продукции соответствует стандартам качества. На линии контроля отобрали партию из 10 деталей, в которой обнаружили 3 бракованных. Какова вероятность, что конвейер работает неправильно?

Вот здесь можно поразбираться с теорией и нарешать задачки 🙂

Ставьте лайки 👍, если хотите больше таких задач и поделитесь своими решениями в комментариях!
💻 Пост легендарных вакансий!

Интересуетесь Data Science? Хотите сделать вклад в развитие канала, лучше познать область и подзаработать?

Всем привет, на связи Рома Васильев, создатель этого канала 🙂
Я сейчас активно думаю над развитием концепции канала - какой контент делать и какую ценность давать.
Однако, очень хочется не останавливаться в производстве контента. А на это нужно время, много времени.

В связи с этим, ищу помощника! В первую очередь - искать полезный контент и писать статьи

Что хочется от кандидата:
- Высшее (возможно, неоконченное) техническое образование
- Опыт с написанием каких угодно текстов (от постов в личный канал до технических текстов)
- Активность и наличие свободного времени (от 5 часов в неделю)

Что предлагаю кандидату:
- Большие объёмы новой информации, которую можно будет использовать для личного развития
- Инсайты из своего личного опыта
- Сдельную оплату (суммы обсуждаемы)

Что стало с предыдущем помощником: он пошёл работать аналитиком данных в Яндекс и теперь ему не до этого 🙂

Если предложение заинтересовало - заполните короткую форму
🎯 Множественное тестирование в A/B экспериментах

На различных курсах часто рассказывают про то, как проводить A/B-тесты. Чаще всего групп в академических задачах собственно две: А и В. Что тут может пойти не так? То, что на практике очень часто хочется проводить кучу экспериментов одновременно. В этом случае вы, скорее всего, столкнетесь с ситуацией, когда будете непроизвольно завышать вероятность ошибки I рода.

🧠 Почему так:
Когда вы проводите несколько тестов одновременно, суммарная вероятность получить ложноположительный результат увеличивается. Если в каждой отдельной проверке вероятность ошибки I рода составляет 5%, то с ростом числа проверок вероятность ложноположительных результатов значительно возрастает, что может привести к ошибочным выводам.

Как можно бороться:
- Метод Бонферрони: Деление уровня значимости альфа на количество проведенных тестов (α / n). Это простой и консервативный метод, который уменьшает вероятность ошибки I рода, но делает критерии для обнаружения значимых эффектов более строгими.
- Метод Холма: Менее консервативный метод, чем Бонферрони. Он поэтапно корректирует уровень значимости для каждого теста, ранжируя p-значения от наименьшего к наибольшему и применяя корректировку на каждом этапе.
- И другие методы, контролирующие FWER (Family-wise error rate): Например, процедура Бенджамини-Хохберга для контроля ложных открытий (FDR), которая позволяет более гибко подходить к множественным проверкам и лучше сохраняет мощность тестов.

Эти методы помогут вам уменьшить вероятность ложноположительных результатов при множественных тестированиях и обеспечить более достоверные выводы.

📚 Подробности и примеры кода для реализации различных методов можно найти в этой статье

Если хотите больше постов про A/B-тесты - накидывайте 🔥 этому посту!
🦸 Рома Васильев про данные, аналитику и жизнь

Готовы ли вы погрузиться в мысли про аналитику, образование и повседневную жизнь глубже?)
Если да - рекомендуем подписаться на канал Ромы, автора Start Career in DS

В нём вы найдёте кучу интеренсых материалов, например:
- Про ключевые навыки в современном мире
- Цикл Колба или как мы учимся
- Роль аналитики в компании
- Про использование ChatGPT в повседневной жизни

Подписывайтесь: @ravasiliev_ch!
🎯 Про Unit-экономику

От аналитиков и смежных профессий очень часто просят не только понимание своего домена, но и понимание того, как работает "цифровая экономика" в целом.
Это про то, сколько стоит привлечение пользователя, как он живёт в нашем продукте, сколько оставляет денег и тд.

Основные метрики, которые точно нужно знать:
- LTV - сколько дохода нам приносит пользователь за всё время жизни в продукте
- CAC - сколько нам стоит привлечение пользователя в продукт
- Retention - "переток" пользователей из одного периода в другой
- ARPU - средние траты юзера за период
- DAU, MAU - число юзеров за день/месяц

Нашёл на просторах интернета два крутых видео, которые рассказывают про юнитку от и до:
1. Выступление Ильи Красинского в рамках ШМЯ
Илья рассказывают про юнин-экономику с точки зрения корпорации: на какие метрики стоит смотреть, в каких разрезах и тд.
Кроме того, тут много примеров, на которых можно понять логику расчёта метрик

2. Вебинар Богдана Печенкина
Здесь тоже рассматриваются ключевые метрики юнит-экономики, но уже больше со стороны стартапа.
У Богдана есть свой цифровой продукт и он на примере этого продукта рассказывает про особенности сведения метрик 🙂

Ставьте 🔥 если хотите больше материалов про метрики!
Предлагаем вспомнить базовую математику.

Подборка ресурсов по математике для тех, кто забыл что было в школе. Заполнить пробелы или повторить всё сразу можно с помощью этих ресурсов:

🧑‍🏫 Курсы

1. Stepik Клуб любителей математики. Бесплатные курс по базовой математике и подготовка к вступительным в МФТИ. Создатели курса победители Stepik Awards 2023 в номинации "Лучший бесплатный курс года".

2. Линейная алгебра от Khan Academy [ENG] Linear algebra. Можно пройти курс по алгебре, а дальше углубиться в статистику и теорвер [ENG] Statistics and probability, AP College Statistics. Все курсы бесплатные.

3. Spacemath. Рускоязычный бесплатный ресурс. Сайт для самостоятельного изучения математики с нуля. Если в школе вы совсем не изучали математику - этот ресурс вам точно пригодится.

4. Не забываем про Сoursera, популярная платформа, c множеством курсов по разным темам, в том числе и по математике. Рекомендую [ENG] курс по алгебре для новичков и [ENG ]введение в статистику.

📚 Книги

Что такое математика? Р. Курант, Г. Роббинс — легко и понятно о базовых понятиях в математике и о сложных областях этой науки.
Алгебра И. М. Гельфанд , А. Шень — начинается с арифметики и заканчивается p-адическими числами, в книге есть объяснения и много задач для практики

Дополнительно

📦 [ENG] edX. Платформа предлагает пройти курсы по математике от ведущих университетов мира. Здесь есть как платные, так и бесплатные курсы. По ссылке отсортированы курсы относящиеся к теме DS.

📜 Математика для взрослых, статья на Хабре с дорожной картой для изучения математики.

Делитесь в комментариях своими рекомендациями и ставьте ❤️, далее расскажем про ресурсы для продвинутого уровня)
🔬 AI-магистратура от ИТМО и Napoleon IT

Подать заявку и принять участие в конкурсе на бюджетные места можно здесь

Что вас ждёт:


▪️ 200 бюджетных мест для талантливых студентов.
▪️ Полностью выборный учебный трек из 80+ дисциплин.
▪️ Продуктовый подход с фокусом на практику.
▪️ Онлайн-обучение в вечернее время и современных форматах: воркшопы, хакатоны, работа над реальными бизнес-проектами.
▪️ Преподаватели — действующие руководители ML-направлений в Ozon, Яндекс, VK, AIRI, Sber AI и др.
▪️ Стандартное обучение (2 года) или фаст-трек (1 год) для опытных разработчиков!
▪️ Крупнейшее русскоязычное ML-комьюнити

2️⃣0️⃣0️⃣ бюджетных мест
>> подать заявку можно на ai.itmo.ru

AI Talent Hub — магистратура, созданная университетом №1 рейтинга Альянса ИИ по подготовке AI-специалистов — ИТМО и AI-компанией Napoleon IT.

Реклама. Университет ИТМО ИНН:7813045547 erid:2VfnxvKPbKv
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM