Start Career in DS
10.3K subscribers
74 photos
10 files
254 links
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev
Download Telegram
💙 Weekend оффер в аналитику Лавки и Еды

В прошлый раз по ровно такой же программе к нам пришло несколько очень крутых ребят.
На этой неделе повторим!
Если вы давно хотели податься в аналитику Яндекса, но сомневались - это шанс для вас 🙂

Буквально до завтра можно решить тестовое (базовый тервер+python), а в выходные - пройти секции и получить оффер. Кстати, вот здесь я подробно рассказывал про секции и про то, как к ним готовиться

Регистрироваться тут
🖥 База знаний SCiDS

Вы просили - мы сделали!
Пересобрали базу знаний по всем материалам, которые собирали в этом канале. Более 300 постов теперь доступны в максимально системном формате. Новые посты тоже обязательно будем доливать, поэтому если вы еще не подписаны - подписывайтесь! 🙂

Наша база знаний лежит здесь: [Ссылка на Notion]

Основные блоки:
🎬 Наш канал на YouTube
🆕 Для новичков (чтобы понять, что такое DA/DS)
💼 Подготовка к собеседованию, составление резюме и поиск работы
📝 Математика и статистика
⌨️ Языки программирования
🧠 Машинное обучение
📊 Аналитика
⚙️ Инструменты
🔍 Специфика задач в разных областях
🗒️ Полезная информация и шпаргалки


---

💡 Создатель нашего канала, Рома Васильев, также ведёт персональный блог, в котором делится идеями касательно образования, обучения и развития в анализе данных.
Если готовы нырнуть в это всё глубже - приходите читать: @ravasiliev_ch
🧑‍🏫 Записи лекций по курсу МФТИ "Теория вероятностей" от А.М.Райгородского

Один из самых крутых базовых курсов по Теории вероятностей!
Позволяет быстро понять все основные темы. А Андрей Михайлович - мега-крутой преподаватель, который умеет вовлечь в тему и объяснить всё на примерах.

Собрали для вас все лекции с их коротким описанием, чтобы можно было выбрать и посмотреть интересную/нужную вам:
1. Геометрическая вероятность. Условная вероятность и независимость событий

2. Формула полной вероятности и формула Байеса. Схема испытаний Бернулли
3. Случайные графы. Полиномиальная схема. Конечное вероятностное пространство. Аксиоматика Колмогорова
4. Предельные теоремы схемы испытаний Бернулли. Случайные величины и функции распределения (начало)
5. Случайные величины и функции распределения (продолжение)
6. Математические ожидания случайной величины. Независимость случайных величин, корреляция
7. Неравенства Маркова и Чебышёва. Свойства дисперсии случайной величины
8. Закон больших чисел. Неравенства уклонения в случайном блуждании
9. Формула обращения. Многомерные функции распределения
10. Распределения случайных векторов. Вероятностная сходимость
11. Сходимость по распределению. Усиленный закон больших чисел
12. Характеристические функции. Центральная предельная теорема
13. Центральная предельная теорема (продолжение)

Накидайте 🔥 это посту если хотите больше материалов по базе 🙂
📐 Задачи на геометрическую вероятность из экзаменов в ШАД

Задачи на геометрическую вероятность позволяют отлично понять суть вероятности, вспомнить геометрию и размять мозги.
А ещё их очень любят периодически давать на собеседованиях!

Вашему вниманию предлагаются три задачки. Попробуйте решить их сами:
1. Внутри правильного треугольника единичной площади случайным образом выбирается точка и соединяется с двумя вершинами. Какого математическое ожидание площади полученного треугольника?
2. На окружности выбираются три случайных точки - вершины треугольника. Какова вероятность того, что центр треугольника будет находиться внутри треугольника?
3. Плоскость разбита на прямоугольники 10x20. Выбирается окружность диаметра 4 с центром в случайном месте плоскости. Какова вероятность того, что окружность пересечет три прямугольника (будет иметь хотя бы одну общую точку с каждым из них)?

Здесь все они разбираются с очень красивыми визуализациями и примерами

Накидывайте 🔥 этому посту, если хотите больше подобных задачек!
💻 Топовое видео про архитектуру бэкенда

Как мы рассказывали в этом посте, отличный способ погрузиться в data science – начать свой проект. Вот [ENG] классная мотивирующая статья от Пола Грэма, в которой он рассказывает, как создать Гугл (спойлер: делать проекты)

Но каждый проект, помимо аналитических и ml-ных штук, требует грамотной бэкенд архитектуры. Часто нет знакомого бэкендера, который готов за бесплатно написать всю оболочку для вашего pet-проекта, и приходится самим погружаться во все это (но это на самом деле хорошо, потому что так вы получаете знания, благодаря которым, например, в соло сможете быстро развернуть mvp своего стартапа)

Недавно в рекомендациях встретил видео, в котором чувак очень просто рассказывает про современную архитектуру бэкенда:
– базы данных
– http, rest
– кэш
– микросервисы
– репликации
– балансеры
– брокеры сообщений
и т. д.

Если вы хотите делать свои проекты – обязательно посмотрите этот видос, даже если вы новичок.

Ставьте огоньки под этот пост🔥, если он вам понравился, и сердечки ❤️, если вы хотите больше постов про pet-проекты/стартапы
🪙 Как понять честная ли монетка/случайно ли работает алгоритм?

Классическая задачка, которую в разных вариациях часто спрашивают на собеседованиях.

Вот в этом видео можно подробно на экспериментах понять как оно работает: видео
Вот здесь можно проверить свою интуицию и самостоятельно попробовать половить обманщиков на монетках: тык

Если коротко, алгоритм такой (и он очень похож на процесс проведения АВ тестов!):
1. Фиксируем ошибку 1 и 2 рода.
Ошибка 1 рода = как часто мы будем ошибочно говорить что монетка нечестная, когда она честная. Обычно берут за 0.05
Ошибка 2 рода = как часто мы будем ошибочно говорить что монетка честная, когда она нечестная. Обычно берут за 0.2

2. Считаем требуемый объём выборки. Это хорошо бы уметь делать руками, но для тренировки есть калькуляторы, например этот
В нашем случае он зависит от трех факторов: ошибки 1 и 2 рода (которую мы выбрали на шаге 1) и MDE (минимального эффекта, который мы хотим наблюдать). К примеру, если мы видеть отклонение монетки на 20% (если вероятность орла 0.6 место 0.5), то нам нужно 93 подбарсывания, а если хотим видеть отклонение монетки на 10% (вероятность орла 0.55 место 0.5), то нужно уже 388 подбрасываний

3. Проводим эксперимент - ряд подбрасываний монетки согласно рассчитанному в пункте 2 числу

4. Считаем с какой вероятностью мы могли получить такое или более критическое значение (долю орлов/решки) при условии, что монетка честная. Если это значение получается больше 0.05, то говорим, что монетка нечестная, а если меньше 0.05 - говорим, что в условиях нашго теста мы не можем сказать, что монетка нечестная
Это значение называется p-value. А как его считать - вы можете как раз подробно посмотреть в видео
🧑‍🏫 Открытый курс по прикладной статистике от Академии Аналитиков Авито (часть первая)

Ребята из Авито сделали крутой курс по прикладной статистике.
А мы специально для вас разбили его на блоки! Можете выбрать то, что интересно именно вам и пойти освежить знания по теме 🙂

1. Статистический критерий

1.1 Статистический критерий
1.2 Создание статистических критериев в Python
1.3 Cтатистический критерий уровня статзначимости α
1.4. Двусторонние критерии

2. Статистическая мощность
2.1. Статистическая мощность
2.2. Мощность для задачи про доставку
2.3. Minimum Detectable Effect - MDE
2.4. Доверительный интервал
2.4/1. Доверительный интервал. Продолжение
2.4/2. Доверительный интервал Уилсона
2.5. Алгоритм проверки гипотез

3. Z-test
3.1. Критерии сравнения средних
3.2. Z-test
3.3. Занятие со звездочкой, Z-test

4. T-test
4.1. Критерии сравнения средних. T-критерий Стьюдента
4.2. T-test
4.3. Доверительный интервал
4.4. АБ-тесты. Двувыборочный Т-test
4.5. MDE для T-test

5. Метод Монте-Карло
5.1. Метод Монте-Карло
5.2. Метод Монте-Карло (на исторических данных)
5.3. Метод Монте-Карло (определение мощности на исторических данных)

Вот здесь можно найти ноутбуки по курсу

Накидайте 🔥 это посту если хотите больше материалов по прикладной статистике 🙂
📊 Задачи на теорему Байеса от ведущих компаний

Байесовская статистика – это мощный инструмент для анализа данных и принятия решений в условиях неопределенности. Ее активно используют в различных областях, от медицинской диагностики до машинного обучения. А еще задачи на теорему Байса часто задают на собеседованиях в топовые компании!

Мы подготовили для вас три интересные задачи на байесовскую статистику. Попробуйте решить их самостоятельно:
1. В компании работают 80% программистов и 20% аналитиков данных. Программисты в среднем реже допускают ошибки в коде. Какова вероятность, что случайно выбранное исправление бага сделано аналитиком данных, если известно, что эта ошибка повторялась 3 раза до полного устранения?
2. В медицинском тесте на редкое заболевание вероятность ложноположительного результата составляет 5%, а истинного положительного – 99%. Если у человека положительный тест, какова вероятность, что у него действительно есть заболевание?
3. В конвейере по производству деталей 95% продукции соответствует стандартам качества. На линии контроля отобрали партию из 10 деталей, в которой обнаружили 3 бракованных. Какова вероятность, что конвейер работает неправильно?

Вот здесь можно поразбираться с теорией и нарешать задачки 🙂

Ставьте лайки 👍, если хотите больше таких задач и поделитесь своими решениями в комментариях!
💻 Пост легендарных вакансий!

Интересуетесь Data Science? Хотите сделать вклад в развитие канала, лучше познать область и подзаработать?

Всем привет, на связи Рома Васильев, создатель этого канала 🙂
Я сейчас активно думаю над развитием концепции канала - какой контент делать и какую ценность давать.
Однако, очень хочется не останавливаться в производстве контента. А на это нужно время, много времени.

В связи с этим, ищу помощника! В первую очередь - искать полезный контент и писать статьи

Что хочется от кандидата:
- Высшее (возможно, неоконченное) техническое образование
- Опыт с написанием каких угодно текстов (от постов в личный канал до технических текстов)
- Активность и наличие свободного времени (от 5 часов в неделю)

Что предлагаю кандидату:
- Большие объёмы новой информации, которую можно будет использовать для личного развития
- Инсайты из своего личного опыта
- Сдельную оплату (суммы обсуждаемы)

Что стало с предыдущем помощником: он пошёл работать аналитиком данных в Яндекс и теперь ему не до этого 🙂

Если предложение заинтересовало - заполните короткую форму
🎯 Множественное тестирование в A/B экспериментах

На различных курсах часто рассказывают про то, как проводить A/B-тесты. Чаще всего групп в академических задачах собственно две: А и В. Что тут может пойти не так? То, что на практике очень часто хочется проводить кучу экспериментов одновременно. В этом случае вы, скорее всего, столкнетесь с ситуацией, когда будете непроизвольно завышать вероятность ошибки I рода.

🧠 Почему так:
Когда вы проводите несколько тестов одновременно, суммарная вероятность получить ложноположительный результат увеличивается. Если в каждой отдельной проверке вероятность ошибки I рода составляет 5%, то с ростом числа проверок вероятность ложноположительных результатов значительно возрастает, что может привести к ошибочным выводам.

Как можно бороться:
- Метод Бонферрони: Деление уровня значимости альфа на количество проведенных тестов (α / n). Это простой и консервативный метод, который уменьшает вероятность ошибки I рода, но делает критерии для обнаружения значимых эффектов более строгими.
- Метод Холма: Менее консервативный метод, чем Бонферрони. Он поэтапно корректирует уровень значимости для каждого теста, ранжируя p-значения от наименьшего к наибольшему и применяя корректировку на каждом этапе.
- И другие методы, контролирующие FWER (Family-wise error rate): Например, процедура Бенджамини-Хохберга для контроля ложных открытий (FDR), которая позволяет более гибко подходить к множественным проверкам и лучше сохраняет мощность тестов.

Эти методы помогут вам уменьшить вероятность ложноположительных результатов при множественных тестированиях и обеспечить более достоверные выводы.

📚 Подробности и примеры кода для реализации различных методов можно найти в этой статье

Если хотите больше постов про A/B-тесты - накидывайте 🔥 этому посту!
🦸 Рома Васильев про данные, аналитику и жизнь

Готовы ли вы погрузиться в мысли про аналитику, образование и повседневную жизнь глубже?)
Если да - рекомендуем подписаться на канал Ромы, автора Start Career in DS

В нём вы найдёте кучу интеренсых материалов, например:
- Про ключевые навыки в современном мире
- Цикл Колба или как мы учимся
- Роль аналитики в компании
- Про использование ChatGPT в повседневной жизни

Подписывайтесь: @ravasiliev_ch!
🎯 Про Unit-экономику

От аналитиков и смежных профессий очень часто просят не только понимание своего домена, но и понимание того, как работает "цифровая экономика" в целом.
Это про то, сколько стоит привлечение пользователя, как он живёт в нашем продукте, сколько оставляет денег и тд.

Основные метрики, которые точно нужно знать:
- LTV - сколько дохода нам приносит пользователь за всё время жизни в продукте
- CAC - сколько нам стоит привлечение пользователя в продукт
- Retention - "переток" пользователей из одного периода в другой
- ARPU - средние траты юзера за период
- DAU, MAU - число юзеров за день/месяц

Нашёл на просторах интернета два крутых видео, которые рассказывают про юнитку от и до:
1. Выступление Ильи Красинского в рамках ШМЯ
Илья рассказывают про юнин-экономику с точки зрения корпорации: на какие метрики стоит смотреть, в каких разрезах и тд.
Кроме того, тут много примеров, на которых можно понять логику расчёта метрик

2. Вебинар Богдана Печенкина
Здесь тоже рассматриваются ключевые метрики юнит-экономики, но уже больше со стороны стартапа.
У Богдана есть свой цифровой продукт и он на примере этого продукта рассказывает про особенности сведения метрик 🙂

Ставьте 🔥 если хотите больше материалов про метрики!
Предлагаем вспомнить базовую математику.

Подборка ресурсов по математике для тех, кто забыл что было в школе. Заполнить пробелы или повторить всё сразу можно с помощью этих ресурсов:

🧑‍🏫 Курсы

1. Stepik Клуб любителей математики. Бесплатные курс по базовой математике и подготовка к вступительным в МФТИ. Создатели курса победители Stepik Awards 2023 в номинации "Лучший бесплатный курс года".

2. Линейная алгебра от Khan Academy [ENG] Linear algebra. Можно пройти курс по алгебре, а дальше углубиться в статистику и теорвер [ENG] Statistics and probability, AP College Statistics. Все курсы бесплатные.

3. Spacemath. Рускоязычный бесплатный ресурс. Сайт для самостоятельного изучения математики с нуля. Если в школе вы совсем не изучали математику - этот ресурс вам точно пригодится.

4. Не забываем про Сoursera, популярная платформа, c множеством курсов по разным темам, в том числе и по математике. Рекомендую [ENG] курс по алгебре для новичков и [ENG ]введение в статистику.

📚 Книги

Что такое математика? Р. Курант, Г. Роббинс — легко и понятно о базовых понятиях в математике и о сложных областях этой науки.
Алгебра И. М. Гельфанд , А. Шень — начинается с арифметики и заканчивается p-адическими числами, в книге есть объяснения и много задач для практики

Дополнительно

📦 [ENG] edX. Платформа предлагает пройти курсы по математике от ведущих университетов мира. Здесь есть как платные, так и бесплатные курсы. По ссылке отсортированы курсы относящиеся к теме DS.

📜 Математика для взрослых, статья на Хабре с дорожной картой для изучения математики.

Делитесь в комментариях своими рекомендациями и ставьте ❤️, далее расскажем про ресурсы для продвинутого уровня)
🔬 AI-магистратура от ИТМО и Napoleon IT

Подать заявку и принять участие в конкурсе на бюджетные места можно здесь

Что вас ждёт:


▪️ 200 бюджетных мест для талантливых студентов.
▪️ Полностью выборный учебный трек из 80+ дисциплин.
▪️ Продуктовый подход с фокусом на практику.
▪️ Онлайн-обучение в вечернее время и современных форматах: воркшопы, хакатоны, работа над реальными бизнес-проектами.
▪️ Преподаватели — действующие руководители ML-направлений в Ozon, Яндекс, VK, AIRI, Sber AI и др.
▪️ Стандартное обучение (2 года) или фаст-трек (1 год) для опытных разработчиков!
▪️ Крупнейшее русскоязычное ML-комьюнити

2️⃣0️⃣0️⃣ бюджетных мест
>> подать заявку можно на ai.itmo.ru

AI Talent Hub — магистратура, созданная университетом №1 рейтинга Альянса ИИ по подготовке AI-специалистов — ИТМО и AI-компанией Napoleon IT.

Реклама. Университет ИТМО ИНН:7813045547 erid:2VfnxvKPbKv
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🎯 Задача многоклассовой классификация: способы построения ML-моделей [1/2]

Задачи такого рода строятся на двух основных подходах: мультиклассовая классификация и многозадачная классификация. В рамках этого поста остановимся на первом и разберем несколько подходов к реализации ML-алгоритмов мультиклассовой классификации.

❗️Важно отметить, что подходы ниже актуальны для линейных моделей, «деревянные» алгоритмы и KNN и так умеют работать с мультиклассами.

1. One-vs-Rest (OvR), известный как One-vs-All (OvA).
Для каждого класса обучается один бинарный классификатор, который учится отделять целевой класс от всех остальных.

При классификации нового объекта все модели предсказывают вероятность принадлежности этого объекта к своему классу, затем выбирается класс с наибольшей уверенностью.

2. One-vs-One (OvO).
Отбираются все возможные пары классов, затем обучается бинарный классификатор для каждой такой пары. Всего создается N(N-1)/2 классификаторов, где N - число классов.

При классификации нового объекта все классификаторы голосуют, и выбирается класс, получивший наибольшее число голосов.

3. Логистическая Softmax-регрессия.
Обобщение бинарной логистической регрессии на случай множества классов.

Модель оценивает вероятности принадлежности объекта ко всем классам одновременно.
Использует функцию активации Softmax вместо сигмоиды, отсюда и появляется возможность выдавать вероятности объекту для всех классов. Обучение обычно производится методом максимального правдоподобия.

📚Также дополнительный материал по данной теме можно найти тут и на Хабре.
💯 Мультиклассовая и многозадачная классификация в sklearn.

Тем, кто дочитал этот пост до конца, небольшой бонус - репозиторий с kaggle-соревнованиями по задаче "классификации".

В следующем посте данной серии разберем ключевые метрики для оценки моделей в задачах многоклассовой классификации.
Ставьте ❤️ или 🔥 и не забывайте писать свои комментарии и вопросы!
До встречи👋🏻
Продолжаем вспоминать математику

На прошлой неделе рассказывали вам про освоение базовой математики. Сегодня продолжаем тему и делимся ресурсами более продвинутого уровня про разделы математики необходимые для работы в сфере DS. Что ещё можно изучить, кроме курсов Карпова по статистике, про которые мы уже рассказывали в канале:

📜 Статья про базовые понятия статистики для науки о данных. Краткое перечисление часто встречающихся понятий в DS. Можно читать и по порядку углубленно изучать каждую тему.

📚 Теория вероятностей. Книга + видео. Тут всё просто, никаких предварительных знаний не требуется, можно начинать изучать хоть сейчас.

📚 Сборник задач по теории вероятностей (с решениями). Если уже знакомы с темой, то можно приступать к задачам.

📹 [ENG] Линейная алгебра. Простые объяснения базовых понятий, очень коротко, наглядно и доступно. Достаточно для первичного погружения в тему.

📹 [ENG] Линейная алгебра от MIT в связке с ML. Если разобрались с основами линейной алгебры в предыдущих видео, то тут можно продолжить изучение темы именно в направлении ML.

📹 Математическая статистика. Запись курса лекций по математической статистике от МФТИ (Лектор — доц. И.В. Родионов), подробно и основательно разберётесь в теме, если вам комфортен формат много часового видео.

🧑‍🏫 Курс по математическому анализу от МГЛУ.
Первая часть и Вторая часть. Глубокое погружение в тему, для старта не обязательно, но в будущем можно освоить.

🧑‍🏫 Платформы где можно попрактиковаться в решении задач: линейная алгебра + ML/DL и статистика и теория вероятности. Теория дело хорошее, но без практики никуда.

Использовали что-то из этой подборки?) Делитесь в комментариях своими рекомендациями и ставьте ❤️