Start Career in DS – Telegram

Start Career in DS

11.9K subscribers

93 photos

10 files

314 links

Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev

№ 5141779667

Download Telegram

About

Blog

Apps

Platform

Start Career in DS

11.9K subscribers

Start Career in DS

🩵 Итоги 2024 и планы на 2025!

Всем привет, на связи Рома Васильев, автор этого канала 🙂
Хочу сказать спасибо всем вам, наши любимые подписчики, за участие в жизни Start Career in DS каждому из вас!)

Хотим вместе с командой поделиться с вами своими итогами и планами, чтобы вы понимали что у нас происходит 🙂

Итоги 2024:
1. Нарастили число подписчиков до 12к (почти +3 тысячи подписчиков!)
2. Число просмотров за год составило 922 тысячи, число перерепостов - 25.5 тысяч, а общее число реакций - почти 6 тысяч!
3. Начали делать квизы по машинному обучению и наградили кучу победителей. Их фото красуется рядом с этим постом, давайте поздравим еще раз ребят своими ❤️
4. Пересобрали команду! Теперь над каналом работают аж 3 человека: Рома, Руслан и Катя. Делаем лучший контент для вас!
5. В том числе сделали ряд очень хорошо залетевших постов:
- Классический ML – база: справочник основных алгоритмов
- Почему Polars быстрее, чем Pandas
- Предлагаем вспомнить базовую математику. Справочник материалов
- Открытый курс по прикладной статистике от Академии Аналитиков Авито
- Leetcode по ML/DS

Планы на 2025:
1. Продолжать расти и делать интересный контент в канале для вас!
2. Возродить подготовку материалов для ютуб-канала. Число просмотров говорит о том, что материалы полезны
3. Организовать митап/серию митапов. Эта идея переезжает с 2024 на новый, 2025 год :)

Ставьте ❤️ если вам нравится наш контент и пишите чего вам бы хотелось видеть больше в Start Career in DS!

❤‍🔥37❤25👍8🔥4

8.63K views15:02

Start Career in DS

🔗 Базовая теория по DL, которую должен знать каждый

👨‍💻 Умение строить нейронные сети и понимать, как они работают, является обязательным навыком практически для любого ML-специалиста. Поэтому разберем основные структурные компоненты нейронных сетей.

1️⃣ Искусственный нейрон
Нейрон, Входы (X), Веса (Weights), Смещение (Bias) и Функция активации.
Схему искусственного нейрона и его частей можете изучить тут.

2️⃣ Слои нейронной сети
Слои, виды слоёв (входной слой, скрытый слой, выходной слой) и функциональности (линейный слой, сверточный слой, рекурентный слой).
Про эти и другие наиболее распространенные виды слоев читайте тут. Также изучаем схему простой нейронной сети (перцептрона), про сложность - читаем тут.

3️⃣ Функции активации
Наиболее популярными функциями активаций являются: Sigmoid, Tanh, ReLU, Softmax.
Про эти и другие функции активации читайте тут.

4️⃣ Слои нормализации
Проблема взрыва и затухания градиента.
Основные виды нормализаций активаций в нейронной сети: LayerNorm, BatchNorm, RMSNorm. О каждом более подробно читайте тут.

5️⃣ Dropout и Attention слои
О способе решения проблемы переобучения с Dropout читайте тут.
Attention-механизм стал наиболее популярным в моделях Transformer, позволяя нейронной сети «фокусироваться» на важных частях входного сигнала через attention-score. Подробно о самом механизме читайте тут.

📚 Дополнительно читаем и преисполняемся:
- Наш большой справочник по Deep Learning
- Серия постов с видео по нейронным сетям - [Ч.1], [Ч.2]
- Доступный курс для каждого новичка по основам нейронных сетей
- Пишем свой нейрон на Python: практика для любого уровня
- Основы нейронных сетей с интересным разбором разных тем
- Математика, лежащая в основе нейронных сетей: серия простых статей

Обязательно ставьте ❤️ и 🔥 за наш труд!
Пишите комментарии и задавайте вопросы!
До встречи👋

❤57🔥25👍12❤‍🔥3

11.7K viewsedited 17:36

Start Career in DS

Всем привет!
Хотим поделиться с вами каналом «Задачи DS - Собеседования, Соревнования, ШАД»

Ребята на своем канале делают обзоры различных направлений в компаниях, разбирают тестовые задания и различные задачи с собеседований.

Что интересного можно у них почитать:
- О направлениях команд в Big Tech, работающих с ML
- О популярных задачах с собеседований по направлениям ML и DS
- Разбор задачи с собеседования в БКС Банк (DS)

❤17🔥8❤‍🔥1

7.47K views13:02

Start Career in DS

📊 Как оценивать LLM: бенчмарки [Ч.2]

В прошлой части данной темы мы подробно разобрали метрики, с помощью которых можно оценивать LLM. Сегодня поговорим про оценку через бенчмарки.

❗️Бенчмарк - это набор тестовых вопросов для оценки конкретного навыка модели.

Как правило, он работает следующим образом:
1. Берут некоторый стандартный набор запросов к LLM
2. Собирают ответы модели
3. С помощью асессоров/либо автоматической метрикой получают некоторую оценку качества модели

🗑Виды бенчмарков:

1️⃣ Открытые: создаются, как эталоны, для оценки конкретного навыка модели, что позволяет сравнить производительность любой LLM. Зачастую под данными бенчмарками понимаются: MMLU, GSM8K, HumanEval и т.д.
Проблема таких бенчмарков в том, что вся тестовая выборка хранится в открытом доступе (где-нибудь на GitHub), что зачастую приводит к утечке данных в train-датасеты.
ℹ️GSM8K - содержит математические задачи уровня начальной школы; MMLU - создан для проверки уровня фактических знаний LLM по гуманитарным наукам, социальным наукам, истории и даже право; HumanEval - содержит задачи по программированию

2️⃣ Закрытые: имеют аналогичную цель, однако, их особенность в закрытом тестовом наборе данных, которые LLM в процессе обучения не видели. Сюда могут входить: MT-Bench, SQuAD, RE-Bench и т.д.

3️⃣ Собственные (доменные): не всегда доступные бенчмарки пригодны для вашей задачи, поэтому зачастую приходится формировать свои тестовые примеры и способы оценки.

📚Дополнительная литература:
- Простая и очень полезная статья по бенчмаркам от команды Яндекса. Здесь же можно почитать про недостатки различных бенчмарков и этого подхода в целом
- Материалы из прошлой статьи
- Большой набор описаний наиболее популярных бенчмарков
- Статья про самые популярные LLM-бенчмарки
- Статья "Полный гид по бенчмаркам LLM"

Обязательно ставьте ❤️ и 🔥 под постом!
Пишите свои комментарии 🙂

❤22🔥6👍2

7.42K views15:16

Start Career in DS

📚 Книги по ML/DS

Мы периодически рекомендуем вам книги по DS или разыгрываем их в канале, решили собрать полезные книги в одном посте! 📚

💻 Если знакомы с DS/ML слабо и хотите чуть лучше понять где и как это может применяться:
0. Роман с Data Science
Автор книги Роман Зыков - человек, который строил с нуля аналитику в Ozon.ru, а также основал свою компанию, которая занимается анализом данных. В книге он рассказывает о своих
1. Машинное обучение для бизнеса и маркетинга
На пальцах про все основные возможности применения машинного обучения в классическом бизнесе (на самом деле, совсем не только в маркетинге!)
2. DS для карьериста
Достаточно старая книжка, но многие советы ещё актуальны!
Про то, как строить карьеру в DS

💼 Если хотите натаскаться к собеседованиям и отточить знания основ:
0. [ENG]Cracking the coding interview
Тут собраны все задачки с алгоритмических интервью в корпорациях, а также ключевые идеи и подходы к их решению
1. Серия "Грокаем": сложные вещи описаны простым языком и дополнены нестандартными иллюстрациями
- Грокаем алгоритмы
- Грокаем машинное обучение
- Грокаем глубокое обучение
2. Доверительное А/В-тестирование
Ключевые идеи АВ-тестирования понятным языком

🥷 Если уже знаете основы и хотите углубить свои знания:
0. [ENG]Machine Learning System Design
Книга Валерия Бабушкина и Арсения Кравченко по ML System Design. И этим всё сказано 🙂
1. [ENG]Understanding Deep Learning
Книга с лекциями, презентациями и приложенными юпитер-ноутбуками для того, чтобы разобраться в DL. Часто обновляется (последний апдейт 21 November 2024)

Обязательно ставьте ❤️ и 🔥 под постом, если подборка полезна!

❤50🔥25👍8😁1

11.5K views15:17

Start Career in DS

💻 Где искать вакансии в Data-профессиях?

Многие утверждают, что прохождение собеседований - чуть ли не отдельный навык, который нужно тренировать. А чтобы его тренировать, нужно ходить по собеседованиям и развивать соотвествующую мышцу 🙂

Сделали для вас подборку каналов для поиска вакансий в Data-профессиях (DS/DA/DE/ML/etc.):

1. Your Dream Data Job
Вакансии на позиции в аналитике/ml/data science в российские компании .
К каждой вакансии прилагается короткое описание позиции + полезная статья, релевантная к позиции.

2. Offer Inside Job
Вакансии в международных компаниях с русскими фаундерами и командами.
Помимо самих вакансий, у ребят есть сопровождение по составлению CV и подготовке к секциям

3. Нескучный Data Science Jobs
Вакансии от Жени Смирнова с подробным описанием: от имеющегося для железа до роли data science в этой компании

4. Data Science Jobs
Частые вакансии буквально на любые роли - от преподавателей на курсы по ML до руководительсиких позиций в международные компании.

Оставляйте свои 🔥 если хотите вторую часть поборки!

🔥39❤4❤‍🔥3😁1

10.5K views15:20

Start Career in DS

🔥 Сборники тестовых заданий и видео разборы реальных тестовых 👇

📦 Сборник тестовых заданий для Product Analyst и Data Analyst - задачи с реальных собеседований с решением, задачи разделены про грейдам, сферам компаний и тематикам: аб тесты, SQL, Python, логика и тд

📦 [eng/ru]Home assignments for data science positions - тестовые задания от разных компаний, на позицию, связанную с DS. Например, задания от Альфабанка, МТС, Wargaming, Uber

📹 Решаем реальное тестовое задание позицию Data Scientist - решение тестового задания, которое сгенерировал чат GPT. Чистка данных и заполнение пропусков, построение random forest и обучение модели

📹 Разбор тестового задания на позицию junior аналитика данных - Анатолий Карпов сам решает тестовое, нужно провести базовый когортный анализ, пример использования Pandas (генерация данных, фильтрация, группировка)

📹 Разбор тестового задания на позицию junior-аналитика в Банк ВТБ - разбор от школы Simulative, нужно оценить эффективность маркетинговой кампании, пример использования Pandas и sqlite3 (фильтрация, группировка, агрегация)

📹 Разбираем тестовое задание в OZON на джуниор-аналитика - разбор от школы Simulative, несколько задач: генерация датасета, подсчет среднего значения, алгоритмическая задача, задача на знание статистики. Используется Pandas и Numpy

Сохраняйте подборку! Ставьте 🔥 и ❤️!

❤44🔥20❤‍🔥6👍5😁1🤩1

10.2K views14:02

Start Career in DS

🎯 Как вкатиться в NLP: подборка основных RoadMaps

🔥Современный мир Data Science стремительно меняется, и чтобы оставаться востребованным специалистом, важно следить за актуальными трендами. Для этого мы собрали подборку RoadMaps по развитию в NLP и готовы поделиться им с вами!

0⃣ [ENG] NLP-Course от Лены Войты
Не RoadMap, но этот курс заслуживает, чтобы быть в подборке.
Курс затрагивает ключевые NLP-темы: Word Embeddings, классификация текстов, языковое моделирование и многое другое.
Хватит с головой, чтобы погрузиться в NLP.

1️⃣ [ENG] Step-by-Step RoadMap по NLP
Дорожная карта поэтапно описывает основные шаги изучения NLP, начиная от базовых тем (текст пре-процессинг, векторное представление текста, описание основные NLP задач) и заканчивая более продвинутыми (деплой NLP-моделей, Transfromers, LLM-библиотеки и MLOps для NLP).

2️⃣ [ENG] RoadMap to Learn NLP and LLMs
RoadMap погружает в NLP, рассказывая об основных принципах, методах и алгоритмах, используемыми в NLP (токенизация, стемминг, лемматизация, NER и многое другое).
Также в источнике есть блоки о продвинутом NLP с Deep Learning, сопровождая все темы дополнительными источниками для изучения.

3️⃣ [ENG] Git-репозиторий с RoadMap по NLP
RoadMap 2019 года, но в нем содержится избыточный набор тем по Text Mining, Probability & Statistics и classic-ML.
Покрывает все базовые концепции классического NLP для изучения более продвинутых и современных тем.

4️⃣ [RU] Git-репозиторий c NLP Compass на русском
Репозиторий содержит несколько ключевых информативных диаграмм, которые постоянно обновляются:
- Python-библиотеки при работе с NLP
- Диаграмма Эйлера-Венна по навыкам и обязанностям от NLP-разработчика до исследователя
- Большая дорожная карта по NLP (есть даже современные ТОП-темы - PEFT, Промпт-инжиниринг)
В добавок в репозитории есть огромный набор NLP-туториалов по разным темам.

5️⃣ [ENG] GIt-репозиторий с LLM-курсами и RoadMaps
Репозиторий содержит огромный набор курсов и источников по современному NLP и LLMs.
Курсы разбиты по трем разным уровням: LLM Fundamentals, LLM Scientist, LLM Engineer.
Также есть RoadMaps по каждому уровню с доп. источниками и ссылками на Colab с кодом.

Не забывайте ставить ❤️ и 🔥за крутые подборки!
Пишите комментарии и делитесь своими ресурсами!
До встречи👋

❤‍🔥27🔥13❤5👍5😁1

9.22K viewsedited 15:05

Start Career in DS

📚 Weekend offer в Яндексе

На связи Рома Васильев, создатель этого канала.

Проводим 1-2 марта оффер выходного дня для аналитиков в Яндексе, будем нанимать в том числе и в мою команду (аналитики международного Поиска)!

Что будет:
- В субботу (1 марта) - технические секции (будут алгоритмы, секция на написание кода для анализа данных и секция по теорверу-матстату-аналитике)
- В воскресенье (2 марта) - финалы с командами и офферы

Почему оно стоит того:
- Многие жалуются на то, что секции в Яндексе долгие и томные, а тут есть возможность порешать всё за 2 дня.
- Нанимают сейчас в разные клёвые команды Большого Яндекса (Поиск, Алиса, Карты и тд)
- Яндекс предлагает вполне хорошие условия

Как готовиться:
- Вспомнить алгоритмы на python можно например тут, плюс хорошо бы освежить в голове написание кода для анализа данных
- Вспомнить теорию по теорверу и матстату можно на основе постов в нашем канале (например тут) 🙂
- Подумать о том, как грамотно рассказать о себе и своём опыте на финале

Где зарегистрироваться:
Вот тут

Яндекс Weekend Offer
Analytics

Офер за 2 дня для аналитиков с опытом от двух лет на Python. 1–2 марта, онлайн.

🔥13❤9👍4

11.3K views17:15

Start Career in DS

Что такое Git и зачем он нужен Data Scientist'у

Git — важный инструмент разработки, который необходим каждому, кто пишет код, включая DS-специалистам.

Git - это система (программа), которая позволяет отслеживать и вести изменения в файлах вашего проекта. Git - преимущественно используется в разработке, но иногда и в других областях.

🗂 Репозиторий - это хранилище вашего кода для одного или нескольких проектов. Git позволяет хранить репозитории локально или использовать специальные веб-сайты: GitHub, Bitbucket, GitLab.

🔝 Основные преимущества Git:
1. Контроль версий — возможность фиксировать каждое изменение в проекте и возвращаться к любой версии кода.
2. Работа в команде — удобная командная разработка без конфликтов в коде.
3. Воспроизводимость — возможность фиксировать состояние кода и данных.
4. Портфолио/Трудоустройство — работодатели часто используют GitHub, как способ оценить навыки кандидата
5. Безопасность — код хранится не только на вашем компьютере, но и в удаленном репозитории.

📚Дополнительные материалы по теме:
- Подборка постов про Git от нашего канала🤗
- [RU] Официальная документация Git на русском
- [RU] Интерактивный тренажер с доступной теорией и практикой ключевых концепций Git
- [ENG] Официальная документация по GitHub (подойдет как новичкам для знакомство с платформой, так и опытным юзерам для продвинутого использования)
- [RU] Git за полчаса - руководство для начинающих
- [RU] Репозиторий с советами и трюками по Git

Ставьте ❤️ и 🔥под данным постом!
И не забывайте делиться полезными ресурсами по Git в комментариях!

Start Career in DS

🐈‍⬛ Бесплатный курс для начинающих - введение в Git

У нас уже были посты про Git:
– Интерактивный туториал (если вы уже немного понимаете в Git)
– Курс для тех, кто вообще не работал с гитом
– Что делать, если накосячил при работе с гитом

Есть ещё один…

❤42🔥23👍1

14.9K views07:11

Start Career in DS

📢 Опросник о зарплатах в Data Science

Женя из @not_boring_ds запустил клёвый опрос, который поможет лучше понять текущее состояние рынка в российском DS. Приглашаем вас принять участие и внести свой вклад!

📝 Что внутри опроса?
Затрагивает ключевые аспекты вашей работы: опыт, текущая роль, тип данных, с которыми работаете, уровень зарплаты и степень удовлетворенности. На прохождение опроса уйдет буквально 5 минут.

Будем пристально следить за результатами и обязательно поделимся с вами первыми! ❤️

[Ссылка на опросник]

Опрос. Карьера в DS: опыт, текущая работа, удовлетворенность, планы на будущее.

Опрос проводится с целью добавления прозрачности в сфере Data Science, пожалуйста, отвечайте честно. Результаты опроса будут опубликованы публично в агрегированном формате.

👍16🔥6❤3

13.7K views16:29

Start Career in DS

Школа Аналитиков-Разработчиков Яндекса

До 27 апреля можно подать заявку на бесплатный интенсив, выпускники которого становятся аналитиками в Яндексе. Это ШАР, где мы рассказываем, как свободно работать с данными, извлекать из них смыслы и принимать на их основе обоснованные решения.

Впервые в этом году участникам ШАРа можно выбрать направление: Data Engineering или Data Science.

Стартуем 2 июня со всеми, кто пройдёт отбор. Сначала лекции и домашки, потом командный проект с участниками других направлений. Всего в этом году Яндекс запускаем семь Летних школ для разработчиков, менеджеров, девопсов и т.д.

ШАР — это шанс прокачаться и попасть на стажировку в Яндекс (или сразу в штат) и познакомиться с новыми близкими по духу ребятами.

Детали, отзывы и кнопка Подать заявку здесь: https://yandex.ru/yaintern/schools/analytics

Школа аналитиков-разработчиков

Летняя школа Яндекса для аналитиков-разработчиков. Больше половины выпускников получают офер

❤20❤‍🔥10😁7🔥3

11.1K views17:37

Start Career in DS

🐶 Твой будущий пет-проект поэтапно, ч. 1: откуда взять идею и данные

У Andrey Karpathy есть такой твит:

How to become expert at thing:
1 iteratively take on concrete projects and accomplish them depth wise, learning “on demand” (ie don’t learn bottom up breadth wise)
2 teach/summarize everything you learn in your own words
3 only compare yourself to younger you, never to others

, в котором ясно сказано, что, чтобы по-настоящему «зашарить в теме», нужно взять проект и усердно работать над ним

Pet-project - это небольшой личный проект в любой отрасли для портфолио и/или собственного удовольствия.

Вообще, про Pet-проекты и их важность в резюме мы уже писали один обзорный пост, но хотим напомнить ещё: в этот раз подробно разберем каждый этап создания пет-проекта, чтобы у вас больше не осталось причин не делать его: сегодня обсудим идею проекта и откуда можно взять данные для него

# Идея
– Если идей нет, то участвуйте во всяких хакатонах (можно посмотреть актуальные на сайте хакатоны.рус или ods.ai) и kaggle-чемпионатах
– Не думайте, берите и делайте! У ODS 25 июля стартует хакатон, в котором команды вайбкодят пет-проекты – найти себе единомышленников можно в их чате @ods_pet_projects, зарегистрироваться можно в форме до 24 июля, а посмотреть проекты прошлых лет можно тут
– Очень важно, чтобы идея резонировала с вами. Вместо того, чтобы брать скучную идею, лучше подольше подумать над ней
– Чтобы найти такую идею, можно обратиться к ChatGPT/Perplexity, рассказать им свои интересы и увлечения, и с какой-то вероятностью вы получите что-то действительно годное
– Копировать чужую идею – норм. Если вам что-то интересно, но это уже существует, ничего страшного, как минимум вы разберетесь в том, как это работает подробнее, как максимум – сделаете лучше

# Данные
Можно чуть заморочиться и тянуть данные через api (например, у HeadHunter), но мы собрали супер-подборку, откуда можно напрямую скачать годные данные в удобном формате:
– Kaggle Datasets: датасеты на любой вкус, многие из которых уже стали классикой ML-жанра
– Google Dataset: поможет найти необходимый датасет и подскажет, где и в каком формате можно скачать
– Исследования 2ГИС: содержит стату по сферам экономики в городах России, удобно экспортируется в Excel
– Google Trends: отличный вариант, если хочется поисследовать популярность чего-либо. Можно выгрузить динамику популярности, популярность по субрегионам, "еще по теме" и похожие запросы в формате csv.
– Датасет с отзывами на Яндекс картах: хороший вариант потренироваться в NLP
– BI Portal Росстата: собранная статистика по РФ и агрегированные датасетов, которые можно экспортировать в Excel или CSV

А еще нашли для вас годную репу на гитхабе со сборником PET-проектов по DS. Советуем сначала посмотреть идеи, оформления и лучшие практики там, перед тем как начать делать свой проект. Насмотренность порождает качество!

Ставьте 🔥, и пишите в комментарии самые абсурдные идеи для пет проектов)
Как только пост наберет больше 50 огонечков, дропаем следующую часть

Start Career in DS

🐶 Пет-проекты для начинающего Data Scientistа

Pet-project - это небольшой личный проект в любой отрасли для портфолио и/или собственного удовольствия. Начинающему дата саентисту почти что необходимо сделать какой-нибудь (пусть даже совсем небольшой) пет…

🔥105❤13❤‍🔥6🤩1

7.79K views20:00

Start Career in DS

🏎 Давно тебя не было в уличных гонках!

Как вы уже заметили, мы пропали на какое-то время...
Но вернулись и не планируем изменять тому, за что вы нас любите и читаете. Для вас мы:
— Записывали видео, в которых простым языком поясняли сложные вещи
— Показывали, как парсить что угодно и как угодно
— Подробно разбирали задачи с собесов
— Находили крутые роадмапы для развития в DS
— Собирали подборки для прокачки знаний в в ML-system design
и много чего еще крутого и полезного!

Мы пересобрали команду, теперь будет делать контент для вас:

Рома Васильев
- Руковожу аналитикой международного Поиска в Яндексе. Провёл в Яндексе и не только сотни собеседований, нанимал много ребят в разные направления
- Веду этот канал уже больше пяти (офигеть!) лет, здесь мы про что только не писали уже. А ещё преподаю машинное обучение/аналитику в ВШЭ, Центральном Университете, периодически выступаю на конфах/открытых уроках и тд
- В последнее время много пишу про аналитику/менеджмент/управление в личный телеграм канал я так понимаю, Роман Васильев

Олег Андреев:
- Этот невероятный парень проработал у меня ассистентом (по каналу и не только) практически год, за это время мы с ним успели написать кучу постов (например, пост про материалы для стажировки его рук дело) и сделать несколько классных видосов
– На втором курсе универа вышел на стажировку в Яндекс, потом попал в штат, и сейчас уже больше года работает в АнтиФишинге браузера аналитиком-разработчиком

Аня Курдина:
– Попала на стажировку в команду аналитики международного Яндекса, на стажировке делала проект, про который я потом рассказывал на конфе Young&Yandex (посмотреть можно тут)
– После стажировки Аня вышла в штат и сейчас работает аналитиком-разработчиком в рекламе
– А еще Аня недавно стала золотым медалистом олимпиады «Я-профессионал» по направлению бизнес-информатика 🎉

Пишите в комментарии, про что вам было бы интересно почитать, и обязательно ставьте реакции на этот пост и на комментарии с идеями постов (чем больше реакций, тем выше вероятность, что мы выберем тему именно этого комментария) 🤩

❤30🔥20❤‍🔥10👍5

5.74K viewsedited 19:36

Start Career in DS

🐈 Твой будущий пет-проект поэтапно, ч. 2: парсим, предобрабатываем и изучаем данные

Прошлые части:
1. Откуда взять идею и данные

В прошлой части (которая невероятно быстро набрала 50 реакций!) мы рассказали, откуда можно взять идею для твоего пет–проекта. Скорее всего, она будет попадать в одну или несколько категорий из следующих 5 (в зависимости от того, что ты хочешь развивать):
– Аналитика + визуализация (e.g. сделать красивый дашборд)
– Обучение моделек (e.g. дообучить llmку)
– Сбор и подготовка данных (e.g. настроить регулярный парсинг)
– Развертывание моделей (e.g. поднять llamу)
– А/Б, проверка гипотез (e.g. провести стат тест)

В этой серии постов постараемся затронуть все категории проектов и их этапы. И первые этапы (сбор данных, предобработка и EDA) подходят для большинства категорий

# Сбор данных
В прошлой части рассказали про то, откуда брать данные, но не рассказали, что делать, если вы не нашли подходящего датасета. В таком случае можно найти источник, и:
1) Вытащить данные через API
– Вот тут лежит небольшой список самых очевидных API
– Обычно к API всегда есть документация, и достать оттуда данные не составляет проблемы
2) Если API нет, спарсить их
– Про парсинг мы уже писали подробный пост, которого вполне достаточно для большинства сайтов
– Если у сайта сильная защита, то, скорее всего, вам стоит подумать над другим источником данных 🙂
– Если не хочется писать скрипты, то есть готовые воркфлоу в хайповой lowcode платформе n8n, их можно найти тут (кстати, в бигтехах все чаще используется лоукод, если хотите пост про опенсорсный lowcode, то нужно набрать 50 сердечек ❤️ на этом посте)

# Предобработка данных
– Самую базу можно найти, например, в этой статейке
– Про предобработку текстов можно почитать тут
– Про работу с изображениями можно посмотреть слайды из Вышки
– Статейка с полезными штуками для препроцессинга временных рядов

# EDA (Исследовательский анализ данных)
– Разведочный анализ включает в себя построение графичков, тесное знакомство с данными, извлечение инсайтов из них
– Если вы новичок, и вам нужно понять, что такое exploratory data analysis, прочитайте эту статью
– Тут есть наш пост с ссылками на лекции Александра Дьяконова
– А еще мы писали про то, как чувак делал EDA для музыкантов с last.fm, менее научно, но можно посмотреть для развлечения
– Если вы решили делать пет-проект в рамках кагл-соревы, можете посмотреть пример EDA для соревнования

Чтобы вышла следующая часть, давайте наберем 150 🔥 под этим постом, и добьем первый уровень для канала (забустить по ссылке), чтобы мы могли публиковать сторисы
А еще обязательно пишите в комментариях свои вопросы по пет-проектам, и мы постараемся ответить на них прямо там же или в следующих частях 🙂

Разведочный анализ (EDA)

Разведочный анализ данных, или EDA, – это как археологические раскопки в мире информации. Это первый шаг, когда мы берем на себя роль исследователя данных и начинаем расследовать, как устроены наши...

🔥101❤14❤‍🔥3😁3

6.07K viewsedited 16:32

Start Career in DS

Магистратура как способ войти в Айти

В последнее время открылось очень много классных магистратур по DS совместно с ТОП-компаниями.
Чем они отличаются от обычных магистратур?
💭 Преподают дисциплины не только преподаватели ВУЗа, но и опытные аналитики и ML-щики из индустрии
💭 Программы практико-ориентированные, а значит будет что показать в портфолио и резюме
💭 Учат актуальным навыкам, которые используются в компаниях
💭 Компании-партнеры предоставляют стажировки и способствуют трудоустройству в компанию
💭 Прокачивают до конкретного уровня на рынке. Какие-то программы до джун+, какие-то до миддл+

Собрали для вас подборку магистратур с бюджетными местами, в которые еще открыт набор в этом году:
🎓 ВШЭ x Авито: Машинное обучение в цифровом продукте. Обучение проходит очно и онлайн, Авито оплачивает обучение 30 будущим магистрам, кто лучше всех пройдет отбор. Стоимость платного - 600 тыс. в год. Подать документы можно до 8го августа. Подробнее прочитать можно еще и у Авито
🎓 ФКН ВШЭ х Яндекс: Современные компьютерные науки . Очное обучение, 52 бюджетных места. Программа включает в себя data science, теоретическую информатику, инфраструктуру больших данных. Вступительные испытания - экзамен по математике и программированию + собеседование. Податься можно до 8 августа. Стоимость платного обучение - 490 тыс. в год
🎓 ИТМО х ВК: Программирование и ИИ. Очное обучение с возможностью обучаться онлайн, 43 бюджетных места. Прием документов до 19го августа. Можно поступить через личные достижения или сдать вступительный экзамен. Стоимость платного обучения - 599 тыс. в год
🎓 ВШЭ СПБ х ВК: Машинное обучение и анализ данных. Очное обучение и 30 бюджетных мест. Студенты проходят практики и стажировки как в российских компаниях VK, Biocad, Сбер, Яндекс, Газпромнефть, так и международных JetBrains, Huawei. Прием документов до 8го августа, а узнать, как лучше подготовиться к вступительным ВК описали тут. Стоимость платного обучения - 390 тыс. в год
🎓ВШЭ х Сбер: Финансовые технологии и анализ данных. Очное обучение, Сбер покрывает 100% стоимости обучение 30 студентам. Вступительные испытания - экзамен по вышмату и собеседование. Пройти их и подать документы можно до 8го августа. Стоимость платного обучения - 490 тыс. в год

Ставьте 👍, если хотите больше постов про магистратуру и образовательные курсы
P.S. давайте поднажмём и накинем бустов каналу (осталось совсем немного до следующего уровня), чтобы наш контент стал ещё интереснее и разнообразнее

👍44😁7❤4

5.28K views15:36

Start Career in DS

Магистратура по искусственному интеллекту МТС x ФКН ВШЭ

Недавно мы писали про магистратуры по DS / ML / ИИ, появилась ещё одна достойная!

Основное:
– 30 оплачиваемых мест от МТС;
– Обучение проходит в очном формате в московском кампусе ВШЭ;
– Занятия ведут преподаватели ВШЭ и действующие эксперты-практики из МТС и MTS AI, а для проектов можно использовать виртуальную инфраструктуру компании;
– После и во время обучения можно получить оффер;
– Есть канал для абитуриентов, в котором отвечают на вопросы и помогают с подготовкой к поступлению

В программе передовые методы машинного и глубинного обучения: большие языковые модели, генеративные нейросети, инструменты компьютерного зрения и распознавания естественного языка.

Детали можно изучить на сайте

😁4❤2🔥2👍1

4.21K views13:05

Start Career in DS

👩‍💼 Как развить бизнес видение?

Бесспорно, для аналитиков любого грейда крайне важно помимо хард скиллов, также и бизнес видение. Не зря бигтехи проверяют и то, и другое на разных этапах собеса. Поэтому прокачивать его так же нужно, как и нарешивать литкод или задачки по терверу.

Небольшой список общих советов:
👉 Ходите на конференции, где разбираются реальные кейсы: матемаркетинг, aha!, датафест
👉 Читайте каналы по интересующей вас тематике, а еще полезно почитать разные каналы с отчетностями компаний, чтобы понять, на чем они зарабатывают и на какие метрики смотрят, например, @businessincognita и @expertosphere
👉 Читайте книги, которые развивают бизнес-видение, например, The Data Detective и How To Measure Anything. Отдельно рекомендуем "Спроси маму" Роба Фитцпатрика, она научит вас правильно задавать вопросы клиенту и понимать, что реально он хочет, а в чем вообще не заинтересован. Саммари есть на хабре, но админы читали целиком и вам советуют

А теперь подборка, если вам нужно все и сразу за короткий срок перед собесом:
🔎 Школа менеджеров Яндекса: возможность заглянуть в закулисье яндекса, построения продукта и принятия решений в нем
🔎 Платформа growth.design, на которой в формате комиксов разбираются различные продуктовые кейсы мировых топ-компаний. Узнали про нее от Макса из Заскуль Питона, оч советуем подробнее про эту крутую платформу прочитать у него.
🔎 Блог GoPractice – много классных бесплатных статей про продуктовый менеджмент, маркетинг и аналитику. А если понравится, то у них есть и платные симуляторы
🔎 Блоги компаний. Например, Авито, Яндекса, Альфа-банка. Выбирайте статьи, относящиеся к бизнес-части и прокачивайте насмотренность по принятию решений, которые влияют на то, что вы видите в своем смартфоне. Отдельно рекомендуем читать блоки компаний, куда вы планируете собеседоваться в ближайшее время. Проверенно повышает успешность прохождения собеседований, тк вы становитесь не просто аналитиком, а аналитиком, знакомым с целями, вызовами и последними решениями компаний

Ставьте лайки 👍, если было полезно, и давайте добьем каналу следующий уровень, осталось совсем немного!

👍34❤‍🔥7🔥5😁4

5.27K views17:17

Start Career in DS

🎓 Готовимся к стажировке вместе. Часть 1: Корпорации больше не берут джунов?

Крупные компании все реже нанимают джуниоров. Вместо этого — активно набирают стажеров, расширяют программы стажировок и переманивают мидлов.

Почему так?
💸Компании предпочитают растить кадры «с нуля» через стажировки и оставлять лучших себе, полностью закрывая внутреннюю потребность в джунах
💸За чуть большие деньги проще взять мидла с 1-2 годами опыта, чем учить джуна с риском, что он уйдет через полгода

Что делать если вы джун и хотите поскорее ворваться в работу?
✅Ищите и откликайтесь на стажировки — это новый вход в профессию. Проще пройти стажировку за 3 месяца, чем полгода бесконечно скролить HH и проходить собесы
✅ Растите опыт через стартапы, пет-проекты (о них мы писали выше) и хакатоны

А прямо сейчас открыт отбор на стажировку по аналитике, DS и ML здесь:
💸 Альфа-Банк
💸 OzonTech
💸 Яндекс
💸 T1
💸 ВТБ
💸 X5Tech
💸 t2 (ex. Tele2)
💸 Wildberries

Ставьте ❤️, если вам интересны стажировки, и 🔥, если вы уже активно готовитесь и подаетесь на стажи, и задавайте интересующие вас вопросы в форме – ответим на них в одном из следующих постов или придем к вам в лс)

Start Career in DS

🐶 Твой будущий пет-проект поэтапно, ч. 1: откуда взять идею и данные

У Andrey Karpathy есть такой твит:
How to become expert at thing:
1 iteratively take on concrete projects and accomplish them depth wise, learning “on demand” (ie don’t learn bottom up…

❤47🔥16

4.45K views09:15

Start Career in DS

Всем привет! Хочу снова порекомендовать канал @zasql_python

Канал ведет Senior Product Analyst в 🛒, ранее работал в Яндекс 🍫 Лавке, 💙

Популярные посты

⚪Шпаргалки по SQL
⚪Роадмап для продуктового аналитика / аналитика данных
⚪Для чего нужен ML в аналитике

Личные размышления автора

⚪ Визибилити в организации

⚪

Внезапные влеты

⚪

Поиск роста для аналитика

⚪

Встречи или работа: где найти золотую середину аналитика?

Блок продуктовых кейсов: пост1, пост2, пост3

Подписывайтесь, здесь много всего интересного для аналитиков.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8😁2

3.71K views07:00