🤖 Собрали для вас несколько роадмэпов по разным областям: Data Analyst, AI and Data Scientist, A/B Testing RoadMap, SQL, Python
Каждый из них содерджит последовательность областей, которые стоит изучить, что начать разбираться в соответствующей профессии
Python Developer - Step by step guide to becoming a Python developer in 2024
SQL Roadmap - Step by step guide to learning SQL in 2024
AI and Data Scientist - Step by step guide to becoming an AI and Data Scientist in 2024
Data Analyst Roadmap - Step by step guide to becoming an Data Analyst in 2024
A/B Testing RoadMap - Пошаговое руководство по проведению А/Б-тестов
Ставьте 🔥 если хотите общий roadmap по Data Science от нашего канала!
Каждый из них содерджит последовательность областей, которые стоит изучить, что начать разбираться в соответствующей профессии
Python Developer - Step by step guide to becoming a Python developer in 2024
SQL Roadmap - Step by step guide to learning SQL in 2024
AI and Data Scientist - Step by step guide to becoming an AI and Data Scientist in 2024
Data Analyst Roadmap - Step by step guide to becoming an Data Analyst in 2024
A/B Testing RoadMap - Пошаговое руководство по проведению А/Б-тестов
Ставьте 🔥 если хотите общий roadmap по Data Science от нашего канала!
roadmap.sh
Learn to become a modern Python developer
Community driven, articles, resources, guides, interview questions, quizzes for python development. Learn to become a modern Python developer by following the steps, skills, resources and guides listed in this roadmap.
Всем привет! Хотим посоветовать вам канал Макса @zasql_python - продуктового аналитика в Яндекс Лавке. В своем блоге он пишет про различные интересные вещи, связанные с ML, A/B тестами + старается актуализировать трек обучения для вкатышей в аналитику / DS. Вот, например, его пост с роадмапом в продуктовой аналитике 🥰
Также выходила достаточно интересная серия постов с A/B и различными методами оценки результатов:
1. Хэш с солью
2. Выбросы в A/B тестах
3. Causal Inference, Propensity Score Matching...
4. Как доверительные интервалы могут решать задачи бизнеса
Относительно недавно он запустил формат, в котором каждую неделю подписчики могут сами выбирать какой пост будет на следующей неделе. Если вам это откликнулось, подписывайтесь, здесь много всего интересного
Также выходила достаточно интересная серия постов с A/B и различными методами оценки результатов:
1. Хэш с солью
2. Выбросы в A/B тестах
3. Causal Inference, Propensity Score Matching...
4. Как доверительные интервалы могут решать задачи бизнеса
Относительно недавно он запустил формат, в котором каждую неделю подписчики могут сами выбирать какой пост будет на следующей неделе. Если вам это откликнулось, подписывайтесь, здесь много всего интересного
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Заскуль питона (Data Science)
Как бы я сейчас построил свое обучение в продуктовой аналитике / аналитике данных?
👁 Если вы ждали этот пост, ставьте реакции, пишите комментарии. В следующем посте расскажу о своих планах на ближайший год
Всем привет! Сегодня напишу о том, что бы я изменил…
👁 Если вы ждали этот пост, ставьте реакции, пишите комментарии. В следующем посте расскажу о своих планах на ближайший год
Всем привет! Сегодня напишу о том, что бы я изменил…
📊 Как оценивать LLM: метрики [Ч.1]
🤖 Оценка языковых моделей также необходима, как и при работе с классическими ML-моделями. Однако, в случае с LLM задача усложняется тем, что мы должны оценивать текстовые данные.
💯 В этой части поста мы расскажем про наиболее популярные NLP-метрики для оценки языковых моделей, а уже в следующем посте поговорим про более продвинутые техники, включая бенчмарки.
❓ А в чем, собственно, отличие между метриками и бенчмарками:
Метрики - используются для измерения конкретных навыков аспектов работы модели (например, точность перевода с русского на английский) или могут использоваться, как часть бенчмарка.
Бенчмарки же — это наборы тестов, которые обычно включают множество задач и способов их оценок (метрик). Бенчмарки дают более масштабную оценку качества работы моделей, не в рамках отдельной задачи.
Поговорим про статистические метрики:
1️⃣ Перплексия:
Перплексия показывает, насколько точно модель предсказывает следующий токен: чем ниже значение, тем уверенее предсказание.
Например, если перплексия равна 1000, это означает, что модель в среднем имеет 1000 равновероятных вариантов для каждого следующего слова, что указывает на плохое качество предсказаний. Через перплексию в LLM можно определить галлюцинации, хоть и сама метрика не всегда коррелирует с качеством генерации текста.
Более подробно про перплексию и формулу данной меры читайте тут.
2️⃣ BLEU и ROUGE:
О данных метриках мы писали в одном из вопросов недавнего квиза (п.5) и оставляли хорошие материалы для изучения, советуем вернуться и ознакомиться.
3️⃣ METEOR:
Данная метрика создавалась, как улучшенная альтернатива BLEU, которая учитывает не только точное совпадение слов в сгенерированном тексте с эталонными примерами, но и их синонимы и морфологические варианты, что делает её более гибкой и устойчивой к разнообразным формулировкам. В добавок, метрика выдает штраф за неправильную фрагментацию текста и неверный порядок слов. Подробно про методику расчет METEOR смотрите в этом видео.
4️⃣ Классические ML-метрики:
Оценивать текст можно также, как и числа, используя ML-метрики. Например, посчитать количество слов (токенов) в сгенерированном примере, вошедшие в эталонный пример - accuracy. Или посчитать recall через количество слов, вошедшие в эталонный пример (TP), но, учитывая недостающие токены (FN).
Теперь поговорим про model-based метрики:
5️⃣ BERTScore:
Данная метрика в процессе расчета использует BERT-модели, чтобы через векторные представления слов в предложении оценивать схожесть текстов. Кратко процесс оценки выглядит следующим образом: получение эмбеддингов для каждого слова в сгенерированном и эталонном текстах с помощью BERT. И затем (в упрощенном виде) по косинусному сходству токены из сгенерированного текста сопоставляются с токенами эталонного текста, после чего высчитывается Recall-BERT, Precision-BERT F-BERT. Более детально про архитектуру подсчета BERTScore читайте тут.
6️⃣ G-Eval:
G-Eval (Generative Evaluation) создан для того, чтобы преодолеть ограничения статистических метрик (неустойчивость к формулировкам, разные длины сравниваемых текстов, непренимость к сложным задачам). В G-Eval в виде оценщика используются другие GPT-модели, например, GPT-4 от OpenAI. Оценка проводится через сравнительный анализ сгенерированного текста и эталонного примера по заранее выбранным критериям (согласованность, точность и т.д.).
🔥 Однако, это не весь список метрик, с помощью которых можно оценивать LLM, дополнительно читайте тут:
- Серия постов на Хабре про эволюцию NLP-метрик
- Ещё две статьи тут и тут про метрики, фреймворки и лучшие практики для оценки LLM.
- Отличная статья для погружения в бечнмаркинг LLM
- Статья с объяснением подхода "LLM-as-a-Judge" (LLM, как судья) [ENG]
- Evaluating-Cookbook - руководство по оценке LLM, созданное командой Hugging Face.
Ставьте ❤️ и 🔥 под постом!
Также пишите свои комментарии и вопросы! До встречи👋
🤖 Оценка языковых моделей также необходима, как и при работе с классическими ML-моделями. Однако, в случае с LLM задача усложняется тем, что мы должны оценивать текстовые данные.
💯 В этой части поста мы расскажем про наиболее популярные NLP-метрики для оценки языковых моделей, а уже в следующем посте поговорим про более продвинутые техники, включая бенчмарки.
❓ А в чем, собственно, отличие между метриками и бенчмарками:
Метрики - используются для измерения конкретных навыков аспектов работы модели (например, точность перевода с русского на английский) или могут использоваться, как часть бенчмарка.
Бенчмарки же — это наборы тестов, которые обычно включают множество задач и способов их оценок (метрик). Бенчмарки дают более масштабную оценку качества работы моделей, не в рамках отдельной задачи.
Поговорим про статистические метрики:
1️⃣ Перплексия:
Перплексия показывает, насколько точно модель предсказывает следующий токен: чем ниже значение, тем уверенее предсказание.
Например, если перплексия равна 1000, это означает, что модель в среднем имеет 1000 равновероятных вариантов для каждого следующего слова, что указывает на плохое качество предсказаний. Через перплексию в LLM можно определить галлюцинации, хоть и сама метрика не всегда коррелирует с качеством генерации текста.
Более подробно про перплексию и формулу данной меры читайте тут.
2️⃣ BLEU и ROUGE:
О данных метриках мы писали в одном из вопросов недавнего квиза (п.5) и оставляли хорошие материалы для изучения, советуем вернуться и ознакомиться.
3️⃣ METEOR:
Данная метрика создавалась, как улучшенная альтернатива BLEU, которая учитывает не только точное совпадение слов в сгенерированном тексте с эталонными примерами, но и их синонимы и морфологические варианты, что делает её более гибкой и устойчивой к разнообразным формулировкам. В добавок, метрика выдает штраф за неправильную фрагментацию текста и неверный порядок слов. Подробно про методику расчет METEOR смотрите в этом видео.
4️⃣ Классические ML-метрики:
Оценивать текст можно также, как и числа, используя ML-метрики. Например, посчитать количество слов (токенов) в сгенерированном примере, вошедшие в эталонный пример - accuracy. Или посчитать recall через количество слов, вошедшие в эталонный пример (TP), но, учитывая недостающие токены (FN).
Теперь поговорим про model-based метрики:
5️⃣ BERTScore:
Данная метрика в процессе расчета использует BERT-модели, чтобы через векторные представления слов в предложении оценивать схожесть текстов. Кратко процесс оценки выглядит следующим образом: получение эмбеддингов для каждого слова в сгенерированном и эталонном текстах с помощью BERT. И затем (в упрощенном виде) по косинусному сходству токены из сгенерированного текста сопоставляются с токенами эталонного текста, после чего высчитывается Recall-BERT, Precision-BERT F-BERT. Более детально про архитектуру подсчета BERTScore читайте тут.
6️⃣ G-Eval:
G-Eval (Generative Evaluation) создан для того, чтобы преодолеть ограничения статистических метрик (неустойчивость к формулировкам, разные длины сравниваемых текстов, непренимость к сложным задачам). В G-Eval в виде оценщика используются другие GPT-модели, например, GPT-4 от OpenAI. Оценка проводится через сравнительный анализ сгенерированного текста и эталонного примера по заранее выбранным критериям (согласованность, точность и т.д.).
🔥 Однако, это не весь список метрик, с помощью которых можно оценивать LLM, дополнительно читайте тут:
- Серия постов на Хабре про эволюцию NLP-метрик
- Ещё две статьи тут и тут про метрики, фреймворки и лучшие практики для оценки LLM.
- Отличная статья для погружения в бечнмаркинг LLM
- Статья с объяснением подхода "LLM-as-a-Judge" (LLM, как судья) [ENG]
- Evaluating-Cookbook - руководство по оценке LLM, созданное командой Hugging Face.
Ставьте ❤️ и 🔥 под постом!
Также пишите свои комментарии и вопросы! До встречи👋
Собрали для вас курсы степика, которые могу пригодиться начинающим и продолжающим) Есть как бесплатные так и платные, но доступные по цене
🐍 Python
Поколение Python - первый курс из линейки по изучению питона с нуля с множеством задач для тренировки написания кода
Добрый, добрый Python - курс для начинающих и для тех, кто уже знаком с Python, но хотел бы повысить/проверить свой уровень
Программирование на Python - вводный курс по питону от Института биоинформатики
Python: основы и применение - курс по питону для продолжающих, тоже от Института биоинформатики
📊 SQL
Интерактивный тренажер по SQL - практика написания SQL-запросов с минимумом теории, сложность возрастает по мере прохождения курса
SQL База - основы SQL от Left Join
Основы SQL - обучение SQL с нуля на примере MySQL
Продвинутый SQL - сложные запросы, транзакции, тригеры и оконных функций в MySQL
⚛️ ML/DL
Deep Learning (семестр 1, осень 2024) и Deep Learning (семестр 2, осень 2024): бесплатный двухсеместровый курс по глубокому обучению от МФТИ
Машинное Обучение в Python - требуется только базовое знание Python, математика добавляется постепенно, поэтому курс подойдет для начинающих
Добрый, добрый ИИ от Сергея Балакирева - первые шаги в ML, нужны знания математики и Python
Нейронные сети и обработка текста - для тех, кто уже имеет базу в ML и хочет научиться применять нейронные сети для решения задач NLP
➕ Math
Математика для всех от Савватеева - курс поможет разобраться в математической логике и механизмах работы математики
Ликбез по дискретной математике - обзорный курс по дискретной математике
Линейная алгебра - краткое изложение основ линейной алгебры
Теория вероятностей - базовыме понятия теории вероятностей, много примеров и задач
Основы статистики от Карпова - база в статистике, уже неоднократно писали про этот курс в канале
Добрая теория вероятностей от Балакирева - школьная база по теории вероятности
Ждём ваших ❤️ и 🔥! Делитесь в комментариях какие курсы проходили вы и можете порекомендовать 🧑🏫
🐍 Python
Поколение Python - первый курс из линейки по изучению питона с нуля с множеством задач для тренировки написания кода
Добрый, добрый Python - курс для начинающих и для тех, кто уже знаком с Python, но хотел бы повысить/проверить свой уровень
Программирование на Python - вводный курс по питону от Института биоинформатики
Python: основы и применение - курс по питону для продолжающих, тоже от Института биоинформатики
📊 SQL
Интерактивный тренажер по SQL - практика написания SQL-запросов с минимумом теории, сложность возрастает по мере прохождения курса
SQL База - основы SQL от Left Join
Основы SQL - обучение SQL с нуля на примере MySQL
Продвинутый SQL - сложные запросы, транзакции, тригеры и оконных функций в MySQL
⚛️ ML/DL
Deep Learning (семестр 1, осень 2024) и Deep Learning (семестр 2, осень 2024): бесплатный двухсеместровый курс по глубокому обучению от МФТИ
Машинное Обучение в Python - требуется только базовое знание Python, математика добавляется постепенно, поэтому курс подойдет для начинающих
Добрый, добрый ИИ от Сергея Балакирева - первые шаги в ML, нужны знания математики и Python
Нейронные сети и обработка текста - для тех, кто уже имеет базу в ML и хочет научиться применять нейронные сети для решения задач NLP
➕ Math
Математика для всех от Савватеева - курс поможет разобраться в математической логике и механизмах работы математики
Ликбез по дискретной математике - обзорный курс по дискретной математике
Линейная алгебра - краткое изложение основ линейной алгебры
Теория вероятностей - базовыме понятия теории вероятностей, много примеров и задач
Основы статистики от Карпова - база в статистике, уже неоднократно писали про этот курс в канале
Добрая теория вероятностей от Балакирева - школьная база по теории вероятности
Ждём ваших ❤️ и 🔥! Делитесь в комментариях какие курсы проходили вы и можете порекомендовать 🧑🏫
🎉🎄Новогодний квиз на «Start Career in DS»
🎅🏼Дорогие подписчики, вся команда нашего прекрасного канала от всей души поздравляет Вас с наступающим Новым годом и желает в 2025 году достичь всех поставленных целей.
🌟Также в преддверии праздника мы рады объявить о «Новогоднем квизе» на нашем канале, и, желая порадовать своих подписчиков, мы подготовили интересные вопросы и кучу подарков.
❗️Правила «Новогоднего квиза»:
⭕️ Квиз будет состоять из двух частей: ответы на вопросы по нашему каналу и общие вопросы по Machine Learning.
⭕️ Собственные ответы необходимо оставлять в комментариях под постом
⭕️ Верные ответы будут прикреплены в комментариях под каждым постом через 24 часа после его публикации
⭕️ Ответ засчитывается при схожести с нашими заготовленными ответами
⭕️ Мы также учитываем скорость ответа: более ранний ответ будет иметь больший вес, если мы столкнёмся с одинаковым количеством верных ответов нескольких участников
Как участвовать:
1️⃣ Следите за постами в течение текущей недели
2️⃣ Для участия достаточно ответить на вопросы хотя бы в рамках одного поста
3️⃣ Свои ответы опубликуй в комментариях под постом
4️⃣ Готово! Ты - участник нашего «Новогоднего квиза»!
🎁 Выбор победителей и призы:
🎲 Один счастливчик будет выбран случайным образом и сможет забрать полугодовую подписку ТГ-премиум!
🧠 И ещё три победителя будут выбраны по максимальному количеству набранных баллов в ответах
🎁 Каждый из победителей фиксировано получит одну из книг по Data Science:
1. "Практическая статистика для специалистов Data Science"
2. "Грокаем глубокое обучение"
3. "Математические основы Машинного обучения"
Ставьте ❤️ и 🔥 если ждете запуска «Новогоднего квиза»!
🎅🏼Дорогие подписчики, вся команда нашего прекрасного канала от всей души поздравляет Вас с наступающим Новым годом и желает в 2025 году достичь всех поставленных целей.
🌟Также в преддверии праздника мы рады объявить о «Новогоднем квизе» на нашем канале, и, желая порадовать своих подписчиков, мы подготовили интересные вопросы и кучу подарков.
❗️Правила «Новогоднего квиза»:
⭕️ Квиз будет состоять из двух частей: ответы на вопросы по нашему каналу и общие вопросы по Machine Learning.
⭕️ Собственные ответы необходимо оставлять в комментариях под постом
⭕️ Верные ответы будут прикреплены в комментариях под каждым постом через 24 часа после его публикации
⭕️ Ответ засчитывается при схожести с нашими заготовленными ответами
⭕️ Мы также учитываем скорость ответа: более ранний ответ будет иметь больший вес, если мы столкнёмся с одинаковым количеством верных ответов нескольких участников
Как участвовать:
1️⃣ Следите за постами в течение текущей недели
2️⃣ Для участия достаточно ответить на вопросы хотя бы в рамках одного поста
3️⃣ Свои ответы опубликуй в комментариях под постом
4️⃣ Готово! Ты - участник нашего «Новогоднего квиза»!
🎁 Выбор победителей и призы:
🎲 Один счастливчик будет выбран случайным образом и сможет забрать полугодовую подписку ТГ-премиум!
🧠 И ещё три победителя будут выбраны по максимальному количеству набранных баллов в ответах
🎁 Каждый из победителей фиксировано получит одну из книг по Data Science:
1. "Практическая статистика для специалистов Data Science"
2. "Грокаем глубокое обучение"
3. "Математические основы Машинного обучения"
Ставьте ❤️ и 🔥 если ждете запуска «Новогоднего квиза»!
🎊🎄«Новогодний квиз» [Ч.1]
Вопросы о нашем канале за последний год:
1️⃣ Сколько постов на нашем канале вышло за 2024 год?
2️⃣ Какой пост в 2024 году на нашем канале набрал больше всего просмотров?
3️⃣ Сколько в 2024 году было проведено квизов на нашем канале, и сколько человек получили в них призы?
🤪 Для верных ответов придётся немного поисследовать наш канал
👇🏻 Ждём ваших ответов в комментариях под данным постом!
Также ждём ваших реакций ❤️ и 🔥под постом!
Вопросы о нашем канале за последний год:
1️⃣ Сколько постов на нашем канале вышло за 2024 год?
2️⃣ Какой пост в 2024 году на нашем канале набрал больше всего просмотров?
3️⃣ Сколько в 2024 году было проведено квизов на нашем канале, и сколько человек получили в них призы?
🤪 Для верных ответов придётся немного поисследовать наш канал
👇🏻 Ждём ваших ответов в комментариях под данным постом!
Также ждём ваших реакций ❤️ и 🔥под постом!
🎄🪄«Новогодний квиз» [Ч.2]
Общие вопросы по Machine Learning:
1️⃣ Почему в линейных ML-моделях переобучение отождествляется с высокими абсолютными значениями весов?
2️⃣ Что такое data leakage? И какие существуют способы его избежать?
3️⃣ Какие существуют алгоритмы оптимизации гиперпараметров в ML-моделях? Кратко опишите, как они работают.
4️⃣ Какой основной параметр ML-алгоритмов, построенных на Decision Tree, отвечает за возможное переобучением модели?
5️⃣ Какие существуют методы и алгоритмы для устранения дисбаланса классов в выборке?
👇🏻 Ждём ваших ответов под постом!
Также не забывайте нас поддерживать и ставить ❤️ и 🔥!
Общие вопросы по Machine Learning:
1️⃣ Почему в линейных ML-моделях переобучение отождествляется с высокими абсолютными значениями весов?
2️⃣ Что такое data leakage? И какие существуют способы его избежать?
3️⃣ Какие существуют алгоритмы оптимизации гиперпараметров в ML-моделях? Кратко опишите, как они работают.
4️⃣ Какой основной параметр ML-алгоритмов, построенных на Decision Tree, отвечает за возможное переобучением модели?
5️⃣ Какие существуют методы и алгоритмы для устранения дисбаланса классов в выборке?
👇🏻 Ждём ваших ответов под постом!
Также не забывайте нас поддерживать и ставить ❤️ и 🔥!
🏆 Рады сообщить об окончании новогоднего квиза и поздравить участников и победителей!
⛄️ @the_vicad
Получает полугодовую подписку ТГ-премиум!
🏂 @luckyrimsky @disgur00 @lena_pena_dreamer
Получают в подарок книги!
💬 Ребята, мы придем ко всем в личку в ближайшее время, просьба открыть доступы 🙂
🫶 Спасибо вам за активное участие, надеемся вы повеселились и узнали что-то новое!☃️
Ставьте ❤️ и 🔥, если хотите ещё подобных квизов!
⛄️ @the_vicad
Получает полугодовую подписку ТГ-премиум!
🏂 @luckyrimsky @disgur00 @lena_pena_dreamer
Получают в подарок книги!
💬 Ребята, мы придем ко всем в личку в ближайшее время, просьба открыть доступы 🙂
🫶 Спасибо вам за активное участие, надеемся вы повеселились и узнали что-то новое!☃️
Ставьте ❤️ и 🔥, если хотите ещё подобных квизов!
🩵 Итоги 2024 и планы на 2025!
Всем привет, на связи Рома Васильев, автор этого канала 🙂
Хочу сказать спасибо всем вам, наши любимые подписчики, за участие в жизни Start Career in DS каждому из вас!)
Хотим вместе с командой поделиться с вами своими итогами и планами, чтобы вы понимали что у нас происходит 🙂
Итоги 2024:
1. Нарастили число подписчиков до 12к (почти +3 тысячи подписчиков!)
2. Число просмотров за год составило 922 тысячи, число перерепостов - 25.5 тысяч, а общее число реакций - почти 6 тысяч!
3. Начали делать квизы по машинному обучению и наградили кучу победителей. Их фото красуется рядом с этим постом, давайте поздравим еще раз ребят своими ❤️
4. Пересобрали команду! Теперь над каналом работают аж 3 человека: Рома, Руслан и Катя. Делаем лучший контент для вас!
5. В том числе сделали ряд очень хорошо залетевших постов:
- Классический ML – база: справочник основных алгоритмов
- Почему Polars быстрее, чем Pandas
- Предлагаем вспомнить базовую математику. Справочник материалов
- Открытый курс по прикладной статистике от Академии Аналитиков Авито
- Leetcode по ML/DS
Планы на 2025:
1. Продолжать расти и делать интересный контент в канале для вас!
2. Возродить подготовку материалов для ютуб-канала. Число просмотров говорит о том, что материалы полезны
3. Организовать митап/серию митапов. Эта идея переезжает с 2024 на новый, 2025 год :)
Ставьте ❤️ если вам нравится наш контент и пишите чего вам бы хотелось видеть больше в Start Career in DS!
Всем привет, на связи Рома Васильев, автор этого канала 🙂
Хочу сказать спасибо всем вам, наши любимые подписчики, за участие в жизни Start Career in DS каждому из вас!)
Хотим вместе с командой поделиться с вами своими итогами и планами, чтобы вы понимали что у нас происходит 🙂
Итоги 2024:
1. Нарастили число подписчиков до 12к (почти +3 тысячи подписчиков!)
2. Число просмотров за год составило 922 тысячи, число перерепостов - 25.5 тысяч, а общее число реакций - почти 6 тысяч!
3. Начали делать квизы по машинному обучению и наградили кучу победителей. Их фото красуется рядом с этим постом, давайте поздравим еще раз ребят своими ❤️
4. Пересобрали команду! Теперь над каналом работают аж 3 человека: Рома, Руслан и Катя. Делаем лучший контент для вас!
5. В том числе сделали ряд очень хорошо залетевших постов:
- Классический ML – база: справочник основных алгоритмов
- Почему Polars быстрее, чем Pandas
- Предлагаем вспомнить базовую математику. Справочник материалов
- Открытый курс по прикладной статистике от Академии Аналитиков Авито
- Leetcode по ML/DS
Планы на 2025:
1. Продолжать расти и делать интересный контент в канале для вас!
2. Возродить подготовку материалов для ютуб-канала. Число просмотров говорит о том, что материалы полезны
3. Организовать митап/серию митапов. Эта идея переезжает с 2024 на новый, 2025 год :)
Ставьте ❤️ если вам нравится наш контент и пишите чего вам бы хотелось видеть больше в Start Career in DS!
🔗 Базовая теория по DL, которую должен знать каждый
👨💻 Умение строить нейронные сети и понимать, как они работают, является обязательным навыком практически для любого ML-специалиста. Поэтому разберем основные структурные компоненты нейронных сетей.
1️⃣ Искусственный нейрон
Нейрон, Входы (X), Веса (Weights), Смещение (Bias) и Функция активации.
Схему искусственного нейрона и его частей можете изучить тут.
2️⃣ Слои нейронной сети
Слои, виды слоёв (входной слой, скрытый слой, выходной слой) и функциональности (линейный слой, сверточный слой, рекурентный слой).
Про эти и другие наиболее распространенные виды слоев читайте тут. Также изучаем схему простой нейронной сети (перцептрона), про сложность - читаем тут.
3️⃣ Функции активации
Наиболее популярными функциями активаций являются: Sigmoid, Tanh, ReLU, Softmax.
Про эти и другие функции активации читайте тут.
4️⃣ Слои нормализации
Проблема взрыва и затухания градиента.
Основные виды нормализаций активаций в нейронной сети: LayerNorm, BatchNorm, RMSNorm. О каждом более подробно читайте тут.
5️⃣ Dropout и Attention слои
О способе решения проблемы переобучения с Dropout читайте тут.
Attention-механизм стал наиболее популярным в моделях Transformer, позволяя нейронной сети «фокусироваться» на важных частях входного сигнала через attention-score. Подробно о самом механизме читайте тут.
📚 Дополнительно читаем и преисполняемся:
- Наш большой справочник по Deep Learning
- Серия постов с видео по нейронным сетям - [Ч.1], [Ч.2]
- Доступный курс для каждого новичка по основам нейронных сетей
- Пишем свой нейрон на Python: практика для любого уровня
- Основы нейронных сетей с интересным разбором разных тем
- Математика, лежащая в основе нейронных сетей: серия простых статей
Обязательно ставьте ❤️ и 🔥 за наш труд!
Пишите комментарии и задавайте вопросы!
До встречи👋
👨💻 Умение строить нейронные сети и понимать, как они работают, является обязательным навыком практически для любого ML-специалиста. Поэтому разберем основные структурные компоненты нейронных сетей.
1️⃣ Искусственный нейрон
Нейрон, Входы (X), Веса (Weights), Смещение (Bias) и Функция активации.
Схему искусственного нейрона и его частей можете изучить тут.
2️⃣ Слои нейронной сети
Слои, виды слоёв (входной слой, скрытый слой, выходной слой) и функциональности (линейный слой, сверточный слой, рекурентный слой).
Про эти и другие наиболее распространенные виды слоев читайте тут. Также изучаем схему простой нейронной сети (перцептрона), про сложность - читаем тут.
3️⃣ Функции активации
Наиболее популярными функциями активаций являются: Sigmoid, Tanh, ReLU, Softmax.
Про эти и другие функции активации читайте тут.
4️⃣ Слои нормализации
Проблема взрыва и затухания градиента.
Основные виды нормализаций активаций в нейронной сети: LayerNorm, BatchNorm, RMSNorm. О каждом более подробно читайте тут.
5️⃣ Dropout и Attention слои
О способе решения проблемы переобучения с Dropout читайте тут.
Attention-механизм стал наиболее популярным в моделях Transformer, позволяя нейронной сети «фокусироваться» на важных частях входного сигнала через attention-score. Подробно о самом механизме читайте тут.
📚 Дополнительно читаем и преисполняемся:
- Наш большой справочник по Deep Learning
- Серия постов с видео по нейронным сетям - [Ч.1], [Ч.2]
- Доступный курс для каждого новичка по основам нейронных сетей
- Пишем свой нейрон на Python: практика для любого уровня
- Основы нейронных сетей с интересным разбором разных тем
- Математика, лежащая в основе нейронных сетей: серия простых статей
Обязательно ставьте ❤️ и 🔥 за наш труд!
Пишите комментарии и задавайте вопросы!
До встречи👋
Всем привет!
Хотим поделиться с вами каналом «Задачи DS - Собеседования, Соревнования, ШАД»
Ребята на своем канале делают обзоры различных направлений в компаниях, разбирают тестовые задания и различные задачи с собеседований.
Что интересного можно у них почитать:
- О направлениях команд в Big Tech, работающих с ML
- О популярных задачах с собеседований по направлениям ML и DS
- Разбор задачи с собеседования в БКС Банк (DS)
Хотим поделиться с вами каналом «Задачи DS - Собеседования, Соревнования, ШАД»
Ребята на своем канале делают обзоры различных направлений в компаниях, разбирают тестовые задания и различные задачи с собеседований.
Что интересного можно у них почитать:
- О направлениях команд в Big Tech, работающих с ML
- О популярных задачах с собеседований по направлениям ML и DS
- Разбор задачи с собеседования в БКС Банк (DS)
📊 Как оценивать LLM: бенчмарки [Ч.2]
В прошлой части данной темы мы подробно разобрали метрики, с помощью которых можно оценивать LLM. Сегодня поговорим про оценку через бенчмарки.
❗️Бенчмарк - это набор тестовых вопросов для оценки конкретного навыка модели.
Как правило, он работает следующим образом:
1. Берут некоторый стандартный набор запросов к LLM
2. Собирают ответы модели
3. С помощью асессоров/либо автоматической метрикой получают некоторую оценку качества модели
🗑Виды бенчмарков:
1️⃣ Открытые: создаются, как эталоны, для оценки конкретного навыка модели, что позволяет сравнить производительность любой LLM. Зачастую под данными бенчмарками понимаются: MMLU, GSM8K, HumanEval и т.д.
Проблема таких бенчмарков в том, что вся тестовая выборка хранится в открытом доступе (где-нибудь на GitHub), что зачастую приводит к утечке данных в train-датасеты.
ℹ️GSM8K - содержит математические задачи уровня начальной школы; MMLU - создан для проверки уровня фактических знаний LLM по гуманитарным наукам, социальным наукам, истории и даже право; HumanEval - содержит задачи по программированию
2️⃣ Закрытые: имеют аналогичную цель, однако, их особенность в закрытом тестовом наборе данных, которые LLM в процессе обучения не видели. Сюда могут входить: MT-Bench, SQuAD, RE-Bench и т.д.
3️⃣ Собственные (доменные): не всегда доступные бенчмарки пригодны для вашей задачи, поэтому зачастую приходится формировать свои тестовые примеры и способы оценки.
📚Дополнительная литература:
- Простая и очень полезная статья по бенчмаркам от команды Яндекса. Здесь же можно почитать про недостатки различных бенчмарков и этого подхода в целом
- Материалы из прошлой статьи
- Большой набор описаний наиболее популярных бенчмарков
- Статья про самые популярные LLM-бенчмарки
- Статья "Полный гид по бенчмаркам LLM"
Обязательно ставьте ❤️ и 🔥 под постом!
Пишите свои комментарии 🙂
В прошлой части данной темы мы подробно разобрали метрики, с помощью которых можно оценивать LLM. Сегодня поговорим про оценку через бенчмарки.
❗️Бенчмарк - это набор тестовых вопросов для оценки конкретного навыка модели.
Как правило, он работает следующим образом:
1. Берут некоторый стандартный набор запросов к LLM
2. Собирают ответы модели
3. С помощью асессоров/либо автоматической метрикой получают некоторую оценку качества модели
🗑Виды бенчмарков:
1️⃣ Открытые: создаются, как эталоны, для оценки конкретного навыка модели, что позволяет сравнить производительность любой LLM. Зачастую под данными бенчмарками понимаются: MMLU, GSM8K, HumanEval и т.д.
Проблема таких бенчмарков в том, что вся тестовая выборка хранится в открытом доступе (где-нибудь на GitHub), что зачастую приводит к утечке данных в train-датасеты.
ℹ️GSM8K - содержит математические задачи уровня начальной школы; MMLU - создан для проверки уровня фактических знаний LLM по гуманитарным наукам, социальным наукам, истории и даже право; HumanEval - содержит задачи по программированию
2️⃣ Закрытые: имеют аналогичную цель, однако, их особенность в закрытом тестовом наборе данных, которые LLM в процессе обучения не видели. Сюда могут входить: MT-Bench, SQuAD, RE-Bench и т.д.
3️⃣ Собственные (доменные): не всегда доступные бенчмарки пригодны для вашей задачи, поэтому зачастую приходится формировать свои тестовые примеры и способы оценки.
📚Дополнительная литература:
- Простая и очень полезная статья по бенчмаркам от команды Яндекса. Здесь же можно почитать про недостатки различных бенчмарков и этого подхода в целом
- Материалы из прошлой статьи
- Большой набор описаний наиболее популярных бенчмарков
- Статья про самые популярные LLM-бенчмарки
- Статья "Полный гид по бенчмаркам LLM"
Обязательно ставьте ❤️ и 🔥 под постом!
Пишите свои комментарии 🙂
📚 Книги по ML/DS
Мы периодически рекомендуем вам книги по DS или разыгрываем их в канале, решили собрать полезные книги в одном посте! 📚
💻 Если знакомы с DS/ML слабо и хотите чуть лучше понять где и как это может применяться:
0. Роман с Data Science
Автор книги Роман Зыков - человек, который строил с нуля аналитику в Ozon.ru, а также основал свою компанию, которая занимается анализом данных. В книге он рассказывает о своих
1. Машинное обучение для бизнеса и маркетинга
На пальцах про все основные возможности применения машинного обучения в классическом бизнесе (на самом деле, совсем не только в маркетинге!)
2. DS для карьериста
Достаточно старая книжка, но многие советы ещё актуальны!
Про то, как строить карьеру в DS
💼 Если хотите натаскаться к собеседованиям и отточить знания основ:
0. [ENG]Cracking the coding interview
Тут собраны все задачки с алгоритмических интервью в корпорациях, а также ключевые идеи и подходы к их решению
1. Серия "Грокаем": сложные вещи описаны простым языком и дополнены нестандартными иллюстрациями
- Грокаем алгоритмы
- Грокаем машинное обучение
- Грокаем глубокое обучение
2. Доверительное А/В-тестирование
Ключевые идеи АВ-тестирования понятным языком
🥷 Если уже знаете основы и хотите углубить свои знания:
0. [ENG]Machine Learning System Design
Книга Валерия Бабушкина и Арсения Кравченко по ML System Design. И этим всё сказано 🙂
1. [ENG]Understanding Deep Learning
Книга с лекциями, презентациями и приложенными юпитер-ноутбуками для того, чтобы разобраться в DL. Часто обновляется (последний апдейт 21 November 2024)
Обязательно ставьте ❤️ и 🔥 под постом, если подборка полезна!
Мы периодически рекомендуем вам книги по DS или разыгрываем их в канале, решили собрать полезные книги в одном посте! 📚
💻 Если знакомы с DS/ML слабо и хотите чуть лучше понять где и как это может применяться:
0. Роман с Data Science
Автор книги Роман Зыков - человек, который строил с нуля аналитику в Ozon.ru, а также основал свою компанию, которая занимается анализом данных. В книге он рассказывает о своих
1. Машинное обучение для бизнеса и маркетинга
На пальцах про все основные возможности применения машинного обучения в классическом бизнесе (на самом деле, совсем не только в маркетинге!)
2. DS для карьериста
Достаточно старая книжка, но многие советы ещё актуальны!
Про то, как строить карьеру в DS
💼 Если хотите натаскаться к собеседованиям и отточить знания основ:
0. [ENG]Cracking the coding interview
Тут собраны все задачки с алгоритмических интервью в корпорациях, а также ключевые идеи и подходы к их решению
1. Серия "Грокаем": сложные вещи описаны простым языком и дополнены нестандартными иллюстрациями
- Грокаем алгоритмы
- Грокаем машинное обучение
- Грокаем глубокое обучение
2. Доверительное А/В-тестирование
Ключевые идеи АВ-тестирования понятным языком
🥷 Если уже знаете основы и хотите углубить свои знания:
0. [ENG]Machine Learning System Design
Книга Валерия Бабушкина и Арсения Кравченко по ML System Design. И этим всё сказано 🙂
1. [ENG]Understanding Deep Learning
Книга с лекциями, презентациями и приложенными юпитер-ноутбуками для того, чтобы разобраться в DL. Часто обновляется (последний апдейт 21 November 2024)
Обязательно ставьте ❤️ и 🔥 под постом, если подборка полезна!
💻 Где искать вакансии в Data-профессиях?
Многие утверждают, что прохождение собеседований - чуть ли не отдельный навык, который нужно тренировать. А чтобы его тренировать, нужно ходить по собеседованиям и развивать соотвествующую мышцу 🙂
Сделали для вас подборку каналов для поиска вакансий в Data-профессиях (DS/DA/DE/ML/etc.):
1. Your Dream Data Job
Вакансии на позиции в аналитике/ml/data science в российские компании .
К каждой вакансии прилагается короткое описание позиции + полезная статья, релевантная к позиции.
2. Offer Inside Job
Вакансии в международных компаниях с русскими фаундерами и командами.
Помимо самих вакансий, у ребят есть сопровождение по составлению CV и подготовке к секциям
3. Нескучный Data Science Jobs
Вакансии от Жени Смирнова с подробным описанием: от имеющегося для железа до роли data science в этой компании
4. Data Science Jobs
Частые вакансии буквально на любые роли - от преподавателей на курсы по ML до руководительсиких позиций в международные компании.
Оставляйте свои 🔥 если хотите вторую часть поборки!
Многие утверждают, что прохождение собеседований - чуть ли не отдельный навык, который нужно тренировать. А чтобы его тренировать, нужно ходить по собеседованиям и развивать соотвествующую мышцу 🙂
Сделали для вас подборку каналов для поиска вакансий в Data-профессиях (DS/DA/DE/ML/etc.):
1. Your Dream Data Job
Вакансии на позиции в аналитике/ml/data science в российские компании .
К каждой вакансии прилагается короткое описание позиции + полезная статья, релевантная к позиции.
2. Offer Inside Job
Вакансии в международных компаниях с русскими фаундерами и командами.
Помимо самих вакансий, у ребят есть сопровождение по составлению CV и подготовке к секциям
3. Нескучный Data Science Jobs
Вакансии от Жени Смирнова с подробным описанием: от имеющегося для железа до роли data science в этой компании
4. Data Science Jobs
Частые вакансии буквально на любые роли - от преподавателей на курсы по ML до руководительсиких позиций в международные компании.
Оставляйте свои 🔥 если хотите вторую часть поборки!
🔥 Сборники тестовых заданий и видео разборы реальных тестовых 👇
📦 Сборник тестовых заданий для Product Analyst и Data Analyst - задачи с реальных собеседований с решением, задачи разделены про грейдам, сферам компаний и тематикам: аб тесты, SQL, Python, логика и тд
📦 [eng/ru]Home assignments for data science positions - тестовые задания от разных компаний, на позицию, связанную с DS. Например, задания от Альфабанка, МТС, Wargaming, Uber
📹 Решаем реальное тестовое задание позицию Data Scientist - решение тестового задания, которое сгенерировал чат GPT. Чистка данных и заполнение пропусков, построение random forest и обучение модели
📹 Разбор тестового задания на позицию junior аналитика данных - Анатолий Карпов сам решает тестовое, нужно провести базовый когортный анализ, пример использования Pandas (генерация данных, фильтрация, группировка)
📹 Разбор тестового задания на позицию junior-аналитика в Банк ВТБ - разбор от школы Simulative, нужно оценить эффективность маркетинговой кампании, пример использования Pandas и sqlite3 (фильтрация, группировка, агрегация)
📹 Разбираем тестовое задание в OZON на джуниор-аналитика - разбор от школы Simulative, несколько задач: генерация датасета, подсчет среднего значения, алгоритмическая задача, задача на знание статистики. Используется Pandas и Numpy
Сохраняйте подборку! Ставьте 🔥 и ❤️!
📦 Сборник тестовых заданий для Product Analyst и Data Analyst - задачи с реальных собеседований с решением, задачи разделены про грейдам, сферам компаний и тематикам: аб тесты, SQL, Python, логика и тд
📦 [eng/ru]Home assignments for data science positions - тестовые задания от разных компаний, на позицию, связанную с DS. Например, задания от Альфабанка, МТС, Wargaming, Uber
📹 Решаем реальное тестовое задание позицию Data Scientist - решение тестового задания, которое сгенерировал чат GPT. Чистка данных и заполнение пропусков, построение random forest и обучение модели
📹 Разбор тестового задания на позицию junior аналитика данных - Анатолий Карпов сам решает тестовое, нужно провести базовый когортный анализ, пример использования Pandas (генерация данных, фильтрация, группировка)
📹 Разбор тестового задания на позицию junior-аналитика в Банк ВТБ - разбор от школы Simulative, нужно оценить эффективность маркетинговой кампании, пример использования Pandas и sqlite3 (фильтрация, группировка, агрегация)
📹 Разбираем тестовое задание в OZON на джуниор-аналитика - разбор от школы Simulative, несколько задач: генерация датасета, подсчет среднего значения, алгоритмическая задача, задача на знание статистики. Используется Pandas и Numpy
Сохраняйте подборку! Ставьте 🔥 и ❤️!
🎯 Как вкатиться в NLP: подборка основных RoadMaps
🔥Современный мир Data Science стремительно меняется, и чтобы оставаться востребованным специалистом, важно следить за актуальными трендами. Для этого мы собрали подборку RoadMaps по развитию в NLP и готовы поделиться им с вами!
0⃣ [ENG] NLP-Course от Лены Войты
Не RoadMap, но этот курс заслуживает, чтобы быть в подборке.
Курс затрагивает ключевые NLP-темы: Word Embeddings, классификация текстов, языковое моделирование и многое другое.
Хватит с головой, чтобы погрузиться в NLP.
1️⃣ [ENG] Step-by-Step RoadMap по NLP
Дорожная карта поэтапно описывает основные шаги изучения NLP, начиная от базовых тем (текст пре-процессинг, векторное представление текста, описание основные NLP задач) и заканчивая более продвинутыми (деплой NLP-моделей, Transfromers, LLM-библиотеки и MLOps для NLP).
2️⃣ [ENG] RoadMap to Learn NLP and LLMs
RoadMap погружает в NLP, рассказывая об основных принципах, методах и алгоритмах, используемыми в NLP (токенизация, стемминг, лемматизация, NER и многое другое).
Также в источнике есть блоки о продвинутом NLP с Deep Learning, сопровождая все темы дополнительными источниками для изучения.
3️⃣ [ENG] Git-репозиторий с RoadMap по NLP
RoadMap 2019 года, но в нем содержится избыточный набор тем по Text Mining, Probability & Statistics и classic-ML.
Покрывает все базовые концепции классического NLP для изучения более продвинутых и современных тем.
4️⃣ [RU] Git-репозиторий c NLP Compass на русском
Репозиторий содержит несколько ключевых информативных диаграмм, которые постоянно обновляются:
- Python-библиотеки при работе с NLP
- Диаграмма Эйлера-Венна по навыкам и обязанностям от NLP-разработчика до исследователя
- Большая дорожная карта по NLP (есть даже современные ТОП-темы - PEFT, Промпт-инжиниринг)
В добавок в репозитории есть огромный набор NLP-туториалов по разным темам.
5️⃣ [ENG] GIt-репозиторий с LLM-курсами и RoadMaps
Репозиторий содержит огромный набор курсов и источников по современному NLP и LLMs.
Курсы разбиты по трем разным уровням: LLM Fundamentals, LLM Scientist, LLM Engineer.
Также есть RoadMaps по каждому уровню с доп. источниками и ссылками на Colab с кодом.
Не забывайте ставить ❤️ и 🔥за крутые подборки!
Пишите комментарии и делитесь своими ресурсами!
До встречи👋
🔥Современный мир Data Science стремительно меняется, и чтобы оставаться востребованным специалистом, важно следить за актуальными трендами. Для этого мы собрали подборку RoadMaps по развитию в NLP и готовы поделиться им с вами!
0⃣ [ENG] NLP-Course от Лены Войты
Не RoadMap, но этот курс заслуживает, чтобы быть в подборке.
Курс затрагивает ключевые NLP-темы: Word Embeddings, классификация текстов, языковое моделирование и многое другое.
Хватит с головой, чтобы погрузиться в NLP.
1️⃣ [ENG] Step-by-Step RoadMap по NLP
Дорожная карта поэтапно описывает основные шаги изучения NLP, начиная от базовых тем (текст пре-процессинг, векторное представление текста, описание основные NLP задач) и заканчивая более продвинутыми (деплой NLP-моделей, Transfromers, LLM-библиотеки и MLOps для NLP).
2️⃣ [ENG] RoadMap to Learn NLP and LLMs
RoadMap погружает в NLP, рассказывая об основных принципах, методах и алгоритмах, используемыми в NLP (токенизация, стемминг, лемматизация, NER и многое другое).
Также в источнике есть блоки о продвинутом NLP с Deep Learning, сопровождая все темы дополнительными источниками для изучения.
3️⃣ [ENG] Git-репозиторий с RoadMap по NLP
RoadMap 2019 года, но в нем содержится избыточный набор тем по Text Mining, Probability & Statistics и classic-ML.
Покрывает все базовые концепции классического NLP для изучения более продвинутых и современных тем.
4️⃣ [RU] Git-репозиторий c NLP Compass на русском
Репозиторий содержит несколько ключевых информативных диаграмм, которые постоянно обновляются:
- Python-библиотеки при работе с NLP
- Диаграмма Эйлера-Венна по навыкам и обязанностям от NLP-разработчика до исследователя
- Большая дорожная карта по NLP (есть даже современные ТОП-темы - PEFT, Промпт-инжиниринг)
В добавок в репозитории есть огромный набор NLP-туториалов по разным темам.
5️⃣ [ENG] GIt-репозиторий с LLM-курсами и RoadMaps
Репозиторий содержит огромный набор курсов и источников по современному NLP и LLMs.
Курсы разбиты по трем разным уровням: LLM Fundamentals, LLM Scientist, LLM Engineer.
Также есть RoadMaps по каждому уровню с доп. источниками и ссылками на Colab с кодом.
Не забывайте ставить ❤️ и 🔥за крутые подборки!
Пишите комментарии и делитесь своими ресурсами!
До встречи👋
📚 Weekend offer в Яндексе
На связи Рома Васильев, создатель этого канала.
Проводим 1-2 марта оффер выходного дня для аналитиков в Яндексе, будем нанимать в том числе и в мою команду (аналитики международного Поиска)!
Что будет:
- В субботу (1 марта) - технические секции (будут алгоритмы, секция на написание кода для анализа данных и секция по теорверу-матстату-аналитике)
- В воскресенье (2 марта) - финалы с командами и офферы
Почему оно стоит того:
- Многие жалуются на то, что секции в Яндексе долгие и томные, а тут есть возможность порешать всё за 2 дня.
- Нанимают сейчас в разные клёвые команды Большого Яндекса (Поиск, Алиса, Карты и тд)
- Яндекс предлагает вполне хорошие условия
Как готовиться:
- Вспомнить алгоритмы на python можно например тут, плюс хорошо бы освежить в голове написание кода для анализа данных
- Вспомнить теорию по теорверу и матстату можно на основе постов в нашем канале (например тут) 🙂
- Подумать о том, как грамотно рассказать о себе и своём опыте на финале
Где зарегистрироваться:
Вот тут
На связи Рома Васильев, создатель этого канала.
Проводим 1-2 марта оффер выходного дня для аналитиков в Яндексе, будем нанимать в том числе и в мою команду (аналитики международного Поиска)!
Что будет:
- В субботу (1 марта) - технические секции (будут алгоритмы, секция на написание кода для анализа данных и секция по теорверу-матстату-аналитике)
- В воскресенье (2 марта) - финалы с командами и офферы
Почему оно стоит того:
- Многие жалуются на то, что секции в Яндексе долгие и томные, а тут есть возможность порешать всё за 2 дня.
- Нанимают сейчас в разные клёвые команды Большого Яндекса (Поиск, Алиса, Карты и тд)
- Яндекс предлагает вполне хорошие условия
Как готовиться:
- Вспомнить алгоритмы на python можно например тут, плюс хорошо бы освежить в голове написание кода для анализа данных
- Вспомнить теорию по теорверу и матстату можно на основе постов в нашем канале (например тут) 🙂
- Подумать о том, как грамотно рассказать о себе и своём опыте на финале
Где зарегистрироваться:
Вот тут
Яндекс Weekend Offer
Analytics
Analytics
Офер за 2 дня для аналитиков с опытом от двух лет на Python. 1–2 марта, онлайн.
Что такое Git и зачем он нужен Data Scientist'у
Git — важный инструмент разработки, который необходим каждому, кто пишет код, включая DS-специалистам.
Git - это система (программа), которая позволяет отслеживать и вести изменения в файлах вашего проекта. Git - преимущественно используется в разработке, но иногда и в других областях.
🗂 Репозиторий - это хранилище вашего кода для одного или нескольких проектов. Git позволяет хранить репозитории локально или использовать специальные веб-сайты: GitHub, Bitbucket, GitLab.
🔝 Основные преимущества Git:
1. Контроль версий — возможность фиксировать каждое изменение в проекте и возвращаться к любой версии кода.
2. Работа в команде — удобная командная разработка без конфликтов в коде.
3. Воспроизводимость — возможность фиксировать состояние кода и данных.
4. Портфолио/Трудоустройство — работодатели часто используют GitHub, как способ оценить навыки кандидата
5. Безопасность — код хранится не только на вашем компьютере, но и в удаленном репозитории.
📚Дополнительные материалы по теме:
- Подборка постов про Git от нашего канала🤗
- [RU] Официальная документация Git на русском
- [RU] Интерактивный тренажер с доступной теорией и практикой ключевых концепций Git
- [ENG] Официальная документация по GitHub (подойдет как новичкам для знакомство с платформой, так и опытным юзерам для продвинутого использования)
- [RU] Git за полчаса - руководство для начинающих
- [RU] Репозиторий с советами и трюками по Git
Ставьте ❤️ и 🔥под данным постом!
И не забывайте делиться полезными ресурсами по Git в комментариях!
Git — важный инструмент разработки, который необходим каждому, кто пишет код, включая DS-специалистам.
Git - это система (программа), которая позволяет отслеживать и вести изменения в файлах вашего проекта. Git - преимущественно используется в разработке, но иногда и в других областях.
🗂 Репозиторий - это хранилище вашего кода для одного или нескольких проектов. Git позволяет хранить репозитории локально или использовать специальные веб-сайты: GitHub, Bitbucket, GitLab.
🔝 Основные преимущества Git:
1. Контроль версий — возможность фиксировать каждое изменение в проекте и возвращаться к любой версии кода.
2. Работа в команде — удобная командная разработка без конфликтов в коде.
3. Воспроизводимость — возможность фиксировать состояние кода и данных.
4. Портфолио/Трудоустройство — работодатели часто используют GitHub, как способ оценить навыки кандидата
5. Безопасность — код хранится не только на вашем компьютере, но и в удаленном репозитории.
📚Дополнительные материалы по теме:
- Подборка постов про Git от нашего канала🤗
- [RU] Официальная документация Git на русском
- [RU] Интерактивный тренажер с доступной теорией и практикой ключевых концепций Git
- [ENG] Официальная документация по GitHub (подойдет как новичкам для знакомство с платформой, так и опытным юзерам для продвинутого использования)
- [RU] Git за полчаса - руководство для начинающих
- [RU] Репозиторий с советами и трюками по Git
Ставьте ❤️ и 🔥под данным постом!
И не забывайте делиться полезными ресурсами по Git в комментариях!
Telegram
Start Career in DS
🐈⬛ Бесплатный курс для начинающих - введение в Git
У нас уже были посты про Git:
– Интерактивный туториал (если вы уже немного понимаете в Git)
– Курс для тех, кто вообще не работал с гитом
– Что делать, если накосячил при работе с гитом
Есть ещё один…
У нас уже были посты про Git:
– Интерактивный туториал (если вы уже немного понимаете в Git)
– Курс для тех, кто вообще не работал с гитом
– Что делать, если накосячил при работе с гитом
Есть ещё один…
📢 Опросник о зарплатах в Data Science
Женя из @not_boring_ds запустил клёвый опрос, который поможет лучше понять текущее состояние рынка в российском DS. Приглашаем вас принять участие и внести свой вклад!
📝 Что внутри опроса?
Затрагивает ключевые аспекты вашей работы: опыт, текущая роль, тип данных, с которыми работаете, уровень зарплаты и степень удовлетворенности. На прохождение опроса уйдет буквально 5 минут.
Будем пристально следить за результатами и обязательно поделимся с вами первыми! ❤️
[Ссылка на опросник]
Женя из @not_boring_ds запустил клёвый опрос, который поможет лучше понять текущее состояние рынка в российском DS. Приглашаем вас принять участие и внести свой вклад!
📝 Что внутри опроса?
Затрагивает ключевые аспекты вашей работы: опыт, текущая роль, тип данных, с которыми работаете, уровень зарплаты и степень удовлетворенности. На прохождение опроса уйдет буквально 5 минут.
Будем пристально следить за результатами и обязательно поделимся с вами первыми! ❤️
[Ссылка на опросник]
Google Docs
Опрос. Карьера в DS: опыт, текущая работа, удовлетворенность, планы на будущее.
Опрос проводится с целью добавления прозрачности в сфере Data Science, пожалуйста, отвечайте честно. Результаты опроса будут опубликованы публично в агрегированном формате.
Школа Аналитиков-Разработчиков Яндекса
До 27 апреля можно подать заявку на бесплатный интенсив, выпускники которого становятся аналитиками в Яндексе. Это ШАР, где мы рассказываем, как свободно работать с данными, извлекать из них смыслы и принимать на их основе обоснованные решения.
Впервые в этом году участникам ШАРа можно выбрать направление: Data Engineering или Data Science.
Стартуем 2 июня со всеми, кто пройдёт отбор. Сначала лекции и домашки, потом командный проект с участниками других направлений. Всего в этом году Яндекс запускаем семь Летних школ для разработчиков, менеджеров, девопсов и т.д.
ШАР — это шанс прокачаться и попасть на стажировку в Яндекс (или сразу в штат) и познакомиться с новыми близкими по духу ребятами.
Детали, отзывы и кнопка Подать заявку здесь: https://yandex.ru/yaintern/schools/analytics
До 27 апреля можно подать заявку на бесплатный интенсив, выпускники которого становятся аналитиками в Яндексе. Это ШАР, где мы рассказываем, как свободно работать с данными, извлекать из них смыслы и принимать на их основе обоснованные решения.
Впервые в этом году участникам ШАРа можно выбрать направление: Data Engineering или Data Science.
Стартуем 2 июня со всеми, кто пройдёт отбор. Сначала лекции и домашки, потом командный проект с участниками других направлений. Всего в этом году Яндекс запускаем семь Летних школ для разработчиков, менеджеров, девопсов и т.д.
ШАР — это шанс прокачаться и попасть на стажировку в Яндекс (или сразу в штат) и познакомиться с новыми близкими по духу ребятами.
Детали, отзывы и кнопка Подать заявку здесь: https://yandex.ru/yaintern/schools/analytics
Школа аналитиков-разработчиков
Летняя школа Яндекса для аналитиков-разработчиков. Больше половины выпускников получают офер