karpov.courses
23.3K subscribers
1.14K photos
4 videos
8 files
1.03K links
Школа DATA SCIENCE для любого уровня подготовки

Учим актуальным навыкам с акцентом на практику

Чат @karpovcourseschat

Полезные ссылки: https://linktr.ee/karpovcourseschannel
Download Telegram
Немного предыстории: за спиной у меня инженерное образование с отличием, несколько книжек по машинному обучению (Тарик Рашид, Франсуа Шолле, Орельен Жерон) и несколько курсов. В рамках университета пробовал себя в различных областях: от гидродинамики в криогенных условиях в рамках вечной мерзлоты и моделирования идеального прикуса у человека до топологической оптимизации и аддитивных технологий. Сейчас аспирант по направлению «Моделирование с помощью функционально-градиентных материалов с использованием топологической оптимизации».

Познакомился с ML впервые в 2017 году, когда ездил в США на стажировку в Wolfram Research Inc. Помимо метода конечных элементов с топологической оптимизацией, там я реализовал алгоритм исправления опечаток в коде. Алгоритм был реализован достаточно дубово и мне предложили привлечь ML. Собственно тогда я и начал понемногу изучать эту область, но алгоритм завершить не успел, поскольку кончился контракт по времени.

В рамках основной работы я занимался задачами календарного планирования, неградиентными методами оптимизации, изучением новых подходов к решению таких задач. Попутно читал книжки по ML и решал курсы на Cтепике. Со временем понял, что с таким подходом у меня не получается выработать для себя однозначное решение в плане выбора ML как основного направления деятельности и развития.

На курс HARD ML я поступал с целью понять, осилю/не осилю, зайдет/не зайдет, и обрести уверенность в себе в области ML. Уверенность в себе появилась после блока Игоря. Я понял, что мне нравится глубоко копать и узнавать что-то новое, попутно применяя новые знания для решения практических задач. Тем не менее я решил поучаствовать в каких-нибудь хакатонах и опробовать полученные навыки (к этому моменту я прошел 2 первых блока). Сначала хотел поучаствовать в Raifhack, но его я благополучно «проспал», закрутился на работе, поэтому пошел участвовать в Лидерах Цифровой Трансформации 2021. Для меня это был первый хакатон и вообще проба себя именно в ML. Там выбрали задачу «Рекомендательная система для стартапов города Москва». Выбрал по достаточно простой причине — блок Игоря как раз про рекомендательные системы, а блок Стаса частично посвящен теме многоруких бандитов, которые тоже используются в рекомендательных системах. Мое предположение в целом оказалось верным, данные были предоставлены такие, что можно было сделать рекомендательную систему на многоруком бандите в первом приближении. В итоге смогли выиграть хакатон. Сейчас идет разговор о том, как эту систему довести до «production ready» уровня и выкатить «в прод» для города Москвы.

Хотелось бы просто сказать спасибо преподавателям (хотя мне и осталось пройти ещё 2 блока). Я ни капли не пожалел, что пошел к вам учиться.

Прим. от Андрея о времени, затрачиваемом на обучение: «У меня уходило по 8 часов в день на блок матчинга, поскольку Python для меня был «неродным» языком, на 2-й и 3 -й блоки я уже тратил по 2-3 часа в день, так как к тому времени Python уже не был такой сильной проблемой».
В течение нескольких месяцев  мы последовательно объясняли простыми словами, кому и зачем может пригодиться каждый из модулей курса HARD ML.

Собираем всё воедино:

Ранжирование и матчинг
Динамическое ценообразование
Uplift-моделирование
Продвинутое A/B тестирование
Сценарии деплоя ML-сервисов

Если вам этого показалось мало и вы хотите погрузиться в детали, то с полной программой курса можно ознакомиться на сайте :)
Мы часто слышим о цифровизации — но не всегда понимаем, что это значит. Что обычно имеют в виду, когда говорят о цифровой трансформации компаний? Как на самом деле работает цифровизация и каковы её масштабы? 

На эти вопросы ответил Валерий Бабушкин в проекте TEDx, и мы не можем не поделиться записью его выступления. Если вы ещё не смотрели это видео — рекомендуем!
Всем привет! На связи команда karpov.courses.

Одной из основных целей нашей школы является создание классного DS-комьюнити, участники которого постоянно делятся своими идеями и помогают друг другу советами. Именно поэтому мы проводим открытые собеседования, которые сглаживают страх перед настоящими интервью. Разумеется, тремя собеседованиями по ML System Design мы не ограничимся и продолжим серию наших интервью с Валерием Бабушкиным. На очереди System Design: поговорим про дизайн систем (не только ML!), обсудим сервера и структуры данных и дадим ценные советы по результатам собеседования.

Чтобы интервью было живым и интересным, мы проведём его офлайн — студия находится в Москве, поэтому если вдруг вы из столицы (или планируете приехать) и хотели бы предложить свою кандидатуру — ждём вашу заявку по ссылке: https://forms.gle/Tq5jpWoDEzmLXh8K8
Хорошие новости для всех, кто думает записаться на курс «Data Engineer», — мы наконец открыли демоверсию! Она состоит из первых трёх уроков модуля «Проектирование DWH», которые проводит куратор программы Евгений Ермаков.

Что вас ждёт внутри?

● Архитектура DWH
Начнём с простого: что такое хранилище данных, зачем в нём столько слоёв, кто такие Инмон и Кимбалл и в чём различие их подходов к построению DWH.

● Нормальные формы
Вспомним важные аспекты теории о нормальных формах, нормализации и денормализации.

● Методология Dimensional modeling
Многомерное моделирование является классическим подходом к созданию витрин данных. Рассмотрим популярные схемы: «звезда», «снежинка», «созвездие». Обсудим таблицы измерений и фактов, поговорим о вариантах хранения медленно меняющихся измерений.

Лекции будут проходить на нашей учебной платформе, а выполнение практических заданий — на удалённом сервере, чтобы вы сразу смогли применить полученные знания на практике.

Пройти демоверсию
Spark — пожалуй, самый популярный фреймворк для работы с большими данными, предоставляющий инструменты для построения и обучения различных ML-моделей. CatBoost — открытая библиотека для градиентного бустинга от компании Яндекс.

2 декабря в 19:00 пройдёт лекция «CatBoost на больших данных», которую проведёт Александр Савченко, руководитель R&D Sber и преподаватель курса «Data Engineer».

На вебинаре обсудим, как подружить Spark и CatBoost, а именно:
● Рассмотрим процесс обучения моделей на SparkML
● Научимся обучать CatBoost модели на больших данных
● Разберём, как встраивать CatBoost в компоненты SparkML

Регистрация на вебинар
Как скрасить сегодняшний снежный вечер? Включить 18-й выпуск подкаста «IT-шниками не рождаются» конечно же!

Герой нового выпуска – Сергей Панюшкин, руководитель аналитики и роста в Едадиле. Сергей рассказал о тех временах, когда можно было создать продукт на голом энтузиазме, прикрутить монетизацию и начать успешно зарабатывать на этом деньги, наблюдая за ростом сервиса. Бонус-обсуждение: как перейти из тёплого лампового стартапа в корпорацию и как не бояться ошибок и показывать результат при высоком уровне ответственности.

https://podcast.ru/1559594773
Наступил первый день зимы, а значит, время запускать новый поток HARD ML.

Мы не можем точно сказать, что может подтолкнуть вас к прохождению курса (возможно, тяга к новым знаниям или перспектива повышения?), но зато уверены, что каждый из пяти модулей будет по-своему полезен и поможет подобрать правильный подход к решению ваших рабочих задач. Если вы хотите перенять опыт ведущих ML-инженеров и научиться решать нестандартные кейсы, то вы на верном пути.

Присоединиться к 11-му потоку
Скоро начинаем!

Уже через час Александр Савченко расскажет об интеграциях PySpark с другими фреймворками (в частности на примере CatBoost).

Подключайтесь разбираться вместе!
Не так давно на вебинаре c Александром Волынским мы разобрали важнейшие для дата-инженера практические подходы к хранению данных в старых добрых DWH и относительно новых Data Lake.

Предлагаем закрепить пройденный материал и разобраться, чем Data Lake отличается от Data Warehouse и почему нельзя просто так ответить на вопрос: «Какое хранилище лучше?»
Преподаватель нашего курса «Data Engineer» Александр Волынский будет выступать на VK Kubernetes Conference. Приходите и вы!

В своём докладе Александр расскажет о Kubernetes, который отлично подойдёт на роль центрального звена платформы для работы с данными.

План такой:
● Начнём со сравнения классических и облачных архитектур
● Рассмотрим инструменты для построения DWH и Data Lake в облаках (вы ведь помните наш недавний вебинар?) и познакомимся с особенностями разных решений
● Поговорим о роли Kubernetes при построении Cloud DWH и Data Lake
● Обозначим инструменты, которые можно запустить в K8s, и обсудим, какие тонкости стоит при этом учитывать

На самом деле вся VK Kubernetes Conference стоит просмотра — там покажут, что K8s не только способен помирить Dev, Sec и Ops, но и может быть интересен дата-сайентистам и инженерам данных.

Конференция пройдёт 9 декабря, начало в 10:00. Полная программа доступна [по ссылке]
Почему вы записались на курс «Data Engineer»? Мы задали этот вопрос студентам, и вот такие ответы получили:

● «Хочу получить практические навыки работы с Big Data в облаке»
● «Люблю, когда данные хорошо подготовлены для Табло»
● «Хочу понять, как выстроить хранилище данных в компании с нуля»

Это всё у нас есть!

Записаться на 6-й поток: https://bit.ly/3lB6MNq
Старт карьеры — это всегда интересно и страшно одновременно. Особенно, когда нет какого-то единого пути и истории у всех людей разные. Мы собрали краткие ответы на самые животрепещущие вопросы о начале карьеры в аналитике:

– Почему сейчас лучшее время для старта?
– Спрос на аналитиков очень высокий и продолжает расти.

– Какой бэкграунд нужен аналитику?
– Любой! Многие приходят в аналитику из других сфер.

– Сколько зарабатывает junior аналитик?
– От 70 000 рублей

– Можно ли работать аналитиком на удалёнке?
– Да: 70% вакансий на рынке предполагают либо удалённый, либо гибридный формат работы.

– Что добавить в резюме, если нет опыта?
– Учебные проекты, участие в хакатонах и соревнованиях.

Ещё больше вопросов с развёрнутыми ответами — в нашей лекции.