Немного предыстории: за спиной у меня инженерное образование с отличием, несколько книжек по машинному обучению (Тарик Рашид, Франсуа Шолле, Орельен Жерон) и несколько курсов. В рамках университета пробовал себя в различных областях: от гидродинамики в криогенных условиях в рамках вечной мерзлоты и моделирования идеального прикуса у человека до топологической оптимизации и аддитивных технологий. Сейчас аспирант по направлению «Моделирование с помощью функционально-градиентных материалов с использованием топологической оптимизации».
Познакомился с ML впервые в 2017 году, когда ездил в США на стажировку в Wolfram Research Inc. Помимо метода конечных элементов с топологической оптимизацией, там я реализовал алгоритм исправления опечаток в коде. Алгоритм был реализован достаточно дубово и мне предложили привлечь ML. Собственно тогда я и начал понемногу изучать эту область, но алгоритм завершить не успел, поскольку кончился контракт по времени.
В рамках основной работы я занимался задачами календарного планирования, неградиентными методами оптимизации, изучением новых подходов к решению таких задач. Попутно читал книжки по ML и решал курсы на Cтепике. Со временем понял, что с таким подходом у меня не получается выработать для себя однозначное решение в плане выбора ML как основного направления деятельности и развития.
На курс HARD ML я поступал с целью понять, осилю/не осилю, зайдет/не зайдет, и обрести уверенность в себе в области ML. Уверенность в себе появилась после блока Игоря. Я понял, что мне нравится глубоко копать и узнавать что-то новое, попутно применяя новые знания для решения практических задач. Тем не менее я решил поучаствовать в каких-нибудь хакатонах и опробовать полученные навыки (к этому моменту я прошел 2 первых блока). Сначала хотел поучаствовать в Raifhack, но его я благополучно «проспал», закрутился на работе, поэтому пошел участвовать в Лидерах Цифровой Трансформации 2021. Для меня это был первый хакатон и вообще проба себя именно в ML. Там выбрали задачу «Рекомендательная система для стартапов города Москва». Выбрал по достаточно простой причине — блок Игоря как раз про рекомендательные системы, а блок Стаса частично посвящен теме многоруких бандитов, которые тоже используются в рекомендательных системах. Мое предположение в целом оказалось верным, данные были предоставлены такие, что можно было сделать рекомендательную систему на многоруком бандите в первом приближении. В итоге смогли выиграть хакатон. Сейчас идет разговор о том, как эту систему довести до «production ready» уровня и выкатить «в прод» для города Москвы.
Хотелось бы просто сказать спасибо преподавателям (хотя мне и осталось пройти ещё 2 блока). Я ни капли не пожалел, что пошел к вам учиться.
Прим. от Андрея о времени, затрачиваемом на обучение: «У меня уходило по 8 часов в день на блок матчинга, поскольку Python для меня был «неродным» языком, на 2-й и 3 -й блоки я уже тратил по 2-3 часа в день, так как к тому времени Python уже не был такой сильной проблемой».
Познакомился с ML впервые в 2017 году, когда ездил в США на стажировку в Wolfram Research Inc. Помимо метода конечных элементов с топологической оптимизацией, там я реализовал алгоритм исправления опечаток в коде. Алгоритм был реализован достаточно дубово и мне предложили привлечь ML. Собственно тогда я и начал понемногу изучать эту область, но алгоритм завершить не успел, поскольку кончился контракт по времени.
В рамках основной работы я занимался задачами календарного планирования, неградиентными методами оптимизации, изучением новых подходов к решению таких задач. Попутно читал книжки по ML и решал курсы на Cтепике. Со временем понял, что с таким подходом у меня не получается выработать для себя однозначное решение в плане выбора ML как основного направления деятельности и развития.
На курс HARD ML я поступал с целью понять, осилю/не осилю, зайдет/не зайдет, и обрести уверенность в себе в области ML. Уверенность в себе появилась после блока Игоря. Я понял, что мне нравится глубоко копать и узнавать что-то новое, попутно применяя новые знания для решения практических задач. Тем не менее я решил поучаствовать в каких-нибудь хакатонах и опробовать полученные навыки (к этому моменту я прошел 2 первых блока). Сначала хотел поучаствовать в Raifhack, но его я благополучно «проспал», закрутился на работе, поэтому пошел участвовать в Лидерах Цифровой Трансформации 2021. Для меня это был первый хакатон и вообще проба себя именно в ML. Там выбрали задачу «Рекомендательная система для стартапов города Москва». Выбрал по достаточно простой причине — блок Игоря как раз про рекомендательные системы, а блок Стаса частично посвящен теме многоруких бандитов, которые тоже используются в рекомендательных системах. Мое предположение в целом оказалось верным, данные были предоставлены такие, что можно было сделать рекомендательную систему на многоруком бандите в первом приближении. В итоге смогли выиграть хакатон. Сейчас идет разговор о том, как эту систему довести до «production ready» уровня и выкатить «в прод» для города Москвы.
Хотелось бы просто сказать спасибо преподавателям (хотя мне и осталось пройти ещё 2 блока). Я ни капли не пожалел, что пошел к вам учиться.
Прим. от Андрея о времени, затрачиваемом на обучение: «У меня уходило по 8 часов в день на блок матчинга, поскольку Python для меня был «неродным» языком, на 2-й и 3 -й блоки я уже тратил по 2-3 часа в день, так как к тому времени Python уже не был такой сильной проблемой».
В течение нескольких месяцев мы последовательно объясняли простыми словами, кому и зачем может пригодиться каждый из модулей курса HARD ML.
Собираем всё воедино:
● Ранжирование и матчинг
● Динамическое ценообразование
● Uplift-моделирование
● Продвинутое A/B тестирование
● Сценарии деплоя ML-сервисов
Если вам этого показалось мало и вы хотите погрузиться в детали, то с полной программой курса можно ознакомиться на сайте :)
Собираем всё воедино:
● Ранжирование и матчинг
● Динамическое ценообразование
● Uplift-моделирование
● Продвинутое A/B тестирование
● Сценарии деплоя ML-сервисов
Если вам этого показалось мало и вы хотите погрузиться в детали, то с полной программой курса можно ознакомиться на сайте :)
Мы часто слышим о цифровизации — но не всегда понимаем, что это значит. Что обычно имеют в виду, когда говорят о цифровой трансформации компаний? Как на самом деле работает цифровизация и каковы её масштабы?
На эти вопросы ответил Валерий Бабушкин в проекте TEDx, и мы не можем не поделиться записью его выступления. Если вы ещё не смотрели это видео — рекомендуем!
На эти вопросы ответил Валерий Бабушкин в проекте TEDx, и мы не можем не поделиться записью его выступления. Если вы ещё не смотрели это видео — рекомендуем!
YouTube
Цифровизация компаний: разрушители мифов | Валерий Бабушкин | TEDxStPetersburg
?Тотальная цифровизация??
⠀
Сегодня цифровые технологии можно найти практически во всех сферах жизни, будь то осуществление документооборота, регистрация на мероприятие или запрос в банк. Процессы переводятся в цифровой формат и упрощаются.
⠀
Часто о цифровизации…
⠀
Сегодня цифровые технологии можно найти практически во всех сферах жизни, будь то осуществление документооборота, регистрация на мероприятие или запрос в банк. Процессы переводятся в цифровой формат и упрощаются.
⠀
Часто о цифровизации…
Всем привет! На связи команда karpov.courses.
Одной из основных целей нашей школы является создание классного DS-комьюнити, участники которого постоянно делятся своими идеями и помогают друг другу советами. Именно поэтому мы проводим открытые собеседования, которые сглаживают страх перед настоящими интервью. Разумеется, тремя собеседованиями по ML System Design мы не ограничимся и продолжим серию наших интервью с Валерием Бабушкиным. На очереди System Design: поговорим про дизайн систем (не только ML!), обсудим сервера и структуры данных и дадим ценные советы по результатам собеседования.
Чтобы интервью было живым и интересным, мы проведём его офлайн — студия находится в Москве, поэтому если вдруг вы из столицы (или планируете приехать) и хотели бы предложить свою кандидатуру — ждём вашу заявку по ссылке: https://forms.gle/Tq5jpWoDEzmLXh8K8
Одной из основных целей нашей школы является создание классного DS-комьюнити, участники которого постоянно делятся своими идеями и помогают друг другу советами. Именно поэтому мы проводим открытые собеседования, которые сглаживают страх перед настоящими интервью. Разумеется, тремя собеседованиями по ML System Design мы не ограничимся и продолжим серию наших интервью с Валерием Бабушкиным. На очереди System Design: поговорим про дизайн систем (не только ML!), обсудим сервера и структуры данных и дадим ценные советы по результатам собеседования.
Чтобы интервью было живым и интересным, мы проведём его офлайн — студия находится в Москве, поэтому если вдруг вы из столицы (или планируете приехать) и хотели бы предложить свою кандидатуру — ждём вашу заявку по ссылке: https://forms.gle/Tq5jpWoDEzmLXh8K8
Google Docs
Открытое собеседование
Привет! На связи команда karpov.courses.
Одна из самых животрепещущих тем – это поиск работы в IT. Нам пришла идея проводить открытые собеседования, которые помогут как соискателю узнать свои сильные и слабые стороны, так и остальным заинтересованным узнать…
Одна из самых животрепещущих тем – это поиск работы в IT. Нам пришла идея проводить открытые собеседования, которые помогут как соискателю узнать свои сильные и слабые стороны, так и остальным заинтересованным узнать…
Хорошие новости для всех, кто думает записаться на курс «Data Engineer», — мы наконец открыли демоверсию! Она состоит из первых трёх уроков модуля «Проектирование DWH», которые проводит куратор программы Евгений Ермаков.
Что вас ждёт внутри?
● Архитектура DWH
Начнём с простого: что такое хранилище данных, зачем в нём столько слоёв, кто такие Инмон и Кимбалл и в чём различие их подходов к построению DWH.
● Нормальные формы
Вспомним важные аспекты теории о нормальных формах, нормализации и денормализации.
● Методология Dimensional modeling
Многомерное моделирование является классическим подходом к созданию витрин данных. Рассмотрим популярные схемы: «звезда», «снежинка», «созвездие». Обсудим таблицы измерений и фактов, поговорим о вариантах хранения медленно меняющихся измерений.
Лекции будут проходить на нашей учебной платформе, а выполнение практических заданий — на удалённом сервере, чтобы вы сразу смогли применить полученные знания на практике.
Пройти демоверсию
Что вас ждёт внутри?
● Архитектура DWH
Начнём с простого: что такое хранилище данных, зачем в нём столько слоёв, кто такие Инмон и Кимбалл и в чём различие их подходов к построению DWH.
● Нормальные формы
Вспомним важные аспекты теории о нормальных формах, нормализации и денормализации.
● Методология Dimensional modeling
Многомерное моделирование является классическим подходом к созданию витрин данных. Рассмотрим популярные схемы: «звезда», «снежинка», «созвездие». Обсудим таблицы измерений и фактов, поговорим о вариантах хранения медленно меняющихся измерений.
Лекции будут проходить на нашей учебной платформе, а выполнение практических заданий — на удалённом сервере, чтобы вы сразу смогли применить полученные знания на практике.
Пройти демоверсию
Spark — пожалуй, самый популярный фреймворк для работы с большими данными, предоставляющий инструменты для построения и обучения различных ML-моделей. CatBoost — открытая библиотека для градиентного бустинга от компании Яндекс.
2 декабря в 19:00 пройдёт лекция «CatBoost на больших данных», которую проведёт Александр Савченко, руководитель R&D Sber и преподаватель курса «Data Engineer».
На вебинаре обсудим, как подружить Spark и CatBoost, а именно:
● Рассмотрим процесс обучения моделей на SparkML
● Научимся обучать CatBoost модели на больших данных
● Разберём, как встраивать CatBoost в компоненты SparkML
Регистрация на вебинар
2 декабря в 19:00 пройдёт лекция «CatBoost на больших данных», которую проведёт Александр Савченко, руководитель R&D Sber и преподаватель курса «Data Engineer».
На вебинаре обсудим, как подружить Spark и CatBoost, а именно:
● Рассмотрим процесс обучения моделей на SparkML
● Научимся обучать CatBoost модели на больших данных
● Разберём, как встраивать CatBoost в компоненты SparkML
Регистрация на вебинар
Как скрасить сегодняшний снежный вечер? Включить 18-й выпуск подкаста «IT-шниками не рождаются» конечно же!
Герой нового выпуска – Сергей Панюшкин, руководитель аналитики и роста в Едадиле. Сергей рассказал о тех временах, когда можно было создать продукт на голом энтузиазме, прикрутить монетизацию и начать успешно зарабатывать на этом деньги, наблюдая за ростом сервиса. Бонус-обсуждение: как перейти из тёплого лампового стартапа в корпорацию и как не бояться ошибок и показывать результат при высоком уровне ответственности.
https://podcast.ru/1559594773
Герой нового выпуска – Сергей Панюшкин, руководитель аналитики и роста в Едадиле. Сергей рассказал о тех временах, когда можно было создать продукт на голом энтузиазме, прикрутить монетизацию и начать успешно зарабатывать на этом деньги, наблюдая за ростом сервиса. Бонус-обсуждение: как перейти из тёплого лампового стартапа в корпорацию и как не бояться ошибок и показывать результат при высоком уровне ответственности.
https://podcast.ru/1559594773
Наступил первый день зимы, а значит, время запускать новый поток HARD ML.
Мы не можем точно сказать, что может подтолкнуть вас к прохождению курса (возможно, тяга к новым знаниям или перспектива повышения?), но зато уверены, что каждый из пяти модулей будет по-своему полезен и поможет подобрать правильный подход к решению ваших рабочих задач. Если вы хотите перенять опыт ведущих ML-инженеров и научиться решать нестандартные кейсы, то вы на верном пути.
Присоединиться к 11-му потоку
Мы не можем точно сказать, что может подтолкнуть вас к прохождению курса (возможно, тяга к новым знаниям или перспектива повышения?), но зато уверены, что каждый из пяти модулей будет по-своему полезен и поможет подобрать правильный подход к решению ваших рабочих задач. Если вы хотите перенять опыт ведущих ML-инженеров и научиться решать нестандартные кейсы, то вы на верном пути.
Присоединиться к 11-му потоку
Скоро начинаем!
Уже через час Александр Савченко расскажет об интеграциях PySpark с другими фреймворками (в частности на примере CatBoost).
Подключайтесь разбираться вместе!
Уже через час Александр Савченко расскажет об интеграциях PySpark с другими фреймворками (в частности на примере CatBoost).
Подключайтесь разбираться вместе!
Не так давно на вебинаре c Александром Волынским мы разобрали важнейшие для дата-инженера практические подходы к хранению данных в старых добрых DWH и относительно новых Data Lake.
Предлагаем закрепить пройденный материал и разобраться, чем Data Lake отличается от Data Warehouse и почему нельзя просто так ответить на вопрос: «Какое хранилище лучше?»
Предлагаем закрепить пройденный материал и разобраться, чем Data Lake отличается от Data Warehouse и почему нельзя просто так ответить на вопрос: «Какое хранилище лучше?»
Преподаватель нашего курса «Data Engineer» Александр Волынский будет выступать на VK Kubernetes Conference. Приходите и вы!
В своём докладе Александр расскажет о Kubernetes, который отлично подойдёт на роль центрального звена платформы для работы с данными.
План такой:
● Начнём со сравнения классических и облачных архитектур
● Рассмотрим инструменты для построения DWH и Data Lake в облаках (вы ведь помните наш недавний вебинар?) и познакомимся с особенностями разных решений
● Поговорим о роли Kubernetes при построении Cloud DWH и Data Lake
● Обозначим инструменты, которые можно запустить в K8s, и обсудим, какие тонкости стоит при этом учитывать
На самом деле вся VK Kubernetes Conference стоит просмотра — там покажут, что K8s не только способен помирить Dev, Sec и Ops, но и может быть интересен дата-сайентистам и инженерам данных.
Конференция пройдёт 9 декабря, начало в 10:00. Полная программа доступна [по ссылке]
В своём докладе Александр расскажет о Kubernetes, который отлично подойдёт на роль центрального звена платформы для работы с данными.
План такой:
● Начнём со сравнения классических и облачных архитектур
● Рассмотрим инструменты для построения DWH и Data Lake в облаках (вы ведь помните наш недавний вебинар?) и познакомимся с особенностями разных решений
● Поговорим о роли Kubernetes при построении Cloud DWH и Data Lake
● Обозначим инструменты, которые можно запустить в K8s, и обсудим, какие тонкости стоит при этом учитывать
На самом деле вся VK Kubernetes Conference стоит просмотра — там покажут, что K8s не только способен помирить Dev, Sec и Ops, но и может быть интересен дата-сайентистам и инженерам данных.
Конференция пройдёт 9 декабря, начало в 10:00. Полная программа доступна [по ссылке]
mcsjournal.ru
VK Kubernetes Conference| VK Cloud
Зарегистрируйтесь на VK Kubernetes Conference и прокачайтесь в Kubernetes вместе с ведущими экспертами русскоговорящего сообщества K8s
Почему вы записались на курс «Data Engineer»? Мы задали этот вопрос студентам, и вот такие ответы получили:
● «Хочу получить практические навыки работы с Big Data в облаке»
● «Люблю, когда данные хорошо подготовлены для Табло»
● «Хочу понять, как выстроить хранилище данных в компании с нуля»
Это всё у нас есть!
Записаться на 6-й поток: https://bit.ly/3lB6MNq
● «Хочу получить практические навыки работы с Big Data в облаке»
● «Люблю, когда данные хорошо подготовлены для Табло»
● «Хочу понять, как выстроить хранилище данных в компании с нуля»
Это всё у нас есть!
Записаться на 6-й поток: https://bit.ly/3lB6MNq
Старт карьеры — это всегда интересно и страшно одновременно. Особенно, когда нет какого-то единого пути и истории у всех людей разные. Мы собрали краткие ответы на самые животрепещущие вопросы о начале карьеры в аналитике:
– Почему сейчас лучшее время для старта?
– Спрос на аналитиков очень высокий и продолжает расти.
– Какой бэкграунд нужен аналитику?
– Любой! Многие приходят в аналитику из других сфер.
– Сколько зарабатывает junior аналитик?
– От 70 000 рублей
– Можно ли работать аналитиком на удалёнке?
– Да: 70% вакансий на рынке предполагают либо удалённый, либо гибридный формат работы.
– Что добавить в резюме, если нет опыта?
– Учебные проекты, участие в хакатонах и соревнованиях.
Ещё больше вопросов с развёрнутыми ответами — в нашей лекции.
– Почему сейчас лучшее время для старта?
– Спрос на аналитиков очень высокий и продолжает расти.
– Какой бэкграунд нужен аналитику?
– Любой! Многие приходят в аналитику из других сфер.
– Сколько зарабатывает junior аналитик?
– От 70 000 рублей
– Можно ли работать аналитиком на удалёнке?
– Да: 70% вакансий на рынке предполагают либо удалённый, либо гибридный формат работы.
– Что добавить в резюме, если нет опыта?
– Учебные проекты, участие в хакатонах и соревнованиях.
Ещё больше вопросов с развёрнутыми ответами — в нашей лекции.