karpov.courses
27.5K subscribers
1.63K photos
6 videos
8 files
1.21K links
Школа DATA SCIENCE для любого уровня подготовки. Учим актуальным навыкам с акцентом на практику

Программы: https://to.karpov.courses/Vy4YuQ
Чат по DS и ML: @karpovcourseschat

Регистрация в РКН: https://gosuslugi.ru/snet/67b592291bca1d7fe17570a8
Download Telegram
Вчера мы провели голосовой чат о релокации, где живущие в Испании и Венгрии выпускники karpovꓸcourses поделились своим опытом трудоустройства. Специальным гостем стал Валерий Бабушкин — Head of Data Science в Blockchainꓸcom и хедлайнер программы Hard ML.

Если вы не успели присоединиться, то мы сохранили запись. А если хотите узнать ещё больше про релокацию и работу в IT за рубежом — рекомендуем канал Валерия, который не раз упоминался в разговоре. Там можно найти предыстории прозвучавших в чате примеров о найме специалистов разных уровней, советы по трудоустройству и наблюдения из его работы.

Какое сейчас время? Время Валеры!
Сегодня стартует новый поток программы «Симулятор аналитика».

Главные отличия от других наших курсов — минимум теории и максимум практики. На 5 недель вы окунётесь в задачи, с которыми аналитики данных сталкиваются в повседневной работе.

«Симулятор аналитика» — это почти настоящая стажировка в компании. Поэтому рекомендуем приступать к программе со знаниями основ Python, SQL, Git и статистики.

Если вы хотите погрузиться в работу с реальными данными и получить полноценный опыт работы в индустрии — скорее присоединяйтесь к новому потоку!
Мы хотим больше рассказывать не только о карьерных успехах наших студентов, но и об их интересных проектах. Наш сегодняшний герой — Григорий Дерун, который сделал дашборд по игре Dota 2! 

Григорий закончил курс по инженерии данных, а сейчас учится на первом потоке программы «Визуализация данных». Мы поговорили с Григорием и узнали, как появилась идея создать такой дашборд, какие сложности возникли в процессе и как помогли знания с наших курсов. Кроме того, Григорий поделился впечатлениями от обучения и рассказал о планах на будущее в сфере Data Science. 

[Посмотреть дашборд]

А мы делимся мини-интервью, которое у нас получилось!
🤔3👍1
— Как появилась идея создать дашборд?

Сначала был дашборд по аниме, на котором я фактически научился обрабатывать картинки. То есть я решил, что сначала разомнусь на аниме, а потом сделаю про Доту. Дота, если мерить в часах, моё основное увлечение по жизни. Хотелось сделать что-нибудь этакое, чего раньше не делал. Одновременно с этим я решил освоить несколько фишек Табло, которые не использовал до этого — например, Actions.

— Откуда вы брали данные для работы?

Данные я искал долго. Лазил везде, мне было без разницы, какой именно будет датасет. Был резервный план: спарсить всё через API. Не найдя хороших вариантов, я посмотрел на это API, но ничего интересного не придумал. Тогда вернулся на Kaggle и скачал стандартный датасет с атрибутами героев. Как и ожидалось, в нём оказался полный бардак — часть данных была искажена, а сам список героев был неполным. Но ведь я всё-таки учился на «Инженере данных», поэтому решил навести в данных порядок: запустил доту и исправлял руками каждую строку датасета, добавляя недостающие значения.

— Какие знания с наших курсов пригодились в создании дашборда?

В первую очередь пригодились лекции о культуре данных (DAMA-DMBOK) из первого блока курса «Инженер данных». Также пригодился блок по визуализации, на котором у меня, кажется, проявился талант, т.к. впоследствии работу я нашел именно в этой сфере — устроился BI-разработчиком (Tableau). Кстати, материала из этого блока оказалось вполне достаточно для подготовки к собеседованию.

А все остальные навыки и полученное на курсе понимание архитектуры IT-систем сделали меня интересным дополнением к некоторым коллективам: со мной можно обсудить не только дашборды, но и то, как, например, добывать и хранить данные.

Сейчас прохожу курс «Визуализация данных», учусь на первом потоке. В общем решил прокачиваться в этом направлении.

— Планируете ли добавлять что-то в дашборд по мере прохождения курса «Визуализация данных»?

В дашборд добавлять ничего не планирую. Для меня это как скриншот меня самого в тот момент времени, когда я его делал... Чтобы потом можно было обернуться назад и посмотреть на самого себя, вспомнить свои мысли и идеи, с чего начинал и к чему пришёл в дальнейшем. Но новые дашборды точно будут появляться! На новом месте работы, на первый взгляд, большой простор для профессионального роста, и тут глаза разбегаются, чем бы позаниматься. Сейчас пока осваиваюсь, всего две недели в работе, но ноутбук мне красивый уже прислали. В наше-то время — крутая мотивация :)

Изначально у меня не было никакого опыта, но я доволен тем, что сначала попал именно на «Инженера данных», где не только получил широкое представление об индустрии, но и научился не тратить время на изучение лишних инструментов. Но повторять такое (записываться на курс с почти нулевыми знаниями) никому не рекомендую.

Планировал ещё податься в аналитику — хочу тоже принимать активное участие в обсуждениях p-value :) Но ориентироваться теперь буду только на рабочую практику. А пока ещё остаётся закончить «Визуализацию данных».
В языке Python, как и во многих других языках программирования, есть лямбда-функции — компактный способ записи функций, содержащих одно выражение.
Лямбды анонимные и бывают полезны в случаях, когда нужна небольшая одноразовая функция. Их часто применяют в функциональном программировании — когда сама функция или её результат используются в качестве аргумента функции более высокого порядка.

Распространённая на практике задача — применение операции к каждому элементу списка с помощью функции map(). Здесь как раз удобно использовать лямбду. Например, выражение list(map(lambda x: x**2, [1, 2, 3])) последовательно возведёт каждый элемент исходного списка в квадрат и положит их в новый список.

Как лямбда-функции могут пригодиться в анализе данных? Допустим, у вас есть таблица с данными о количестве покупок, совершённых каждым клиентом в текущем месяце. Вам необходимо рассчитать долю клиентов, сделавших за это время не менее пяти покупок.

Для решения этой задачи можно воспользоваться библиотекой pandas, вызвать у столбца метод .apply() и подать ему на вход в качестве аргумента короткую лямбда-функцию с условной конструкцией, применив в конце метод .mean() для расчёта среднего значения:

df['purchases'].apply(lambda x: 1 if x >= 5 else 0).mean()

Такая запись применит лямбда-функцию к каждому элементу колонки «purchases» и преобразует её в серию, состоящую из нулей и единиц, где единице будет соответствовать количество покупок, большее или равное 5. Среднее значение нового массива будет соответствовать искомой доле клиентов, совершивших необходимое количество покупок.

Совет: лямбда-функциями не стоит злоупотреблять. Если есть ощущение, что выражение будет слишком громоздким и сложным для восприятия, лучше написать обычную функцию.
👍5🔥1
На каждое новое собеседование по System Design мы зовём всё более опытных специалистов.

В этот раз нашим гостем стал Евгений, тимлид команды ML в AliExpress Россия. Ему досталась одна из самых сложных, по словам Валерия, задач — сделать дизайн сервиса такси. 

Чтобы узнать, действительно ли в истории собеседований с Валерием Бабушкиным появился человек, который успешно его прошёл, скорее включайте полный выпуск!

[Смотреть]
👍1
1 апреля стартует новый поток программы Hard ML.

Перед стартом мы всегда рекомендуем пройти демоверсию курса (это даст вам фору на первых порах), внимательно ознакомиться с программой и задать в чате все интересующие вопросы, чтобы точно убедиться, что программа вам подходит.

Если вы уже изучили весь доступный в наших соцсетях контент по курсу, то советуем убедиться, что вы не забыли о вводном уроке от Валерия Бабушкина ;)

В уроке разбирается снижение дисперсии через стратификацию CUPED, поэтому если вы всё-таки его пропустили, скорее наверстывайте упущенное!
👍2
Мы уже упоминали, что для обучения на курсе Start ML не нужно дополнительно изучать математику — достаточно знать школьную программу, а всё остальное мы расскажем в лекциях. Однако, если вы хотите подготовиться к учебе заранее, у нас отличные новости: мы планируем сделать свой бесплатный курс по математике для машинного обучения. А чтобы курс получился действительно полезным, нам нужна ваша обратная связь! 

На протяжении следующих двух недель мы будем выкладывать уроки, которые могут лечь в основу курса, и попросим вас рассказать, что показалось полезным, а чего, наоборот, не хватило. А в комментариях к видео не стесняйтесь рассказывать, какие темы вы хотели бы видеть на курсе :)

Подробнее о программе расскажет куратор курса Start ML Нерсес Багиян.
🔥31👍101
Не прошло и года – включили реакции ещё и в канале! Так что теперь ждём не только комментариев и репостов, но и огонечков (пока не в сторис)
🔥221👍198😁4🤯3😱3👏1🤔1🤬1
Во время подготовки первого голосового чата о релокации мы поняли, что за один раз полностью раскрыть такую обширную тему не получится, и поэтому решили делать это постепенно, рассматривая вопрос с разных сторон.

31 марта мы снова поговорим о работе за границей, но на этот раз с упором на особенности работы аналитиком в зарубежных компаниях. В прошлый раз спикерами были наши выпускники, переехавшие по студенческой визе (и Валерий Бабушкин, конечно!). В этот раз у нас в гостях специалисты из Германии и Швеции, которые поделятся своими историями получения оффера.

Модератором голосового чата выступит HR karpovꓸcourses Оксана Васильева, а спрашивать гостей о самом рабочем процессе будет Анатолий Карпов.

Готовьте свои вопросы и присоединяйтесь к нам 31 марта в 19:00 (по Москве)!
🔥48👍76👏2
Лучший способ подготовиться к собеседованию — пройти его в тестовом режиме.

Для этого мы проводим открытые интервью, где задаются вопросы, которые можно услышать на настоящем собеседовании в компанию. Главная задача — помочь человеку найти его слабые стороны, выявить пробелы в знаниях и определить дальнейшие шаги для подготовки к будущим собеседованиям.

Сегодняшнее mock-интервью состоит из 4-х секций: Python, ML, работа с данными и А/В Тесты. В независимости от уровня соискателя есть пул обязательных вопросов на знание основ Data Science и пул дополнительных вопросов в зависимости от уровня подготовки и опыта кандидата.

Именно эти секции позволяют оценить широту знаний собеседуемого. Вопросы дают понять, умеет ли он составлять запросы к БД, писать код, строить модели и проверять их работу с помощью А/В-тестов. Все эти знания достаточно быстро проверяются на mock-собеседовании.

Сегодня нашего гостя будет собеседовать преподаватель программы Hard ML Станислав Гафаров. Включайте, чтобы узнать, какие вопросы могут встретиться в интервью на позицию junior DS.
🔥44👍61
Скоро начнём!

Сегодня в 19:00 спикеры из Швеции, Германии и Ирландии (да-да, после анонса события появился ещё один участник) расскажут об особенностях работы аналитиком и техническом стеке в зарубежных компаниях.

[Присоединяйтесь]
🔥20👍7
Хотите стать такими же сильными, как Валерий Бабушкин? Вот программа тренировок 👇

Занимаемся три раза в неделю:

● 1 месяц: ранжирование и матчинг, 45 минут со стандартным отклонением в 1.5 минуты (выполняем топ-10 упражнений в выдаче Google)
● 2 месяц: динамическое ценообразование, 190 повторений (если высокий спрос, то 549)

Что дальше? Читать продолжение в источнике
😁54🔥8👍4🤔2
У Start ML появилась долгожданная демоверсия! 

В неё вошли первые лекции из трёх основных блоков: «Основные сведения о Python», «Введение в машинное обучение» и «Зачем нужна статистика и А/В-тесты». 

Демоверсия находится внутри нашей собственной образовательной платформы: вы не только получите доступ к конспектам и заданиями, но и увидите, как работает LMS. 

[Начать учиться]

А после прохождения ждём вас на новом потоке Start ML 11 апреля!
🔥34👍15👏2
Помните, мы обещали показывать уроки, которые могут стать частью курса по математике для машинного обучения? Так вот, начинаем! 

В первом видео вместе с Эмилем Каюмовым, тимлидом в Яндекс.Еде и Лавке и преподавателем курса Start ML, обсудим основные понятия теории вероятностей: поговорим о том, что вообще такое вероятности, где применяется теория вероятностей и разберём основные формулы.  

[Смотреть]

Как вы помните, основная цель – это собрать обратную связь, с помощью которой мы сможем сделать курс по-настоящему интересным. Написать, что особенно понравилось, чего, по вашему мнению, не хватило и какие темы вы бы хотели видеть на курсе можно по ссылке.

А ещё там вы можете оставить свою почту — мы сообщим, когда выйдет курс :)
🔥44👍131
Инженеры данных в своей работе всё чаще используют Kubernetes для запуска таких инструментов, как Spark, JupyterHub, Kubeflow и многих других. Каждый из них имеет свою специфику, однако на случай, если что-то пойдет не так, в k8s есть общие методы отладки и поиска багов — знать их крайне полезно.

Стандартным средством для работы с Kubernetes является kubectl — утилита командной строки для контроля и управления кластерами k8s.
👍30