МИСиС | Наука о данных
453 subscribers
27 photos
6 videos
24 files
113 links
Канал с новостями для студентов и абитуриентов программы SkillFactory и МИСиС «Наука о данных»

Помогаем освойть самую востребованную профессию 2022 года, учим понимать ключевые принципы и алгоритмы анализа данных.

Подробнее — http://bit.do/ds-sf
Download Telegram
📌В онлайн-магистратуре «Наука о данных» прошла ежемесячная внеучебная встреча.

Кто следит за новостями магистратуры, знает, что внеучебные встречи проводятся регулярно с целью — немного расслабиться и пообщаться с коллегами 🫂

В этот раз встреча прошла в формате игры под названием «Данетка» — командная активность, в которой ведущий задаёт ситуацию, и отвечает на вопросы игроков односложным «Да» или «Нет».

Такой подход помогает развить критическое мышление 🧠

Всего было решено 11 задач, затрачено около 1 часа.
Местами были трудности, чтобы задать верный вопрос ведущему, но в итоге удалось решить все задачи.

Чтобы вы прониклись духом нашей встречи, предлагаем решить одну из задач 🙂

⁉️ Задача  «Девушка надевает гипс себе на руку, с которой ничего не случилось. Зачем?»

Ждем ваши варианты ответов в комментариях👇🏻
This media is not supported in your browser
VIEW IN TELEGRAM
📌На шаг ближе к цели — студенты онлайн-магистратуры завершили курс «Высшая математика и алгоритмы машинного обучения» ⚙️
 
Курс длился 7 недель, в завершение студенты смогли проверить полученные знания на практике 🧠
 
Студентов разделили на команды по 5–6 человек и дали задачу, на основе которой нужно выполнить задания.
 
👉🏻 Задача: Представьте, что вы богатый и успешный глава хедж-фонда, демонстрирующего рекордные показатели прибыли. К вам обращается инвестор. Он хочет приумножить свои миллионы и готов перевести деньги на ваш счёт в течение часа. НО! Если вы допустите ошибку и потеряете часть его вложений, он объявит вам войну.
Вроде бы и несложно, но именно в этот момент — на вашей дороге появляется достаточно сильный конкурент, который наступает вам на пятки. 
Ваша задача проанализировать рынок, найти оптимальный и наиболее выгодный вариант, чтобы удержаться в лидирующих позициях и не нажить себе сильного врага.
 
1️⃣ задача — Визуализировать данные
Необходимо загрузить данные и выполнить задания:
◽️построить графики стоимости акций на начало каждого дня 
◽️ отразить на графике объёмы торгов за каждый день. Прокомментировать полученные графики: определить, какие события могли повлиять на повышение объёма (отчёт компании, кризис и т. п.) 
◽️добавить ко всем графикам легенду 
◽️определить, цены каких компаний наиболее и наименее коррелированны 
 
2️⃣ задача — Смоделировать данные
Обучить линейную регрессию для предсказания цены закрытия на текущий день. В качестве фичей возьмите цены открытия нескольких компаний за 7 дней до текущего. 
Цель обучения — предсказать цену закрытия на последний день рассматриваемого промежутка для одной из компаний. 
 
3️⃣ задача — Спроектировать анализ данных 
Попробовать разные варианты доработки, но помнить и про переобучение — чем больше признаков, тем больше модель способна «запомнить» исходные данные и менее эффективна для работы с «реальными» данными. 
 
Пример идеи для доработки:
 

Если взять цены в качестве исходных данных, модель будет плохо работать с будущим — цены, как правило, это сильно изменчивая категория. Имеет смысл рассмотреть относительные изменения цен за предыдущие N дней (буквально — насколько цены последующих дней отличаются от цен за предшествующий период). 
 
На решение задач было чуть меньше 2 недель, студенты представили своё решение на семинаре, а после получили обратную связь от Эмиля Магеррамова
 
Первый семестр подходит к концу и совсем скоро — сессия🚀
О первой сессии в магистратуре поговорим в следующий раз!
This media is not supported in your browser
VIEW IN TELEGRAM
📌Добрый день!
Сегодня хотим поделиться с вами статьей, в которой наши студенты детально рассказали о том, как они собрали открытый датасет в рамках первого хакатона онлайн-магистратуры «Наука о данных»

Переходите по ссылке 👉🏻 https://habr.com/ru/company/skillfactory/blog/534682/
This media is not supported in your browser
VIEW IN TELEGRAM
📌Ура! Первый семестр в онлайн-магистратуре «Наука о данных» НИТУ МИСиС подходит к концу, совсем скоро сессия!

Рассказываем о первой сессии в магистратуре🙂


Алгоритм формирования итоговой оценки

✍️Все испытания пройдут в письменной форме.
✔️Оценка за зачет и зачет с оценкой, будет выставлена по итогам усвоения материалов на платформе и посещения вебинаров/семинаров в течение семестра.

Зачёты:

◽️Английский язык для IT
◽️Программирование на Python
◽️Организация и технология научных исследований
◽️Высшая математика для машинного обучения

За все вышеперечисленные предметы — зачёт ставится автоматом за пройденный курс на платформе.


Экзамены:

🛠Современные методы решения инженерных задач
Оценка комплексная и включает в себя — оценку за индивидуальное расчётно-графическое задание + посещение всех практических занятий группы + активность на этих занятиях (при этом условии можно получить автомат).
Формат экзамена — выполнение заданий из имеющегося перечня с оценкой от преподавателя.

🤖Основные алгоритмы машинного обучения
Чтобы допустили до экзамена, нужно посетить все занятия группы и выполнить задания на платформе.
Экзамен будет проходить на платформе.
Формат экзамена — выполнение на платформе теоретических заданий и практических задач за отведённое время.
This media is not supported in your browser
VIEW IN TELEGRAM
📌Добрый день!
Вот-вот наступит Новый год, впереди целых 10 дней каникул 🎄

Предлагаем провести их с пользой, поэтому делимся с вами — списком полезной литературы от академического директора программы Ивана Ямщикова 🥁


📚Список литературы на первый семестр 📚

🔹Туганбаев А. А. Линейная алгебра: учебное пособие Электронная библиотека Москва: Флинта, 2017

🔹Юрчук, С. Ю. Методы математического моделирования: учебное пособие Электронная библиотека Москва: МИСиС, 2018

🔹М. Лутц “Программирование на Python, 4-е издание”

🔹Франсуа Шолле: Глубокое обучение на Python.
https://www.labirint.ru/books/645742/
p.s. ещё больше примеров и кода

🔹Николенко, Кадурин, Архангельская: Глубокое обучение. Погружение в мир нейронных сетей.
Подробнее: https://www.labirint.ru/books/622166/
p.s. дружить с математикой

🔹Бенджио, Гудфеллоу, Курвилль: Глубокое обучение.
Подробнее: https://www.labirint.ru/books/620686/
p.s. для тех, кто хочет подробнее и с базовой математикой

🔹Перевод книги Эндрю Ына «Страсть к машинному обучению»
Главы 1 — 14
https://habr.com/ru/post/419757/
p.s. в качестве чтения перед сном


С наступающим! ❤️
This media is not supported in your browser
VIEW IN TELEGRAM
📌Добрый вечер!
Сегодня расскажем вам о событиях в жизни магистратуры «Наука о данных» за эту неделю.

Подошла к концу первая сессия! Ура! 🥳
Наши студенты на шаг ближе к своей цели — освоить новую для себя профессию🎯

Напоминаю, что с 3 го семестра мы разделимся на три трека:

▫️Artificial Intelligence Developer
▫️Big Data Engineer
▫️Machine Learning Developer 
 
🛤Чтобы помочь студентам сделать правильный выбор на своем карьерном пути — мы организовали Q&A встречу по треку Big Data Engineer, с экспертом из индустрии — Виталием Худобахшевым (тимлид в Jet Brains, разработчик плагина Big Data Tools) 
 
Такие встречи пройдут по всем трём трекам, а пока делимся с вами некоторыми вопросами и ответами:

▪️Как выглядит рабочий день дата инженера, исключая совещания? Пришёл и что делает? Проверят всё ли живо и чинит или что-то пишет?

«Часто чинит и разгребает инциденты, которые довольно часты на практике. Чистит код, улучшает/добавляет pipeline. Условно говоря следит, чтобы всё не развалилось. Работа по входящим задачам от других отделов в пределах компетенции специалиста».

▪️Какие инструменты будут использоваться наибольшим образом? На каком уровне мы будем работать с этим?

«Apache Spark — очевидный лидер среди используемых инструментов, Hadoop — не понимать, как работает этот инструмент также нельзя (Spark работает поверх Hadoop, к примеру) и вся инфраструктура вокруг Hadoop важна для того, чтобы понимать, как кластера существуют. Hive важен для аналитики. DataGrip как самый продвинутый инструмент для работы с SQL, т. е. опять же к аналитике ближе. Koalos фреймворк для получения API Pandas, просто работающий поверх Apache Spark. Dask — фреймворк на чистом пайтоне, много времени изучение не должно занять, но и без него нельзя. Kafka — это продюсер большого количества контента, который после попадает в JDBC, Hadoop, а после попадает в Spark». 

▪️Будет ли возможность брать дисциплины из нескольких треков или нужно строго выбрать один?

«Такая возможность будет, но нужно чётко понимать, что объём будет довольно-таки большой».
This media is not supported in your browser
VIEW IN TELEGRAM
📌Добрый день!
Уже на следующей неделе начнется второй семестр магистратуры «Наука о данных».

Всего в семестре 4️⃣ дисциплины:

🔻Менеджмент для наук о данных

🔻Системы хранения и обработки данных

🔻Инжиниринг данных

🔻Глубокое обучение в науках о данных

Сегодня расскажем вам о самой первой дисциплине:


🔗Менеджмент для наук о данных🔗

Преподаватель и автор курса — Смирнова Ольга.
Профессионал с опытом управления проектами и продуктами в сфере IT и автоматизации финансовых и банковских услуг на протяжении 12 лет.
Опыт работы в таких компаниях, как: PROJECT TUNE, СКБ КОНТУР, WESTERN UNION CORPORATION.

Темы курса:

▪️IT в современном мире
▪️Оценка навыков и ресурсов
▪️Методологии управления проектами
▪️Начало работы над проектом
▪️Планирование проекта
▪️Сбор требований
▪️Гипотезы

После прохождения курса, студенты научатся:


▫️Составлять ТЗ
▫️Моделировать бизнес-процессы
▫️Проектировать ИС
▫️Оценивать навыки и ресурсы
▫️Строить план и дорожную карту проекта
▫️Проводить брифинг заказчика
▫️Собирать требования к продукту
▫️Применять такие модели, как: Waterfall и Agile
This media is not supported in your browser
VIEW IN TELEGRAM
📌Добрый день!
Продолжаем рассказывать о предметах второго семестра в магистратуре «Наука о данных».

Система хранения и обработки данных

Преподаватель курса — Конов Илья Сергеевич
Старший преподаватель кафедры АСУ, и.о. директора центра академии данных MADE НИТУ МИСиС. Сертифицированный тренер Huawei и Cisco по направлению R&S и Storage system.

Курс направлен на приобретение представлений об архитектуре и принципах функционирования систем хранения и обработки данных, о методах и подходах к защите данных. В рамках дисциплины разбираются принципы работы HDD и SSD дисков.
Рассказывается про RAID технологии, технологии защиты данных и основные протоколы хранения и передачи. Курс опирается на сертифицированные курсы Huawei BSSN Storage system.
Все лабораторные работы будут происходить на реальном энтерпрайз оборудовании.

👆В завершение каждый студент может пройти бесплатную инженерную сертификацию.


Компетенции студентов после прохождения предмета:

▪️Определения, термины и понятия в области хранения и обработки данных
▪️Подходы и методики создания отказоустойчивых систем хранения данных
▪️Проектирование систем хранения данных и работы с ними
▪️Коммутация, настройка и тестирование систем хранения и обработки данных
▪️Конфигурации современных систем хранения данных
▪️Проектирование конфигурации сетей исходя из параметров ТЗ
▪️Администрирование в Linux и Windows Server
▪️Базовые команды администрирования в Unix Shell
This media is not supported in your browser
VIEW IN TELEGRAM
📌Добрый вечер!
У нас вышла статья, в которой студенты делятся своим опытом сбора датасета в рамках учебного хакатона магистратуры «Наука о данных» 🤖

В материале описаны 3 датасета:

🔹Набор данных о вакансиях для поиска IT специалистов на сайте hh.ru

🔹Датасет с данными кошек различных пород

🔹Датасет с данными из Spotify и MusicBrainz о российских музыкальных исполнителях и их лучших треках

Переходите по ссылке 👉 https://habr.com/ru/company/skillfactory/blog/542004/

Уверены, вам будет интересно! 🙂
This media is not supported in your browser
VIEW IN TELEGRAM
📌Добрый день!
Продолжаем рассказывать о предметах второго семестра в магистратуре «Наука о данных».

🛠Инжиниринг данных🛠

Преподаватель курса — Троицкий Николай
Работал в таких компаниях, как: Техносерв, IBS, Сбербанк КИБ, Фонд Сколково и Интерфакс.
Сейчас занимается ИТ-консалтингом и руководит компанией «Бутик Информационных Технологий»

Курс состоит из модулей:

🔹Вводный модуль (Профессии в DS + Архитектура ПК)
🔹Тестирование
🔹Работа с файлами разных форматов
🔹Подготовка модели в Production
🔹Введение в SQL
🔹Агрегатные функции
🔹Связи таблиц
🔹Соединения таблиц
🔹Сложные объединения
🔹Практический Linux
🔹Системы визуализации и анализа
🔹Подзапросы
🔹Оконные функции
🔹NoSQL

В завершение курса, студенты научатся:

🔸Тестированию и отладке кода на Python
🔸Работать с файлами разных форматов
(не только CSV, но и Excel, JSON и XML)
🔸Понимать особенности доставки обученных моделей в продакшн
(различные способы применения моделей ML)
🔸SQL
🔸Операционная система Linux
This media is not supported in your browser
VIEW IN TELEGRAM
📌Добрый день!
Рубрика событий онлайн-магистратуры продолжается.

На прошлой неделе для наших магистрантов состоялась встреча с экспертом из области DS — Давидом Григорян.
Работает в компании Мегафон, занимается проектами по CVM (Customer value maximization).
Также к встрече присоединилась коллега Давида — HR-менеджер, Светлана Стаканова.

Цель встречи — рассказать о применении DS в телекоммуникациях и поделиться своим опытом.

Еще год назад Давид Григорян — был студентом магистратуры, а сейчас сотрудник ведущей компании в России.

Во время встречи студенты узнали:

С какими данными нужно работать
Как выглядит иерархия в команде,
Примеры проектов, типовые задачи, инструменты и как их освоить
Требования к профессии (на что смотрит работодатель при приеме на работу, как составить портфолио, реалии индустрии)

Кроме этого, успели задать вопросы приглашенным спикерам.
Делимся некоторыми из них:

Какой стек технологий вы точно требуете для стажеров и junior специалистов?
Топ 1,2,3 хард скилл для джуниора, кторый вы требуйте?

«Матан, лин.алгебра, питон. Начальные навыки по методам машинного обучения — всё что не дип ленинг джун должен знать.
1. Понимание статистики
2. Понимание матана и методов машинного обучения
3. Понимание питона»

Слышал такое мнение, что сейчас data science от узких специализаций движется в сторону "универсализации" специалистов, которые умеют и ml и de, всё действительно так?

«Да, и правда есть такое. Вполне нормальное картина, когда от ML Engineer требуется навыки работы с данными, со сбором их. Ровно, как и наоборот ситуация может повернуться.»

Насколько необходимо наличие портфолио для джуна? Достаточно ли пет-проджекта в виде телеграм-бота и небольшого ноутбука с анализом какого-нибудь датасета с кагла?

«Всё познаётся в сравнении. Если будет специалист с таким же стеком технологий, но с богатым гитхабом за плечами, то выбор будет в сторону богатого портфолио. Причины банальны — это опыт, на который будущий лид сможет опереться при составлении вопросов технического интервью.»