DataStreet'20
781 subscribers
4 photos
3 files
149 links
Авторский канал о развитии знаний и навыков, необходимых в современном мире. Математика, data science, machine learning и не только. Где учиться этому, как учиться и где с этим дальше работать...
Лукьянченко Петр: @namur88
8-926-590-62-08
Download Telegram
Линейная регрессия (линейная регрессионная модель) является часто лучшим инструментом для быстрого анализа данных и оценки зависимости в переменных. Строится просто. Инпретируется легко. (Если кто-то не знает, что такое линейная регрессия и/или как ее на Python запускать, то смотрите сюда https://bigdata-madesimple.com/how-to-run-linear-regression-in-python-scikit-learn/). Есть у этого прекрасного инструмента один недостаток, а именно калибровка модели "плохих" данных. Любят использовать Метод наименьших квадратов (OLS) из-за теоремы Гаусса-Маркова, но вот только не всегда в реальной жизни это работает. И на помощь приходит градиентных спуск при оптимизации функции. https://towardsdatascience.com/linear-regression-simplified-ordinary-least-square-vs-gradient-descent-48145de2cf76 Хоть и однобоко, автор неплохо сравнил два способа построения линейной регрессии. Главное - там есть куски кода
История доказывает, что сначала изобретали машины и оборудование, а потом развивалась теория. Удивлен. Всегда думал, что было наоборот.
По данным Statista, к 2025 году объём рынка big data вырастет до 175 зетабайт против 41 в  2019. Что такое специалист по обработке данных (data engineer)? Это человек, который отвечает за создание и поддержку архитектуры данных в Data Science-проекте. В его обязанности может входить обеспечение бесперебойного потока данных между сервером и приложением, интеграция нового ПО для управления данными, совершенствование основополагающих процессов данных и создание конвейеров данных.

Есть огромное количество технологий и инструментов, которыми должен владеть data engineer, чтобы работать с облачными вычислениями, хранилищами данных, ETL (extraction, transformation, loading) и пр. Причём количество требуемых навыков всё время растёт, поэтому дата-инженеру необходимо регулярно пополнять свой багаж знаний. Список полезных курсов:
1.   Data Engineering Nanodegree Certification (Udacity)

Вы научитесь проектировать модели данных, создавать хранилища данных и озера данных, автоматизировать конвейеры данных и работать с массивами датасетов. В конце программы вы проверите свои новые навыки, завершив проект Capstone.
Продолжительность: 5 месяцев, 5 часов в неделю
Уровень: начальный
2.   Become a Data Engineer Certification (Coursera)
Учат с азов. Вы можете поэтапно развиваться, используя лекции и практические проекты для работы над своими навыками. К концу обучения вы будете готовы работать с ML и большими данными. Рекомендуется знать Python хотя бы на минимальном уровне.
Продолжительность: 8 месяцев, 10 часов в неделю
Уровень: начальный
3.   Become a Data Engineer: Mastering the Concepts (LinkedIn Learning)
Вы разовьёте  навыки проектирования данных и навыки DevOps, научитесь создавать приложения для Big Data, создавать конвейеры данных, обрабатывать приложения в реальном времени с использованием Hazelcast и базы данных Hadoop.
Продолжительность: зависит от вас
Уровень: начальный
4.       Data Engineering Courses (edX)
Здесь собрана серия программ, которые знакомят вас с data engineering и учат разработке аналитических решений. Курсы делятся на категории в зависимости от уровня сложности, так что вы можете выбрать один в соответствии с вашим уровнем опыта. В процессе обучения вы научитесь использовать Spark, Hadoop, Azure и управлять корпоративными данными.
Уровень: начальный, средний, продвинутый
5.       Data Engineer (DataQuest)
Этот курс стоит выбрать, если у вас есть опыт работы с Python и вы хотите углубить свои знания и построить карьеру специалиста по обработке данных. Вы научитесь строить конвейеры данных, используя Python и pandas, загружать большие наборы данных в БД Postgres после очистки и преобразования.
Язык: английский
Уровень: начальный, средний
6.   Data Engineering with Google Cloud (Coursera)
Этот курс поможет вам приобрести навыки, необходимые для построения карьеры в области работы с большими данными. Например, работа с BigQuery, Spark.  Вы получите знания, которые пригодятся для подготовки к признанной в отрасли сертификации Google Cloud Professional Data Engineer.
Продолжительность: 4 месяца
Уровень: начальный, средний
7.   Data Engineering, Big Data on Google Cloud Platform (Coursera)
Интересный курс, дающий практические знания о системах обработки данных в GCP. Во время занятий вы узнаете, как спроектировать системы, прежде чем приступить к процессу разработки. Помимо этого, вы также будете анализировать как структурированные, так и неструктурированные данные, применять автоматическое масштабирование и применять методы ML для извлечения информации.
Продолжительность: 3 месяца, пока бесплатно
Уровень: начальный, средний
8.   UC San Diego: Big Data Specialization (Coursera)
Курс основан на использовании инфраструктуры Hadoop и Spark и применении этих методов обработки больших данных в процессе ML. Вы познакомитесь с основами использования Hadoop с MapReduce, Spark, Pig и Hive. Узнаете, как можно строить прогнозные модели и использовать аналитику графов для моделирования проблем. Отметим, что для этого курса не требуется опыт программирования.
Продолжительность: 8 месяцев по 10 часов в неделю, пока бесплатно
9.   Taming Big Data With Apache Spark and Python (Udemy)
Вы узнаете, как использовать потоковую структуру и фреймы данных в Spark3, получите представление о том, как использовать сервис Elastic MapReduce от Amazon для работы с вашим кластером в Hadoop. Научитесь определять проблемы при анализе больших данных и поймёте, как библиотеки GraphX ​​работают с сетевым анализом и как вы можете использовать MLlib.
Продолжительность: зависит от вас
Язык: английский
Уровень: начальный, средний
10.   PG Program in Big Data Engineering (upGrad)
Этот курс даст вам представление о том, как работает Aadhaar, как Facebook персонализирует ленту новостей и как вообще можно использовать Data Engineering. Ключевыми темами станут обработка данных (в том числе обработка в реальном времени), MapReduce,  аналитика больших данных.
Продолжительность: 11 месяцев
Цена: в районе $3000
Уровень: начальный
Угадайте, кто это. Задача для тех, кто хочет разработать алгоритм распознавания лица. Человек успешен и живет сейчас. Угадаете, кто это?
Есть первый победитель)) На фотографии изображен Роберт Де Ниро в 1976 году
https://towardsdatascience.com/bayesian-stats-101-for-data-scientists-a8c145a84259 Байесовский подход предполагает использование априорного распределения параметров для определения вероятности событий. Такой подход часто используется в анализе данных.
https://www.drivendata.org/ Классная платформа соревнований. Мне очень понравилось соревнование по DeepVision, которое было пару месяцев назад. Как говорится: "Не одним Kaggle едины"
Чсасто просят посоветовать/рекомендовать лучшую книгу для того, чтобы начать учить математику. Нужно брать для отдельных разделов математики правильную книгу правильного автора. https://habr.com/ru/company/plarium/blog/442772/ Для первого шага - очень достойный перечень книг
Modern Data Scientist.png
179.2 KB
Современный Аналитик Данных - это
Физики шутят.png
100.9 KB
Комплексная шутка
В этой статье вы найдете основные виды сортировок, их реализацию на C++, сложность каждой из них и затраты памяти. Такая статья может быть полезна перед собеседованием.
https://academy.yandex.ru/posts/osnovnye-vidy-sortirovok-i-primery-ikh-realizatsii?utm_source=tg&utm_medium=smm&utm_campaign=sortirovki
Крайне полная и интересная статья по использующимся языкам в DS с плюсами и минусами каждого. В противостоянии R и Python осталось так же много неопределенности

https://towardsdatascience.com/top-9-languages-for-data-science-in-2020-824239f930c