Линейная регрессия (линейная регрессионная модель) является часто лучшим инструментом для быстрого анализа данных и оценки зависимости в переменных. Строится просто. Инпретируется легко. (Если кто-то не знает, что такое линейная регрессия и/или как ее на Python запускать, то смотрите сюда https://bigdata-madesimple.com/how-to-run-linear-regression-in-python-scikit-learn/). Есть у этого прекрасного инструмента один недостаток, а именно калибровка модели "плохих" данных. Любят использовать Метод наименьших квадратов (OLS) из-за теоремы Гаусса-Маркова, но вот только не всегда в реальной жизни это работает. И на помощь приходит градиентных спуск при оптимизации функции. https://towardsdatascience.com/linear-regression-simplified-ordinary-least-square-vs-gradient-descent-48145de2cf76 Хоть и однобоко, автор неплохо сравнил два способа построения линейной регрессии. Главное - там есть куски кода
Big Data Made Simple
How to run Linear regression in Python scikit-Learn
Python Scikit-learn is the most popular machine learning module available.
Пятница на дворе. Если кому-то скучно и хочется взбродрить свое сознание, попробуйте "переварить" основное содержание теоремы Геделя. https://habr.com/ru/post/400513/ Всем хорошей пятницы
Хабр
Теорема Гёделя о неполноте за 20 минут
Теореме Гёделя о неполноте , одной из самых известных теорем математической логики, повезло и не повезло одновременно. В этом она похожа на специальную теорию относительности Эйнштейна. С одной...
По данным Statista, к 2025 году объём рынка big data вырастет до 175 зетабайт против 41 в 2019. Что такое специалист по обработке данных (data engineer)? Это человек, который отвечает за создание и поддержку архитектуры данных в Data Science-проекте. В его обязанности может входить обеспечение бесперебойного потока данных между сервером и приложением, интеграция нового ПО для управления данными, совершенствование основополагающих процессов данных и создание конвейеров данных.
Есть огромное количество технологий и инструментов, которыми должен владеть data engineer, чтобы работать с облачными вычислениями, хранилищами данных, ETL (extraction, transformation, loading) и пр. Причём количество требуемых навыков всё время растёт, поэтому дата-инженеру необходимо регулярно пополнять свой багаж знаний. Список полезных курсов:
1. Data Engineering Nanodegree Certification (Udacity)
Вы научитесь проектировать модели данных, создавать хранилища данных и озера данных, автоматизировать конвейеры данных и работать с массивами датасетов. В конце программы вы проверите свои новые навыки, завершив проект Capstone.
Продолжительность: 5 месяцев, 5 часов в неделю
Уровень: начальный
2. Become a Data Engineer Certification (Coursera)
Учат с азов. Вы можете поэтапно развиваться, используя лекции и практические проекты для работы над своими навыками. К концу обучения вы будете готовы работать с ML и большими данными. Рекомендуется знать Python хотя бы на минимальном уровне.
Продолжительность: 8 месяцев, 10 часов в неделю
Уровень: начальный
3. Become a Data Engineer: Mastering the Concepts (LinkedIn Learning)
Вы разовьёте навыки проектирования данных и навыки DevOps, научитесь создавать приложения для Big Data, создавать конвейеры данных, обрабатывать приложения в реальном времени с использованием Hazelcast и базы данных Hadoop.
Продолжительность: зависит от вас
Уровень: начальный
4. Data Engineering Courses (edX)
Здесь собрана серия программ, которые знакомят вас с data engineering и учат разработке аналитических решений. Курсы делятся на категории в зависимости от уровня сложности, так что вы можете выбрать один в соответствии с вашим уровнем опыта. В процессе обучения вы научитесь использовать Spark, Hadoop, Azure и управлять корпоративными данными.
Уровень: начальный, средний, продвинутый
5. Data Engineer (DataQuest)
Этот курс стоит выбрать, если у вас есть опыт работы с Python и вы хотите углубить свои знания и построить карьеру специалиста по обработке данных. Вы научитесь строить конвейеры данных, используя Python и pandas, загружать большие наборы данных в БД Postgres после очистки и преобразования.
Язык: английский
Уровень: начальный, средний
6. Data Engineering with Google Cloud (Coursera)
Этот курс поможет вам приобрести навыки, необходимые для построения карьеры в области работы с большими данными. Например, работа с BigQuery, Spark. Вы получите знания, которые пригодятся для подготовки к признанной в отрасли сертификации Google Cloud Professional Data Engineer.
Продолжительность: 4 месяца
Уровень: начальный, средний
7. Data Engineering, Big Data on Google Cloud Platform (Coursera)
Интересный курс, дающий практические знания о системах обработки данных в GCP. Во время занятий вы узнаете, как спроектировать системы, прежде чем приступить к процессу разработки. Помимо этого, вы также будете анализировать как структурированные, так и неструктурированные данные, применять автоматическое масштабирование и применять методы ML для извлечения информации.
Продолжительность: 3 месяца, пока бесплатно
Уровень: начальный, средний
8. UC San Diego: Big Data Specialization (Coursera)
Курс основан на использовании инфраструктуры Hadoop и Spark и применении этих методов обработки больших данных в процессе ML. Вы познакомитесь с основами использования Hadoop с MapReduce, Spark, Pig и Hive. Узнаете, как можно строить прогнозные модели и использовать аналитику графов для моделирования проблем. Отметим, что для этого курса не требуется опыт программирования.
Продолжительность: 8 месяцев по 10 часов в неделю, пока бесплатно
Есть огромное количество технологий и инструментов, которыми должен владеть data engineer, чтобы работать с облачными вычислениями, хранилищами данных, ETL (extraction, transformation, loading) и пр. Причём количество требуемых навыков всё время растёт, поэтому дата-инженеру необходимо регулярно пополнять свой багаж знаний. Список полезных курсов:
1. Data Engineering Nanodegree Certification (Udacity)
Вы научитесь проектировать модели данных, создавать хранилища данных и озера данных, автоматизировать конвейеры данных и работать с массивами датасетов. В конце программы вы проверите свои новые навыки, завершив проект Capstone.
Продолжительность: 5 месяцев, 5 часов в неделю
Уровень: начальный
2. Become a Data Engineer Certification (Coursera)
Учат с азов. Вы можете поэтапно развиваться, используя лекции и практические проекты для работы над своими навыками. К концу обучения вы будете готовы работать с ML и большими данными. Рекомендуется знать Python хотя бы на минимальном уровне.
Продолжительность: 8 месяцев, 10 часов в неделю
Уровень: начальный
3. Become a Data Engineer: Mastering the Concepts (LinkedIn Learning)
Вы разовьёте навыки проектирования данных и навыки DevOps, научитесь создавать приложения для Big Data, создавать конвейеры данных, обрабатывать приложения в реальном времени с использованием Hazelcast и базы данных Hadoop.
Продолжительность: зависит от вас
Уровень: начальный
4. Data Engineering Courses (edX)
Здесь собрана серия программ, которые знакомят вас с data engineering и учат разработке аналитических решений. Курсы делятся на категории в зависимости от уровня сложности, так что вы можете выбрать один в соответствии с вашим уровнем опыта. В процессе обучения вы научитесь использовать Spark, Hadoop, Azure и управлять корпоративными данными.
Уровень: начальный, средний, продвинутый
5. Data Engineer (DataQuest)
Этот курс стоит выбрать, если у вас есть опыт работы с Python и вы хотите углубить свои знания и построить карьеру специалиста по обработке данных. Вы научитесь строить конвейеры данных, используя Python и pandas, загружать большие наборы данных в БД Postgres после очистки и преобразования.
Язык: английский
Уровень: начальный, средний
6. Data Engineering with Google Cloud (Coursera)
Этот курс поможет вам приобрести навыки, необходимые для построения карьеры в области работы с большими данными. Например, работа с BigQuery, Spark. Вы получите знания, которые пригодятся для подготовки к признанной в отрасли сертификации Google Cloud Professional Data Engineer.
Продолжительность: 4 месяца
Уровень: начальный, средний
7. Data Engineering, Big Data on Google Cloud Platform (Coursera)
Интересный курс, дающий практические знания о системах обработки данных в GCP. Во время занятий вы узнаете, как спроектировать системы, прежде чем приступить к процессу разработки. Помимо этого, вы также будете анализировать как структурированные, так и неструктурированные данные, применять автоматическое масштабирование и применять методы ML для извлечения информации.
Продолжительность: 3 месяца, пока бесплатно
Уровень: начальный, средний
8. UC San Diego: Big Data Specialization (Coursera)
Курс основан на использовании инфраструктуры Hadoop и Spark и применении этих методов обработки больших данных в процессе ML. Вы познакомитесь с основами использования Hadoop с MapReduce, Spark, Pig и Hive. Узнаете, как можно строить прогнозные модели и использовать аналитику графов для моделирования проблем. Отметим, что для этого курса не требуется опыт программирования.
Продолжительность: 8 месяцев по 10 часов в неделю, пока бесплатно
9. Taming Big Data With Apache Spark and Python (Udemy)
Вы узнаете, как использовать потоковую структуру и фреймы данных в Spark3, получите представление о том, как использовать сервис Elastic MapReduce от Amazon для работы с вашим кластером в Hadoop. Научитесь определять проблемы при анализе больших данных и поймёте, как библиотеки GraphX работают с сетевым анализом и как вы можете использовать MLlib.
Продолжительность: зависит от вас
Язык: английский
Уровень: начальный, средний
10. PG Program in Big Data Engineering (upGrad)
Этот курс даст вам представление о том, как работает Aadhaar, как Facebook персонализирует ленту новостей и как вообще можно использовать Data Engineering. Ключевыми темами станут обработка данных (в том числе обработка в реальном времени), MapReduce, аналитика больших данных.
Продолжительность: 11 месяцев
Цена: в районе $3000
Уровень: начальный
Вы узнаете, как использовать потоковую структуру и фреймы данных в Spark3, получите представление о том, как использовать сервис Elastic MapReduce от Amazon для работы с вашим кластером в Hadoop. Научитесь определять проблемы при анализе больших данных и поймёте, как библиотеки GraphX работают с сетевым анализом и как вы можете использовать MLlib.
Продолжительность: зависит от вас
Язык: английский
Уровень: начальный, средний
10. PG Program in Big Data Engineering (upGrad)
Этот курс даст вам представление о том, как работает Aadhaar, как Facebook персонализирует ленту новостей и как вообще можно использовать Data Engineering. Ключевыми темами станут обработка данных (в том числе обработка в реальном времени), MapReduce, аналитика больших данных.
Продолжительность: 11 месяцев
Цена: в районе $3000
Уровень: начальный
Есть первый победитель)) На фотографии изображен Роберт Де Ниро в 1976 году
https://towardsdatascience.com/bayesian-stats-101-for-data-scientists-a8c145a84259 Байесовский подход предполагает использование априорного распределения параметров для определения вероятности событий. Такой подход часто используется в анализе данных.
Medium
Bayesian Stats 101 for Data Scientists
An alternative perspective on statistics and probability
https://www.drivendata.org/ Классная платформа соревнований. Мне очень понравилось соревнование по DeepVision, которое было пару месяцев назад. Как говорится: "Не одним Kaggle едины"
DrivenData
DrivenData
DrivenData hosts data science competitions to build a better world, bringing cutting-edge predictive models to organizations tackling the world's toughest problems.
А вот это и правда интересно) https://academy.yandex.ru/posts/prostoy-gid-po-bayesovskomu-a-b-testirovaniyu-na-python
Чсасто просят посоветовать/рекомендовать лучшую книгу для того, чтобы начать учить математику. Нужно брать для отдельных разделов математики правильную книгу правильного автора. https://habr.com/ru/company/plarium/blog/442772/ Для первого шага - очень достойный перечень книг
Хабр
Математика для Data Scientist: необходимые разделы
Математика — это краеугольный камень Data Science. Хотя некоторые теоремы, аксиомы и формулы кажутся слишком абстрактными и далекими от практики, на самом деле без них невозможно по-настоящему глубоко...
Вот он cutting-edge science. Как можно натренировать поисковик для получения ответов на простые запросы, не открывая статьи) Почитайте - интересно))
https://habr.com/ru/company/yandex/blog/502542/
https://habr.com/ru/company/yandex/blog/502542/
Хабр
Как мы учим Яндекс отвечать на вопросы и экономим пользователям 20 тысяч часов в сутки
Когда мы вводим запрос в поисковую строку, то ищем информацию, а не ссылки. Более того, зачастую нам требуется короткое предложение или общеизвестный факт. К п...
https://dolgoprudny.hh.ru/vacancy/36790064?query=mos.ru Знаю Chief Data Scientist из Mos.ru. На фоне последних событий они расширяют свой штат и ищут в свою команду Data-Инженера.
hh.ru
Вакансия Data инженер в Москве, работа в MOS.RU (вакансия в архиве)
Вакансия Data инженер. Зарплата: не указана. Москва. Требуемый опыт: 3–6 лет. Полная занятость. Дата публикации: 21.05.2020.
В этой статье вы найдете основные виды сортировок, их реализацию на C++, сложность каждой из них и затраты памяти. Такая статья может быть полезна перед собеседованием.
https://academy.yandex.ru/posts/osnovnye-vidy-sortirovok-i-primery-ikh-realizatsii?utm_source=tg&utm_medium=smm&utm_campaign=sortirovki
https://academy.yandex.ru/posts/osnovnye-vidy-sortirovok-i-primery-ikh-realizatsii?utm_source=tg&utm_medium=smm&utm_campaign=sortirovki
Крайне полная и интересная статья по использующимся языкам в DS с плюсами и минусами каждого. В противостоянии R и Python осталось так же много неопределенности
https://towardsdatascience.com/top-9-languages-for-data-science-in-2020-824239f930c
https://towardsdatascience.com/top-9-languages-for-data-science-in-2020-824239f930c
Medium
Top 9 languages for Data Science in 2020
Of the 256 programming languages, know the ones for Data Science!
История о борьбе с фейковами новостями. Забавно, что казалось бы, еще недавно их только пытались создавать.
https://www.osp.ru/os/2020/02/13055463/
https://www.osp.ru/os/2020/02/13055463/
Издательство «Открытые системы»
Как бороться с фейками в Сети
Фейковые новости наносят ущерб предприятиям — под прицелом кампаний по дезинформации могут оказаться любые отрасли. Современные технологии классификации текстов, основанные на машинном обучении, позволяют ускорить и частично автоматизировать процесс отсева…