DataStreet'20 – Telegram

DataStreet'20

781 subscribers

4 photos

3 files

149 links

Авторский канал о развитии знаний и навыков, необходимых в современном мире. Математика, data science, machine learning и не только. Где учиться этому, как учиться и где с этим дальше работать...
Лукьянченко Петр: @namur88
8-926-590-62-08

Download Telegram

About

Blog

Apps

Platform

781 subscribers

Линейная регрессия (линейная регрессионная модель) является часто лучшим инструментом для быстрого анализа данных и оценки зависимости в переменных. Строится просто. Инпретируется легко. (Если кто-то не знает, что такое линейная регрессия и/или как ее на Python запускать, то смотрите сюда https://bigdata-madesimple.com/how-to-run-linear-regression-in-python-scikit-learn/). Есть у этого прекрасного инструмента один недостаток, а именно калибровка модели "плохих" данных. Любят использовать Метод наименьших квадратов (OLS) из-за теоремы Гаусса-Маркова, но вот только не всегда в реальной жизни это работает. И на помощь приходит градиентных спуск при оптимизации функции. https://towardsdatascience.com/linear-regression-simplified-ordinary-least-square-vs-gradient-descent-48145de2cf76 Хоть и однобоко, автор неплохо сравнил два способа построения линейной регрессии. Главное - там есть куски кода

Big Data Made Simple

How to run Linear regression in Python scikit-Learn

Python Scikit-learn is the most popular machine learning module available.

507 views15:48

Пятница на дворе. Если кому-то скучно и хочется взбродрить свое сознание, попробуйте "переварить" основное содержание теоремы Геделя. https://habr.com/ru/post/400513/ Всем хорошей пятницы

Теорема Гёделя о неполноте за 20 минут

Теореме Гёделя о неполноте , одной из самых известных теорем математической логики, повезло и не повезло одновременно. В этом она похожа на специальную теорию относительности Эйнштейна. С одной...

524 views15:49

История доказывает, что сначала изобретали машины и оборудование, а потом развивалась теория. Удивлен. Всегда думал, что было наоборот.

524 views20:04

По данным Statista, к 2025 году объём рынка big data вырастет до 175 зетабайт против 41 в 2019. Что такое специалист по обработке данных (data engineer)? Это человек, который отвечает за создание и поддержку архитектуры данных в Data Science-проекте. В его обязанности может входить обеспечение бесперебойного потока данных между сервером и приложением, интеграция нового ПО для управления данными, совершенствование основополагающих процессов данных и создание конвейеров данных.

Есть огромное количество технологий и инструментов, которыми должен владеть data engineer, чтобы работать с облачными вычислениями, хранилищами данных, ETL (extraction, transformation, loading) и пр. Причём количество требуемых навыков всё время растёт, поэтому дата-инженеру необходимо регулярно пополнять свой багаж знаний. Список полезных курсов:
1. Data Engineering Nanodegree Certification (Udacity)

Вы научитесь проектировать модели данных, создавать хранилища данных и озера данных, автоматизировать конвейеры данных и работать с массивами датасетов. В конце программы вы проверите свои новые навыки, завершив проект Capstone.
Продолжительность: 5 месяцев, 5 часов в неделю
Уровень: начальный
2. Become a Data Engineer Certification (Coursera)
Учат с азов. Вы можете поэтапно развиваться, используя лекции и практические проекты для работы над своими навыками. К концу обучения вы будете готовы работать с ML и большими данными. Рекомендуется знать Python хотя бы на минимальном уровне.
Продолжительность: 8 месяцев, 10 часов в неделю
Уровень: начальный
3. Become a Data Engineer: Mastering the Concepts (LinkedIn Learning)
Вы разовьёте навыки проектирования данных и навыки DevOps, научитесь создавать приложения для Big Data, создавать конвейеры данных, обрабатывать приложения в реальном времени с использованием Hazelcast и базы данных Hadoop.
Продолжительность: зависит от вас
Уровень: начальный
4. Data Engineering Courses (edX)
Здесь собрана серия программ, которые знакомят вас с data engineering и учат разработке аналитических решений. Курсы делятся на категории в зависимости от уровня сложности, так что вы можете выбрать один в соответствии с вашим уровнем опыта. В процессе обучения вы научитесь использовать Spark, Hadoop, Azure и управлять корпоративными данными.
Уровень: начальный, средний, продвинутый
5. Data Engineer (DataQuest)
Этот курс стоит выбрать, если у вас есть опыт работы с Python и вы хотите углубить свои знания и построить карьеру специалиста по обработке данных. Вы научитесь строить конвейеры данных, используя Python и pandas, загружать большие наборы данных в БД Postgres после очистки и преобразования.
Язык: английский
Уровень: начальный, средний
6. Data Engineering with Google Cloud (Coursera)
Этот курс поможет вам приобрести навыки, необходимые для построения карьеры в области работы с большими данными. Например, работа с BigQuery, Spark. Вы получите знания, которые пригодятся для подготовки к признанной в отрасли сертификации Google Cloud Professional Data Engineer.
Продолжительность: 4 месяца
Уровень: начальный, средний
7. Data Engineering, Big Data on Google Cloud Platform (Coursera)
Интересный курс, дающий практические знания о системах обработки данных в GCP. Во время занятий вы узнаете, как спроектировать системы, прежде чем приступить к процессу разработки. Помимо этого, вы также будете анализировать как структурированные, так и неструктурированные данные, применять автоматическое масштабирование и применять методы ML для извлечения информации.
Продолжительность: 3 месяца, пока бесплатно
Уровень: начальный, средний
8. UC San Diego: Big Data Specialization (Coursera)
Курс основан на использовании инфраструктуры Hadoop и Spark и применении этих методов обработки больших данных в процессе ML. Вы познакомитесь с основами использования Hadoop с MapReduce, Spark, Pig и Hive. Узнаете, как можно строить прогнозные модели и использовать аналитику графов для моделирования проблем. Отметим, что для этого курса не требуется опыт программирования.
Продолжительность: 8 месяцев по 10 часов в неделю, пока бесплатно

569 viewsedited 22:14

9. Taming Big Data With Apache Spark and Python (Udemy)
Вы узнаете, как использовать потоковую структуру и фреймы данных в Spark3, получите представление о том, как использовать сервис Elastic MapReduce от Amazon для работы с вашим кластером в Hadoop. Научитесь определять проблемы при анализе больших данных и поймёте, как библиотеки GraphX работают с сетевым анализом и как вы можете использовать MLlib.
Продолжительность: зависит от вас
Язык: английский
Уровень: начальный, средний
10. PG Program in Big Data Engineering (upGrad)
Этот курс даст вам представление о том, как работает Aadhaar, как Facebook персонализирует ленту новостей и как вообще можно использовать Data Engineering. Ключевыми темами станут обработка данных (в том числе обработка в реальном времени), MapReduce, аналитика больших данных.
Продолжительность: 11 месяцев
Цена: в районе $3000
Уровень: начальный

594 viewsedited 22:14

Угадайте, кто это. Задача для тех, кто хочет разработать алгоритм распознавания лица. Человек успешен и живет сейчас. Угадаете, кто это?

664 views17:36

Есть первый победитель)) На фотографии изображен Роберт Де Ниро в 1976 году

657 viewsedited 18:19

https://towardsdatascience.com/bayesian-stats-101-for-data-scientists-a8c145a84259 Байесовский подход предполагает использование априорного распределения параметров для определения вероятности событий. Такой подход часто используется в анализе данных.

Bayesian Stats 101 for Data Scientists

An alternative perspective on statistics and probability

564 views12:07

https://www.drivendata.org/ Классная платформа соревнований. Мне очень понравилось соревнование по DeepVision, которое было пару месяцев назад. Как говорится: "Не одним Kaggle едины"

DrivenData hosts data science competitions to build a better world, bringing cutting-edge predictive models to organizations tackling the world's toughest problems.

582 views12:10

https://www.the-village.ru/village/city/news-city/381373-made

Mail.ru Group бесплатно подготовит специалистов по анализу данных и машинному обучению

Нужно пройти отбор

600 views08:38

А вот это и правда интересно) https://academy.yandex.ru/posts/prostoy-gid-po-bayesovskomu-a-b-testirovaniyu-na-python

655 views08:40

Чсасто просят посоветовать/рекомендовать лучшую книгу для того, чтобы начать учить математику. Нужно брать для отдельных разделов математики правильную книгу правильного автора. https://habr.com/ru/company/plarium/blog/442772/ Для первого шага - очень достойный перечень книг

Математика для Data Scientist: необходимые разделы

Математика — это краеугольный камень Data Science. Хотя некоторые теоремы, аксиомы и формулы кажутся слишком абстрактными и далекими от практики, на самом деле без них невозможно по-настоящему глубоко...

668 views07:10

Modern Data Scientist.png

Современный Аналитик Данных - это

954 views07:12

Вот он cutting-edge science. Как можно натренировать поисковик для получения ответов на простые запросы, не открывая статьи) Почитайте - интересно))

https://habr.com/ru/company/yandex/blog/502542/

Как мы учим Яндекс отвечать на вопросы и экономим пользователям 20 тысяч часов в сутки

Когда мы вводим запрос в поисковую строку, то ищем информацию, а не ссылки. Более того, зачастую нам требуется короткое предложение или общеизвестный факт. К п...

578 views09:12

Физики шутят.png

Комплексная шутка

944 views18:03

https://dolgoprudny.hh.ru/vacancy/36790064?query=mos.ru Знаю Chief Data Scientist из Mos.ru. На фоне последних событий они расширяют свой штат и ищут в свою команду Data-Инженера.

Вакансия Data инженер в Москве, работа в MOS.RU (вакансия в архиве)

Вакансия Data инженер. Зарплата: не указана. Москва. Требуемый опыт: 3–6 лет. Полная занятость. Дата публикации: 21.05.2020.

578 views18:24

В этой статье вы найдете основные виды сортировок, их реализацию на C++, сложность каждой из них и затраты памяти. Такая статья может быть полезна перед собеседованием.
https://academy.yandex.ru/posts/osnovnye-vidy-sortirovok-i-primery-ikh-realizatsii?utm_source=tg&utm_medium=smm&utm_campaign=sortirovki

586 views18:19

Крайне полная и интересная статья по использующимся языкам в DS с плюсами и минусами каждого. В противостоянии R и Python осталось так же много неопределенности

https://towardsdatascience.com/top-9-languages-for-data-science-in-2020-824239f930c

Top 9 languages for Data Science in 2020

Of the 256 programming languages, know the ones for Data Science!

585 views12:33

https://teletype.in/@dreamjob/87OoB0SPW

Data Scientist / Data Analyst (Junior/Middle/Senior) в ВТБ

Требования для Junior:

572 views15:07

История о борьбе с фейковами новостями. Забавно, что казалось бы, еще недавно их только пытались создавать.

https://www.osp.ru/os/2020/02/13055463/

Издательство «Открытые системы»

Как бороться с фейками в Сети

Фейковые новости наносят ущерб предприятиям — под прицелом кампаний по дезинформации могут оказаться любые отрасли. Современные технологии классификации текстов, основанные на машинном обучении, позволяют ускорить и частично автоматизировать процесс отсева…

617 views10:30