PySpark Tutorial
https://youtu.be/_C8kWso4ne4
GitHub code: https://github.com/krishnaik06/Pyspark-With-Python
https://youtu.be/_C8kWso4ne4
GitHub code: https://github.com/krishnaik06/Pyspark-With-Python
YouTube
PySpark Tutorial
Learn PySpark, an interface for Apache Spark in Python. PySpark is often used for large-scale data processing and machine learning.
💻 Code: https://github.com/krishnaik06/Pyspark-With-Python
✏️ Course from Krish Naik. Check out his channel: https://you…
💻 Code: https://github.com/krishnaik06/Pyspark-With-Python
✏️ Course from Krish Naik. Check out his channel: https://you…
mad2023.pdf
26.8 MB
The 2023 MAD (Machine Learning, Artificial Intelligence & Data) Landscape – Matt Turck
Source: https://mattturck.com/mad2023/
Source: https://mattturck.com/mad2023/
Подборка проектов с GitHub
〰️〰️〰️〰️〰️〰️〰️〰️
🔸 Engineering Python
Welcome to Engineering Python. This is a Python programming course for engineers.
This GitHub repository hosts the Jupyter Notebooks and Python source code for the open course on YouTube (http://youtube.com/yongtwang).
A tutorial on how to use these course materials is in this YouTube video: 02C Course Materials and Jupyter Notebook.
〰️〰️〰️〰️〰️〰️〰️〰️
🔸 Fun and useful projects with Python
You can find the corresponding tutorials on my channel: https://www.youtube.com/c/PythonEngineer
〰️〰️〰️〰️〰️〰️〰️〰️
🔸 Python Engineer Roadmap
Python can be used in a lot of computer science fields. In this repository, we have collected resources for each field of computer science that are related to Python.
〰️〰️〰️〰️〰️〰️〰️〰️
🔸 PyTorch Beginner Tutorials from my YouTube channel
• Installation
• Tensor Basics
• Autograd
• Backpropagation
• Gradient Descent With Autograd and Backpropagation
• Training Pipeline: Model, Loss, and Optimizer
• Linear Regression
• Logistic Regression
• Dataset and DataLoader
• Dataset Transforms
• Softmax And Cross Entropy
• Activation Functions
• Feed-Forward Neural Net
• Convolutional Neural Net (CNN)
• Transfer Learning
• Tensorboard
• Save and Load Models
〰️〰️〰️〰️〰️〰️〰️〰️
🔸 Engineering Python
Welcome to Engineering Python. This is a Python programming course for engineers.
This GitHub repository hosts the Jupyter Notebooks and Python source code for the open course on YouTube (http://youtube.com/yongtwang).
A tutorial on how to use these course materials is in this YouTube video: 02C Course Materials and Jupyter Notebook.
〰️〰️〰️〰️〰️〰️〰️〰️
🔸 Fun and useful projects with Python
You can find the corresponding tutorials on my channel: https://www.youtube.com/c/PythonEngineer
〰️〰️〰️〰️〰️〰️〰️〰️
🔸 Python Engineer Roadmap
Python can be used in a lot of computer science fields. In this repository, we have collected resources for each field of computer science that are related to Python.
〰️〰️〰️〰️〰️〰️〰️〰️
🔸 PyTorch Beginner Tutorials from my YouTube channel
• Installation
• Tensor Basics
• Autograd
• Backpropagation
• Gradient Descent With Autograd and Backpropagation
• Training Pipeline: Model, Loss, and Optimizer
• Linear Regression
• Logistic Regression
• Dataset and DataLoader
• Dataset Transforms
• Softmax And Cross Entropy
• Activation Functions
• Feed-Forward Neural Net
• Convolutional Neural Net (CNN)
• Transfer Learning
• Tensorboard
• Save and Load Models
❤1
😐 Docker's New Ultimatum Can Affect Open-Source Projects in a Big, Negative Way
https://news.itsfoss.com/docker-dropping-free-team-orgs/
https://news.itsfoss.com/docker-dropping-free-team-orgs/
It's FOSS News
Docker's New Ultimatum Can Affect Open-Source Projects in a Big, Negative Way
Docker can do better to accommodate open-source projects; what do you think?
Apache Airflow гайды:
▫️Руководство по использованию Apache Airflow от сбера
▫️GitHub -> GB: Настройка потоков данных. Apache Airflow
▫️Руководство по использованию Apache Airflow от сбера
▫️GitHub -> GB: Настройка потоков данных. Apache Airflow
Sber Developers Documentation
Документация для разработчиков
Руководство по использованию AirFlow (оркестратор для задач ETL) | Платформа данных Сбера (SberData Platform) – набор интегрированных сервисов работы с данными
Ловите гайд по Apache Superset Сбер 😁
https://developers.sber.ru/docs/ru/sdp/sdpanalytics/guidelines-reports-SDPBI
https://developers.sber.ru/docs/ru/sdp/sdpanalytics/guidelines-reports-SDPBI
Sber Developers Documentation
Документация для разработчиков
Руководство по разработке отчетов в SDP BI | Платформа данных Сбера (SberData Platform) – набор интегрированных сервисов работы с данными
❤2
Forwarded from Как мы делаем Яндекс
Яндекс выкладывает в опенсорс одну из основных инфраструктурных BigData-систем собственной разработки — YTsaurus. Это платформа, предназначенная для распределённого хранения и обработки больших данных.
Максим Бабенко, руководитель отдела технологий распределённых вычислений в Яндексе, рассказал историю возникновения YT, а также зачем нужна YTsaurus и где её можно применять.
В Github-репозитории — серверный код YTsaurus, инфраструктура развёртывания с использованием k8s, а также веб-интерфейс системы и клиентский SDK для распространённых языков программирования — C++, Java, Go и Python.
Ссылки на посты на Хабре и Медиуме.
Максим Бабенко, руководитель отдела технологий распределённых вычислений в Яндексе, рассказал историю возникновения YT, а также зачем нужна YTsaurus и где её можно применять.
В Github-репозитории — серверный код YTsaurus, инфраструктура развёртывания с использованием k8s, а также веб-интерфейс системы и клиентский SDK для распространённых языков программирования — C++, Java, Go и Python.
Ссылки на посты на Хабре и Медиуме.
👍4
Quick Reference
Here are some cheatsheets and quick references contributed by open source angels.
https://github.com/Fechin/reference
Here are some cheatsheets and quick references contributed by open source angels.
https://github.com/Fechin/reference
👍2
Overview and comparison ClickHouse & Redshift & Snowflake
https://www.velotio.com/engineering-blog/clickhouse-the-newest-data-store-in-your-big-data-arsenal
https://www.velotio.com/engineering-blog/clickhouse-the-newest-data-store-in-your-big-data-arsenal
GitHub - antdimot/awesome-lowcode
A collection of Awesome low-code development platform (LCDP).
https://github.com/antdimot/awesome-lowcode
A collection of Awesome low-code development platform (LCDP).
https://github.com/antdimot/awesome-lowcode
GitHub
GitHub - antdimot/awesome-lowcode: A collection of Awesome low-code development platform (LCDP).
A collection of Awesome low-code development platform (LCDP). - antdimot/awesome-lowcode
Apache AirFlow 2.5: декабрьский выпуск
В статье описаны 30 новинок версии 2.5
https://www.bigdataschool.ru/blog/airflow-2-5-release-overview.html
В статье описаны 30 новинок версии 2.5
https://www.bigdataschool.ru/blog/airflow-2-5-release-overview.html
Курсы Big Data,Arenadata,Greenplum, Kafka и Spark
Apache AirFlow 2.5: декабрьский выпуск
Не прошло и пары месяцев с выпуска Apache AirFlow 2.4, о чем мы писали здесь, как вышел новый рели
Forwarded from Секрет лапшичного супа
Яндекс выложил YT в opensource
Это очень большая новость для мира обработки данных. И огромный шаг для команды YT — ребята, поздравляю!
Многие слышали про ClickHouse, который уже успел сформировать свой клуб фанатов и даже форкнуться в отдельную компанию с приличной капитализацией. Но ClickHouse (CH) — это слой потребления данных. Чтобы получилась красивая витрина, которую удобно крутить в CH, нужно обработать несколько тонн данных — и сам CH для ETL-преобразований не годится совсем. И вот тут вы встанете перед выбором технологий хранилища. Если вы маленький или средний стартап, вы пойдете в облака — и правильно сделаете. Но если вам по какой-то причине нужно иметь чуткий контроль за своей инфраструктурой данных, вы уже управляете Hadoop-кластером, и тем более, если вам при этом жмёт — присмотритесь к YT.
В 2017 мы в Такси решили строить DWH на GreenPlum, потому что YT и YQL были ещё незрелыми — нам было больно по утрам видеть нерассчитанные витрины, потому что "ой, мы тут логику join'ов немного поменяли". В добавок join’ы были очень медленные и неэффективные, что очень критично для DWH. Теперь же таблицы-справочники до 80GB клеятся "на лету" (на нашем кластере). Когда стал вопрос о том, что DWH Маркета нуждается в нормальной архитектуре, технологиях и менеджерских подходах, я очень топил за сведение задачи к решённой — давайте возьмём всё у Такси. Но команде Маркета удалось убедить меня, и я с приятным удивлением обнаружил, что YT и инструментарий вокруг него доросли до той степени зрелости, когда ничего дополнительного и не нужно. Короче, мой рекомендасьон — 10 хадупов из 10!
Кстати, над любой таблицой, хранящейся в YT, можно выполнить SQL запрос, используя ClickHouse на ресурсах YT, просто добавив перед запросом строчку
Небольшой повод для гордости — в составе этого релиза есть Spark over YT. Эта штука сделана в Такси моей командой. Федя Лаврентьев увидел дырку в линейке технологий Яндекса по обработке данных и решил, что надо попробовать запустить Spark на YT. Федя нанял феноменальную Сашу Белоусову на эту задачу — и Саша за пару месяцев сделала работающий прототип, который решили развивать дальше.
PS. В opensource технологию назвали YTsaurus. Все эти годы в Яндексе она ласково называлась "Ыть" =)
https://habr.com/ru/company/yandex/blog/721526/
Это очень большая новость для мира обработки данных. И огромный шаг для команды YT — ребята, поздравляю!
Многие слышали про ClickHouse, который уже успел сформировать свой клуб фанатов и даже форкнуться в отдельную компанию с приличной капитализацией. Но ClickHouse (CH) — это слой потребления данных. Чтобы получилась красивая витрина, которую удобно крутить в CH, нужно обработать несколько тонн данных — и сам CH для ETL-преобразований не годится совсем. И вот тут вы встанете перед выбором технологий хранилища. Если вы маленький или средний стартап, вы пойдете в облака — и правильно сделаете. Но если вам по какой-то причине нужно иметь чуткий контроль за своей инфраструктурой данных, вы уже управляете Hadoop-кластером, и тем более, если вам при этом жмёт — присмотритесь к YT.
В 2017 мы в Такси решили строить DWH на GreenPlum, потому что YT и YQL были ещё незрелыми — нам было больно по утрам видеть нерассчитанные витрины, потому что "ой, мы тут логику join'ов немного поменяли". В добавок join’ы были очень медленные и неэффективные, что очень критично для DWH. Теперь же таблицы-справочники до 80GB клеятся "на лету" (на нашем кластере). Когда стал вопрос о том, что DWH Маркета нуждается в нормальной архитектуре, технологиях и менеджерских подходах, я очень топил за сведение задачи к решённой — давайте возьмём всё у Такси. Но команде Маркета удалось убедить меня, и я с приятным удивлением обнаружил, что YT и инструментарий вокруг него доросли до той степени зрелости, когда ничего дополнительного и не нужно. Короче, мой рекомендасьон — 10 хадупов из 10!
Кстати, над любой таблицой, хранящейся в YT, можно выполнить SQL запрос, используя ClickHouse на ресурсах YT, просто добавив перед запросом строчку
USE chyt.<clustername>;
Небольшой повод для гордости — в составе этого релиза есть Spark over YT. Эта штука сделана в Такси моей командой. Федя Лаврентьев увидел дырку в линейке технологий Яндекса по обработке данных и решил, что надо попробовать запустить Spark на YT. Федя нанял феноменальную Сашу Белоусову на эту задачу — и Саша за пару месяцев сделала работающий прототип, который решили развивать дальше.
PS. В opensource технологию назвали YTsaurus. Все эти годы в Яндексе она ласково называлась "Ыть" =)
https://habr.com/ru/company/yandex/blog/721526/
👍4
Forwarded from Инжиниринг Данных (Dmitry)
DATALEARN | DE - 101 | МОДУЛЬ 7-4 ЗНАКОМСТВО С SPARK API
В этом модуле мы познакомимся еще ближе с Apache Spark.
В этом видео вы узнаете про:
📌 что такое RDD (Resilient Distributed Datasets)
📌 что такое DataFrame
📌 посмотрим на пример синтаксиса Scala vs Python
📌 типы данных Spark
📌 схему(schema) dataframe
📌 колонки (colums) и вычисляемы (expressions) поля dataframe
📌 основные операции при работе с dataframe (Reader, Wrtiter)
📌 примеры чтения разных источников и файлов (API, база данных, JSON, Parquet, CSV, TXT)
📌 различные операции для трансформации, фильтрации и агрегации данных в Spark DataFrame (прям как в SQL)
📌 Spark SQL, Catalyst Optimizer
📌 план запроса Spark
📌 примеры advance Spark функций и ноутбуков в Databticks
В качестве лабораторной работы мы будем анализировать данные по пожарной службы Сан-Франциско. Я покажу, как можно прочитать файл и выполнить простые запросы на PySpark.
Так же мы посмотрим на курс от Databricks про Apache Spark Developer. Мы посмотрим лишь, часть, которая относится к этой лекции:
📌 Reader & Writer
📌 DataFrame & Column
📌 Aggregations
📌 Datetime functions
📌 Complex Types
📌 Additional Spark Functions
PS В репозиторий я добавил следующие доп материалы:
🌴Есть целый курс Apache Spark Programming в 2х вариантах:
- HTML - вы можете посмотреть на пример кода
- Databricks Notebooks - вы можете загрузить ноутбуки в Databricks Community Edition
🌴Так же я создал небольшой docker-compose.yml (chatGPT4 создал 🤖) - как шаблон для запуска:
- Spark 3.2.0
- Jupyter notebooks
Что нужно сделать (помочь):
1. Взять курс Databricks, и скопировать демо данные (там монтируется папка с Parquet) в наш репозиторий.
2. Проверить, что docker-compose работает, и добавить файлы из лаб (PySpark) и демо данные в контейнер по Jupyter.
Таким образом, Databricks нам больше вообще не нужен будет, чтобы пройти курс Apache Spark Developer. Кто в теме, сделайте pull request. Вы можете обсудить этот вопрос в Datalearn чате (модуль 7).
В этом модуле мы познакомимся еще ближе с Apache Spark.
В этом видео вы узнаете про:
📌 что такое RDD (Resilient Distributed Datasets)
📌 что такое DataFrame
📌 посмотрим на пример синтаксиса Scala vs Python
📌 типы данных Spark
📌 схему(schema) dataframe
📌 колонки (colums) и вычисляемы (expressions) поля dataframe
📌 основные операции при работе с dataframe (Reader, Wrtiter)
📌 примеры чтения разных источников и файлов (API, база данных, JSON, Parquet, CSV, TXT)
📌 различные операции для трансформации, фильтрации и агрегации данных в Spark DataFrame (прям как в SQL)
📌 Spark SQL, Catalyst Optimizer
📌 план запроса Spark
📌 примеры advance Spark функций и ноутбуков в Databticks
В качестве лабораторной работы мы будем анализировать данные по пожарной службы Сан-Франциско. Я покажу, как можно прочитать файл и выполнить простые запросы на PySpark.
Так же мы посмотрим на курс от Databricks про Apache Spark Developer. Мы посмотрим лишь, часть, которая относится к этой лекции:
📌 Reader & Writer
📌 DataFrame & Column
📌 Aggregations
📌 Datetime functions
📌 Complex Types
📌 Additional Spark Functions
PS В репозиторий я добавил следующие доп материалы:
🌴Есть целый курс Apache Spark Programming в 2х вариантах:
- HTML - вы можете посмотреть на пример кода
- Databricks Notebooks - вы можете загрузить ноутбуки в Databricks Community Edition
🌴Так же я создал небольшой docker-compose.yml (chatGPT4 создал 🤖) - как шаблон для запуска:
- Spark 3.2.0
- Jupyter notebooks
Что нужно сделать (помочь):
1. Взять курс Databricks, и скопировать демо данные (там монтируется папка с Parquet) в наш репозиторий.
2. Проверить, что docker-compose работает, и добавить файлы из лаб (PySpark) и демо данные в контейнер по Jupyter.
Таким образом, Databricks нам больше вообще не нужен будет, чтобы пройти курс Apache Spark Developer. Кто в теме, сделайте pull request. Вы можете обсудить этот вопрос в Datalearn чате (модуль 7).
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 7-4 ЗНАКОМСТВО С SPARK API
В этом модуле мы познакомимся еще ближе с Apache Spark.
В этом видео вы узнаете про:
📌 что такое RDD (Resilient Distributed Datasets)
📌 что такое DataFrame
📌 посмотрим на пример синтаксиса Scala vs Python
📌 типы данных Spark
📌 схему(schema) dataframe
📌…
В этом видео вы узнаете про:
📌 что такое RDD (Resilient Distributed Datasets)
📌 что такое DataFrame
📌 посмотрим на пример синтаксиса Scala vs Python
📌 типы данных Spark
📌 схему(schema) dataframe
📌…
Connect Apache NiFi to ClickHouse | ClickHouse Docs
https://clickhouse.com/docs/en/integrations/nifi
https://clickhouse.com/docs/en/integrations/nifi
Clickhouse
Connect Apache NiFi to ClickHouse | ClickHouse Docs
Stream data into ClickHouse using NiFi data pipelines
Как собрать платформу обработки данных «своими руками»? / Хабр
https://habr.com/ru/company/itsumma/blog/679516/
https://habr.com/ru/company/itsumma/blog/679516/
Хабр
Как собрать платформу обработки данных «своими руками»?
Большое количество российских компаний столкнулись с ограничениями в области ПО. Они теперь не имеют возможности использовать многие важные инструменты для работы с данными. Но, как говорится, одна...
GitHub - mindsdb/mindsdb: A low-code Machine Learning platform to help developers build #AI solutions
https://github.com/mindsdb/mindsdb
https://github.com/mindsdb/mindsdb
GitHub
GitHub - mindsdb/mindsdb: AI's query engine - Platform for building AI that can answer questions over large scale federated data.…
AI's query engine - Platform for building AI that can answer questions over large scale federated data. - The only MCP Server you'll ever need - mindsdb/mindsdb
Доступ к ChatGPT
Если не знаете, как получить доступ к ChatGPT, то советую заюзать https://onlinesim.io/v2/numbers/
Не реклама (сам несколько раз использовал)
Если не знаете, как получить доступ к ChatGPT, то советую заюзать https://onlinesim.io/v2/numbers/
Не реклама (сам несколько раз использовал)
Zero-ETL, ChatGPT, And The Future of Data Engineering | by Barr Moses | Apr, 2023 | Towards Data Science
https://towardsdatascience.com/zero-etl-chatgpt-and-the-future-of-data-engineering-71849642ad9c
https://towardsdatascience.com/zero-etl-chatgpt-and-the-future-of-data-engineering-71849642ad9c
Medium
Zero-ETL, ChatGPT, And The Future of Data Engineering
The post-modern data stack is coming. Are we ready?