Quick Reference
Here are some cheatsheets and quick references contributed by open source angels.
https://github.com/Fechin/reference
Here are some cheatsheets and quick references contributed by open source angels.
https://github.com/Fechin/reference
👍2
Overview and comparison ClickHouse & Redshift & Snowflake
https://www.velotio.com/engineering-blog/clickhouse-the-newest-data-store-in-your-big-data-arsenal
https://www.velotio.com/engineering-blog/clickhouse-the-newest-data-store-in-your-big-data-arsenal
GitHub - antdimot/awesome-lowcode
A collection of Awesome low-code development platform (LCDP).
https://github.com/antdimot/awesome-lowcode
A collection of Awesome low-code development platform (LCDP).
https://github.com/antdimot/awesome-lowcode
GitHub
GitHub - antdimot/awesome-lowcode: A collection of Awesome low-code development platform (LCDP).
A collection of Awesome low-code development platform (LCDP). - antdimot/awesome-lowcode
Apache AirFlow 2.5: декабрьский выпуск
В статье описаны 30 новинок версии 2.5
https://www.bigdataschool.ru/blog/airflow-2-5-release-overview.html
В статье описаны 30 новинок версии 2.5
https://www.bigdataschool.ru/blog/airflow-2-5-release-overview.html
Курсы Big Data,Arenadata,Greenplum, Kafka и Spark
Apache AirFlow 2.5: декабрьский выпуск
Не прошло и пары месяцев с выпуска Apache AirFlow 2.4, о чем мы писали здесь, как вышел новый рели
Forwarded from Секрет лапшичного супа
Яндекс выложил YT в opensource
Это очень большая новость для мира обработки данных. И огромный шаг для команды YT — ребята, поздравляю!
Многие слышали про ClickHouse, который уже успел сформировать свой клуб фанатов и даже форкнуться в отдельную компанию с приличной капитализацией. Но ClickHouse (CH) — это слой потребления данных. Чтобы получилась красивая витрина, которую удобно крутить в CH, нужно обработать несколько тонн данных — и сам CH для ETL-преобразований не годится совсем. И вот тут вы встанете перед выбором технологий хранилища. Если вы маленький или средний стартап, вы пойдете в облака — и правильно сделаете. Но если вам по какой-то причине нужно иметь чуткий контроль за своей инфраструктурой данных, вы уже управляете Hadoop-кластером, и тем более, если вам при этом жмёт — присмотритесь к YT.
В 2017 мы в Такси решили строить DWH на GreenPlum, потому что YT и YQL были ещё незрелыми — нам было больно по утрам видеть нерассчитанные витрины, потому что "ой, мы тут логику join'ов немного поменяли". В добавок join’ы были очень медленные и неэффективные, что очень критично для DWH. Теперь же таблицы-справочники до 80GB клеятся "на лету" (на нашем кластере). Когда стал вопрос о том, что DWH Маркета нуждается в нормальной архитектуре, технологиях и менеджерских подходах, я очень топил за сведение задачи к решённой — давайте возьмём всё у Такси. Но команде Маркета удалось убедить меня, и я с приятным удивлением обнаружил, что YT и инструментарий вокруг него доросли до той степени зрелости, когда ничего дополнительного и не нужно. Короче, мой рекомендасьон — 10 хадупов из 10!
Кстати, над любой таблицой, хранящейся в YT, можно выполнить SQL запрос, используя ClickHouse на ресурсах YT, просто добавив перед запросом строчку
Небольшой повод для гордости — в составе этого релиза есть Spark over YT. Эта штука сделана в Такси моей командой. Федя Лаврентьев увидел дырку в линейке технологий Яндекса по обработке данных и решил, что надо попробовать запустить Spark на YT. Федя нанял феноменальную Сашу Белоусову на эту задачу — и Саша за пару месяцев сделала работающий прототип, который решили развивать дальше.
PS. В opensource технологию назвали YTsaurus. Все эти годы в Яндексе она ласково называлась "Ыть" =)
https://habr.com/ru/company/yandex/blog/721526/
Это очень большая новость для мира обработки данных. И огромный шаг для команды YT — ребята, поздравляю!
Многие слышали про ClickHouse, который уже успел сформировать свой клуб фанатов и даже форкнуться в отдельную компанию с приличной капитализацией. Но ClickHouse (CH) — это слой потребления данных. Чтобы получилась красивая витрина, которую удобно крутить в CH, нужно обработать несколько тонн данных — и сам CH для ETL-преобразований не годится совсем. И вот тут вы встанете перед выбором технологий хранилища. Если вы маленький или средний стартап, вы пойдете в облака — и правильно сделаете. Но если вам по какой-то причине нужно иметь чуткий контроль за своей инфраструктурой данных, вы уже управляете Hadoop-кластером, и тем более, если вам при этом жмёт — присмотритесь к YT.
В 2017 мы в Такси решили строить DWH на GreenPlum, потому что YT и YQL были ещё незрелыми — нам было больно по утрам видеть нерассчитанные витрины, потому что "ой, мы тут логику join'ов немного поменяли". В добавок join’ы были очень медленные и неэффективные, что очень критично для DWH. Теперь же таблицы-справочники до 80GB клеятся "на лету" (на нашем кластере). Когда стал вопрос о том, что DWH Маркета нуждается в нормальной архитектуре, технологиях и менеджерских подходах, я очень топил за сведение задачи к решённой — давайте возьмём всё у Такси. Но команде Маркета удалось убедить меня, и я с приятным удивлением обнаружил, что YT и инструментарий вокруг него доросли до той степени зрелости, когда ничего дополнительного и не нужно. Короче, мой рекомендасьон — 10 хадупов из 10!
Кстати, над любой таблицой, хранящейся в YT, можно выполнить SQL запрос, используя ClickHouse на ресурсах YT, просто добавив перед запросом строчку
USE chyt.<clustername>;
Небольшой повод для гордости — в составе этого релиза есть Spark over YT. Эта штука сделана в Такси моей командой. Федя Лаврентьев увидел дырку в линейке технологий Яндекса по обработке данных и решил, что надо попробовать запустить Spark на YT. Федя нанял феноменальную Сашу Белоусову на эту задачу — и Саша за пару месяцев сделала работающий прототип, который решили развивать дальше.
PS. В opensource технологию назвали YTsaurus. Все эти годы в Яндексе она ласково называлась "Ыть" =)
https://habr.com/ru/company/yandex/blog/721526/
👍4
Forwarded from Инжиниринг Данных (Dmitry)
DATALEARN | DE - 101 | МОДУЛЬ 7-4 ЗНАКОМСТВО С SPARK API
В этом модуле мы познакомимся еще ближе с Apache Spark.
В этом видео вы узнаете про:
📌 что такое RDD (Resilient Distributed Datasets)
📌 что такое DataFrame
📌 посмотрим на пример синтаксиса Scala vs Python
📌 типы данных Spark
📌 схему(schema) dataframe
📌 колонки (colums) и вычисляемы (expressions) поля dataframe
📌 основные операции при работе с dataframe (Reader, Wrtiter)
📌 примеры чтения разных источников и файлов (API, база данных, JSON, Parquet, CSV, TXT)
📌 различные операции для трансформации, фильтрации и агрегации данных в Spark DataFrame (прям как в SQL)
📌 Spark SQL, Catalyst Optimizer
📌 план запроса Spark
📌 примеры advance Spark функций и ноутбуков в Databticks
В качестве лабораторной работы мы будем анализировать данные по пожарной службы Сан-Франциско. Я покажу, как можно прочитать файл и выполнить простые запросы на PySpark.
Так же мы посмотрим на курс от Databricks про Apache Spark Developer. Мы посмотрим лишь, часть, которая относится к этой лекции:
📌 Reader & Writer
📌 DataFrame & Column
📌 Aggregations
📌 Datetime functions
📌 Complex Types
📌 Additional Spark Functions
PS В репозиторий я добавил следующие доп материалы:
🌴Есть целый курс Apache Spark Programming в 2х вариантах:
- HTML - вы можете посмотреть на пример кода
- Databricks Notebooks - вы можете загрузить ноутбуки в Databricks Community Edition
🌴Так же я создал небольшой docker-compose.yml (chatGPT4 создал 🤖) - как шаблон для запуска:
- Spark 3.2.0
- Jupyter notebooks
Что нужно сделать (помочь):
1. Взять курс Databricks, и скопировать демо данные (там монтируется папка с Parquet) в наш репозиторий.
2. Проверить, что docker-compose работает, и добавить файлы из лаб (PySpark) и демо данные в контейнер по Jupyter.
Таким образом, Databricks нам больше вообще не нужен будет, чтобы пройти курс Apache Spark Developer. Кто в теме, сделайте pull request. Вы можете обсудить этот вопрос в Datalearn чате (модуль 7).
В этом модуле мы познакомимся еще ближе с Apache Spark.
В этом видео вы узнаете про:
📌 что такое RDD (Resilient Distributed Datasets)
📌 что такое DataFrame
📌 посмотрим на пример синтаксиса Scala vs Python
📌 типы данных Spark
📌 схему(schema) dataframe
📌 колонки (colums) и вычисляемы (expressions) поля dataframe
📌 основные операции при работе с dataframe (Reader, Wrtiter)
📌 примеры чтения разных источников и файлов (API, база данных, JSON, Parquet, CSV, TXT)
📌 различные операции для трансформации, фильтрации и агрегации данных в Spark DataFrame (прям как в SQL)
📌 Spark SQL, Catalyst Optimizer
📌 план запроса Spark
📌 примеры advance Spark функций и ноутбуков в Databticks
В качестве лабораторной работы мы будем анализировать данные по пожарной службы Сан-Франциско. Я покажу, как можно прочитать файл и выполнить простые запросы на PySpark.
Так же мы посмотрим на курс от Databricks про Apache Spark Developer. Мы посмотрим лишь, часть, которая относится к этой лекции:
📌 Reader & Writer
📌 DataFrame & Column
📌 Aggregations
📌 Datetime functions
📌 Complex Types
📌 Additional Spark Functions
PS В репозиторий я добавил следующие доп материалы:
🌴Есть целый курс Apache Spark Programming в 2х вариантах:
- HTML - вы можете посмотреть на пример кода
- Databricks Notebooks - вы можете загрузить ноутбуки в Databricks Community Edition
🌴Так же я создал небольшой docker-compose.yml (chatGPT4 создал 🤖) - как шаблон для запуска:
- Spark 3.2.0
- Jupyter notebooks
Что нужно сделать (помочь):
1. Взять курс Databricks, и скопировать демо данные (там монтируется папка с Parquet) в наш репозиторий.
2. Проверить, что docker-compose работает, и добавить файлы из лаб (PySpark) и демо данные в контейнер по Jupyter.
Таким образом, Databricks нам больше вообще не нужен будет, чтобы пройти курс Apache Spark Developer. Кто в теме, сделайте pull request. Вы можете обсудить этот вопрос в Datalearn чате (модуль 7).
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 7-4 ЗНАКОМСТВО С SPARK API
В этом модуле мы познакомимся еще ближе с Apache Spark.
В этом видео вы узнаете про:
📌 что такое RDD (Resilient Distributed Datasets)
📌 что такое DataFrame
📌 посмотрим на пример синтаксиса Scala vs Python
📌 типы данных Spark
📌 схему(schema) dataframe
📌…
В этом видео вы узнаете про:
📌 что такое RDD (Resilient Distributed Datasets)
📌 что такое DataFrame
📌 посмотрим на пример синтаксиса Scala vs Python
📌 типы данных Spark
📌 схему(schema) dataframe
📌…
Connect Apache NiFi to ClickHouse | ClickHouse Docs
https://clickhouse.com/docs/en/integrations/nifi
https://clickhouse.com/docs/en/integrations/nifi
Clickhouse
Connect Apache NiFi to ClickHouse | ClickHouse Docs
Stream data into ClickHouse using NiFi data pipelines
Как собрать платформу обработки данных «своими руками»? / Хабр
https://habr.com/ru/company/itsumma/blog/679516/
https://habr.com/ru/company/itsumma/blog/679516/
Хабр
Как собрать платформу обработки данных «своими руками»?
Большое количество российских компаний столкнулись с ограничениями в области ПО. Они теперь не имеют возможности использовать многие важные инструменты для работы с данными. Но, как говорится, одна...
GitHub - mindsdb/mindsdb: A low-code Machine Learning platform to help developers build #AI solutions
https://github.com/mindsdb/mindsdb
https://github.com/mindsdb/mindsdb
GitHub
GitHub - mindsdb/mindsdb: AI Analytics Engine that can answer questions over large scale data. - The only MCP Server you'll ever…
AI Analytics Engine that can answer questions over large scale data. - The only MCP Server you'll ever need - mindsdb/mindsdb
Доступ к ChatGPT
Если не знаете, как получить доступ к ChatGPT, то советую заюзать https://onlinesim.io/v2/numbers/
Не реклама (сам несколько раз использовал)
Если не знаете, как получить доступ к ChatGPT, то советую заюзать https://onlinesim.io/v2/numbers/
Не реклама (сам несколько раз использовал)
Zero-ETL, ChatGPT, And The Future of Data Engineering | by Barr Moses | Apr, 2023 | Towards Data Science
https://towardsdatascience.com/zero-etl-chatgpt-and-the-future-of-data-engineering-71849642ad9c
https://towardsdatascience.com/zero-etl-chatgpt-and-the-future-of-data-engineering-71849642ad9c
Medium
Zero-ETL, ChatGPT, And The Future of Data Engineering
The post-modern data stack is coming. Are we ready?
GitHub - AppFlowy-IO/AppFlowy
AppFlowy is an open-source alternative to Notion. You are in charge of your data and customizations. Built with Flutter and Rust.
33.4k stars ⭐
https://github.com/AppFlowy-IO/AppFlowy
AppFlowy is an open-source alternative to Notion. You are in charge of your data and customizations. Built with Flutter and Rust.
33.4k stars ⭐
https://github.com/AppFlowy-IO/AppFlowy
GitHub
GitHub - AppFlowy-IO/AppFlowy: Bring projects, wikis, and teams together with AI. AppFlowy is the AI collaborative workspace where…
Bring projects, wikis, and teams together with AI. AppFlowy is the AI collaborative workspace where you achieve more without losing control of your data. The leading open source Notion alternative....
Forwarded from Data Engineering Zoomcamp
Hi everyone!
Great work on the projects! Now it's time to evaluate your peers.
We've updated the page with the projects (https://github.com/DataTalksClub/data-engineering-zoomcamp/blob/main/cohorts/2023/project.md), now it contains two more links:
- Peer review assignments: https://docs.google.com/spreadsheets/d/e/2PACX-1vRYQ0A9C7AkRK-YPSFhqaRMmuPR97QPfl2PjI8n11l5jntc6YMHIJXVVS0GQNqAYIGwzyevyManDB08/pubhtml?gid=0&single=true
- Evaluation form: https://forms.gle/1bxmgR8yPwV359zb7
To find the projects assigned to you, use the first link (peer review assignments) and find your hash in the first column. You will see three rows: you need to evaluate each of these projects. For each project, you need to submit the form once, so in total, you will make three submissions.
Use this as an opportunity to learn from your peers - and you will learn a lot.
But also remember - if you don't do peer review, you will fail your projects.
Have fun!
Also - the form for submitting project attempt #2 is open, so if you didn't have time to work on your project yet, now you can do it.
Great work on the projects! Now it's time to evaluate your peers.
We've updated the page with the projects (https://github.com/DataTalksClub/data-engineering-zoomcamp/blob/main/cohorts/2023/project.md), now it contains two more links:
- Peer review assignments: https://docs.google.com/spreadsheets/d/e/2PACX-1vRYQ0A9C7AkRK-YPSFhqaRMmuPR97QPfl2PjI8n11l5jntc6YMHIJXVVS0GQNqAYIGwzyevyManDB08/pubhtml?gid=0&single=true
- Evaluation form: https://forms.gle/1bxmgR8yPwV359zb7
To find the projects assigned to you, use the first link (peer review assignments) and find your hash in the first column. You will see three rows: you need to evaluate each of these projects. For each project, you need to submit the form once, so in total, you will make three submissions.
Use this as an opportunity to learn from your peers - and you will learn a lot.
But also remember - if you don't do peer review, you will fail your projects.
Have fun!
Also - the form for submitting project attempt #2 is open, so if you didn't have time to work on your project yet, now you can do it.
GitHub
data-engineering-zoomcamp/cohorts/2023/project.md at main · DataTalksClub/data-engineering-zoomcamp
Data Engineering Zoomcamp is a free nine-week course that covers the fundamentals of data engineering. - DataTalksClub/data-engineering-zoomcamp
GitHub - tabixio/tabix: Tabix.io UI
Open source simple business intelligence application and sql editor tool for Clickhouse.
https://github.com/tabixio/tabix
Open source simple business intelligence application and sql editor tool for Clickhouse.
https://github.com/tabixio/tabix
GitHub
GitHub - tabixio/tabix: Tabix.io UI
Tabix.io UI. Contribute to tabixio/tabix development by creating an account on GitHub.