Python 🐍 Work With Data
1.6K subscribers
76 photos
13 videos
136 files
441 links
A collection of books and articles on Python and various data manipulation tools. Overview of architecture of business intelligence systems, design and development of BI Reports, data processing in Python Pandas.
Download Telegram
Немножко мыслей про open-source Apache Superset
Из моего небольшого опыта работы с этим BI могу дать следующую обратную связь:
- Довольно зрелая система с хорошим набором фич.
- Многое описано в официальной доке, либо на github в отдельных реквестах. Но без технического бекграунда будет ОЧЕНЬ сложно.
- Это простая рисовалка графиков без ETL и модели данных внутри. Инструмент хорошо применим только для 1 готового датасета (прямая таблица, не схема звезда и уж подавно не снежинка). Поэтому могу смело утверждать, что построить сложные приложения, как например, в Qlik Sense или Power BI точно не выйдет. Либо придется костылять, придумывать технические приемы. Что в принципе возможно.
- В Apache Superset можно добавлять custom plugins, но этот процесс ОЧЕНЬ трудоемкий и состоит из множества этапов, которые придется освоить (docker, npm, react, js, typescript).
- Чтобы заменить Power BI или Qlik Sense этим инструментом, придется развернуть целый зоопарк других инструментов для data management & data delivery.
- В команде желательно иметь devops, который бы помог все это поднять и настроить.
- Довольно хорошо развивается, т.к. под крылом Apache.
- Вероятно из-за санкций получит большее распространение в России, что приведет к появлению большего числа доступных визуализаций и фич (правда вопрос насколько сообщество разработчиков будет в свои ряды принимать российских контрибьютеров после текущих событий).
- В отличие от Enterprise решений - можно добавить в функционал свою фичу (любую) и возможно даже отправить MR.
- Любые найденные баги - ваша головная боль.

#superset
Fundamentals_of_Data_Engineering_Third_Early_Release_by_Joe_Reis.pdf
6.3 MB
Fundamentals of Data Engineering (Third Early Release) by Joe Reis Matt Housley 2022.pdf
Записи конференции Smart Data 2021 на Youtube

Материалы конференции

Apache Airflow, DWH как продукт, Каталог и озеро данных на базе MongoDB, ClickHouse, MLOps, Self-service BI, Apache Spark

☮️
Появилась интеграция между Airbyte и Clickhouse 🥳
https://clickhouse.com/docs/integrations/airbyte-and-clickhouse

#airbyte #clickhouse
Practical Python Data Wrangling and Data Quality (en).epub
5.4 MB
Practical Python: Data Wrangling and Data Quality

1. Introduction to Data Wrangling and Data Quality
2. Introduction to Python
3. Understanding Data Quality
4. Working with File-Based and Feed-Based Data in Python
5. Accessing Web-Based Data
6. Assessing Data Quality
7. Cleaning, Transforming, and Augmenting Data
8. Structuring and Refactoring Your Code
9. Introduction to Data Analysis
10. Presenting Your Data
11. Beyond Python

https://github.com/PracticalPythonDataWranglingAndQuality/data_wrangling_exercises - This repo contains draft coding exercises for the early-release version of the book Practical Python: Data Wrangling and Data Quality to be published by O'Reilly Media in 2021.
Forwarded from Data Coffee
В новом выпуске подкаста мы обсудили нового главу всея твиттера (а пропустить мы это не могли) и то, что теперь можно легально (правда, пока только в США) скрейпить данные и обучать свои нейроболталки (чтобы потом сделать стартап и войти в сотню самых интересных Big Data компаний).

Помимо дел бизнеса, обсудили современную хирургию, несовременный шутер и неожиданную объединяющую ведущих любовь к дирижаблям.

Все это в новом свежем новостном эпизоде подкаста Data Coffee🎙

#datacoffee #data #podcast #данные #подкаст

https://anchor.fm/data-coffee/episodes/46-S2E4----Mute--Twitter----etc-e1hrnkf
Forwarded from Инжиниринг Данных (Dmitry)
Сегодня по расписанию будет - Python Environments and Best Practices
- Using the command line and command line applications
- How to set up projects using virtual environments
- Sharing code via git and GitHub
- Using IDE features for debugging, refactoring, and navigating Python code

В приложении презентация, ссылка на git, и reference document.