Python 🐍 Work With Data
1.6K subscribers
76 photos
13 videos
136 files
441 links
A collection of books and articles on Python and various data manipulation tools. Overview of architecture of business intelligence systems, design and development of BI Reports, data processing in Python Pandas.
Download Telegram
Рубрика "бла бла бла"

K8S vs Docker

Что может случиться, если в компании принимается решение об единообразной платформе развертывании контейнерных приложений? Например, в компании на высшем уровне договорились развертывать все контейнерные приложения для всех подразделений только на kubernetes. В таком случае будьте готовы, что это решение повлияет на развитии внутренних сервисов компании негативным образом.

Почему? Мощности подразделения DevOps могут быть ограничены, а работать с K8S могут быть подготовлены не все сотрудники. Призыв "А ну-ка изучите kubernetes" у многих может вызывать отторжение, хотя бы потому, что в свободное от работы время учить не хочется дополнительный инструмент, а в рабочее время - аврал и надо бежать делать другие задачи. Лично у меня еще срабатывает желание подтянуть Docker, а не идти еще учить k8s, который еще и сложнее на порядок.

Лучшим на мой взгляд решением является принятие единой технологической платформы только для критически важной инфраструктуры (в т.ч. сервисов, приносящих деньги). А для других подразделений можно предоставить выбор k8s или docker. При этом тем, кто выбрал docker оказывать необходимую поддержку (возможно даже нанять отдельного devops инженера с хорошими знаниями docker).

Такое решение поспособствует развитию локальных экспертиз отдельных команд, плюс развитие внутренних продуктов компании только ускорится. Не каждый сотрудник, изучив Docker готов пойти изучать еще и kubernetes.

---

Как это может повлиять на отдел аналитики? Например, сейчас я бы хотел развернуть в компании Apache Airflow, Apache NiFi и DataHub Project, но все это придется поднимать на kubernetes. Дополнительным условием является поднятие сразу двух сред prod и stage. Т.к. datahub еще состоит из множества сервисов, то связываться с ним devops не захотят. Какой результат? Правильно - никакой. Фактически внутри ИТ приняты договоренности, которые препятствуют развитию инструментария для работы с данными.

Да, можно выпросить Linux машину и все поставить самостоятельно сбоку. Но тогда возникает ситуация, при которой вроде договорились использовать k8s, а все равно сбоку отпочковываются сервисы на Docker. Плюс машины Linux админят разработчики, что не безопасно.

---

Резюмируя, хочу сказать следующее: прежде чем вводить ограничения внутри компании, подумайте стоит ли их распространять повсеместно. В ином случае наймите достаточное количество DevOps инженеров, которые бы делали бы все необходимые работы по k8s.
atoti is a free Python BI analytics platform for Quants, Data Analysts, Data Scientists & Business Users to collaborate better, analyze faster and translate their data into business KPIs.

https://github.com/atoti/atoti
Forwarded from LEFT JOIN
📌 Диаграммы в Python ↩️

Это, конечно, дело вкуса и привычки, кому-то больше нравится создавать визуализации вручную. Но я, например, люблю решать с помощью кода любые задачи, которые таким способом можно решить (например, верстка статей или презентаций с помощью latex – улет, по крайней мере с точки зрения визуальной составляющей результата, про сам язык, конечно, этого не скажешь!).

Так вот, новый пакет diagrams для Python (который работает на базе graphviz) позволяет нарисовать архитектуру облачной системы в коде Python. Изначально, пакет был создан для создания прототипа новой или уже существующей системной архитектуры без каких-либо инструментов проектирования. В настоящее время Diagrams поддерживает такие инструменты как AWS, Azure, GCP, Kubernetes, Alibaba Cloud, Oracle Cloud, а также локальные узлы, SaaS и основные платформы и языки программирования.
На сайте примеры диаграмм, которые созданы с помощью этого пакета, как вам?
Pandas_in_7_Days_Utilize_Python_to_Manipulate_Data,_Conduct_Scientific.pdf
6.1 MB
Pandas in 7 Days: Utilize Python to Manipulate Data, Conduct Scientific Computing, Time Series Analysis (eng)

Table of Contents
1. Pandas, the Python library
2. Setting up a Data Analysis Environment
3. Day 1 - Data Structures in Pandas library
4. Day 2 - Working within a DataFrame, Basic Functionalities
5. Day 3 - Working within a DataFrame, Advanced Functionalities
6. Day 4 - Working with two or more DataFrames
7. Day 5 - Working with data sources and real-word datasets
8. Day 6 - Troubleshooting Challenges wit Real Datasets
9. Day 7 - Data Visualization and Reporting
10. Conclusion – Moving Beyond
Time_Series_Analysis_with_Python_Cookbook_Practical_recipes_for.pdf
38.7 MB
Time Series Analysis with Python Cookbook: Practical recipes for exploratory data analysis, data preparation, forecasting, and model evaluation
2022

🏷 Getting Started with Time Series Analysis
🏷 Reading Time Series Data from Files
🏷 Reading Time Series Data from Databases
🏷 Persisting Time Series Data to Files
🏷 Persisting Time Series Data to Databases
🏷 Working with Date and Time in Python
🏷 Handling Missing Data
🏷 Outlier Detection Using Statistical Methods
🏷 Exploratory Data Analysis and Diagnosis
🏷 Building Univariate Time Series Models Using Statistical Methods
🏷 Additional Statistical Modeling Techniques for Time Series
🏷 Forecasting Using Supervised Machine Learning
🏷 Deep Learning for Time Series Forecasting
🏷 Outlier Detection Using Unsupervised Machine Learning
🏷 Advanced Techniques for Complex Time Series
Мой ТОП 9 КНИГ ДЛЯ ПРОГРАММИСТОВ ЛЮБОЙ МАСТИ (и почему их стоит прочитать). Как читать эффективно?
ТАЙМИНГ:
0:00 - Книги vs статьи
1:30 - #1 14 Habits of Highly Productive Developers by Zeno Rocha
3:13 - #2 Clean Code: A Handbook of Agile Software Craftsmanship by Robert C. Martin
5:08 - #3 The Pragmatic Programmer: From Journeyman to Master by David Thomas
6:52 - #4 Deep Work: Rules for Focused Success in a Distracted World by Cal Newport
8:13 - #5 Getting Things Done: The Art of Stress-Free Productivity by David Allen
8:31 - #6 Designing Data-Intensive Applications by Martin Kleppmann
10:43 - #7 Patterns of Enterprise Application Architecture by Martin Fowler
12:30 - #8 Design Patterns: Elements of Reusable Object-Oriented Software by Erich Gamma
12:47 - #9 Site Reliability Engineering: How Google Runs Production Systems
13:39 - Как эффективно читать книги. Мои 5 правил

https://www.youtube.com/watch?v=hW53DS13hM4
Академия больших данных

Бесплатный образовательный проект от VK в области работы с большими данными. Разработан экспертами из VK, индустрии и научного мира для специалистов с опытом работы в IT.
С нами вы систематизируете и углубите знания в Data Science или сможете комфортно перейти из смежных областей в новую профессию.

Начало обучения
Осень 2022 года

Чтобы поступить на очный или дистанционный форматы обучения, вам нужно лучше всех сдать четыре обязательных вступительных испытания и на усмотрение организаторов Академии больших данных MADE пройти онлайн-собеседование. В этом году мы проводим единый конкурс для очного и дистанционного форматов обучения. Все вступительные экзамены проходят онлайн, а сообщать о них мы вам будем заранее по электронной почте.

@python_powerbi

7 августа
онлайн-тестирование по математике

14 августа
экзамен по программированию

7-21 августа
соревнование по машинному обучению

7-21 августа
заполнение анкеты

22-28 августа
мы выборочно проведем онлайн-собеседование. Будьте готовы уделить 15-30 минут вашего времени.

До 5 сентября
пройдет зачисление в Академию больших данных MADE

5 сентября
начнутся занятия у тех, кто покажет высокие результаты.

https://data.vk.company/pages/index/