397 subscribers
228 photos
47 videos
11 files
307 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt

Буст канала тут - https://t.me/boost/data_engi
Download Telegram
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8
😁8
Forwarded from DataEng
На прошлой неделе JetBrains анонсировали релиз их новой IDE для разработки на Rust: RustRover
Изначально это был плагин для их IDE, который в итоге перерос в полноценный продукт. Также ребята решили предоставить бесплатную лицензию на продукт для некоммерческой разработки для всех. Я попробовал и получил бесплатную лицензию на 1 год, возможно в будущем её можно будет продлить.

Впервые язык Rust я попробовал ещё в далёком 2015 году, когда вышла первая стабильная версия языка. С тех пор были неоднократные попытки с моей стороны написать что-нибудь существенное, но не было подходящих проектов под рукой. Сейчас же видно, что Rust плотно вошел в экосистему Python и внёс значительный вклад в её развитие. Наверняка вы слышали о таких проектах как Pydantic, Polars, PyO3 и т.д. Некоторые из них стали революционными для Python.

Python + Rust = ❤️

Также буквально на днях вышел вебинар от JetBrains, посвященный языку Rust и методам его изучения: Programming Education: Tailoring Tools and Techniques for Rust. Если вы вдруг задумались об изучении Rust, то рекомендую к просмотру. В описании к видео есть полезные ресурсы, которые помогут лучше усвоить сложные концепции языка такие, например, как Ownership.

Со своей стороны я попробую ещё раз оседлать эту лошадку и найти подходящий проект, чтобы не потерять мотивацию на пути изучения.

А какой у вас был опыт с Rust?
43❤‍🔥1
🙂 Разминка для мозга.

Какое число скрывается под машиной? Справишься с такой задачей? #task
Anonymous Quiz
5%
89
5%
69
5%
07
3%
17
68%
87
1%
99
2%
100
12%
🙈
❤‍🔥6
😁11
pg_cron - планировщик заданий на основе cron для PostgreSQL (10 и выше), который запускается внутри БД в качестве расширения. Он использует тот же синтаксис, что и обычный cron, но позволяет планировать команды PostgreSQL непосредственно из БД.

В pg_cron можно использовать "$" для указания последнего дня месяца.

Пример использования:

-- Vacuum every day at 3:00am (GMT)
SELECT cron.schedule('nightly-vacuum', '0 3 * * *', 'VACUUM');
schedule
----------
43

-- Stop scheduling jobs
SELECT cron.unschedule('nightly-vacuum' );
unschedule
------------
t

#cron #sql #postgres #postgresql
5
🙂Разминка для мозга

Что выведет код ниже?
Anonymous Quiz
5%
int
8%
TypeError
0%
str
2%
Toyota
17%
AttributeError
52%
300
15%
DataclassError
❤‍🔥5😁33
from dataclasses import dataclass


@dataclass
class Car:
mark: str
model: str = 'Supra'
colour: str = 'red'
max_speed: int = 300


print(Car().max_speed)

#py #python #task #quiz
8
😁13❤‍🔥1👏1
👆 Малоизвестные, но интересные ETL-инструменты


▶️ Astera Centerprise - готовое к использованию ETL-решение корпоративного уровня, которое предлагает возможности интеграции и преобразования необработанных данных любой сложности и размера в различных форматах: от сложных иерархических файлов и неструктурированных документов до отраслевых форматов, таких как EDI, и даже устаревших данных, таких как COBOL.

▶️ Talend - программная платформа с открытым исходным кодом, которая предлагает решения для интеграции данных и управления ими. Talend специализируется на интеграции больших данных. Этот инструмент предоставляет такие функции, как облачные технологии, большие данные, интеграция корпоративных приложений, качество данных и управление основными данными. Он также предоставляет единое хранилище для хранения и повторного использования метаданных.

▶️ Skyvia - веб-сервис для интеграции облачных данных и резервного копирования. Он предлагает инструменты ETL для интеграции cloud CRM с другими источниками данных и позволяет пользователям контролировать все свои бизнес-данные. Данные можно просматривать и обрабатывать с помощью SQL. Skyvia обеспечивает простую интеграцию данных без навыков программирования.

▶️ Pentaho - инструмент бизнес-аналитики, который предоставляет клиентам широкий спектр решений для бизнес-аналитики. Он способен создавать отчеты, анализировать данные, интегрировать данные, извлекать данные и т.д. Pentaho также предлагает полный набор функций BI, которые могут повысить производительность и эффективность бизнеса.

▶️ Hevo Data - платформа ETL, которая поддерживает интеграцию, перемещение и обработку данных. Она поддерживает широкий спектр источников данных и обеспечивает репликацию данных в режиме реального времени. Этот инструмент облегчает извлечение, преобразование и загрузку данных в указанные целевые пункты назначения.

#etl #de #sql #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
5
🐍🦆

Построение эффективных дата-пайплайнов с помощью Python и DuckDB

TL;DR: DuckDB делает обработку данных дешёвой и простой. Покажу, как эффективно использовать DuckDB в цикле постов

👇👇👇

0⃣ Прелюдия

1️⃣ Начало

2️⃣ Проект

#duckdb #python #etl #de #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥63👏1
0⃣-й пост из цикла.

Прелюдия

🔘Ты ежедневно обрабатываешь несколько ГБ данных, но тратишь часы на настройку/отладку масштабных систем обработки данных? Кто бы ни создавал инфраструктуру данных, он скорее всего скопировал её из какого-то блога/выступления крупной технологической компании!

🔘Представь, что внезапно ответственность за управление расходами команд обработки данных легла на твои плечи. Тебе приходится тщательно проверять все расходы на систему, какими бы незначительными они ни были, чтобы сэкономить немного денег для компании.

🔘Может быть неприятно, когда поставщики данных взимают с компании кучу денег и с радостью возьмут ещё больше, если ты не будешь осторожен с использованием доставшегося тебе легаси.

🔘Представь себе, если бы затраты на обработку данных были очень дешёвыми! Представь себе, что ты можешь быстро воспроизводить и отлаживать проблемы на своем ноутбуке!

🔘В цикле постов расскажу, как использовать последние достижения в области систем обработки данных и дешёвое оборудование для обеспечения дешёвой обработки данных. Буду использовать DuckDB и Python, чтобы показать, как быстро и дёшево обрабатывать данные, одновременно улучшая эргономику разработчиков.

#duckdb #python #etl #de #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
55
😁71
1️⃣-й пост из цикла

Начало

Если ты активно работаешь с данными, ты, вероятно, сталкивался с такими системами, как Snowflake, Databricks, Kafka и т.д., о которых было написано много статей о том, как они произвели революцию в обработке данных.

Однако, несмотря на всю эту шумиху, многие компании поняли, что всё это быстро становится дорогостоящим. Мониторинг и отработка отказов обходятся дорого, особенно в таких системах, как Kafka, Apache Spark и Snowflake, в которых много узлов.

Если тебе интересно:

🔜 Как будущее уходит от распределенных вычислений?

🔜 Почему компании тратят умопомрачительные суммы денег на эти бесполезные ресурсы?

🔜 Почему небольшие компании имитируют то, что делают крупные компании, не будучи при этом крупными компаниями?

🔜 Зачем нужно просматривать данные в инфракрасном диапазоне с помощью микроскопа, да ещё и переплачивать за все эти популярные инструменты?

🔜 Как избежать выплаты 1000 долларов за случайное сканирование данных.

🔜 Как избегать поставщиков данных, которые почти всегда возлагают ответственность за то, чтобы пользователи использовали их инструменты “правильным образом”?

Если да, то этот цикл постов для тебя. Представь, если бы твои затраты на обработку данных были настолько низкими, что тебе даже не пришлось бы их отслеживать!

Обсудим подход, который использует последние достижения в области обработки данных в оперативной памяти в сочетании с дешёвым и мощным железом для значительного снижения затрат на обработку данных!


#duckdb #python #etl #de #elt #kafka #spark #databricks #snowflake
Please open Telegram to view this post
VIEW IN TELEGRAM
12
😁8
😁12
#код
Довольно известный ресурс про эффективное программирование на питоне (по памяти и по скорости) - но в этом канале я ещё на него ни разу не ссылался. Есть отдельная подборка статей по DS: numpy, pandas, polars и т.п.

https://pythonspeed.com/
6
😁8