DE – Telegram

1️⃣-й пост из цикла

Начало

Если ты активно работаешь с данными, ты, вероятно, сталкивался с такими системами, как Snowflake, Databricks, Kafka и т.д., о которых было написано много статей о том, как они произвели революцию в обработке данных.

Однако, несмотря на всю эту шумиху, многие компании поняли, что всё это быстро становится дорогостоящим. Мониторинг и отработка отказов обходятся дорого, особенно в таких системах, как Kafka, Apache Spark и Snowflake, в которых много узлов.

Если тебе интересно:

🔜 Как будущее уходит от распределенных вычислений?

🔜 Почему компании тратят умопомрачительные суммы денег на эти бесполезные ресурсы?

🔜 Почему небольшие компании имитируют то, что делают крупные компании, не будучи при этом крупными компаниями?

🔜 Зачем нужно просматривать данные в инфракрасном диапазоне с помощью микроскопа, да ещё и переплачивать за все эти популярные инструменты?

🔜 Как избежать выплаты 1000 долларов за случайное сканирование данных.

🔜 Как избегать поставщиков данных, которые почти всегда возлагают ответственность за то, чтобы пользователи использовали их инструменты “правильным образом”?

Если да, то этот цикл постов для тебя. Представь, если бы твои затраты на обработку данных были настолько низкими, что тебе даже не пришлось бы их отслеживать!

Обсудим подход, который использует последние достижения в области обработки данных в оперативной памяти в сочетании с дешёвым и мощным железом для значительного снижения затрат на обработку данных!

#duckdb #python #etl #de #elt #kafka #spark #databricks #snowflake

Please open Telegram to view this post

VIEW IN TELEGRAM

🐍🦆

Построение эффективных дата-пайплайнов с помощью Python и DuckDB

TL;DR: DuckDB делает обработку данных дешёвой и простой. Покажу, как эффективно использовать DuckDB в цикле постов

👇👇👇

0⃣ Прелюдия

1️⃣ Начало

2️⃣ Проект
…

494 views06:10

About

Blog

Apps

Platform