Linux | OpenSource | Tech
5 subscribers
1.47K links
Download Telegram
Как мы решили проблему батчевых загрузок в реляционные СУБД, или Немного хорошего о «худших практиках» в Spark

📌 В сложных инфраструктурных проектах даже простые задачи обработки данных могут превратиться в нетривиальные вызовы. Иногда классические "хорошие практики" приводят к неэффективным решениям, а нестандартные подходы, наоборот, дают отличный результат.

🔧 Дата-инженер Алексей Николаев из команды MWS Data (ex DataOps) рассказывает, как они разработали библиотеку d-van для массовых загрузок данных из реляционных СУБД. В основе — Apache Spark и собственная библиотека onETL, позволяющая находить компромиссы между эффективностью и удобством.

Ключевые моменты:
- Использование необычного режима master=local в Apache Spark.
- Возможные альтернативы Apache Nifi и Debezium.
- Как "плохие практики" иногда становятся лучшим решением.

🔗 Читать подробнее на Habr

#DataEngineering #ApacheSpark #ETL #Databases #TechSolutions
🔧 Apache Airflow на практике: гид по оркестрации ETL-процессов

Apache Airflow уже стал must-have инструментом для инженеров данных. В статье разбираем:
За что его любят в Data Engineering
Как внедрить в аналитическую инфраструктуру
Пошаговый гайд по развертыванию

Читайте и внедряйте → habr.com

#DataEngineering #ETL #ApacheAirflow #BigData
🚀 Обновление стриминг-фреймворка в Одноклассниках: путь через легаси

<img src="https://habrastorage.org/getpro/habr/uploadfiles/742/c15/eef/742c15eefe5c03585ec6d38cff1828a0.jpg" />

Команда разработки **One-сloud** в **VK** поделилась историей модернизации стримингового фреймворка в "Одноклассниках".

🔹 **В чём сложность?**
Стриминговые данные используются в ОК уже более 10 лет. За это время технологии ушли вперёд, а старое легаси начало тормозить развитие.

🔹 **Как обновляли?**
Разработчики столкнулись с рядом вызовов — от несовместимости API до тонкостей работы с Kafka.

🔹 **Что в итоге?**
Платформа стала быстрее, стабильнее и готовой к масштабированию.

📌 Подробности — в материале **Алины Шестаковой**, разработчицы **DataPlatform** VK:
👉 [**Читать на Habr**](
https://habr.com/ru/companies/vk/articles/924650/?utmcampaign=924650&utmsource=habrahabr&utmmedium=rss)

#VK #Одноклассники #DataEngineering #Стриминг
🚀 Миграция DWH: опыт и сложности переезда в новое облако

🔹 Автор: Владимир, дата-инженер Flocktory
🔹 Задача: Переезд в новое облако с переносом ~1 ПБ данных, внедрением новых инструментов и параллельным созданием фиче-стора и управленческой отчетности.

📌 О чем рассказ:
- Как команда справилась с масштабной миграцией
- Какие сложности возникли
- Что удалось построить в процессе

👉 Читать подробнее: Habr

#DataEngineering #DWH #Миграция #Облака
🚀 Как мы строим real-time data-пайплайны для анонимных крипто-свапалок: опыт на примере risetocrypto

В криптомире анонимность и безопасность — ключевые приоритеты. Особенно это важно для крипто-свапалок, где скорость и надежность обработки данных напрямую влияют на качество сервиса.

🔧 Что внутри:
- Разбор архитектуры real-time пайплайнов для risetocrypto
- Какие технологии использовали для масштабируемости и безопасности
- Практические решения для анонимных транзакций

📌 Полный разбор — в статье на Хабре 👉 Читать далее

#Крипта #Blockchain #DataEngineering #DeFi
Основы ETL: обработка данных с Superset, Airflow и ClickHouse

<img src="https://habrastorage.org/getpro/habr/uploadfiles/1a1/e7d/b9b/1a1e7db9b385c53f3ec050aec1fe87b5.jpg" />

Кратко о том, как запустить простой ETL-процесс с помощью связки Superset, Airflow и ClickHouse. В статье — пример выгрузки и визуализации данных о товарах Wildberries.

**Что используется:**
🔹 **Superset + Airflow** — готовый набор от Beget для удобной работы с данными
🔹 **ClickHouse** — для хранения и обработки информации
🔹 **Selenium, BeautifulSoup, re** — парсинг и обработка данных

👉 [Подробнее в статье](
https://habr.com/ru/companies/beget/articles/928712/?utmcampaign=928712&utmsource=habrahabr&utmmedium=rss)

#ETL #DataEngineering #Superset #Airflow #ClickHouse
🚀 Apache Flink 2.0: революция в real-time вычислениях

Команда BitDive тестирует новую версию фреймворка для обработки потоковых данных — и вот что изменилось:

🔹 Масштабируемость — устранены ключевые болевые точки (конфигурация, локальное состояние, разрыв batch/streaming).
🔹 Скорость — снижение задержек и ускорение recovery по сравнению с Flink 1.20.x.
🔹 AI-готовность — поддержка актуальных сценариев обработки данных в реальном времени.

Уже используется для анализа метрик, трассировок и выявления аномалий с меньшими затратами.

📌 Подробности: Читать на Habr

#BigData #RealTime #ApacheFlink #DataEngineering
🚀 Архитектура корпоративных данных: AWS + Snowflake

Одна из самых больших проблем дата-инженеров и аналитиков — постоянная борьба с устаревшей инфраструктурой и отсутствие прозрачности в работе конвейеров.

🔹 Результат:
Вечная "пожарная" рутина
Невозможность фокуса на стратегических задачах
Потеря доверия бизнеса к данным

Узнайте, как оптимизировать процессы на стыке AWS и Snowflake → Читать на Habr

#DataEngineering #AWS #Snowflake #Аналитика
🚀 Реализация ELT-процесса в архитектуре Data Lakehouse на open-source стеке

🔍 Задача: Крупный строительный холдинг (10+ юрлиц) обратился за помощью в создании централизованного хранилища данных для аналитики и визуализации.

🛠 Технологии:
- Kafka – сбор данных
- Dagster – оркестрация
- S3 + Iceberg – хранилище
- Trino + ClickHouse – обработка
- DBT – трансформация

📊 Результат:
Более 1000 моделей в DBT
1 ТБ сжатых данных (объем растёт)
Интеграция с Power BI, веб-приложениями, MDX-кубами

💡 Особенности:
🔒 Закрытый контур (доступ через терминальные решения)
🔄 Greenfield-разработка
👥 Команда из 11 дата-инженеров
📅 Управление по методологии Scrum

👉 Читать подробнее: Habr

#DataEngineering #ETL #OpenSource #DBT #BigData