Data Engineering / Инженерия данных / Data Engineer / DWH
1.66K subscribers
49 photos
7 videos
52 files
335 links
Data Engineering: ETL / DWH / Data Pipelines based on Open-Source software. Инженерия данных.

DWH / SQL
Python / ETL / ELT / dbt / Spark
Apache Airflow

Рекламу не размещаю
Вопросы: @iv_shamaev | datatalks.ru
Download Telegram
Я тут подумал, что нужно сделать, если вдруг начнётся нашествие LLM на прогеров.

План такой: те, кто пострадал, генерируют кучу нерабочего и ошибочного кода. LLM постепенно переобучивается и начинает сама себя уничтожать.

Компании массово отказываются от LLM в ключевых процессах и нанимают втридорога разрабов обратно 😇

------‐-------------------

А если серьёзно - вот курс по LLM (бесплатно, но на инглише) https://github.com/mlabonne/llm-course
How we orchestrate 2000+ DBT models in Apache Airflow | by Alexandre Magno Lima Martins | Apache Airflow | Medium

Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.

Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.


https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d
How AI Agents & Data Products Work Together to Support Cross-Domain Queries & Decisions for Businesses

Статья предлагает анализ того, как интеграция AI-агентов и продуктов данных может трансформировать профессиональную деятельность data engineer.

https://moderndata101.substack.com/p/how-ai-agents-and-data-products-work
Системный дизайн — это основа для создания надежных, масштабируемых и производительных систем обработки данных. Он помогает выбирать подходящие инструменты для ETL/ELT, проектировать хранилища, оптимизировать запросы и ресурсы. Без него сложно обеспечить отказоустойчивость, безопасность и интеграцию потоков данных.

Подборка с YouTube по Системному дизайну
▫️PlayList System Design (Interview Pen) - English
▫️Data Engineer тренирует System Design секцию. Собеседует @halltape | rzv_de | Aug 2024
▫️System Design - теория шардирования | Как масштабировать базы данных
▫️Как кэшировать данные | Теория кэширования - System Design
▫️Проектирование баз данных за 40 минут. Практика
▫️PlayList Системный дизайн (Eugene Suleimanov)
▫️PlayList System Design Fundamentals (ByteByteGo)
▫️Как подготовиться и пройти System Design Interview. Александр Поломодов
▫️Владимир Маслов — System Design. Как построить распределенную систему и пройти собеседование
🔶Запись готова🔶

Выложила запись на ютуб

Но у меня ни таймкоды не подтянулись, ни ссылки не работают 😁 Так что придется ручками потыкаться в описании или смотреть все 🥰

Спасибо всем, кто пришел! Меня ваши сердечки и огонечки очень подбадривали❤️

Немного статистики: 400 человек в пике, 600 в тотале!

Ссылка на материалы: https://github.com/Aigul9/spark-webinar
Please open Telegram to view this post
VIEW IN TELEGRAM