Data Engineering / Инженерия данных / Data Engineer / DWH
1.91K subscribers
49 photos
7 videos
52 files
349 links
Data Engineering: ETL / DWH / Data Pipelines based on Open-Source software. Инженерия данных.

DWH / SQL
Python / ETL / ELT / dbt / Spark
Apache Airflow

Рекламу не размещаю
Вопросы: @iv_shamaev | datatalks.ru
Download Telegram
Forwarded from Время Валеры
Хочу поделиться ссылкой на Шаблон документа для дизайна ML-систем от телеграм-канала Reliable ML

Насколько я понял, Ира железной рукой насаживает этот шаблон как стандарт в учебной системе для молодых МЛщиков, хотя мы с Игорем знаем, что никаких молодых МЛщиков не будет
Задача для собеседования 🤪
😁5
Бесплатный курс «Инженер облачных сервисов»: онлайн-обучение — Яндекс Практикум

Инструменты, которые вы освоите:
▫️Управление облачной инфраструктурой
▫️Хранение и анализ данных
▫️Работа с контейнерами
▫️Разработка приложений в облаке
▫️Защита облачных ресурсов


https://practicum.yandex.ru/ycloud/
StarRocks

StarRocks is the next-generation data platform designed to make data-intensive real-time analytics fast and easy. It delivers query speeds 5 to 10 times faster than other popular solutions. StarRocks can perform real-time analytics well while updating historical records. It can also enhance real-time analytics with historical data from data lakes easily. With StarRocks, you can get rid of the de-normalized tables and get the best performance and flexibility.

https://github.com/StarRocks/starrocks
Clickhouse — база данных для гибкого анализа огромных потоков информации. Microsoft, Uber и Deutsche Bank — лишь некоторые известные пользователи.

Как экспериментальный проект одного разработчика вырос в отдельную компанию с оценкой в миллионы долларов — говорим с создателем Clickhouse Лешей Миловидовым.

Слушайте на всех платформах: Apple, Google, Яндекс, Spotify, Castbox, Overcast, веб-версия.
👍1
Еще немного бубнежа про Modern Data Stack

https://www.rudderstack.com/assets/the-data-maturity-guide.pdf

Продолжая разговор про modern data stack, у ребят из Rudderstack (rudderstack.com, cloud data platrofm) на своем сайте рассказывают, насколько этот ваш MDS сложная концептуальная штука, ничего не понятно и очень много всяких иконок, в том числе их самих. Ключевая цитата там звучит вот так:

Let’s be honest. The modern data stack is an ambiguous concept. It’s confusing and impractical. What we need is a real-world roadmap to help us progressively build more mature data functions. So we developed a practical four-stage framework to guide you along your journey to data maturity.

Поэтому за емейл они предлагают свой гайд по тому, как оценивать свои хотелки и что вам действительно нужно в текущей ситуации из DE инструментов. Сам гайд на 80 страниц, если вам предстоит самим строить какое-то хранилище или вы на пороге того, что надо все нафиг переписать - довольно неплохо описаны всякие подходы и концепции. Ссылок на конкретные инструменты не заметил, а вот примеры типичных проблем и pain points описания - мне понравилось.

Вообще, Data Maturity - головная боль последних моих недель, ибо нужно решить вопросики по всяким стратегиям, подходам и инструментам, а это непросто дается.

@ohmydataengineer