Инжиниринг Данных
23.8K subscribers
2.08K photos
60 videos
194 files
3.25K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
❤‍🔥356
У меня есть один замечательный проект - миграция SQL Server на AWS. Меня позвали как эксперта сделать миграцию в non-profit около государственную конторы, которая вот-вот уйдет на забастовку со своим профсоюзом.

Мой подход:
• AWS Managed Airflow извлекаю данные из источников и пишу в Redshift
• dbt core для трансформаций, запускается с помощью AWS Airflow (читает dbt проект прям с S3)
• Один AWS аккаунт, один Redshift кластер с DEV/PROD базами данных (dbt это поддерживает из коробки)
• работать с ноутбука (IDE)
• доступ к AI (Claude Code)

Что хочет ИТ (хочет и делает):
• DMS пишет из SQL Server в S3. Пишет он CDC, то есть дописывают новые файлики в папки -> IT хочет контроль (с их слов)
• AWS Glue (python) читает и собирает эти файлы в единую таблицу и сохраняет в S3.
• Google Analytics/Survey Monkey и тп. - все должно приходить через DMS, а не напрямую. Ведь IT сделало on-premise Airflow, и они хотят и дальше его использовать -> это безопасно (с их слов)
• два AWS аккаунта DEV/PROD -> это безопасно (с их слов)
• никакого AI -> это не безопасно (с их слов)
• работать с общей виртуальной машины, чтобы к ней подключиться, мне сначала надо подключиться к другой машине и с нее уже на рабочую. Мышка там двигается по pixel…

При этом бюджет жестко ограничен. И до этого они 5 месяцев гоняли пустой кластер Redshift и сожгли 10% бюджета.

Мой подход позволит им сделать в 10 раз быстрей, эффективней и проще. Но ИТ категорически отказывается делать что-то нормальное.

Однажды я случайно ошибся Teams каналом и написал в общую группу - что-то вроде “ИТ саботируют миграцию, надо эскалировать на CIO и их нахлобучить”.

Это наверно самый грустный и смешной проект, потому что я как на машине времени отправляюсь в 90ые и строю хранилище данных партизанскими методами=)

Самое смешное, что я уже многое чего построил, но это не совпадает с их видением, и мне снова надо будет жечь токены, чтобы удовлетворить их хотелки.

Я так и не понял, зачем им AWS хранилище данных, это же небезопасно! 😞
Please open Telegram to view this post
VIEW IN TELEGRAM
🙉5❤‍🔥4💯21