Инжиниринг Данных
23.8K subscribers
2.08K photos
60 videos
194 files
3.25K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Наш любимый кабанчик - 2ое издание.

Появился новый соавтор
Крис Рикомини — инженер с 15+ годами опыта в PayPal, LinkedIn и WePay, сооснователь Apache Samza и SlateDB. Его участие привнесло практический взгляд на современные облачные и стриминговые системы.

🆕 Новые темы и главы
• Глава 1 — Trade-offs in Data Systems Architecture — совершенно новая. Охватывает выбор между OLTP vs OLAP системами, облачными vs self-hosted решениями, однонодовыми vs распределёнными системами. Смещение фокуса: вместо «что такое надёжность» — «какие компромиссы делать при проектировании».
• Глава 2 — Defining Nonfunctional Requirements — как измерять производительность, моделировать нагрузку и ёмкость, справляться со сбоями и управлять сложностью.
• Векторные индексы (HNSW) — глава о хранилищах и индексах обновлена с учётом современных vector databases и алгоритмов приближённого поиска ближайших соседей.
• Облачные сервисы — значительно расширено покрытие cloud-native архитектур; Hadoop MapReduce как устаревшая технология убран или сокращён.
• Последняя глава переименована: «The Future of Data Systems» → «Doing the Right Thing» — теперь сфокусирована исключительно на этике, приватности данных и GDPR, тогда как технические тренды распределены по соответствующим главам.

Книга существенно расширена — второе издание содержит около 650 страниц (против ~562 в первом). Сравнение по количеству слов показывает прирост в 30–50% в переработанных главах.

https://www.oreilly.com/library/view/designing-data-intensive-applications/9781098119058/
❤‍🔥541
На картинке анализ плана запроса в Snowflake.

Dbt модель упала из-за timeout. Попросил Claude Code посмотреть в чем дело.

Через Snowflake MCP он начал выполнять запросы и анализировать план запроса и сообщил, что у нас тут NESTED LOOP JOIN вместо HASH JOIN.

Сам поправил и проверил и сделал PR. Умничка.

PS Параллельно Claude Code
• Создает хранилище данных на AWS (Redshift, Airflow, dbt, cloud formation)
• Решает проблемы с Databricks Bundle на Azure
• Пишет документацию

Несколько абсолютно разных проектов. Но везде хороший результат, особенно в режиме YOLO.

Самое сложное это Databricks bundle, это было для меня новое, и поэтому я не могу контролировать результат, получается много ошибок, но Claude помогает изучать.
❤‍🔥20🙈7
Контейнерный образ — это база любого релиза ❤️

Но когда версии, доступы и безопасность пущены на самотек, команда увязает в «починке доставки» и отвлекается от развития продукта.

На вебинаре вместе с экспертом Cloud․ru вы:
▶️рассмотрите контур артефактов и разберёте, где он чаще всего ломается;

▶️научитесь загружать Docker-образы, версионировать и управлять ими в Evolution Artifact Registry;

▶️настроите приватный доступ к репозиториям и разграничение прав;

▶️включите сканирование на уязвимости и примените политики безопасности;

▶️разберете, как поддерживать порядок в реестре: политики удаления и жизненный цикл.

Вебинар будет полезен backend-разработчикам, DevOps-инженерам (сборка/доставка), архитекторам (инфраструктура/безопасность), техлидам и руководителям команд для ускорения релизов и снижения рисков ошибок.

👉Зарегистрироваться👈
Please open Telegram to view this post
VIEW IN TELEGRAM
1🌚7
На NVIDIA GTC CEO NVIDIA Дженсен Хуанг назвал структурированные данные основой ИИ и показал ключевые аналитические платформы, формирующие $120-миллиардную экосистему корпоративных данных.

Про BigData как-то не сказал ничего. Но в любом случае без инжиниринга данных никак💗

https://www.youtube.com/live/jw_o0xr8MWU?si=HJ2yW1wS0NL36-j1
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥12😭6🙊1
В пятницу мы прилетели в LA и взяли машину, чтобы прокатиться до SF.

В LA было очень жарко. Мы остановились в Beverly Hills. Сам город понравился, много классных кафешек, вечером все нафокстрочены, как в Москве🚬. Куча дорогих машин, мужчины в пиджаках, девушки в вечерних платьях.

Шикарные песчаные пляжи в Santa Monica и Venice Beach. Много мексиканцев на пляжах, но не в Beverly Hills.

Первую остановку сделали в Santa Barbara. Напомнило заставку одноименного сериала. Город тихий, как будто в Мексике. Мы остановились в очень хорошем отеле. Но наша комната был сбоку от ночного клуба. До 2х ночи была дикая пати, клуб подпевал диджею. 1:30 ночи я генерил отзыв в Gemini, про отель=) хорошо, что в 2 они разошлись.

В следующем посту расскажу про SF.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥59