Инжиниринг Данных
23.9K subscribers
2.06K photos
60 videos
194 files
3.25K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Приглашаем на вебинар 12 марта, на котором коллеги из проекта Easy Report расскажут о Генеративном BI и покажут, как это работает на практике.


Содержание вебинара:

1️⃣GenBI: что это на практике и где он дает максимальный эффект

2️⃣Какие запросы на “ИИ в BI” сейчас у топ-компаний

3️⃣Easy Report: эволюция от BI в мессенджере к GenBI, с промышленными внедрениями в энтерпрайзе

4️⃣Демонстрация функционала на реальных сценариях (расчеты и отчеты "на лету", запросы на естественном языке, поиск инсайтов и др.)

5️⃣Что дальше: наш роадмэп

Участие бесплатное по предварительной регистрации.

🚀 Регистрация и подробности.

🗓 12 марта, 11:00 мск • Онлайн




Реклама. ООО «САПИЕНС», ИНН 7731438804, Erid: 2W5zFJrhv3j
🙈4❤‍🔥3🐳1🌚1
NVIDIA ищет архитектора орбитального дата-центра — и это не шутка

На сайте NVIDIA появилась вакансия с названием, которое ещё год назад звучало бы как фантастика: Orbital Datacenter System Architect — архитектор орбитального дата-центра. Это первая публичная вакансия такого рода от одной из крупнейших технологических компаний мира.

Что это говорит нам о планах NVIDIA?
NVIDIA не строит ракеты и не запускает спутники — но именно её GPU стоят в сердце каждого орбитального вычислительного проекта.

Starcloud уже запустил H100 на орбиту. SpaceX подала заявку в FCC на миллион спутников-дата-центров. Blue Origin, Aetherflux, Relativity Space — все они так или иначе завязаны на NVIDIA-железо. Теперь компания хочет иметь собственного человека, который понимает, как всё это работает в космосе.

Что будет делать этот специалист?
Это не просто «перенести дата-центр на орбиту». Задачи принципиально другие:
🌡️ Тепловое управление — в вакууме нет воздуха, тепло отводится только излучением. GPU греются, а охлаждать их нечем. Нужно проектировать радиаторы, тепловые трубки и всю архитектуру под законы физики открытого космоса
Энергетика — только солнечные панели, батареи и строгий энергобюджет. Никаких розеток
🛰️ Надёжность — космическая радиация убивает обычную электронику. Нужна радиационно-стойкая архитектура и системы резервирования
🔗 Связь — лазерные межспутниковые линки, задержки, пропускная способность. Как GPU-кластер общается между собой на орбите?
🏗️ Системная интеграция — как упаковать мощности уровня дата-центра в спутник весом в несколько сотен килограммов

Почему именно сейчас?
Эрик Шмидт сказал это прямо: «Через 30–36 месяцев самым экономически выгодным местом для ИИ-вычислений станет космос».

Земля заканчивается — энергосети перегружены, вода для охлаждения дефицитна, места под дата-центры нет. Орбита даёт солнечную энергию 24/7 и бесплатный вакуум для охлаждения.

NVIDIA это понимает. И теперь нанимает людей, которые превратят эту идею в железо.

https://nvidia.wd5.myworkdayjobs.com/en-US/NVIDIAExternalCareerSite/job/Orbital-Datacenter-System-Architect_JR2014044

#space #orbitaldatacenters
❤‍🔥42🙈16🦄7🤷1
На Coursera появился курс AI Fundamentals от Google. С ним дают Gemini Pro бесплатно на 3 месяца.

А про Claude я видел, что можно попытаться подать на Open Source заявку https://claude.com/contact-sales/claude-for-oss и получить много токенов.
29❤‍🔥4
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳45😭15💯9🙈9👨‍💻6
Новый life hack - все теперь добавляют чат ботов и можно с ними общаться вместо chatgpt/claude/gemini
🐳16👨‍💻9🌚3
This media is not supported in your browser
VIEW IN TELEGRAM
Вы говорит AI бесполезный! Посмотрите какой bash скрипт мне он сделал! Магия!

С 8 марта девушки!💐
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥46🫡163
Постройте аналитику в облаке без боли и затрат на старте ❤️

«Как поведет себя архитектура», «хватит ли производительности», «удобно ли будет команде» — эти вопросы могут возникнуть у компаний, которые только планируют построить аналитику данных в облаке.

Чтобы сделать процесс перехода в облако понятным и предсказуемым, облачный провайдер Cloud.ru запустил акцию «Миграция на сервисы Evolution Data Platform».

С ней вы можете развернуть аналитические сервисы в облаке, поработать с ними в реальной среде и принять решение на основе опыта, а не теории.

Что вы получите:
➡️ усиленную техническую поддержку наших экспертов

➡️ выбор архитектуры сервисов под ваши задачи и гибкую настройку

➡️ возможность масштабировать проект после пилота

➡️ бесплатный доступ ко всем функциям облачных дата-сервисов

▶️Узнайте подробнее об акции▶️
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤‍🔥5🫡4🤷2
В прошлом году Databricks купил Neon.

Основатели Neon:
• Никита Шамгунов - CEO и идейный вдохновитель Россиянин, PhD по Computer Science из Санкт-Петербурга
• Хейкки Линнакангас - Co-founder, Postgres-хакер
Финн, один из самых известных core committer'ов PostgreSQL с 20+ летним стажем.
• Стас Кельвич - Co-founder, инженер. Изучал физику, затем пришёл в разработку — работал в Яндексе в команде баз данных.

Команда собралась вокруг одной идеи: "что если сделать для Postgres то же, что Amazon Aurora сделала для MySQL/Postgres, но open-source и по-настоящему serverless?"

Amazon Aurora это serverless Postgres, но это как бы vendor lock.

У Neon было три основных этапа/фичи:

1️⃣Разделение слоев давало serverless-поведение: scale-to-zero, оплата только за реальное использование, "бездонное" хранилище.

2️⃣Разделение compute и storage открыло неожиданную суперспособность - branching базы данных через copy-on-write. Создать полную копию базы с данными и схемой стало бесплатным по времени и почти бесплатным по стоимости.

Кстати Snowflake zero-copy cloning имеет похожую идею copy-on-write - клон/ветка не копирует данные физически, а создаёт метаданные-указатели на те же блоки хранилища. Новые данные записываются только при изменениях. Оба мгновенные и почти бесплатные по хранилищу. Только у Neon каждая ветка это свой изолированный Postgres. Благодаря этому у каждой ветки свой compute и не влияет на продакшн базу данных.

3️⃣Neon обнаружил, что 80% баз на их платформе создаются кодом, а не людьми. AI-агенты и платформы вроде Replit Agent стали создавать тысячи эфемерных баз на лету - под каждого пользователя, под каждый эксперимент. Один инженер в Retool управлял через Neon API 300,000 Postgres-инстансов.

Для Databricks это решение понравилось, ведь они уже работаю с AI агентами, каждый агент получает свою изолированную базу данных, и сама идея Zero ETL не нова, и Neon позволяет использовать OLTP workloads и хранить данные сразу в Databricks, ведь Neon хранит данные в облачном object storage (S3/ADLS/GCS), то есть буквально в том же хранилище, что и lakehouse.

И вот Databricks закончил интеграцию и назвал продукт/фичу - Lakebase. Это Postgres версии 16/17. Так же Databricks приобрел Mooncake для лучшей интеграции Postgres с Lakehouse.

Mooncake Labs - это маленький стартап (основан в 2024 году), который сделал одну очень конкретную вещь: ⁠pg_mooncake — Postgres-расширение, которое добавляет колоночное хранилище прямо внутрь Postgres, сохраняя данные в формате Apache Iceberg/Delta Lake в object storage.

Под капотом происходит следующее:
• Данные хранятся не в Postgres heap (row-формат), а в Parquet-файлах в S3 в формате Iceberg
• Аналитические запросы выполняются через DuckDB (встроен в расширение) - векторизованный движок, заточенный под колоночное чтение

Neon дал serverless Postgres compute, но данные в нём хранились в Postgres-формате — отдельно от lakehouse.

Чтобы аналитические движки (Spark, Databricks SQL) могли их читать, нужно было либо копировать данные через ETL, либо держать два источника правды.

Mooncake закрыл этот gap: вместо того чтобы копировать данные из Postgres в lakehouse, он делает Iceberg основным хранилищем. Postgres пишет сразу в Iceberg/Parquet в S3 - и тот же файл без какого-либо ETL читают и приложения через Postgres, и аналитика через Spark.

Есть еще Synced Tables - это отдельный, более старый механизм для обратного направления: когда нужно "опустить" уже готовые аналитические данные из Unity Catalog в Lakebase, чтобы приложение могло читать их с низкой латентностью (< 10 мс) (Reverse ETL). Здесь дублирование данных неизбежно — потому что аналитический Parquet нужно переложить в row-формат Postgres для быстрых point-lookup запросов.


PS Работаю часто с Databricks, пока реальных кейсов на Lakebase Postgres не видел =/
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥28👨‍💻5
Узнал сегодня про Dracula Effect в контексте AI - это термин для описания вампирского эффекта истощения, который испытывают люди при интенсивной работе с AI-агентами.

AI автоматизирует рутинные задачи, но оставляет человеку всю сложную когнитивную работу - принятие решений, анализ результатов, постановку задач, проверку кода. По сути, ты постоянно занимаешься только стратегическими и сложными вещами, без передышки на простые задачи.

Реально ловлю себя на том, что день проходит плотничком и энергии уходит много. Но нам не привыкать📈
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡50💯27🙉7❤‍🔥6🐳2
Иногда попадаются митапы с реально рабочими темами из продуктовой аналитики 🔥

18 марта пройдёт как раз такой. Это будет онлайн-встреча от Trisigma, платформы AvitoTech, и hh.ru. Судя по программе, будут разбирать довольно прикладные вещи:

— Что происходит, когда A/B-эксперименты начинают пересекаться и ломают результаты
— Как повышать эффективность рекламы через budget-split-тесты
— Зачем нужен семантический слой и как он помогает выстраивать доверие к AI-агентам

Выглядит как хороший повод послушать чужие кейсы и, возможно, что-то забрать себе в работу.

К митапу можно подключиться из любой точки мира 18 марта в 18:30 мск.
Если хотите послушать — вот ссылка на регистрацию.
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳71
Наш любимый кабанчик - 2ое издание.

Появился новый соавтор
Крис Рикомини — инженер с 15+ годами опыта в PayPal, LinkedIn и WePay, сооснователь Apache Samza и SlateDB. Его участие привнесло практический взгляд на современные облачные и стриминговые системы.

🆕 Новые темы и главы
• Глава 1 — Trade-offs in Data Systems Architecture — совершенно новая. Охватывает выбор между OLTP vs OLAP системами, облачными vs self-hosted решениями, однонодовыми vs распределёнными системами. Смещение фокуса: вместо «что такое надёжность» — «какие компромиссы делать при проектировании».
• Глава 2 — Defining Nonfunctional Requirements — как измерять производительность, моделировать нагрузку и ёмкость, справляться со сбоями и управлять сложностью.
• Векторные индексы (HNSW) — глава о хранилищах и индексах обновлена с учётом современных vector databases и алгоритмов приближённого поиска ближайших соседей.
• Облачные сервисы — значительно расширено покрытие cloud-native архитектур; Hadoop MapReduce как устаревшая технология убран или сокращён.
• Последняя глава переименована: «The Future of Data Systems» → «Doing the Right Thing» — теперь сфокусирована исключительно на этике, приватности данных и GDPR, тогда как технические тренды распределены по соответствующим главам.

Книга существенно расширена — второе издание содержит около 650 страниц (против ~562 в первом). Сравнение по количеству слов показывает прирост в 30–50% в переработанных главах.

https://www.oreilly.com/library/view/designing-data-intensive-applications/9781098119058/
❤‍🔥531
На картинке анализ плана запроса в Snowflake.

Dbt модель упала из-за timeout. Попросил Claude Code посмотреть в чем дело.

Через Snowflake MCP он начал выполнять запросы и анализировать план запроса и сообщил, что у нас тут NESTED LOOP JOIN вместо HASH JOIN.

Сам поправил и проверил и сделал PR. Умничка.

PS Параллельно Claude Code
• Создает хранилище данных на AWS (Redshift, Airflow, dbt, cloud formation)
• Решает проблемы с Databricks Bundle на Azure
• Пишет документацию

Несколько абсолютно разных проектов. Но везде хороший результат, особенно в режиме YOLO.

Самое сложное это Databricks bundle, это было для меня новое, и поэтому я не могу контролировать результат, получается много ошибок, но Claude помогает изучать.
❤‍🔥20🙈7
Контейнерный образ — это база любого релиза ❤️

Но когда версии, доступы и безопасность пущены на самотек, команда увязает в «починке доставки» и отвлекается от развития продукта.

На вебинаре вместе с экспертом Cloud․ru вы:
▶️рассмотрите контур артефактов и разберёте, где он чаще всего ломается;

▶️научитесь загружать Docker-образы, версионировать и управлять ими в Evolution Artifact Registry;

▶️настроите приватный доступ к репозиториям и разграничение прав;

▶️включите сканирование на уязвимости и примените политики безопасности;

▶️разберете, как поддерживать порядок в реестре: политики удаления и жизненный цикл.

Вебинар будет полезен backend-разработчикам, DevOps-инженерам (сборка/доставка), архитекторам (инфраструктура/безопасность), техлидам и руководителям команд для ускорения релизов и снижения рисков ошибок.

👉Зарегистрироваться👈
Please open Telegram to view this post
VIEW IN TELEGRAM
1🌚7
На NVIDIA GTC CEO NVIDIA Дженсен Хуанг назвал структурированные данные основой ИИ и показал ключевые аналитические платформы, формирующие $120-миллиардную экосистему корпоративных данных.

Про BigData как-то не сказал ничего. Но в любом случае без инжиниринга данных никак💗

https://www.youtube.com/live/jw_o0xr8MWU?si=HJ2yW1wS0NL36-j1
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥11😭6🙊1
В пятницу мы прилетели в LA и взяли машину, чтобы прокатиться до SF.

В LA было очень жарко. Мы остановились в Beverly Hills. Сам город понравился, много классных кафешек, вечером все нафокстрочены, как в Москве🚬. Куча дорогих машин, мужчины в пиджаках, девушки в вечерних платьях.

Шикарные песчаные пляжи в Santa Monica и Venice Beach. Много мексиканцев на пляжах, но не в Beverly Hills.

Первую остановку сделали в Santa Barbara. Напомнило заставку одноименного сериала. Город тихий, как будто в Мексике. Мы остановились в очень хорошем отеле. Но наша комната был сбоку от ночного клуба. До 2х ночи была дикая пати, клуб подпевал диджею. 1:30 ночи я генерил отзыв в Gemini, про отель=) хорошо, что в 2 они разошлись.

В следующем посту расскажу про SF.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥58