Инжиниринг Данных
23.9K subscribers
2.14K photos
63 videos
194 files
3.29K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Как эффективно построить потоковый конвейер данных на базе Evolution Data Platform ⤵️

Когда отчеты собираются часами, а решения принимаются по вчерашним данным, бизнес теряет скорость реагирования — а значит, и деньги. Все потому, что традиционные ETL-процессы с ежедневными запусками уже не успевают за реальным темпом рынка.
На вебинаре 21 мая эксперт Cloud․ru покажет, как создать отказоустойчивый конвейер с латентностью в минуты вместо часов — без сложной работы с инфраструктурой и лишних затрат.

В программе:
▶️в чем особенность проектирования архитектуры конвейера, обрабатывающего данные в режиме, близком к реальному времени: когда использовать микробатчинг в Managed Spark Streaming, а когда — классический батч-подход;

▶️зачем использовать Managed Trino для единого слоя запросов к «горячим» (в процессе обработки) и «холодным» (архивным) данным без дублирования логики;

▶️как организовать хранение слоев данных в Object Storage с партиционированием по времени для ускорения запросов;

▶️почему стоит использовать метаданные в реальном времени через Managed Metastore для поддержки изменяющейся структуры потоков;

▶️как эффективно визуализировать данные в Managed BI и настроить автообновление дашбордов и алерты на отклонения;

▶️какие способы оценки и контроля латентности конвейера существуют: от генерации события до отображения на дашборде.
Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
🤷31
Приглашаем вас на совместный вебинар AXENIX и вендора BR Systems, посвященный XLTable — OLAP‑системе с широким функционалом для работы с данными ClickHouse и Trino и поддержкой протокола XMLA в Excel.

Эксперты подробно расскажут об XLTable и его основных преимуществах: быстроте внедрения, отсутствии дублирования данных, снижении затрат на TCO, бессрочной лицензии и других.

В рамках вебинара вас ждет:

🔸Обзор рынка OLAP-систем
🔸Демо системы XL Table от BR Systems
🔸Разбор реальных кейсов крупных компаний

Также у вас будет возможность задать свои вопросы.

Для участия необходимо зарегистрироваться на сайте. На указанную вами почту придет ссылка на вебинар. Подключайтесь к нам 21 мая в 16:00.

До встречи!

XLTable: Telegram | Сайт
2❤‍🔥103💯3🍌3
Уважаемая команда по найму,

Благодарю вас за интерес к отклонению моей заявки.

Я ознакомился с вашим письмом об отказе и был впечатлён вашим процессом принятия решений и стремлением двигаться вперёд с другими кандидатами.

Однако в этом году я получил уже немало писем с отказами. Поэтому, после тщательного рассмотрения, я принял решение не принимать ваш отказ на данном этапе.
Ещё раз выражаю восхищение вашей смелостью отказать мне и желаю всяческих успехов в отклонении других кандидатов.

С нетерпением жду возможности присоединиться к команде в ближайшее время.

С уважением,

🏆
Please open Telegram to view this post
VIEW IN TELEGRAM
💯111👨‍💻26😭24❤‍🔥1613🦄5🐳2🤷‍♀1
Пример coding задачек для собеседования, но уже можно решать с AI. Пример от Staff Engineer из Meta.

То есть, вам нужно общаться с агентом и рассказывать, как вы думаете, как решаете задачу. Раньше можно было выучить типовые задачки и постараться, чтобы ответ прошел verification. А теперь, задачки по коду превратились в системный дизайн, где нужно все проговаривать.

Хорошая новость для тех, кто не любит секции leetcode! Но это в передовых компаниях уже так делают, думаю большинство такое не грозит.

https://youtu.be/A1kX8fJx53c?si=Mu3l-TppeqXxxnCV

У кого-то были уже такие примеры на собеседованиях?
❤‍🔥19🙊1
За последнее время мне удалось пообщаться со многими компаниями Enterprise-уровня, и у всех одна и та же проблема — криво внедренный Databricks.

Что значит криво? Значит неудобно и неинтуитивно.

Почему так? Потому что «а кто ж его знает, как надо».

Добавим сюда, что Databricks в такие конторы внедряется подрядчиками, которые ездят по ушам VP-уровню и другому персоналу, который уже мастер спорта по митингам и презентациям, но у которого есть сложности с технической составляющей организации, в которой они работают годами.

Вот и получается: хотели как лучше, а получилось как всегда.

Зато таких картин нет в историях со Snowflake.

Что бы там ни говорили про цены, производительность и другие особенности платформ, я ни разу не видел косячного внедрения Snowflake.

Ну, максимум ценник выше, чем должен быть, но люди работают, пишут запросы, и вопросов, как получить доступ к данным, не возникает.

У всех всё понятно: dbt, Airflow, GitHub. Всё работает как и должно, легко найти специалиста, легко подключить Claude Code.

А как у вас дела?

PS фото с paddle board, скоро будет экспедиция на 5 дней, тренируюсь.
25
Добавил секцию блога к сайту. Начнем с базы, что такое спутник 🛰🛰

https://blog.playeronespace.com/p/what-is-a-satellite
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚54
Офер в Яндекс за выходные: 6–7 июня

Если вы продуктовый, дата-аналитик или датасаентист с опытом на Python от 3 лет, участвуйте в Weekend Offer Analytics*.

Как всё устроено:

🔵 до 27 мая — регистрация;

🔵 6 июня — две технические секции, вместо трёх в обычном найме;

🔵 7 июня — знакомство с командами и офер.

В мероприятии участвуют команды: R&D, Автономный транспорт, Алиса и Умные устройства, Поиск и Суперапп, Независимый Ecom и другие. Вы сможете пообщаться с нанимающими менеджерами и выбрать проект, который покажется самым интересным.

Все подробности и полезные ссылкина сайте. После регистрации с вами свяжется рекрутер и договорится об удобном времени для интервью.
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳6❤‍🔥4🌚41🦄1
Отличный аргумент, что AI не заменит нас!

А вы умеете кушать готовить?👀
Please open Telegram to view this post
VIEW IN TELEGRAM
💯29🌚25🤷2
Собрал материал про AI workloads и видео карты на спутниках https://blog.playeronespace.com/p/brains-in-orbit-a-complete-guide

Решил, что IoT спутниковая сеть это очень банально. Узнал про LEO PNT - gps на низкой орбите с точностью до см. Очень круто и дорого. А вот Edge AI интересный кейс и можно начать с небольшого, если просто сфокусироваться на сам спутник, который будет делать расчеты на борту.
6
Если вам интересен соревновательный ML — у Яндекса скоро завершается регистрация на Yandex ML Challenge.

Формат довольно приятный: длинный онлайн-тур без жёсткого тайминга на несколько часов. Можно спокойно подумать над решениями и потестить разные подходы.

Из задач:
— LLM / foundation models
— CV
— RL
— оптимизация нейросетей

Старт — 21 мая. На всё дают 11 дней и 40 сабмитов на каждую задачу.

Топ-100 участников попадут в очный финал на Young Con в Москве.
Победителю — 1 млн рублей, топ-15 получат устройства от Яндекса.

В целом выглядит как хороший повод проверить себя на актуальных ML-задачах и посмотреть, что делают другие участники.

Регистрация ещё открыта.
🙈5❤‍🔥3🌚2🤷21
Поиск работы за рубежом часто выглядит как хаос: десятки джоб-бордов, LinkedIn, рефералы, противоречивые советы

В итоге можно месяцами что-то делать и не получать приглашений на интервью, а оффера ждать годами. Не потому что ты слабый кандидат — просто в твоем поиске нет системы.

AgileFluent вот уже 5 лет помогают IT и Digital специалистам искать работу на международке: 800+ офферов в 32 странах, большая команда топовых экспертов и собственная платформа по откликам и нетворку.

Ребята ведут крутой канал про международку, где делятся:
✔️ историями тех, кто переехал и зарабатывает в валюте,
✔️ разборами резюме и LinkedIn профилей,
✔️ гайдами, статьями и чек-листами, которые кратно упрощают поиски

Если давно думаешь о работе за рубежом — это хороший момент начать. Подписывайся на ребят🙂

👉 Подписаться

Реклама. ООО «Эджайл», ИНН 7810964334, erid:2VtzqxL664g
🙈2
В cвой личный slack добавил себе Notion бота из Notion Calendar, который собирает все встречи и присылает мне список на завтра и время во сколько вставать (за 15 минут до 1й встречи). Notion Calendar позволяет собрать все календари вместе, а если календарь закрыт, я вручную дублирую событие в личный календарь.

Видно, что день прям busy, но это у меня такие обычные вторник, среда, четверг.

Зато, в понедельник тихо, все еще отходят от выходных, а в пятницу все уже готовятся к выходным. Поэтому я уже воспринимаю вторник-четверг как данность, мне хоть в 3 раза больше митингов, справимся🎮

Сейчас столько классных штук, которые экономят время:
• можно собрать все slackи в одном месте и агент будет все писать, что произошло
• можно все почты подключить к агенту, тоже будет у вас summary.

Но я пока по старинке! А как вы себе упростили рабочий процесс?

PS reschedule конфликты - для слабаков🍪🍪
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥173
Послушал подкаст Data Engineering Central - там разговор с Джейкобом Мэтсоном, Developer Advocate из MotherDuck (это облачная версия DuckDB).


1. Индустрия устала от сложности
После лет оверинжиниринга (Spark, Kafka, огромные кластеры) - маятник качнулся обратно. Всё больше задач решается на одной машине. DuckDB - яркий пример: просто, быстро, без инфраструктуры.

2. AI не убьёт дата-инженеров - наоборот
Казалось бы, если AI генерирует SQL - зачем инженеры? Но тезис обратный: AI будет генерировать больше запросов, значит нужно больше людей, которые следят за качеством данных и моделями. Роль дата-инженера вырастет, а не исчезнет.

3. Data Modeling снова в моде

Когда AI пишет запросы, он опирается на структуру данных. Если модель данных плохая - AI будет давать мусорные ответы. Хорошая модель данных становится критически важной. По сегодняшнему опыту, AI очень хорошо помогает в моделировании. Ведь моделирование - это набор правил, которым следуют разработчики. Если мы создадим правила для AI, добавим необходимый контекст, то получится очень эффективно.

4. DuckDB vs Spark
Spark всё ещё нужен для реально больших данных. Но огромная часть "больших" задач на практике - это просто неоптимизированные маленькие задачи. DuckDB справляется с ними в разы проще и дешевле.

Вывод: Простота побеждает. AI не заменяет инженеров, а меняет их фокус - от написания SQL к проектированию данных и контролю качества.
❤‍🔥56🫡4🍌1🦄1
Сегодня проводил собес по system design DE. У Кандидата было резюме на 10 страниц текста! Сами понимаете серьезный кандидат. Я приложил задачку и результат.

Чувак не в теме особо про dbt, Snowflake и тп. Прям как из нашего отечественного дата инжиниринга, но нет, он был из Индии и уже много лет работает дата инженером. Как я понял весь его опыт был про Spark Jobs на Hadoop. И в основном на этапе data ingestions.

Нужно ли знать dbt и Snowflake всем? Нет не нужно. Но это, как бы, самое популярное на рынке и для общего развития неплохо бы знать в общих чертах, как и duckdb, и тп. Это называется grow mindset. Сейчас вообще можно ничего не знать, но работу делать. А если вы еще и понимаете, что делаете, то тогда работа приносит удовольствие.

Идеально, когда вы понимаете и знаете, а ваша команда не знает и не понимает, как и ваш менеджер😁

PS я еще провожу собеседование на CTO и инженера по спутникам.

Идея простоя, засунуть побольше AI и других вещей в спутник и отправить в космос, сложность, что пустой спутник отправить в космос стоит годовых инвестиций. И цены только растут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💯175😭3🙊1
Сегодня был еще один собес. На входе 5 лет опыта.

Задачка такая же - платформа на AWS.

Кандидат прыгал с Postgres на Snowflake и Databricks. Про dbt не слышал, Airflow мельком.

5 лет это реальный опыт. То есть можно работать годами и ничего не знать, а можно за 6 месяцев качнуться на Surfalytics или самому, построить несколько типовых решений и уже будете знать больше чем 90% кандидатов с 5-10 лет опыта.

Причина вся та же, люди ленятся учиться и развиваться. Они думаю, что на работе им достаточно навыков и их потом возьмут на другую работу. В свободное время они гуляют и кайфуют. И это хорошо!

Но лучше гулять и кайфовать в рабочее время🎃 Но для этого надо бы сначала качнуться как следуют, чтобы потом на “чиле, на раслабоне”🛌
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥61💯22🤷751