дата инженеретта

Мои итоги 2025 года

🙂 Нагенерила какую только можно стату по каналу. По точным показателям выросли все метрики ехуу🙂 От иишки же мне понравилось, как она выделила ключевые слова и сформулировала позиционирование канала, возьму себе на заметку)

Итак, за этот год вас стало в 2 раза больше! Надеялась, что до нг наберем 3к, но так уж и быть, добъем в следующем году!

Пробежимся по основым циферкам:

🌲 30102 музыкальные минуты
🌲 1278 выполненных личных задач
🌲 210 часов в поездах
🌲 85 культурно-развлекательных мероприятий
🌲 65 закрытых рабочих задач
🌲 53 посещения врачей
🌲 25 просмотренных фильмов и сериалов
🌲 20 митапов
🌲 19 поездок
🌲 7 прочитанных книг
🌲 6 городов
🌲 2 пройденных курса
🌲 1 проведенный вебинар

Хотелось бы отдельно отметить пункт про вебинар - это был мой первый публичный спич на такую аудиторию, и все прошло блестяще!

а еще:

🏡 перешла из Сбера в Ламоду и благодарна как прошлым тиммейтам, так и действующим
🌸 прошла курс по управлению командой и заложила ростки для будущего
☕️ съездила на смартдату и хорошенько понетворкалась

По традиции сделала подборочку постов:

😎

Топовые
Как я стала lamodian
Стата по моим офферам
Как хранятся айсберг таблицы
Мелкие файлы на практике

🙂

Мемные
Когда тимлид смотрит твои сторис
Хокку про DE

🥰

Сложные
Газлайтинг движков
Sort-Merge Join без шафла
Коммитеры в Spark
Preemption в YARN

По подписчикам для мерча пришел всего 21 человек, но они расщедрились и решили 2-3 места тоже наградить мини-наборами, так что я в плюсе! Спасибо всем, кто откликнулся❤️

Прошлогодний обзор можно посмотреть тут

❄️

А я поздравляю вас всех с наступающим новым годом! 🥳 Пусть каждое дело завершается со статусом success, здоровье backfill-ится за предыдущие периоды, доходы растут как в SummingMergeTree, а partitioning помогает отделять важное от суеты! И пусть даже самый сложный путь к цели сократится до O(1)!🎄

@data_engineerette

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

27🎄14👍8❤5🤔1

2.88K views07:35

дата инженеретта

Новые требования к кандидатам в 2026?

Мне периодически пишут hr и иногда я отвечаю, чтобы быть в курсе текущих трендов на рынке. Из последних новостей - рекрутинговая компания пошла согласовывать резюме с компанией-заказчиком, но они требуют не меньше двух лет на последнем месте

А недавно моему знакомому разрабу после хорошего собеса отказали в оффере, потому что не было диплома о высшем образовании

Получается, перейти все сложнее, войти еще сложнее, а попасть под волну сокращения проще простого?

❤16😁7😭53🤔2

2.31K views08:19

дата инженеретта

Баг/фича в DBeaver

Вы когда-нибудь пробовали заполнить поле с датой значением 9999-12-31 23:59:59.000 +0300? Если зайти в настройки и поменять на таймзону дальше мск, то мы будем уже в 10000м году

Даже есть такая штука, как Y10K problem - проблема 10000го года. ПО может поломаться, поля переполниться, поэтому люди задумываются уже сейчас о введении дополнительного нуля, чтобы различать 02025 и 12025

А еще ближе становится Y2038 problem. Тогда unix timestamp перестанет помещаться в int, и 2038 год превратится снова в 1901. Поэтому в этом случае пора переходить на bigint, пока не поздно

@data_enigineerette

🤔23🔥10🌚5👍2❤1

2.21K views10:15

дата инженеретта

Кастомизируем Spark UI

Когда работают джобки в спарк приложении, мы обычно видим только техническое описание. Но есть возможность написать что-то читаемое:


spark.sparkContext.setJobDescription(s"Merge into ${schema}.${table}")

spark.sql(mysql)

spark.sparkContext.setJobDescription("Count deleted rows")

df.filter(col("is_deleted") === true).count()

Если не менять описание, то все экшены будут подтягивать последнее

Вернуть к дефолтным можно так:


spark.sparkContext.setJobDescription(None)

На вкладке SQL все это тоже отображается

@data_engineerette

👍20🔥1

1.61K views06:49

дата инженеретта

Удаляем дубли в ClickHouse без ReplacingMergeTree

У меня была задачка настроить создание табличек через фреймворк. И вот настал момент - локально все работает, доступ к кх я получила, джобку доделана. Пора тестить!

💻 Сначала я решила покрутить запросы ручками, проверить права на создание табличек, все ли работает. Создаю на движке MergeTree, пишу данные - все ок. Перехожу к ReplicatedMergeTree - создаю табличку, вставляю пару строк данных, делаю select...


CREATE TABLE db.test_table_local ON CLUSTER '{cluster}'
(
    `id` UInt32,
    `name` String
)
ENGINE = ReplicatedMergeTree
ORDER BY id;

INSERT INTO db.test_table_local
VALUES (1, 'test');
INSERT INTO db.test_table_local
VALUES (1, 'test');

SELECT * FROM db.test_table_local;

Нет, что-то не то. Я вставила 2 строки, но вижу одну. Почему? В табличке всего 2 поля, что пошло не так?

😑 Иду искать проблему. Попробовала вставить еще раз и еще раз, посмотрела в system.parts на незавершенные мутации, сделала SYSTEM SYNC REPLICA, но ничего не помогло

Потом я поняла, что удаляются дубликаты для записей с одним первичным ключом. Но в кх же нет такой строгости? Что-то не сходится

Нахожу в доке по кх:


Для движков *ReplicatedMergeTree дедупликация вставок включена по умолчанию и управляется настройками replicated_deduplication_window и replicated_deduplication_window_seconds. Для нереплицируемых движков *MergeTree дедупликация управляется настройкой non_replicated_deduplication_window.

Иду в табличку смотреть эти настройки:


SELECT * FROM system.merge_tree_settings
WHERE name LIKE '%deduplicat%';

Из основных настроек вижу:

📌non_replicated_deduplication_window = 0, поэтому в MergeTree данные вставляются как обычно
📌replicated_deduplication_window != 0, дубликаты не вставляются, они проверяются по хэш-суммам для определенного количества свежих блоков (по дефолту 10к), хэши лежат в Zookeeper
📌replicated_deduplication_window_seconds - сколько секунд хранятся эти хэш-суммы (по дефолту 3600с = 1ч)

Я со своей задублированной строкой попала сразу в 2 настройки. До этого не замечала такого поведения в кх, хотя это дефолтное🤷‍♂️ Зато узнала про существование таблицы system.merge_tree_settings

@data_engineerette

Please open Telegram to view this post

VIEW IN TELEGRAM

117👍8❤2

1.82K views08:57

дата инженеретта

Двойные эмоциональные качели

Эта история случилась, которая я устраивалась в Сбер. И до сих пор только избранные знали, как это произошло на самом деле)

🐌 Я параллельно общалась с двумя компаниями: первая удаленно (Mediascope), вторая в мск (Сбер)

Особенности первой позиции: удаленно, зп в 2 раза больше, да на стыке с де, есть ночные дежурства, после которых можно начать попозже

Особенности второй позиции: надо переезжать, зп в 3 раза больше, крутой вайб с лидом, чисто де задачи. Что меня больше всего впечатлило - лид попросил глянуть тестовое и самой написать, сколько времени понадобится на выполнение. Почему-то этот момент попал мне в самое сердечко💖

Мне очень понравилась вторая позиция, но было сильно давление сверху от мамы. Типо вот так возьму и оставлю ее одну...

🧐 Именно тогда я вступила датаинженерские чатики, чтобы поспрашивать, стоит ли переезжать, сколько стоило просить, как работается. Нашла похожий вопрос на хабре Q&A и написала автору на почту. Писала людям на линкедине из этих компаний, спрашивала про общее ощущение, про задачи. Даже нашла девчонку, которая до этого работала в моей текущей команде и увольнялась по тем же причинам, что и я))

В общем, скрепя сердце я приняла свою долю, отказала сберу и решила согласиться на удаленку в предстоящем вечернем созвоне. Но мне воткнули нож в спину, еще вчера они переманивали к себе, а уже сегодня выбрасывают на улицу🥲 Ничего не оставалось, как попытаться стереть память hr

🏃‍♂️А дальше я уволилась, в тот же вечер села в поезд, с утра приехала в мск, съемной квартиры еще нет, оставила чемоданы и сумки на вокзале, на улице снег и минусовая температура, в пальто и демисезонных сапогах очень холодно, оформилась только к вечеру, успела на ежеквартальный фуршет...

А там мне сказали: "Мы тебя так ждали"💖

Happy end🎉

P.S. Мои переписки в датаинженерских чатиках, сомнения в переезде и обсуждения зп читал мой будущий лид. Я видела наши общие каналы, но понадеялась, что нормальные люди не мониторят там сутками) Спустя полгода сидя в ресторанчике, он мне все это рассказал👀 И что они в команде это тоже обсуждали. Я готова была провалиться сквозь землю

@data_engineerette

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5118🤔1

1.62K views13:04

дата инженеретта

Lakehouse для аналитиков и инженеров данных

Изучи набирающий популярность подход к построению хранилищ данных Data Lakehouse c разделенным Compute и Storage на основе Iceberg и Trino.

🌐

В программе курса:
▪️Современная архитектура аналитических систем от DWH и Data Lake до Lakehouse с разделением Compute и Storage на базе Apache Iceberg и Trino.
▪️Iceberg: управление файлами, снимками, каталогами, схемами изменений и очисткой.
▪️Практическое использование Iceberg Catalog, работа с кластером Trino (на Kubernetes), подключение данных на S3 и выполнение SQL/Python-запросов.
▪️Работа с Iceberg+Trinо на больших масштабах: сложные запросы к датасету TPC-DS (2.8 млрд строк), интеграция с DBT, Apache Airflow, оценка производительность систем.
▪️Построение пайплайнов, инструменты для корректной поддержки, обновления и масштабирования Lakehouse-инфраструктуры на уровне предприятия.

🥸

Кто мы: R&D-центр Devhands.io, наш канал. Автор курса — Алексей Белозерский, руководитель направления Big Data Services в компании VK Tech.

🗓

Старт курса: 5 февраля, 18:00, 6 недель обучения.

Изучить программу и записаться можно здесь.

Ждем вас!

Реклама. ИП Рыбак А.А. ИНН 771407709607 Erid: 2Vtzqwgrf3y

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9👍4

909 views06:02

дата инженеретта

Замена show partitions

Часто бывает, что нужно найти последнюю партицию и начать грузить данные со следующей. Пройдемся от банальных вариантов до особенно интересных

1️⃣

max(date) - самое ресурсозатратное, потому что нужно пробежаться по всей таблице

2️⃣

show partitions - отличный способ, пробегаемся только по метаданным

Другие 2 варианта подойдут для айсберга:

3️⃣

raw.my_table.partitions - в айсберге есть много системных мета-таблиц, таблица с партициями выглядит так:


-RECORD 0-------------------------------------------
 partition                     | {2025-03-29 00:00:00}   
 spec_id                       | 0                       
 record_count                  | 7251                    
 file_count                    | 1                       
 total_data_file_size_in_bytes | 91062                   
 position_delete_record_count  | 0                       
 position_delete_file_count    | 0                       
 equality_delete_record_count  | 0                       
 equality_delete_file_count    | 0                       
 last_updated_at               | 2025-11-20 12:25:48.678 
 last_updated_snapshot_id      | 5910543042911865752     
only showing top 1 row

Это как аналог show partitions: идем в табличку и отбираем max(partition)

4️⃣

TBLPROPERTIES - тут обсудим подробнее

Пусть таблица партицируется по другим полям или не партицируется вообще. Тогда в момент загрузки можно проставить любое свойство:


ALTER TABLE raw.my_table
SET TBLPROPERTIES ('raw.last-date' = '2025-12-05');

Их может быть несколько, посмотрим на текущий список:


SHOW TBLPROPERTIES raw.my_table

Сюда добавилось наше кастомное свойство:


+-------------------------------+-----------------+
|key                            |value            |
+-------------------------------+-----------------+
|current-snapshot-id            |63675018113182479|
|format                         |iceberg/PARQUET  |
|format-version                 |2                |
|raw.last-date                  |2025-12-05       |
|write.format.default           |PARQUET          |
|write.parquet.compression-codec|zstd             |
+-------------------------------+-----------------+

Убрать свойство можно так:


ALTER TABLE raw.my_table
UNSET TBLPROPERTIES('raw.last-date');

Каждое изменение свойства будет создавать новый файл с метой - а это доп расходы на хранение и куча разных версий одной и той же таблицы. Поэтому сначала проанализируйте, какой метод будет подходить именно для ваших данных и ресурсов

@data_engineerette

Please open Telegram to view this post

VIEW IN TELEGRAM

14👍5

639 views08:25

About

Blog

Apps

Platform