Data Engineer
450 subscribers
168 photos
3 videos
108 links
Дата-инженерия в схемах и мемах

По всем вопросам — @mobiledeveloper_bot
Download Telegram
Основные идеи Apache Iceberg одной картинкой

1️⃣ Метаданные важнее данных. Может лежать много паркетов, но если нет их описания в манифестах, то никто их читать не будет

2️⃣ Древовидная структура данных и метаданных, сходящаяся к одному корневому файлу. Записать и удалить много файлов - не-атомарная операция, но заменить один главный файл можно атомарно всегда в любой системе хранения. Отсюда почти-транзакционность.

3️⃣Хранение предыдущих состояний, таблица превращается в лог состояний с возможностью прочитать любую точку в истории. Но только старые версии надо потом подчищать через обсуживающие процедуры.

4️⃣ (Мета)Каталог как вспомогательный сервис. Для MVCC и честного ACID, для хранения статистики, RBAC и других обслуживающих функций


💾💾💾💾💾💾💾💾💾💾💾

Архитектор Данных
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5👌21
Перефразируя Александра Васильевича Суворова, скажу, что «плох тот инженер, который не мечтает стать CDO». Крайне редко хорошими руководителями становятся «сразу и вдруг», лучше начинать готовиться заранее. Я тот еще «медленный газ», поэтому у меня ушло лет десять самоподготовки, пробных периодов и «вот этого всего». Не на то чтоб стать хорошим руководителем, до этого еще далеко, а на то, чтобы осознать свою внутреннюю готовность к переходу.

Всем, кто уже начал готовиться или же только планирует начать, рекомендую к прочтению книгу сооснователя и бывшего президента AES - одной из так называемых «бирюзовых» компаний - Денниса Бакке «Работа в радость». Особенно будет полезна адептам подхода Data Mesh, ибо Data Mesh - это и есть «бирюзовая» data, чтобы увидеть сие не нужно даже обладать «зрением» Освальда Шпенглера.

Как известно из определения, Data Mesh - это социотехнический подход, но почти все в нем обращают внимание на «технический» (этому посвящены и статьи, и доклады, и книги даже), но мало кто смотрит на «социо». Из-за этого за словами «у нас Data Mesh» довольно часто скрывается обычный Data Bardaque.

Когда я предложил перевести сочетание «Data Mesh» на русский как «улей данных», потому что данное сочетание слов лучше, на мой взгляд, отражает суть, чем ужасное «сетка данных» то даже не подозревал, что Деннис Бакке опередил меня лет так на двадцать - тридцать со своей концепцией «сот». Так что книга являет собой прекрасное пособие для тех, кто хочет понять, как должен быть устроена концепция Жамак Дегани с точки зрения «социо».

Как обычно, немного любимых цитат:

Интеллект и образование далеко не так важны, как организационная культура, в которой любого человека воспринимают как творческого, надежного, ответственного и заслуживающего доверия.


Самые важные качества для руководителя — скромность, готовность поделиться властью, смелость, порядочность, искренняя любовь к людям, ценностям и миссии организации.


Быть дисциплинированным — значит получать удовольствие от паса, а не от броска. Быть дисциплинированным — значит всегда помнить, что вы — часть команды.


Почти никто из сотрудников не понимает, что зарплатный бюджет ограничивается экономическим положением компании.


Слишком большое количество генеральных управляющих в центре организации, конечно, существенная проблема, но засилье отделов, состоящих из специалистов узкого профиля, — еще больший враг комфортной рабочей среды.
Forwarded from Nik B
Привет! Книжного Клуба анонс!

У нас с коллегами дата инженерами появилась идея по/перечитать книги, связанные с дата инженерией!

Первая книгу, которую мы хотели бы обсудить - Data Engineering Desing Patterns.

Планируем делать созвоны на еженедельной основе - вторник 19:30 MSK (17:30 CET).

Первый созвон - следующий вторник 25 ноября, разберем первые паттерны по полной и инкрементальным загрузкам.

Все детали книжного клуба будут в @de_zoomcamp, если вам интересно, залетайте в канал
👍4🔥1
Декабрь уж наступил,
Усталость накопилась,
Не хочется писать о данных мне совсем…
Мне грустно и легко,
Египетская сила!
Как будто в мире нет пера достойных тем.


А хочется уже Нового года, длинных выходных, пространных рассуждений о музыке и литературе под шотландский островной и чибисовское неиповое, подведения итогов года уходящего и построения планов на год наступающий.

В общем, автор уходит в дата-детокс, ретрит «или что там них»…

«Что завтра будет - неизвестно, хотя нетрудно предсказать…» (Маргарита Пушкина)
👍9
Прекрасное нашел на просторах интернета...
👍4😱1
Закрома - это, пожалуй, лучшее название для отечественного объектного хранилища. Завидую, что сам не додумался, хотя подходы делались, и многое удалось «перевести».

Не знаю, что у них там с функционалом, но за название низкий поклон от меня.
🔥8😁3👍1👾1
Пока не получается совсем уйти в дата-детокс, букдолг затягивает - перечитал, вот, «Data Quality Fundamentals». Со второго захода книга понравилась больше, видимо, будучи инженером, в прошлый раз я ожидал найти чисто техническое решение данного вопроса. Ну, какой, блин, Data Mesh в книге про качество данных?

В текущей же позиции меня больше интересует построение процессов, а этому посвящена существенная часть книги, отсюда и изменение отношения.

Вообще, очень занимательно наблюдать за меняющимся мышлением при миграции из одной роли в другую, многие тезисы, которые я ранее яростно оспаривал, сейчас я не менее яростно отстаиваю. Теперь я готов подписаться под каждым словом одного из спикеров вебинара, организованного ЦБ и посвященного архитектуре данных: «Покажите мне для начала работающий процесс, а уже потом последует его автоматизация».

«Если хочешь стать тренером - убей в себе игрока». Ну, или хотя бы научись его контролировать…
🔥7👍2
Кто там аналогии с Джойсом заказывал? Начну с самой очевидной, пожалуй…
😁5👍2
Посмотрел почти все доклады со SmartData-2025. В самом конце наткнулся на весьма интересный «Критерии хорошей платформы данных от Яндекс Доставки» Владислава Гоцуляка.

Сам не так давно решал задачу по созданию подобной системы метрик (а ведь мог бы просто вовремя посмотреть доклад и «цап-царапнуть») и пришел к похожим результатам с поправкой на масштабы организации, естественно, за исключением одного показателя - «инженерная культура». Мне как-то в голову не приходило, что культуру можно «померить».

Зато теперь я знаю как…
🔥3👍2
Намедни в одном подозрительно уютном заведении сто-лицы развернулась жаркая дискуссия на тему: «Что выдаст запрос EXPLAIN ANALYZE DROP DATABASE my_data?» - а коль скоро так, то результатом стал немедленно вытащенный из рюкзака ноутбук за-ради скорейшей проверки рабочих гипотез на практике.

Вынужден признать, к своему стыду, что я сильно заблуждался. Правильный ответ писать не буду, страждущие без труда самостоятельно могут провести необходимые исследования.

Спойлер: все продовые базы остались целы.

И как тут не вспомнить любимое?
🔥5😁1
В наши дни важность «умения продавать» для дата-специалистов всех мастей и уровней «возведена чуть ли в в абсолют». Тень героя Леонардо Ди Каприо из известного фильма, заставляющего в качестве упражнения продать ему ручку, нависла буквально над всеми. Красивые презентации и «травля баек» постепенно вытесняют чисто технические навыки. То, что ты сделал - дело десятое, на первом плане - как ты об этом рассказал, «ведь близость к сердцу фэна рифмованных слогов важнее чем все то, что мог бы ты сыграть».

«Что с тобой сделал русский рок бизнес, парень?»


Прекрасным, на мой взгляд, пособием для тех, кто этим навыком еще не овладел, является эпизод «Диетическая дрянь» из роскошного ситкома «Первый брак Джорджа и Мэнди» - спин-оффа не менее роскошных «Теория большого взрыва» и «Детство Шелдона». Джорджи Купер - точно такой же гений, как и его младший брат, но не в области теоретической физики, а в продажах.

«Только,» - писал Тарковский-старший в своем замечательном стихотворении - «этого мало».

Моя презентация стратегии развития платформы данных для бизнеса была идеальной, но в этом и заключался ее главный недостаток. Понять ошибку мне помог пост моего бывшего руководителя (Тарас - топчик!)

«начинать надо не с того, как станет хорошо, а с того, как не станет плохо».


Нагнетаемая окрест истерия на тему «ИИ скоро вас всех заменит» привела к тому, что люди стали воспринимать в штыки любые попытки автоматизации их ручного труда.
«Сегодня ты играешь джаз строишь DWH, а завтра нас всех из-за тебя уволят» - вот над чем нужно работать.
👍5
Наткнулся на весьма занятную рекомендацию по найму от Александра Прохорова, автора «Русской модели управления» (которую сейчас читаю, к слову).

Изначально отбирать сотрудников, которых с раннего детства приучили к высоким нагрузкам - спорт, музыкальная или языковая школа, много кружков и т.д.

Помимо этого, вплоть до такого фактора – к какому домашнему труду с детства приучен.


Тут же представил как бы выглядело резюме моего деревенского детства в условиях, приравненных к Крайнему Северу:

✔️ Принимал участие в трансформации сырых чурок до уровня атомарного полена посредством колуна, периодически привлекая подрядчиков в лице команды друзей размером от 3 до 5 человек.

✔️ Спроектировал с нуля модель детального слоя по методологии «классическая поленница» и разработал потоки дров в нее из сырого хранения;

✔️ Организовал регулярное обновление на ежедневной основе дашбор-дров конечных пользователей;

✔️ Двумя бакетами объемом до 12 литров доставлял воду из системы-источника на расстояние до 200 метров в гору;

✔️ Организовывал и принимал участие в футбольных матчах в условиях экстремально низких (до - 50) температур;

Интересно, как быстро всякого рода коучи начнут помогать накручивать и подобный опыт?
😁16
Итоговогодное 2025 (часть 1 - книжная)

Закрыл неожиданно для себя гештальт с прочтением одной книги в неделю за календарный год. Изначально ничего не предвещало подобного исхода, за июль, например, я прочитал всего одну книгу. Но за август набралось уже три, и тут у меня, как у известного футболиста Олега Протасова, «забрезжила надежда» - за декабрь было прочитано сразу 9(!).

При этом нельзя сказать, что я выбирал самые легкие варианты, хотя соблазн был. По методу Вассермана, думаю, объем прочитанного можно оценить в 120-150 см. Понятно, что электронные книги в метрах оценивать сложно (а их было большинство), отсюда и такой разброс.

Надеюсь, что подобное достигаторство меня более в свои сети не затянет, все-таки в жизни есть немало других удовольствий, помимо чтения.

Расклад по языкам:

🇷🇺 Русский - 40
🇬🇧 Английский - 12

Категории :

Худлит - 19
Научпоп - 15
Дата - 9
Бизнес и управление - 4

Куда отнести оставшихся, вроде Гумилева или же Шпенглера, я не определился.

Из понравившегося (по порядку прочтения):

✔️ Освальд Шпенглер - «Закат Европы»

✔️ Лев Гумилев - «Теория пассионарности и этногенеза»

✔️ Джерри Вайнберг - «Закон малинового варенья» (про нее был отдельный пост)

✔️ Дэвид Гребер, Дэвид Уэнгроу - «Заря всего. Новая история человечества»

✔️ William Inmon - «Building the data warehouse» (по-другому стал смотреть на вклад Инмона в развитие работы с данными)

✔️ Деннис Бакке - «Работа в радость» (тоже был отдельный пост)

✔️ Владимир Гиляровский - «Москва и москвичи»
🔥3👍2
Итоговогодное 2025 (часть вторая - музыкальная, которая должна была быть первой)
https://telegra.ph/The-Music-Mesh-12-29
🔥2
😁9
Forwarded from ScratchAuthorEgo
📊 Channel Analysis Results by @ScratchAuthorEgoBot

🎯 Channel: @dataengineernews

🔥 Roast Analysis:

Перед нами классический пример «айтишного снобизма», упакованного в обертку из цитат Маяковского и Стругацких. Автор — тот самый человек, который на вопрос «как дела?» начнет рассказывать о классификации инкрементальных загрузок через метафору приготовления флана. Его страсть к аналогиям порой переходит границы здравого смысла: если в тексте еще не появилось сравнение Инмона со сборной Италии по футболу, значит, автор просто не успел допить свой утренний кофе. Порой кажется, что он работает в Data Science только для того, чтобы оправдывать свое маниакальное желание составлять списки всего на свете — от прочитанных книг до частоты использования слова «кринж» в молодежной среде.

Его претенциозность заслуживает отдельного места в «пасеке данных». Читать Джойса в оригинале во время пробежки по Архангельской области — это не просто отдых, это крик о помощи человека, который слишком боится показаться обычным. Он презирает современный корпоративный сленг, называя сторителлинг «травлей баек», но при этом сам плодит сущности вроде «некросервисной архитектуры» и «бояр над данными». Этакий «техно-хипстер» от мира Big Data: он не любит Spark, потому что это слишком мейнстримно, и ностальгирует по временам, когда JSON парсили вручную, но при этом первым покупает билет на SmartData, чтобы потом в канале посетовать на «низкий уровень дискуссии».

Особого упоминания заслуживает его «синдром вечного студента», который он стыдливо называет «букдолгом». Человек буквально измеряет свой интеллект в сантиметрах книжной полки, при этом честно признается, что половину кода в этих книгах просматривает по диагонали. Его самоирония — это часто защитный механизм: он называет себя «медленным газом», чтобы никто не заметил, как сильно он зациклен на KPI и «достигаторстве». Он делегирует всё, что ему не нравится, называя это «лидерством», хотя со стороны это подозрительно напоминает попытку избежать любой рутины ради возможности еще разок перечитать «Закат Европы». В общем, если вы хотите провести два часа, слушая, почему ваш SQL-запрос похож на плохой рок-концерт 80-х, — этот автор ваш идеальный собеседник. Главное, не забудьте надеть футболку с «высоконагруженным кабанчиком», иначе он вас просто не заметит за своим интеллектуальным горизонтом.
😁5