Data Engineer
450 subscribers
168 photos
3 videos
108 links
Дата-инженерия в схемах и мемах

По всем вопросам — @mobiledeveloper_bot
Download Telegram
Наблюдал сегодня за попыткой десятимесячного сына выбраться из стульчика для купания(кто не знает, что это такое - см фото). Он встал на ноги, придерживаясь за поручни, но не стал перешагивать, а перегнулся через них и перелез, то есть свел задачу к той, которую он умеет решать хорошо.

Эти натолкнуло меня на мысль, что в роли CDO очень полезен архитектурный бэкграунд. По сути, в проектируемой системе на уровне C1 появляется еще один вид связи, который нужно учитывать: связи между людьми. Таким образом, «вылив воду из чайника, задачу можно легко свести к предыдущей».

К слову, подобный прием предлагал великому ультрамарафонцу Скотту Джуреку, мандражировавшему перед выходом на старт дебютного стомильника, его друг Дасти Олсен: «Это всего лишь пятидесятимильник, а потом еще один пятидесятимильник, а бегать пятидесятимильники ты уже умеешь».

Объединив эти случаи можно сформулировать Закон чайника-стульчика-Олсена: «Довольно часто сложную и незнакомую задачу можно свести к простой и знакомой при помощи смекалки».

P.S. И да, я просто пародирую здесь Джерри Вайнберга.
👍5
#заметкинаполях #datapipelinepocketreference

Нанес на свою беговую карту очередную локацию - старинный русский город Тотьму, «город музеев и мореходов», «родину души» замечательного русского поэта Николая Рубцова, «долго гнавшего свой велосипед и остановившего его в глухих лугах, чтобы нарвать цветов и подарить букет любимой девушке». Легкая сорокаминутная пробежка на низком пульсе (до 120 ударов в минуту) - идеальная возможность и город осмотреть, и о планах на рабочий день подумать.

Вернемся ненадолго к книге о конвейерах данных, в прочитанных к сему моменту главах много кода, говорить особо не о чем.

Глава 4 посвящена извлечению данных из различных источников, таких как: MySQL, PostgreSQL, MongoDB, REST API и загрузке их в S3. В главе 5 данные переносятся из S3 в RedShift и Snowflake. Глава 6 - про преобразование данных, слегка затрагивается тема моделирования.

А Тотьма, одна из «жемчужин Русского Севера», летом хороша, рай для удаленщика, пусть и без тыквенного латте и чибисовских неип. Как же чудесно встать в 5 утра, взять ноутбук и книжку, помахать приветственно памятнику Николая Михайловича, окунуться по пояс в зеленое море дикорастущих трав и, глазея на почти неподвижную Сухону, под щебет птиц писать сие сообщение.
👍6
Красивое
😁11
#заметкинаполях #datapipelinepocketreference

Глава 7 посвящена «оркестровке» конвейеров данных - процессу, «обеспечивающему надлежащее управление зависимостями и выполнение шагов конвейера в правильном порядке», - и одному из самых популярных инструментов такого рода - Apache Airflow.

Airflow в мире данных - это как Джек Дэниэлс в беге, то есть довольно простой инструмент, предоставляющий весь функционал, необходимый для объединения отдельных, различных по типу задач в единый «тренировочный конвейер», направленный на достижение конкретной цели и вместе с тем обладающий механизмами для контроля текущего статуса.

В главе содержатся основные сведения об Airflow: история возникновения, установка и настройка, компоненты, примеры создания DAG.

Стоит упомянуть, что в книге рассматривается версия 1, а 2 только предвкушается, в то время как совсем недавно свет увидел Airflow 3. Надеюсь, что, подобно великой книге Джека Дэниэлса, сей инструмент ждет еще множество переизданий.

продолжение следует...
👍2
#заметкинаполях #datapipelinepocketreference

В отпуске совсем не хочется ни читать, ни писать, ни думать на рабочие темы, тем более, что провожу я его в этот раз на своей малой Родине - селе Ильинско-Подомское, расположенном на юге Архангельской области.

Главной местной достопримечательностью, на мой взгляд, является новенький, открытый прошлой осенью стадион с четырехсотметровым кругом и весьма приличными беговыми дорожками, в моих московских локациях: ДДС и Таганский Парк - качество дорожек примерно такое же. Успел тут уже установить парочку тренировочных season best, постепенно приближаясь к самому себе образца 2018 года.

Занимательный факт: восстанавливаюсь здесь я намного быстрее, чем в Москве, при том, что встаю намного раньше и сплю меньше. «Наверно, это мой рай.» - пела исполнительница дорогого сердцу каждого красно-белого хита «Знаешь ли ты?».

Тем не менее, книгу о конвейерах я все-таки дочитал.

Глава 8 посвящена проверкам качества данных, приведен пример разработки простого фреймворка для осуществления сего действа, описаны основные отслеживаемые метрики.

Глава 9 рассказывает о передовых методах обслуживания конвейеров.

Глава 10 - про измерение и мониторинг производительности.

На этом книга все, в следующий раз подведем итоги.

продолжение следует...
👍4🥰1
#заметкинаполях #datapipelinepocketreference

Подведем итоги. 


Книга, на мой взгляд, несмотря на заверения автора, в первую очередь предназначена для новичков, благодаря внятному и хорошо структурированному изложению основ и многообразию примеров (кода в том числе),  и будет служить прекрасной альтернативой / дополнением другим источникам обучения, таким как курсы, интенсивы и вот это вот все.

Для более опытных специалистов может показаться скучной, наверняка, весь материал вы давно уже усвоили и много раз применяли на практике, опять же много кода, который я, к примеру, просмотрел по диагонали. Полезной книга окажется тем, кто задумывается о создании собственного курса по инженерии данных (благодаря внятному и хорошо структурированному изложению основ и многообразию примеров) или ищет материал для телеграм-канала (как я).
👍7
Архитектор данных своим постом подкинул идею написать про то, что разделило жизнь в роли «продающего эксперта» на До и После. В моем случае таким сепаратором стала книга Джеральда Вайнберга «Закон малинового варенья». Никто не сможет представить ее лучше самого автора: «Если вы консультант или когда-нибудь пользовались услугами консультанта, тогда эта книга для вас. Она рассчитана на широкую аудиторию, поскольку в настоящее время практически каждый является своего рода консультантом».

А я просто приведу свои любимые цитаты из нее. Хорошо бы и книгу, конечно, перечитывать периодически, ибо сказанное в ней я регулярно забываю в повседневной жизни, получаю очередными граблями по голове и опять отправляюсь на штрафной круг…

«Любой, кто не озадачен и не сбит с толку современной действительностью, потерял связь с реальностью.»

«Один из способов, используемых руководителями, чтобы избежать упоминания о том, что у них есть проблема, — назвать эту проблему «технической».

«Найдите какую-нибудь систему, которая в чем-либо похожа на ту, которую вы проверяете, и используйте ее как источник идей. Био­логия, психология, инженерное дело, спорт, семейная жизнь, здо­ровье — все это возможные варианты. Системы не обязательно должны быть одинаковыми: вы ищете идеи, а не ответы.»

«Если повнимательнее присмотреться к набору хитрых прие­мов консультанта, легко обнаружить, что лучшие из них не имеют ничего общего с их «специализацией и могут быть использованы консультантами в любой области деятельности.»

«Чем лучше вы приспособлены к существующим условиям, тем сложнее вам будет адаптироваться к изменениям в будущем.»
🔥4
Forwarded from StarRocks meetup 19.06
📼 Запись митапа теперь доступна!
Если пропустили эфир или хотите пересмотреть — мы всё сохранили.
Смотрите на любой удобной платформе
🔥2
Все так. К сожалению, подобный уровень аналитической культуры все еще довольно распространен, причем характерен не только для маленьких компаний, вроде автосервиса «У Ашота», но и для весьма крупных. С одной стороны, это означает, что у подобных мне специалистов всегда будет работа. С другой же, хочется решить задачу в общем виде.

Вопросы культуры меня занимают довольно давно, но, в основном, факультативно, теперь же - это часть моих рабочих обязанностей, а значит, пора изучить его подробнее.

Про книгу Карла Андерсона «Аналитическая культура. От сбора данных до бизнес-результатов» я узнал из прекрасной статьи коллег из Лемана Про о том, как они внедряли корпоративную BI-школу (статья - тут, если кто пропустил), и, наконец-то, до нее дошел ход. Как обычно, буду держать в курсе.
👍3
В качестве иллюстрации к сегодняшней публикации я выбрал обложку альбома «Leaders of tomorrow» шведского панк-ансамбля Perkele, и это неслучайно. Не могу не вставить свои 5 копеек в дискуссию о том, что менеджеры - первые кандидаты на замену ИИ.

«Закон малинового варенья» предлагает нам искать в окружающем мире системы, похожие на ту, которой мы занимаемся, и использовать их как источники для идей. Лет так 5 назад я заметил, что мир данных подозрительно напоминает мне своим развитием футбол. В футболе были свои Инмон, Кимбалл, Линстед и даже Жамак Дегани. Датеры - это те же футболисты, только с зарплатами на минималках. Ожидаю появления среди отечественных специалистов своих Кокорина и Мамаева, а также Дзюбы, куда ж без него. Брайан Клаф, к примеру, есть, он уже встретил свой «проклятый Юнайтед» и теперь пытается поднять «Ноттингем».

Так вот, пример футбола нам говорит, что под нож пошли «десятки», а не тренеры, роль которых, наоборот, сильно возросла, как бы ни силился Александр Мостовой доказать обратное. ИИ сыграет роль «физухи», которая при достаточной тактической выучке и дисциплине скомпенсирует недостаток «техники», соответственно, спрос на тех, кто умеет ставить «тактику» в ИТ вырастет. Он уже растет, вызывая неиллюзорную тоску по старым добрым временам и «сведение олд скул».

Будущее мира данных принадлежит менеджерам, а не «технарям». И к этому нужно быть готовым.
#datadrivenorganisation #заметкинаполях

Читая книгу Карла андерсона наткнулся на:
Суть процесса управления компанией на основе данных не сводится к данным как таковым или к обладанию самым современным набором инструментов по работе с большими данными. Самое важное в этом — корпоративная культура. Культура организации — доминирующий фактор, который устанавливает ожидания относительно того, насколько демократичным будет процесс работы с данными, как эти данные станут использоваться внутри организации, какие ресурсы, в том числе
образовательные, станут инвестироваться в использование данных как стратегического актива компании.


В тоже время, сегодня, пролистывая ленту в одной заблокированной в РФ соцсети, вычитал интересную мысль, что в работе CDO очень важно донести, что CDO - это не ETL-директор, исключительно конвейеры данных настраивающий, но человек, отвечающий за развитие культуры данных. А в комментариях спросили: «А зачем отделять одно от другого?»

Полностью согласен, предлагаю переименовать сию позицию в NOETL-директор (по аналогии с NOSQL), чтобы всем окончательно стало все понятно.
#datadrivenorganisation #заметкинаполях

Вторая глава посвящена качеству данных. Можно выделить в ней следующие ключевые мысли:

«При работе с большими масштабами данных всегда помните, что вещи, которые случаются “один раз на миллион”,
могут произойти в каждую секунду!»


Каждый участник аналитической цепочки ценности должен следить за качеством данных.


Ну и, конечно же, качество данных в источнике - задача команды источника, а не дата-специалистов. Об этом забывают, по-моему, чаще всего.
👍4
#datadrivenorganisation #заметкинаполях

Третья глава описывает процесс сбора данных.

«Собирайте все доступные данные. Никогда не знаешь, какая информация может понадобиться…»


...«собирать все, что можно» звучит как отличная идея, которая оборачивается серьезной «головной болью», когда доходит до
дела.


Для тех, кто поспешил диагностировать у автора признаки биполярного расстройства (как я, например), прочитав две предыдущие цитаты, есть еще одна:
«Определяя приоритеты при выборе источников данных, компания, в которой управление осуществляется на основе данных, должна сосредоточиться на таком важном аспекте, как ценность данных для бизнеса.»


Отдельный респект автору от меня за список аспектов, на которые стоит обратить внимание при расстановке приоритетов. Не то, чтобы там содержалось что-то секретное, но подобные «шпаргалки» всегда хорошо иметь под рукой.
#заметкинаполях #datadrivenorganisation

Глава 4 посвящена специалистам по данным: разным их типам и
навыкам, которыми они должны обладать.

«Аналитика — это командный спорт. При найме новых сотрудников принимается во внимание «портфолио» совокупных навыков всей команды, чтобы найти таких потенциальных кандидатов, которые «закроют» и усилят проблемные области.»


Я словно слышу тут Билли Бина, произносящего голосом Брэда Питта в фильме «Человек, который изменил все»: «Мы не можем заменить Джамби, но мы можем воссоздать его в совокупности.»

«Далее мы рекомендуем вам бросить вызов. Если вы аналитик, бросьте вызов самому себе: в течение следующего месяца или квартала освойте еще один инструмент или программу. Если вы руководите аналитиками, поставьте перед ними такую задачу. Попробуйте и увидите, какой будет результат. Вы будете удивлены.»


Кажется, автор является большим любителем спорта и использует его в качестве источника вдохновения.

Ну, и на закуску представлены описания централизованной и децентрализованной моделей работы аналитиков в контексте компании.
👍3
Андрей сегодня впервые лет этак за 7 на тренировке выбежал 200м из 30 секунд - 28.6.
Дата-спринтер возвращается! И дата-стендапер, похоже, тоже😁

Всех с пятницей!
🔥6🤝1
#заметкинаполях #datadrivenorganisation

Продолжаю чтение «Аналитической культуры».
Пятая глава посвящена различным видам анализа данных таким как:

▪️описательный (descriptive) - обеспечивает количественное описание набора
данных;
▪️разведочный (exploratory, ну, и перевод🤦‍♂️) - позволяет опровергнуть или подтвердить наши предположения относительно данных;
индуктивный (inferential) - позволяет делать выводы о большей популяции на основе данных, собранных из меньшей выборки;
▪️прогностический (predictive) - изучает взаимосвязи между переменными на основе существующего набора данных и разрабатывает статистическую модель, способную прогнозировать значения для новых, неполных или будущих точек данных;
▪️каузальный (причинно-следственный) (causal) - позволяет выявить и изучить взаимосвязи между переменными;
▪️механистический (mechanistic);

Кроме того, автор приводит словарь основных аналитических терминов и мер, а также рекомендации сотрудникам и руководителям для более эффективного влияния на деятельность компании. Весьма полезная информация для тех, кто с анализом данных не сталкивался.
👍1
#заметкинаполях #datadrivenorganisation
Шестая глава помогает разработать показатели, ключевые и не очень, раскрывая на что обращать внимание для для появления качественных диагностических и операционных показателей.

«Одна из задач, которую вы должны держать в голове при разработке показателей, — то, что ваши сотрудники не должны осознанно или бессознательно пользоваться различными «лазейками» в формулировках, чтобы формально выполнять поставленные перед ними задачи, но фактически не способствовать достижению стратегических целей компании.»


Наверно, каждому разработчику хоть раз в жизни ставили в KPI точность попадания в оценку задачи. Приводит это обычно к тому, что разработчики учатся аккуратно «размазывать» время. Цель выполняется, а польза близка к нулю.

Количество KPI - очень важный вопрос. Автор приводит мнения различных экспертов. Некий Роберт Шампейн, например, считает, что таких должно быть от 20 до 30, на что один из его читателей возразил, что даже 20 уже много. Каплан и Нортон предлагают 16-25 показателей. Как по мне, и это очень много. Насколько я помню, Джим Коллинз в одной из своих книг писал, что у великих компаний таковых не более 5.
👍1
#заметкинаполях #datadrivenorganisation

Минувшая неделя сильно поколебала мою уверенность в Astronomer. Как можно вообще доверять компании, гендир которой ходит на концерты Coldplay? Настоящий Мартин только один, пусть ему «исполнилось уже 70 лет» и, вообще, он «livinig la vida loca». В Airflow и Cosmos верить не перестану.

Но, не о том речь.

Седьмая глава посвящена сторителлингу, или по-русски «травле баек», то есть тому, «как «упаковывать» сделанные выводы и рекомендации и презентовать их руководству и другим заинтересованным лицам, чтобы это способствовало повышению качества дискуссии и процесса принятия решений на всех уровнях» .

Прежде чем размышлять над тем, как лучше всего представить данные, информацию, результаты анализа, следует ответить на три вопроса:

▪️ Чего вы хотите добиться?

▪️Кто ваша аудитория?

▪️ Каким средством вы воспользуетесь?

Помните: «если вы провели блестящее исследование и сделали потрясающие выводы, но ничего не изменилось, результативность вашей работы равна нулю.»

А посему, «исследуйте «дизайнерское пространство» в поисках средств, которые помогут лучше всего рассказать вашу историю, но при этом не лишат ее достоверности и объективности».
👍2
Купил оффлайн билет на SmartData-2025, чисто гештальт закрыть, хотя, если бы заранее знал про Data Internals, предпочел бы ее.
👍4
Инсайды из «Разговоров на архитекторском» с Вадимом Беловым, Head of DMP X5.


Про хранилища данных

1️⃣ Зрелое хранилище - это когда процессы-потребители данных ходят в ХД напрямую, минуя этап обратного ETL, загрузки данных батчами из подготовленных витрин куда-то в отдельную продовую систему.

2️⃣ Много разнородных потребителей - это реальность современного развитого ХД, с высокой ожидаемой ценностью для бизнеса. Проблема роста - в росте количества и разнообразия потребителей в большей степени, чем в объеме данных.

3️⃣ Стриминг и суб-минутные / секундные прогрузки данных: 10 лет назад мечта, сегодня - реальность и необходимость.

4️⃣ Транзакционность в аналитической системе - упрощает код, упрощает и ускоряет работу дата инженеров, понижает требуемую квалификацию дата инженера. Очень приятно работать со сложной системой так, будто это классическая СУБД с транзакциями.



Про лейкхаус

1️⃣ Ключевая технология, отличающая Lake и LakeHouse - формат данных и транзакционность.

2️⃣ Лейкхаус помогает убрать ненужные перегрузки данных из системы в систему. Причем надо понимать, что каждая продовая переливка из А в Б это а) стейджинговые и промежуточные слои, многократное дублирование данных, б) код, в) команда, которая поддерживает код и пайплайны, г) доп нагрузка на чтение в А и запись в Б. Если можно этого не делать, то получаем огромную экономию в лонг-ране.

3️⃣ «Старый» стек (Greenplum + Hadoop, + Clickhouse + …) - зоопарк. Лейкхаус - тоже зоопарк. Нельзя уйти от зоопарка технологий, но можно выбрать зоопарк себе по вкусу, в котором приятнее жить.

4️⃣ Развитие технологий спиральное. Сейчас виток разделения вычислений и хранения, рано или поздно сольемся обратно. Но текущий тренд - разделение.

5️⃣ Точно будем пилить свой мета-каталог. Опен-сорсные не устраивают по своей зрелости.

6️⃣ Тренд - умные метакаталоги. Нужен развитый RBAC на уровне каталога. Нужны умные метаданные, развитые кеши данных и мета-данных. Нужны элементы дата-гавернанс на уровне мета-каталога. Дата контракты на уровне метастора - в Gravitino уже есть.



Про экономику данных и миграцию

💯 Первые 100 ТБ мигрировали с Data Vault в Greenplum на Data Vault в Lakehouse за 1-2 месяца.

2️⃣ Лейкхаус дает больший оверхед на старте по железу, большие требования к сети. Но это окупается за счет того что одна команда работает со всеми юз-кейсами данных. Выгоднее купить больше железа, но обойтись одной командой разработки, одним релизным процессом, одной проверкой качества и т.д.

3️⃣ Также получаем более дешевое и быстрое развитие по росту объема и сложности данных. И технологическую модульность.

4️⃣ Эффективен путь RnD и пилотов. Пробуйте в облаках, где много готовых сервисов от многих вендоров. Пробуйте у себя на железе - для грамотного ДевОпса развернуть лейкхаус из доступных компонентов - тривиальная задача

5️⃣ Тестируйтесь на своих данных и своих задачах перед внедрением. Любые попугаи публичных тестов нерелевантны.
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Запись стрима "Разговоры на Архитекторском" с Вадимом Беловым, X5.