Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
🚀 Мы приглашаем специалистов по системному анализу уровня Middle/Senior/Lead с опытом работы от 2 лет стать частью команды EPAM Anywhere.

Пройди техническое интервью и в течение 48 часов получи оффер от EPAM Anywhere, а также бонус до 300 000 руб. после присоединения к нашей команде!

🔸 Бонус для специалиста уровня Middle - 150 000 руб.
🔸 Бонус для специалиста уровня Senior - 225 000 руб.
🔸 Бонус для специалиста уровня Lead - 300 000 руб.
Сумма бонуса фиксирована независимо от оклада.

Хочешь узнать больше?
Заполни регистрационную форму и узнай о платформе EPAM Anywhere и Systems Analysis Hiring Sprint!
🎯 Зарегистрироваться -> https://epa.ms/dcMIs

PS Пост поддержал приют для собак в Ногинске instagram.com/priut_noginsk_help/
Из всех датаблогеров этот товарищ мой любимый. Умеет он просто и понятно рассказать. В этом видео про databricks он рассказал про новую feature, которая позволяет нам очень просто создавать Python библиотеки, вместо того, чтобы запускать другой ноутбук, в котором у нас стандартные функции.

Но он хорошо показал, как выглядит стандартный процесс вне databricks, с использование Setup Tools и Wheel. Я про это даже и не знал и никогда не использовал (первая половина видео, очень понятно и полезно).
👍1
Все курсы AWS бесплатно online. Интересно как там с досутпом к AWS и кредитами на обучение. https://www.amazon.com/s?rh=p_27%3AAWS+Training+%26+Certification&page=2&qid=1636712113&ref=sr_pg_2
Мы все про ссылаемся на степик, когда говорим про курсы, а пусть у вас будет диплом (сертификат) Harvard!🪀 https://www.edx.org/course/cs50s-introduction-to-programming-with-python
У нас новый перевод про инжиниринг данных, про то, куда движется отрасль под действием современных трендов:

Ссылка на перевод:
https://vc.ru/u/970853-evgeniy-vorobev/318820-kak-sovremennyy-stek-menyaet-inzhiniring-dannyh

Также перевод продублирован на Яндекс.Дзен:
https://zen.yandex.ru/media/id/61706aa4298d6612db1752e5/kak-sovremennyi-stek-meniaet-injiniring-dannyh-618ffa00acb9835aaae4f44e
У Xbox много своих студий, которые называются 1st party студии, для сравнения не Microsoft студии называются 3rd party. А где 2nd party я не знаю😲. Инженер данных в игровой индустрии должен собирать данные от игрового клиента. В ААА* играх (это игры блокбастеры) часто используют Azure Playfab как инструмент передачи телеметрии - The role of LiveOps in launching your game

*AAA video game
Народ возмущается, как так вот! Напоминает история про паркову BMW или Mercedes в Москве в аэропорте - когда маркетинг компания пошла не по плану. И другой вопрос возник, почему Амазон над Майкрософт?😂
Всем привет! У нас появилась новая лаба по Snowflake. Это дополнение к последнему модулю про снежинку. Ее создал Сергей Володарский:

🎄Модуль 1 Подготовка лабораторной среды
🎄Модуль 2 Пользовательский интерфейс Snowflake и история лабораторной работы
🎄Модуль 3 Подготовка к загрузке данных
🎄Модуль 4 Загрузка данных
🎄Модуль 5 Аналитические запросы, кэш результатов, клонирование
🎄Модуль 6 Работа с полуструктурированными данным и представлениями
🎄Модуль 7 Использование путешествий во времени
🎄Модуль 8 Контроль доступа на основе ролей и администратор учетных записей
🎄Модуль 9 Обмен данными
🎄Сброс окружения Snowflake


Я не помню, рассказывал я или нет, но Сергей сейчас живет в Калгари, он очень активный член комьюнити Data Learn. Но прежде всего он помогает себе. Секрет успеха data learn не в том, чтобы сделать все задание и забыть про даталерн (так тоже работает), а чтобы быть активным (проактивным). Помогая другим, вы помогаете себе, уча других, вы учите себя, и тогда получается value намного больше. Сергей был бухгалтером, потом стал менять фокус в сторону data и BI, но после некоторго времени активности у нас, он получил работу Data Engineer и будет строить решение Delta Lake на Databricks. Возможно, его можно поздравить с этим?! И после ETL лаб по dbt, airflow и docker, он обязательно сделает хорошие лабы по spark и databricks!

https://github.com/Data-Learn/data-engineering/blob/master/DE-101%20Modules/Module06/DE%20-%20101%20Labs/Snowflake/snowflake-lab.md
В продолжение недавнего поста про победу Databricks на Snowflake в войне производительности и цене (или маркетинге), Snowflake выпустил пост, который написан их фаундерами, где они разложили все пополочкам. Очередной раз убеждаемся, что нельзя никому верить, пока сам не попробуешь и сравнишь. (PS помоему Максим первым прислал ссылку на этот пост)

https://www.snowflake.com/blog/industry-benchmarks-and-competing-with-integrity/

PS А если ты студент DataLearn то самое время воспользоваться их советом:

Once logged in, you will land on the Snowflake worksheet tab. From there, open the TPC-DS 100 TB tutorial by clicking on the down arrow located on the right side of the worksheet tab named New Worksheet (top left of the screen), then select Open Tutorials, and select Tutorial 4: TPC-DS 100 TB Complete Query Test. This will open a new worksheet tab with the script you can use to run the TPC-DS power run @ 100 TB scale.

И подключить свой любиый BI или ETL интсрумент и прогнать 100ТБ данных. Построить отчет в табло на 100ТБ? Запустить DBT или Airflow на 100TB!!! Вот это будет актив, так актив к вашему резюме.
👍2
Добавил урок 6.6 - про современные ETL/ELT

ETL(ELT) инструменты нам нужны, чтобы наполнять наше хранилище данных, ну или платформу данных. Для современных аналитических инструментов лучше использовать современные инструменты интеграции. Прежде чем выбирать инструмент, нужно понимать фундаментальные основы построения аналитического решения, его слои и компоненты, разницу между ETL и ELT, между Batch и Stream, между on-premise и cloud и многое другое. Задача инженера данных выбрать правильное решение для обработки и хранения данных.

В этом видео:
📌 Рассмотрим простой пример интернет-магазина и необходимости интеграции данных и аналитического решения
📌 Что такое Data Pipeline?
📌 ETL App или Coding? (Python, Scala и тп)
📌 ETL on-premise и Cloud (AWS, Azure, GCP)
📌 ETL разработчик или Data Engineer
📌 Open Source or Not Open Source
📌 Архитектура современного решения с использованием On-premise tools
📌 Архитектура современного решения с использованием коммерческих продуктов
📌 Обзор решений западного рынка
📌 Пример ETL vs ELT с использованием Pentaho DI и Redshift
📌 ETL Job = DAG (Direct Acyclic Graph)
📌 Обзор решений: MatillionETL, Fivetran, Apache Airflow, Azure Data Factory, AWS Glue

На лабораторной работе я покажу как запустить Matillion ETL, DBT cloud, Talend, Informatica, ETL Leap, Qlikview через Snowflake Partner Connect. Особенно детально я покажу как выглядит Matillion ETL и как вы можете выполнить задание 4го модуля по Superstore Star Schema (dimensional modelling) в Matillion ETL.
🔥1
Роман Пономарев решил взять интервью у Эмиля Богомолова. Эмиль работает инженером исследователем в Сколтехе и уже выступал у нас с вебинаром о применении нейронных сетей.
В этом видео мы поговорили:
📌 Как искать первую работу
📌 О курсах, что стоит изучать, а что нет
📌 О тестовых заданиях
📌 Трейдинг
📌 Бизнес процессы
📌 И многое другое
Сегодня товарищ из команды Azure Workspaces показывал как у них устроена аналитика.

Данные сыпятся в Azure Data Storage Gen2. Для хранилища данных у них Azure SQL (облачный SQL server).

Для BI используют Power BI. Пока ничего необычного для меня. Как вы знаете, или ещё не знаете, я всегда относился к кубам Analysis Service очень критично. Но сегодня я увидел их ценность.

В классическом Power BI/Tableau у нас стандартная проблема, как поддерживать версионность? Как смотреть изменения в коде, использовать code review и change request? Обычно никак. Наш дашборд это просто файл.

На примере связки Power BI и Azure Analysis Service я увидел как я могу задизайнить семантический слой в Visual Studio (почти как universe в SAP Business Objects). Использовать DAX, чтобы рассчитать дополнительные колонки и показатели и сделать commit/push семантического слоя в Azure DevOps (git repo). Все будет как код, и мы можем легко отслеживать изменения метрик и измерений. Все тоже самое, что мы сейчас делаем с Azure Data Factory.

Сам Power BI используем как морду, чтобы графики нарисовать. Бизнес логика - самое ценное, все будет описано как код, визуализировать как entity diagram.

Раньше я парился из-за MDX в MOLAP и думал, что кубы нужны только для решения проблем с производительностью. Оказывается я был не прав и сегодня увидел классный кейс, где все продукты Microsoft работают вместе эффективно.

PS но все равно, от этого я их больше любить не стал🤫

Может кто-нибудь хочет сделать такую лабу или вебинар для datalearn? 🐒

PPS Сегодня увидел, что Дмитрий, который делал вебинар по Airflow недавно, вышел в Microsoft Prague, с чем его и поздравляю!🎉👏
👍3
У нас продолжение противостояния между Snowflake и Databricks. Новый ответ Db на тесты Snowflake.

Сколько же ресурсов сжигается на эти тесты. Пора уже на Петабайты переходить! Я бы ещё проверил их продукты на карбоновый след в экологию. Может быть одни быстрее, а другие экологичней. Или за каждый терабайтах просканированных данных сажать дерево.
Устали от многоэтапных собеседований, скринингов и тестовых заданий? Тинькофф готов дать оффер за 1 день

Если вы — опытный системный аналитик DWH, работающий с базами данных и умеющий писать SQL-запросы, то присоединяйтесь к комьюнити DWH из более чем 300 человек. В Тинькофф 20 команд работают над 50 проектами, поэтому вы легко найдете интересное направление. Работайте удаленно или в офисе: комфортно пройти онбординг помогут менторы, общие встречи, внутреннее обучение и мероприятия.

Все секции пройдут онлайн в Zoom 4 декабря. Вы узнаете о проектах, задачах, условиях работы и сможете задать любые, даже самые каверзные вопросы.

Успейте оставить заявку до 1 декабря. Фидбэк об участии пришлют в течение 3 дней: https://l.tinkoff.ru/1dayoffer-dwh-tinkoff

PS пост поддержал приют для собак.
👍1
Forwarded from Sergii Volodarskyi
Откуда и куда я перешел:
из бухгалтерии/финансов в Data Engineering.

Откуда все началось:
Задолбало заниматься бесполезной рутиной и в конце 2018 года начал учить VBA, применять на практике для автоматизации процессов. Затем Power Query. Power Pivot все для того-же - автоматизаци. Прошел годичную Business Intelligence программу в местном университете с уклоном на on-prem технологии. Тогда моей ошибкой было отсутствие конкретной цели для учебы. Только к концу 2020 года я понял, что мне нужно определиться с карьерой и херячить в выбранном направлении. Тем временем у меня хорошая работа/зарплата/коллеги/компания.

Как я начал нарабатывать скиллы:
В компании, в которой я дорабатываю последнюю неделю, меня изначально нанимали на бухгалтерскую позицию с пониманием, что я дружу с технологиями . Мне дали доступ read к базе данных, data warehouse, разрешили установить VS Code и конечно Python. Тут я стал местным суперстар. Вообще очень много людей из финансов переходят в BI. Я думаю потому что они понимают какую пользу могут принести компании.

Чем мне помог Data Learn:
Все-таки, я хотел стать Data Engineer. Почему? Просто-напросто хотелось стать инженером. Мне хотелось чтобы моя работа была связана с программированием. Хотел создавать, разрабатывать. Мне нравится находить решения к проблемам, используя технологии.
До Data Learn у меня не было структуры и понятия что мне нужно сделать, чтобы найти работу дата инженера. Информации уйма. Как отбросить мусор, если ты не понимаешь что важно, а что нет?
С Data Learn появилось четкое понимание, что к чему, и что нужно делать, чтобы "добраться из точки А в точку Б".

Как нашел работу:
Через networking. У меня появился знакомый уже опытный дата инженер. Разговаривая с ним на проф тематику, я почувствовал уверенность, что, хотя, у меня опыта мало, но концептуально мне все понятно о чем он говорит.
Меня порекомендовали в одну компанию. Там мне сказали что я им понравился за свою проактивность в изучении технологий, скиллы и что делаю side projects на работе.

Будущий stack:
microsoft azure, azure data factory, databricks, spark

Я испытываю счастье и благодарен команде datalearn за такой важный и нужный проект.

Всем удачи!
Tableau (Sales Force) приобрели еще одну компания - Narrative Science. У них есть интересный продукт Lexio для data story telling.