Инжиниринг Данных – Telegram

Инжиниринг Данных

23.5K subscribers

1.98K photos

56 videos

192 files

3.2K links

Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Download Telegram

About

Blog

Apps

Platform

Инжиниринг Данных

23.5K subscribers

Инжиниринг Данных

Tech-Salary-Guide-2022-United-States.pdf

10.4K viewsDmitry Anoshin, 23:47

Инжиниринг Данных

🚀 Мы приглашаем специалистов по системному анализу уровня Middle/Senior/Lead с опытом работы от 2 лет стать частью команды EPAM Anywhere.

Пройди техническое интервью и в течение 48 часов получи оффер от EPAM Anywhere, а также бонус до 300 000 руб. после присоединения к нашей команде!

🔸 Бонус для специалиста уровня Middle - 150 000 руб.
🔸 Бонус для специалиста уровня Senior - 225 000 руб.
🔸 Бонус для специалиста уровня Lead - 300 000 руб.
Сумма бонуса фиксирована независимо от оклада.

Хочешь узнать больше?
Заполни регистрационную форму и узнай о платформе EPAM Anywhere и Systems Analysis Hiring Sprint!
🎯 Зарегистрироваться -> https://epa.ms/dcMIs

PS Пост поддержал приют для собак в Ногинске instagram.com/priut_noginsk_help/

4.64K viewsDmitry Anoshin, 06:00

Инжиниринг Данных

Из всех датаблогеров этот товарищ мой любимый. Умеет он просто и понятно рассказать. В этом видео про databricks он рассказал про новую feature, которая позволяет нам очень просто создавать Python библиотеки, вместо того, чтобы запускать другой ноутбук, в котором у нас стандартные функции.

Но он хорошо показал, как выглядит стандартный процесс вне databricks, с использование Setup Tools и Wheel. Я про это даже и не знал и никогда не использовал (первая половина видео, очень понятно и полезно).

Advancing Spark - Developing Python Libraries with Databricks Repos

The addition of Databricks Repos changed a lot of our working processes around maintaining notebooks, but the process for building out our own python libraries hasn't changed much over the years. With "Files for Databricks Repos", we suddenly see a massive…

👍1

4.86K viewsDmitry Anoshin, 17:54

Инжиниринг Данных

Ну что есть среди подписчиков модники и геймеры? Вот для вас предложение!

Xbox Series X (Gucci) available on Nov 17th for $10,000 (100 units available) at select locations. Xbox Game Pass Ultimate included bit.ly/3Fe2ClJ

4.31K viewsDmitry Anoshin, 18:25

Инжиниринг Данных

Все курсы AWS бесплатно online. Интересно как там с досутпом к AWS и кредитами на обучение. https://www.amazon.com/s?rh=p_27%3AAWS+Training+%26+Certification&page=2&qid=1636712113&ref=sr_pg_2

5.39K viewsDmitry Anoshin, 23:39

Инжиниринг Данных

Мы все про ссылаемся на степик, когда говорим про курсы, а пусть у вас будет диплом (сертификат) Harvard!🪀 https://www.edx.org/course/cs50s-introduction-to-programming-with-python

4.85K viewsDmitry Anoshin, edited 04:15

Инжиниринг Данных

Forwarded from Евгений Воробьев

У нас новый перевод про инжиниринг данных, про то, куда движется отрасль под действием современных трендов:

Ссылка на перевод:
https://vc.ru/u/970853-evgeniy-vorobev/318820-kak-sovremennyy-stek-menyaet-inzhiniring-dannyh

Также перевод продублирован на Яндекс.Дзен:
https://zen.yandex.ru/media/id/61706aa4298d6612db1752e5/kak-sovremennyi-stek-meniaet-injiniring-dannyh-618ffa00acb9835aaae4f44e

Как современный стек меняет инжиниринг данных — Евгений Воробьев на vc.ru

Автор оригинала: Maxime Beauchemin

4.99K viewsDmitry Anoshin, 18:57

Инжиниринг Данных

Big-Book-of-Data-Engineering-Final.pdf

5.02K viewsDmitry Anoshin, 19:37

Инжиниринг Данных

У Xbox много своих студий, которые называются 1st party студии, для сравнения не Microsoft студии называются 3rd party. А где 2nd party я не знаю😲. Инженер данных в игровой индустрии должен собирать данные от игрового клиента. В ААА* играх (это игры блокбастеры) часто используют Azure Playfab как инструмент передачи телеметрии - The role of LiveOps in launching your game

*AAA video game

4.5K viewsDmitry Anoshin, 21:17

Инжиниринг Данных

Народ возмущается, как так вот! Напоминает история про паркову BMW или Mercedes в Москве в аэропорте - когда маркетинг компания пошла не по плану. И другой вопрос возник, почему Амазон над Майкрософт?😂

4.58K viewsDmitry Anoshin, 05:36

Инжиниринг Данных

Всем привет! У нас появилась новая лаба по Snowflake. Это дополнение к последнему модулю про снежинку. Ее создал Сергей Володарский:

🎄Модуль 1 Подготовка лабораторной среды
🎄Модуль 2 Пользовательский интерфейс Snowflake и история лабораторной работы
🎄Модуль 3 Подготовка к загрузке данных
🎄Модуль 4 Загрузка данных
🎄Модуль 5 Аналитические запросы, кэш результатов, клонирование
🎄Модуль 6 Работа с полуструктурированными данным и представлениями
🎄Модуль 7 Использование путешествий во времени
🎄Модуль 8 Контроль доступа на основе ролей и администратор учетных записей
🎄Модуль 9 Обмен данными
🎄Сброс окружения Snowflake

Я не помню, рассказывал я или нет, но Сергей сейчас живет в Калгари, он очень активный член комьюнити Data Learn. Но прежде всего он помогает себе. Секрет успеха data learn не в том, чтобы сделать все задание и забыть про даталерн (так тоже работает), а чтобы быть активным (проактивным). Помогая другим, вы помогаете себе, уча других, вы учите себя, и тогда получается value намного больше. Сергей был бухгалтером, потом стал менять фокус в сторону data и BI, но после некоторго времени активности у нас, он получил работу Data Engineer и будет строить решение Delta Lake на Databricks. Возможно, его можно поздравить с этим?! И после ETL лаб по dbt, airflow и docker, он обязательно сделает хорошие лабы по spark и databricks!

https://github.com/Data-Learn/data-engineering/blob/master/DE-101%20Modules/Module06/DE%20-%20101%20Labs/Snowflake/snowflake-lab.md

data-engineering/DE-101 Modules/Module06/DE - 101 Labs/Snowflake/snowflake-lab.md at master · Data-Learn/data-engineering

Getting Started with Data Enngineering. Contribute to Data-Learn/data-engineering development by creating an account on GitHub.

4.62K viewsDmitry Anoshin, edited 19:05

Инжиниринг Данных

В продолжение недавнего поста про победу Databricks на Snowflake в войне производительности и цене (или маркетинге), Snowflake выпустил пост, который написан их фаундерами, где они разложили все пополочкам. Очередной раз убеждаемся, что нельзя никому верить, пока сам не попробуешь и сравнишь. (PS помоему Максим первым прислал ссылку на этот пост)

https://www.snowflake.com/blog/industry-benchmarks-and-competing-with-integrity/

PS А если ты студент DataLearn то самое время воспользоваться их советом:

Once logged in, you will land on the Snowflake worksheet tab. From there, open the TPC-DS 100 TB tutorial by clicking on the down arrow located on the right side of the worksheet tab named New Worksheet (top left of the screen), then select Open Tutorials, and select Tutorial 4: TPC-DS 100 TB Complete Query Test. This will open a new worksheet tab with the script you can use to run the TPC-DS power run @ 100 TB scale.

И подключить свой любиый BI или ETL интсрумент и прогнать 100ТБ данных. Построить отчет в табло на 100ТБ? Запустить DBT или Airflow на 100TB!!! Вот это будет актив, так актив к вашему резюме.

Industry Benchmarks and Competing with Integrity - Blog

When we founded Snowflake, we set out to build an innovative platform. We had the opportunity to take into account what had worked well and what hadn’t in

👍2

4.47K viewsDmitry Anoshin, edited 20:05

Инжиниринг Данных

Добавил урок 6.6 - про современные ETL/ELT

ETL(ELT) инструменты нам нужны, чтобы наполнять наше хранилище данных, ну или платформу данных. Для современных аналитических инструментов лучше использовать современные инструменты интеграции. Прежде чем выбирать инструмент, нужно понимать фундаментальные основы построения аналитического решения, его слои и компоненты, разницу между ETL и ELT, между Batch и Stream, между on-premise и cloud и многое другое. Задача инженера данных выбрать правильное решение для обработки и хранения данных.

В этом видео:
📌 Рассмотрим простой пример интернет-магазина и необходимости интеграции данных и аналитического решения
📌 Что такое Data Pipeline?
📌 ETL App или Coding? (Python, Scala и тп)
📌 ETL on-premise и Cloud (AWS, Azure, GCP)
📌 ETL разработчик или Data Engineer
📌 Open Source or Not Open Source
📌 Архитектура современного решения с использованием On-premise tools
📌 Архитектура современного решения с использованием коммерческих продуктов
📌 Обзор решений западного рынка
📌 Пример ETL vs ELT с использованием Pentaho DI и Redshift
📌 ETL Job = DAG (Direct Acyclic Graph)
📌 Обзор решений: MatillionETL, Fivetran, Apache Airflow, Azure Data Factory, AWS Glue

На лабораторной работе я покажу как запустить Matillion ETL, DBT cloud, Talend, Informatica, ETL Leap, Qlikview через Snowflake Partner Connect. Особенно детально я покажу как выглядит Matillion ETL и как вы можете выполнить задание 4го модуля по Superstore Star Schema (dimensional modelling) в Matillion ETL.

DATALEARN | DE - 101 | МОДУЛЬ 6-6 ЗНАКОМСТВО С СОВРЕМЕННЫМИ РЕШЕНИЯМИ ETL/ELT

ETL(ELT) инструменты нам нужны, чтобы наполнять наше хранилище данных, ну или платформу данных. Для современных аналитических инструментов лучше использовать современные инструменты интеграции. Прежде чем выбирать инструмент, нужно понимать фундаментальные…

🔥1

4.95K viewsDmitry Anoshin, 23:59

Инжиниринг Данных

Repo, в котором много полезного для DBT tool.

GitHub - erika-e/dbt-tips: Collection of dbt Tips and Tricks

Collection of dbt Tips and Tricks. Contribute to erika-e/dbt-tips development by creating an account on GitHub.

4.84K viewsDmitry Anoshin, 05:07

Инжиниринг Данных

4.77K viewsDmitry Anoshin, 12:17

Инжиниринг Данных

Роман Пономарев решил взять интервью у Эмиля Богомолова. Эмиль работает инженером исследователем в Сколтехе и уже выступал у нас с вебинаром о применении нейронных сетей.
В этом видео мы поговорили:
📌 Как искать первую работу
📌 О курсах, что стоит изучать, а что нет
📌 О тестовых заданиях
📌 Трейдинг
📌 Бизнес процессы
📌 И многое другое

ИНТЕРВЬЮ С ЭМИЛЕМ БОГОМОЛОВЫМ

Роман Пономарев решил взять интервью у Эмиля Богомолова. Эмиль работает инженером исследователем в Сколтехе и уже выступал у нас с вебинаром о применении нейронных сетей.
В этом видео мы поговорили:
📌 Как искать первую работу
📌 О курсах, что стоит изучать…

4.52K viewsDmitry Anoshin, 22:20

Инжиниринг Данных

Сегодня товарищ из команды Azure Workspaces показывал как у них устроена аналитика.

Данные сыпятся в Azure Data Storage Gen2. Для хранилища данных у них Azure SQL (облачный SQL server).

Для BI используют Power BI. Пока ничего необычного для меня. Как вы знаете, или ещё не знаете, я всегда относился к кубам Analysis Service очень критично. Но сегодня я увидел их ценность.

В классическом Power BI/Tableau у нас стандартная проблема, как поддерживать версионность? Как смотреть изменения в коде, использовать code review и change request? Обычно никак. Наш дашборд это просто файл.

На примере связки Power BI и Azure Analysis Service я увидел как я могу задизайнить семантический слой в Visual Studio (почти как universe в SAP Business Objects). Использовать DAX, чтобы рассчитать дополнительные колонки и показатели и сделать commit/push семантического слоя в Azure DevOps (git repo). Все будет как код, и мы можем легко отслеживать изменения метрик и измерений. Все тоже самое, что мы сейчас делаем с Azure Data Factory.

Сам Power BI используем как морду, чтобы графики нарисовать. Бизнес логика - самое ценное, все будет описано как код, визуализировать как entity diagram.

Раньше я парился из-за MDX в MOLAP и думал, что кубы нужны только для решения проблем с производительностью. Оказывается я был не прав и сегодня увидел классный кейс, где все продукты Microsoft работают вместе эффективно.

PS но все равно, от этого я их больше любить не стал🤫

Может кто-нибудь хочет сделать такую лабу или вебинар для datalearn? 🐒

PPS Сегодня увидел, что Дмитрий, который делал вебинар по Airflow недавно, вышел в Microsoft Prague, с чем его и поздравляю!🎉👏

👍3

4.46K viewsDmitry Anoshin, 03:45

Инжиниринг Данных

У нас продолжение противостояния между Snowflake и Databricks. Новый ответ Db на тесты Snowflake.

Сколько же ресурсов сжигается на эти тесты. Пора уже на Петабайты переходить! Я бы ещё проверил их продукты на карбоновый след в экологию. Может быть одни быстрее, а другие экологичней. Или за каждый терабайтах просканированных данных сажать дерево.

Snowflake Claims Similar Price/Performance to Databricks, But Not So fast!

Analyze the claims made by Snowflake regarding price/performance compared to Databricks and the counterarguments presented.

4.46K viewsDmitry Anoshin, edited 04:01

Инжиниринг Данных

Устали от многоэтапных собеседований, скринингов и тестовых заданий? Тинькофф готов дать оффер за 1 день

Если вы — опытный системный аналитик DWH, работающий с базами данных и умеющий писать SQL-запросы, то присоединяйтесь к комьюнити DWH из более чем 300 человек. В Тинькофф 20 команд работают над 50 проектами, поэтому вы легко найдете интересное направление. Работайте удаленно или в офисе: комфортно пройти онбординг помогут менторы, общие встречи, внутреннее обучение и мероприятия.

Все секции пройдут онлайн в Zoom 4 декабря. Вы узнаете о проектах, задачах, условиях работы и сможете задать любые, даже самые каверзные вопросы.

Успейте оставить заявку до 1 декабря. Фидбэк об участии пришлют в течение 3 дней: https://l.tinkoff.ru/1dayoffer-dwh-tinkoff

PS пост поддержал приют для собак.

👍1

4.53K viewsDmitry Anoshin, 14:30

Инжиниринг Данных

Forwarded from Sergii Volodarskyi

Откуда и куда я перешел:
из бухгалтерии/финансов в Data Engineering.

Откуда все началось:
Задолбало заниматься бесполезной рутиной и в конце 2018 года начал учить VBA, применять на практике для автоматизации процессов. Затем Power Query. Power Pivot все для того-же - автоматизаци. Прошел годичную Business Intelligence программу в местном университете с уклоном на on-prem технологии. Тогда моей ошибкой было отсутствие конкретной цели для учебы. Только к концу 2020 года я понял, что мне нужно определиться с карьерой и херячить в выбранном направлении. Тем временем у меня хорошая работа/зарплата/коллеги/компания.

Как я начал нарабатывать скиллы:
В компании, в которой я дорабатываю последнюю неделю, меня изначально нанимали на бухгалтерскую позицию с пониманием, что я дружу с технологиями . Мне дали доступ read к базе данных, data warehouse, разрешили установить VS Code и конечно Python. Тут я стал местным суперстар. Вообще очень много людей из финансов переходят в BI. Я думаю потому что они понимают какую пользу могут принести компании.

Чем мне помог Data Learn:
Все-таки, я хотел стать Data Engineer. Почему? Просто-напросто хотелось стать инженером. Мне хотелось чтобы моя работа была связана с программированием. Хотел создавать, разрабатывать. Мне нравится находить решения к проблемам, используя технологии.
До Data Learn у меня не было структуры и понятия что мне нужно сделать, чтобы найти работу дата инженера. Информации уйма. Как отбросить мусор, если ты не понимаешь что важно, а что нет?
С Data Learn появилось четкое понимание, что к чему, и что нужно делать, чтобы "добраться из точки А в точку Б".

Как нашел работу:
Через networking. У меня появился знакомый уже опытный дата инженер. Разговаривая с ним на проф тематику, я почувствовал уверенность, что, хотя, у меня опыта мало, но концептуально мне все понятно о чем он говорит.
Меня порекомендовали в одну компанию. Там мне сказали что я им понравился за свою проактивность в изучении технологий, скиллы и что делаю side projects на работе.

Будущий stack:
microsoft azure, azure data factory, databricks, spark

Я испытываю счастье и благодарен команде datalearn за такой важный и нужный проект.

Всем удачи!

4.77K viewsDmitry Anoshin, 14:46

Инжиниринг Данных

Tableau (Sales Force) приобрели еще одну компания - Narrative Science. У них есть интересный продукт Lexio для data story telling.

The latest updates on analytics, business intelligence and data visualization, with insights and tips from Tableau certified experts and the Tableau Community.

4.67K viewsDmitry Anoshin, 18:25