Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
В чатике DIE or DE скинули видео - Big Data: IOTA архитектура: обработка мульти-структурных данных несвязанной природы

Я не думаю, что когда-то буду пользоваться IOTA архитектурой, но очень крутой спикер - Константин Будник – ветеран разработки экосистемы Apache Hadoop. Он уже больше 20 лет занимается разработкой ПО, аналитикой быстрых и больших данных, 17 панетов по распределенным системам, и по его словам, в Hadoop его кода очень очень много.

Очень классно и интресно рассказывает, практически на пальцах объясняет сложные концепции. Раньше про него не слышал. Можно считать его отечественным отцом hadoop и big data😎
Получается телеграмм сдал позиции независимого и безопасного приложения? Или он таким и не был никогда😕
Ещё один отзыв от нашей студентки из Финляндии:

Курс Data Learn помог мне получить необходимые технические навыки для работы Data Engineer на европейском рынке. В РФ я работала системным аналитиком на проектах в финансовой сфере и активных навыков работы с современными ETL инструментами не имела. После переезда в Северную Европу стало понятно, что для работы BI аналитиком кроме хорошего английского неплохо бы знать один-два местных языка на хорошем уровне (это пару лет активного изучения), а от разработчиков этого не требуется. Курс от Data Learn позволил оперативно (месяцы) подтянуть навыки работы с ETL инструментарием и облачными технологиями западных вендоров. Во всех компаниях, с которыми я тут сталкивалась по работе, уже закончилась миграция в облако.

Могу рекомендовать курс всем, кто хочет освоить современный инструментарий и работать на проектах с европейскими компаниями.

Курс прекрасно структурирован.
Как учить Python? Ну или любой другой язык (хоть испанский) - нужна практика! Вот интересный репозиторий Python Mini Projects, в котором 101 проект, от простого к сложному.
Resume HBR.pdf
1.4 MB
Хороший документ от HBR - “RESUMES and COVER LETTERS”, подойдет всем, кому нужно сделать резюме и письмо на английском языке, а так же тем, кто пишет письмо на английском. Тут есть примеры синонимов глаголов и других оборотов речи, которые можно использовать для написания эссе или деловой переписки.
У Microsoft тоже есть облако Azure, и в нем есть целая платформа для аналитики, которая называется Azure Synapse Analytics. В него входят уже устоявшиеся инструменты Azure SQL Data Warehouse (теперь называется Dedicated SQL Pool), Azure Data Factory, Azure ML, Power BI Service, так и были добавлены новые Azure Spark Pools, Serverless SQL Pool. Все достаточно удобно, каждый инструмент легко интегрируется с решениями Azure. Если вы работаете с решениями Microsoft, то облако Azure это следующий логический шаг вашего развития. Так же Azure Synapse способен заменить решения Azure HDInsight и Azure Databricks (решения для big data). По опыту я знаю и видел огромное количество решений на Microsoft SQL Server (on-premise), но вообще не знаю ни одного решения на Azure Synapse, но уверен скоро их появится много.

https://youtu.be/gQAGa3xZr_M

В этом уроке “Знакомство с Azure Synapse Analytics” мы:
📌 Посмотрим на история Azure хранилища данных
📌 Узнаем про стратегию создания продуктов Microsoft
📌 Узнаем про переход от Azure SQL Data warehouse к Azure Synapse Analytics
📌 Познакомимся с Azure Synapse Analytics: Dedicated SQL Pools, Spark Pools, Serverless SQL Pools
📌 Azure Synapse Serverless Pools vs Amazon Redshift Spectrum
📌 Посмотрим на пример архитектуры Azure Data Platform и узнаем какие инструменты есть в Azure для аналитики
📌 Детально посмотрим на особенности Azure Dedicated SQL Pools (бывшее Azure SQL DW), узнаем, что внутри и как с ним работать и оптимизировать (distribution stiles, indexes, statistics)
📌 Узнаем, что такое PolyBase или как загружать данные из Azure Hadoop
📌 Узнаем про Azure Data Factory
📌 Поговорим про бесполезность и полезность Azure Analyses Services
📌 Поговорим про конкуренция Azure Databricks и Azure Synapse Spark pools

На лабораторных работах я вам покажу:
📌 Как создать Azure Synapse Workspace
📌 Как в нем создать Serverless SQL Pools, Dedicated SQL Pool (Azure DW)
📌 Посмотрим, что внутри Synapse Workspace
📌 Покажу вам, как можно поиграться с данными NY taxi
📌 Покажу, где взять открытые данные по COVID-19


Дополнительные материалы:
📌 [Synapse Tutorials](https://docs.microsoft.com/en-us/azure/synapse-analytics/get-started)
📌 [Azure Naming conventions](https://docs.microsoft.com/en-us/azure/cloud-adoption-framework/ready/azure-best-practices/resource-naming)
📌 [Azure SQL DW paper - POLARIS: The Distributed SQL Engine in Azure Synapse](https://www.vldb.org/pvldb/vol13/p3204-saborit.pdf)
📌 [Моя статья для Matillion ETL - Creating a Modern Data Platform with Azure Synapse Analytics and Matillion ETL](https://www.matillion.com/resources/blog/creating-a-modern-data-platform-with-azure-synapse-analytics-and-matillion-etl)
📌 [Статья про Azure Synapse от Medium блога Towards Data Science](https://towardsdatascience.com/tagged/azure-synapse-analytics)
📌 [Azure Synapse for Data Analytics — Create Workspaces with CLI](https://medium.com/microsoftazure/azure-synapse-for-data-analytics-create-workspaces-with-cli-bd5ef90fd489)
📌 [Introduction to Azure Synapse Analytics](https://medium.com/codex/introduction-to-azure-synapse-analytics-ff317e782f7b)
📌 [Azure Analytics: ясность в мгновение ока](https://habr.com/ru/company/microsoft/blog/503582/)

Курсы от Курсеры и Microsoft, скорей всего вам дадут кредиты на облако Azure
📌 [Introduction to Microsoft Azure Synapse Analytics](https://www.coursera.org/learn/introduction-to-microsoft-azure-synapse-analytics)
📌 [Data Warehousing with Microsoft Azure Synapse Analytics](https://www.coursera.org/learn/data-warehousing-with-microsoft-azure-synapse-analytics)
📌 [Azure Synapse SQL Pool - Implement Polybase](https://www.coursera.org/projects/azure-sql-pool-polybase)
📌 [Data Engineering with MS Azure Synapse Apache Spark Pools](https://www.coursera.org/learn/data-engineering-with-ms-azure-synapse-apache-spark-pools)
Интересная статья - История развития SalesForce, одного из первых коммерческих успешных облачных SaaS продуктов.

Before Salesforce’s launch, software—and in particular, enterprise software—wasn’t just a computer program; it was also the frustrating and ugly work necessary to buy and run it.¹ At that time, a decade or so into the IT revolution, the promise of what software could be was undercut by what it actually was: a painful buying cycle from enterprise sales teams; a long installation and rollout process; ongoing administration and management; tightrope walks of rolling upgrades. Though IT teams bought perpetual licenses, they still paid a recurring cost of toil and constant trouble.

Salesforce promised something different. They promised software, without the baggage. They promised software that you “didn’t have to touch;” you just sign up and use it.

In other words, the “end of software” wasn’t about getting rid of software; it was about getting rid of the associations people had with it. Salesforce’s ambition wasn’t to provide better answers to common questions like, “what kind of hardware do I need to run this software?” and “what is the cost of upgrading to the new version?” They wanted people to stop asking these questions entirely.
Я все больше замечаю Data Engineering программ в западных университетах, уже встречал курсы в MIT и UC Berkley. Я даже хочу записать обзор курсов по дата инжинирингу западных и отчественных. Разница в цене колосальная, на западе курс стоит от 8т до 15т долларов, в РФ он стоит 60-150т рублей. Самое интересно, что курс за доллары не намного лучше, чем курс за рубли. Ни за доллары, ни за рубли вас на работу не устроят и вы не получите практического опыта. Если 100т рублей потерять не так жалко, то вот 15т долларов это вообще печаль. Зато будет хороший нетворкинг (а будет ли он в наше время?), но практика английского точно будет!

UC Berkley выложили слайды в открытый доступ: https://cal-data-eng.github.io/

This new class on Data Engineering will cover the principles and practices of managing data at scale, with a focus on use cases in data analysis and machine learning. We will cover the entire life cycle of data management and science, ranging from data preparation to exploration, visualization and analysis, to machine learning and collaboration.
Посмотрел сейчас hh, позиции дата инженера, зарплаты в 300-450т рублей в месяц меня удивили. Неужели и правда столько платят?

Сегодня думал про то, что "окно возможностей" в дата позиции скоро закроется. Сейчас есть реальный шанс попасть в эту индустрию и как мой товарищ с 0, выучился за 5 месяцев, пришел на 120т, и проработав меньше года, ушел на 200+и рублей.

Головокружительный успех, но мне кажется, скоро (не знаю насколько скоро, рынок переполнится дата профессионалами), такие вещи не пройдут и datalearn превратится в тыкву. И мой опыт будет устаревшим. Так что, если вы задумываетесь получить профессию в дате, зарабатывать хорошо, не теряйте время! Как говориться, куй железо, пока оно горячо!!Всем успехов!
Недавно у меня случился конфуз с каналом Инжиниринг данных. У канала есть "чат", в который попадают все комментарии. Я по незнанию назвал это "Чат инжиниринг данных" и более 90 человек туда подписались. Получилось, что вокруг комментариев создался чат, и некоторые воспринимали его как чат.

Поэтому я его переименовал в "Комментарии к каналу Инжиниринг данных", то есть эта функциональность работает замечательно, если мы заходим в комментарии под постом и читаем их. В случае, когда мы подписаны на это чат, мы видим все вподряд в хаотичном порядке.

Поэтому я вчера удалил из него всех людей, но оказалась, что они заблочились на комментарии. 🙈 и не могли читать комментарии.

Сейчас я исправил, чтобы у всех вернулась возможность читать комментарии. Но на всякий случай сделал публичный чат "Инжиниринг Данных", куда вы можете подписаться.

Правила чата:
Можно🟢:
- Обсуждаем аналитику, вакансии, инжиниринг и рабочие вопросы
- Постить вакансии
- Можно скидывать интересный контент, книги и статьи, которые посвящены data и развитию карьеры
- Спрашивать о помощи или совета

Нельзя🔴:
- Постить рекламу курсов платных😡
- Постить про политику, прививки и другие популярные вещи не по теме (оставим это только в канале Инжиниринг Данных😅)
- Матом не ругаемся☺️

В нем я могу сделать несколько админов. Не знаю, нужен этот чат или нет, но попробуем.
25 сентября приглашаем на первый в этом году офлайн-митап от Яндекс.Дзена.

Будем говорить про объяснимость рекомендаций, общаться и готовить бургеры!
Количество мест ограничено.
Все зарегистрировавшиеся получат видеозаписи с мероприятия.


Продробности и регистрация по ссылке: https://events.yandex.ru/events/zen-meetup-exploration/?from=tg_cpc_rockyourdata

PS реклама поддержала приют для собак в Москве.
Статья про Airflow и DBT
Forwarded from Dmitry
Есть кто используете Databricks? Я перевел ingest на Databricks Autoloader.https://databricks.com/blog/2020/02/24/introducing-databricks-ingest-easy-data-ingestion-into-delta-lake.html

Очень классная штука - почти стрим

Он на фоне (в азуре например) создаёт event grid, blob queue. И индексирует файлы которые загрузил в delta lake. У него есть свою БД для этого. Но я в связке с data factory делаю, 5 или 15 мин микро батч, чтобы downstream jobs запускать. Сейчас смотрю как лучше сделать upsert для таблиц, раньше просто партиции добавлял/заменял.
Обожаю этого чувака
This free GitHub course is sorted into multiple tutorials which were actually delivered using O'Reilly Katacoda during the live training (which is totally ah-mazing 🤩 )

To avoid any legal issues - all of the SQL live training material is available directly here on GitHub as a companion course which you can learn from at your leisure
👌
https://github.com/DataWithDanny/sql-masterclass

PS Новый день, новый SQL курс))
В Канаде тоже много курсов, вагон и маленькая тележка. Но оказывается, если курс больше 40 часов и стоит больше 4000 долларов, то необходимо получать разрашение у государства.

Недавно я проверял программу курса Applied Data Science and Big Data Diploma. 120 дней (5 дней в неделю) за 16000$ (можно в кредит). Это требование государства, чтобы человек из индустрии ознакомился с программой, помещением и написал заключение. Главная задача это чтобы learning outcome cоответствовал программе, материалам, лабам и тп.

Конечно, трудоустройство никто не обещает. И как я понимаю, любой желайющий может арендовать помещение и продавать курсы за свою стоимость и у вас будут все шансы получить лицензию "accredited college". Просто нужно немного первоначального взноса приготовить. Нанять консультанта, который знает как подавать документы, он за вас все заполнит и подсат заявку. Затем вам нужен человек из индустрии с резюме, в данном случае нашли меня. И вот уже в декабря они начнут косить бабло. И конечно вам нужно уметь продавать свои курсы и конкурировать с другими "accredited college".


Вот такой интерсный опыт.

Кстати, для вас я могу расшарить список литературы:
Deep Learning Publisher
The Elements of Statistical Learning: Data Mining, Inference, and Prediction
OpenIntro Statistics
Hadoop: The Definitive Guide Paperback
Learning Spark: Lightning-Fast Big Data Analysis
Mastering Apache Cassandra
The Elements of Statistical Learning: Data Mining, Inference, and Prediction
Open Intro Statistics: Third Edition
Learning SQL: Master SQL Fundamentals Publisher
Learn Python The Hard Way
Effective Data Visualization: The Right Chart for the Right Data
Python Data Science Handbook: Essential Tools for Working with Data

В теории, за 3 месяца курс должен научить всему, что я учу на datalearn + курс Анастасии по ML&DS + курс Анатолия по SQL. Так же надо будет прочитать и главное понять эти книги и еще много чего. Прям утопия. Мое дело маленькое, посмотреть на программу, дать им рекомендации и взять 500$😎

Как я понял ни государству, ни школе качество прям не очень критично, главное, чтобы состав программы соответствовал заявленным целям, как миниму ключевые слова люди будут знать за 15к (кстати, можно купить в Канаде honda или mazda suv в очень хорошем качестве за эти деньги, ну или еще найти много применений, а курсы пройти бесплатно на курсере)
👍1
Я долго ждал когда epic grow seasons (сериал про продукты) анонсируют серию в своем телеграм канале, но что-то не дождался. Зато сегодня мне скинули скрин из рекламы в Инстаграм. Это было непросто, записать доклад на 45 мин за 15. Я пытался его учить как стихотворение, но не так то это просто. Рассказывал Канадцам в студии на русском. Это они сделали мне новую фотографию для Аватарки и еще записали афигенное интро с самокатом на набережной, я маленький кусочек добавил. А сам доклад у них на сайте.
Слышали вы про Code Review? Это когда в команде несколько человек пишут код в своем branch, например SQL, PySpark и потом делают commit.

Дальше, нужно создать Pull Request, и начинается Code Review, коллеги смотрят ваш код и оставляют комментарии по улучшению. И когда всего будет ок, после множества итераций, ваш branch сделает merge в MAIN (заметьте, MASTER уже не комильфо!).

Сегодня после очередного code review, я чувствую, что я прошел 5 стадий реагирования на изменения по Э. Кюблер-Росс.

Все 5 ключевых стадий эмоционального реагирования:

-Отрицание🙅‍♂️
-Гнев🤬
-Торг🙄
-Депрессия
-Принятие🤗