Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Если бы я скучал в роли инженера данных, я бы обязательно изучил бы DuckDb, и прочитал бы их книгу. Кто-нибудь используете их? Может поделитесь, что за утка?
🤷‍♂14❤‍🔥6🦄4🙊1
У меня тут супер концепт появился для Surfalytics - каждый месяц я буду выбирать проект и вместе со студентами мы будем делать его, каждый в своем ритме и параллельно обсуждать. Идей у меня куча, что можно сделать полезного для себя, для портфолио, да и просто углубиться в вопрос.

Уже выбрал первый проект - развернуть кластер Azure Databricks в виртуальной сети (VNET) и использовать конфигурации Security Cluster Connectivity, это когда виртуальные машины не торчат в интернет. Так же есть и на AWS c VPC. Тут главное про настройку сети, а не Spark/PySpark. Если есть возможности сделайте like в LinkedIn - мой пост про важность конфигурации сети, пост Surfalytics про первый проект.

Для Surfalytics я запустил Discord и там будут закрытые каналы для проектов. По результатам проекта запишу видосик.

Вообще планирую в будущем 2 типа проектов
- BI/Analyst
- Data Engineer

Вообще миссию себе придумал, быть номер 1 ресурсом в мире по началу пути в дата профессии. Это длинный путь, но меня штырит от таких движух и даже если финансово не заработает, все равно будет приятно, что кому-то это принесет пользу.

Сегодня утром у меня сын 11 лет на youtube нашел мои записи про BI Academy в Ламоде и все 3ое детей смотрели видосики, и им было так круто, что папку у них показывают и там и тут (особенно робот Борис), и потом я им показал datalearn канал, там они там залипли, места знакомые из наших поездок, где-то они на фоне бегают. Потом стали читать комментарии и угорать, особенно им понравились комменты про томатный сок. 🍅 Так что планирую заполонить весь интернет видосами surfalytics 🍸

И самое главное у меня уже было целых 2 платные консультации из Торонто и Австралии, мы там обязательно добьем все вопросы! 📈

PS если еще не в друзьях в Linkedin, добавляйтесь. https://www.linkedin.com/in/dmitryanoshin/
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥1176🗿4🐳2💯1😭1🦄1
Можно добавить к списку книг, которые неплохо бы прочитать https://x.com/naval/status/1002103360646823936?s=20
❤‍🔥73🗿1
Мне тут подкинули видосик и там с 12 минуты супер отзыв про datalearn курс за 0 рублей, приятно что контент помогает и самое интересное он еще очень даже актуален, так как фундаментально ничего не поменялось. Евгений спасибо, за отзыв!

#testimmonial
🐳42❤‍🔥17🫡5🍾21🌚1
Когда вам будет скучно - сделайте BI Server update, так по быстренькому перед сном...Вот и я думал, ща я по playbook копирну новые jars для Looker, перезагружу и спать. Утром меня похвалят, что я такое красавчик сверх урочно еще и обновил наш сервер.

Вообще я ни разу в жизни не работал с Looker до этого как администратор и первый раз сделал SSH на виртуальную машину.

Как будто до этого я не "убивал" SAP Business Objects и Tableau. Бэкапы для слабаков. Ну в общем грохнул я Looker сервер, который крутится на EC2.

Сейчас я понимаю, что на самом деле было не все так плохо, просто надо было решить проблему с ключом шифрования (согласно логам), но это я понял потом.

Сначала я нашел бэкап 2021 года и познакомился с новой фичей Ec2 - swap root drive, в общем в конец все поломал. Когда делал swap, он грохнул текущий жесткий диск.⚰️ Такая ностальгия по былым временам. 🤪

Конечно idempotent ETL мне больше нравится. Жалко что BI server не idempotent. Придется с нуля новый сервер ставить, интегрировать с saml и потом еще выслушивать упреки менеджера. Можно зато потом блог пост написать - установка looker на EC2 и интеграция с saml и github. Как раз был пробел в знаниях🦩

Поэтому как ни крути, бэкапы все таки экономят время.

У вас есть веселые истории как вы грохнули прод? 🪓

Коллега меня поддержал, сказал у него не старой работе менеджер говорил, если инженер не грохнул Hadoop в проде хотя бы раз в жизни, мы его не возьмем на работу, так что полезный skill. Если не клали прод, вы знаете, что делать! 🫡
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈65❤‍🔥1715🙊5🙉2
Статья на Хабре про российский BI с NLP🤖, который присылает отчеты прямо в мессенджер. Разработчики рассказали о том, почему они придумали именно такое решение и как оно сокращает путь пользователя к данным.
❤‍🔥23🌭53🗿3🤷2
Самый неприятный топик в инжиниринге данных это модель данных, она вроде бы есть (в вопросах на собеседовании), но ее вроде бы нет (на проекте). Выступление автора Fundamentals of Data Engineering напомнило -

DATA MODELING IS DEAD! LONG LIVE DATA MODELING!

Data modeling is on life support. Some say it’s dead. The traditional practices are increasingly ignored and forgotten. The result is often a loss of structure and a shared understanding of business rules and vocabulary. At the same time, data modeling is more critical than ever. With AI's rising popularity, many organizations rush to incorporate it into their infrastructure. Without consideration of the underlying data framework, the result will be unpleasant for many organizations. In this talk, I argue that data modeling is a key enabler for success with AI. We must return to basics and revamp data modeling to work with modern business workflows and technologies. Long live data modeling!
💯21👨‍💻4❤‍🔥2🫡1
Modelling.pdf
3.7 MB
В продолжение темы про моделирование. Автор книги Data Modelling для Snowflake сделал нарезку типов таблиц фактов. Кто-нибудь смотрел книгу?

Они кстати продают инструмент для моделирования данных, когда через диаграммы вы создаете DDL, даже в datalearn я использовал их софт для postgres.
3
Вдруг вы забыли что такое AI, отличная статья про это самое https://www.okta.com/blog/2023/10/what-is-ai/

For the data to be effective, it must be of a sufficiently high quality. Quality can be determined by a number of factors. These include:

Relevance: Does the image show a breakfast cereal?
Quality: Can a human easily identify a breakfast cereal within the photo? Is the lighting, resolution, and framing good enough?
Variability: Does the data show the same variety of cereal in a number of different ways?
Bias: Is the data representative, not just of yourself, but of everyone that’s likely to use your system?
🌭5🍾1
💯30🫡8🤷7❤‍🔥2🗿2🦄2🌚1🍾1
Не знаю как сейчас, но когда я начинал карьеру ни одна компания меня так ни привлекала как McKinsey. Вообще вся это большая четверка, KPMG в Moscow City, и другие пафосные организации. Знакомые коллеги которые туда попадали и у них над головой появлялся ореол, они прям сияли😏

Тогда я думал лучше места нет и что успешный успех это у них. Я даже был на собесе в KPMG и меня спрашивали сколько беременных женщин сейчас едет в метро… по итогу предложили 50т рублей и ненормированный день, в итоге я с удовольствие пошел в Терадату за 120т рублей и первые 2 недели чилил с женой в Мадриде на new hire тренинге (с тех пор считаю себя главным поглотителем всевозможных корпоративных бенефитов, могу кстати тестировать ваши корпоративные бенефиты, за дорого).

К чему я все это? Да просто смешной ролик про McKinsey.

В Канаде я тоже как то видел их вакансию, но это уже не для многодетной семьи, да и зарплаты канадские это вам не московские🙁
Please open Telegram to view this post
VIEW IN TELEGRAM
💯25🙉7😈5
У меня тут бюджетик на учебу (те самые корпоративные бенефиты), кроме книг тратить не начто, скиньте топ книги по soft skills на английском или может прям тренинги есть, было бы полезно всем прокачаться. Спасибо
38
Неужели кто-то хотел бесплатно поучится дата инженирингу из Москвы😂
🌚38🗿8😭5👾2🤷‍♂1🙉1🙊1
После презентации Open AI - DevDay все ленты всех соц сетей усыпаны скринами и сообщения про будущее и настоящее с AI. Возможно пора уже вводить новые вакансии:
- AI BI Engineer
- AI Data Engineer
- AI ETL Developer
- AI Product Analytics
- AI BigData Engineer
и так далее, чтобы все красиво было в резюмешке!

Вообще мне всегда нравится MAD про всякие дата инструменты и каждый год все больше новых инструментов, а теперь просто будет Open AI, ведь теперь можно с NoSQL создать свой AI апп для всего на свете.
32🙈11❤‍🔥2
Databricks недавно выкатил новую фичу для Delta Lake 3.0 - Liquid Clustering.

Фича позволяет повысить скорось загрузки данных, например в статье приводится пример загрузки 1Тб данных и скорость выше в 2,5 раза.
🌭106😭2🌚1👨‍💻1
Прикольная штука https://equals.com/ - spreadsheet который можно сразу подключать к БД и работать с результатом в табличке. Но если человек может написать сам запрос, то ему и эксельку не нужна. Да и в обычном excel можно подключить любую БД
9💯3
Ну привет Bing! Посмотрим чего ты стоишь....🔪
Please open Telegram to view this post
VIEW IN TELEGRAM
💯122🌚1
AI - я не успеваю за тобой! Я скопировал ответ из Binga в Outlook, а тут уже Copilot бегает и проверяет мои письма и это все на MacOS💣
🙈20🤷‍♂3
Как приятно, что про меня помнят!
🍾241🙈8🍌5❤‍🔥4🎄4🌭2👾2🐳1