Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Когда вам будет скучно - сделайте BI Server update, так по быстренькому перед сном...Вот и я думал, ща я по playbook копирну новые jars для Looker, перезагружу и спать. Утром меня похвалят, что я такое красавчик сверх урочно еще и обновил наш сервер.

Вообще я ни разу в жизни не работал с Looker до этого как администратор и первый раз сделал SSH на виртуальную машину.

Как будто до этого я не "убивал" SAP Business Objects и Tableau. Бэкапы для слабаков. Ну в общем грохнул я Looker сервер, который крутится на EC2.

Сейчас я понимаю, что на самом деле было не все так плохо, просто надо было решить проблему с ключом шифрования (согласно логам), но это я понял потом.

Сначала я нашел бэкап 2021 года и познакомился с новой фичей Ec2 - swap root drive, в общем в конец все поломал. Когда делал swap, он грохнул текущий жесткий диск.⚰️ Такая ностальгия по былым временам. 🤪

Конечно idempotent ETL мне больше нравится. Жалко что BI server не idempotent. Придется с нуля новый сервер ставить, интегрировать с saml и потом еще выслушивать упреки менеджера. Можно зато потом блог пост написать - установка looker на EC2 и интеграция с saml и github. Как раз был пробел в знаниях🦩

Поэтому как ни крути, бэкапы все таки экономят время.

У вас есть веселые истории как вы грохнули прод? 🪓

Коллега меня поддержал, сказал у него не старой работе менеджер говорил, если инженер не грохнул Hadoop в проде хотя бы раз в жизни, мы его не возьмем на работу, так что полезный skill. Если не клали прод, вы знаете, что делать! 🫡
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈65❤‍🔥1715🙊5🙉2
Статья на Хабре про российский BI с NLP🤖, который присылает отчеты прямо в мессенджер. Разработчики рассказали о том, почему они придумали именно такое решение и как оно сокращает путь пользователя к данным.
❤‍🔥23🌭53🗿3🤷2
Самый неприятный топик в инжиниринге данных это модель данных, она вроде бы есть (в вопросах на собеседовании), но ее вроде бы нет (на проекте). Выступление автора Fundamentals of Data Engineering напомнило -

DATA MODELING IS DEAD! LONG LIVE DATA MODELING!

Data modeling is on life support. Some say it’s dead. The traditional practices are increasingly ignored and forgotten. The result is often a loss of structure and a shared understanding of business rules and vocabulary. At the same time, data modeling is more critical than ever. With AI's rising popularity, many organizations rush to incorporate it into their infrastructure. Without consideration of the underlying data framework, the result will be unpleasant for many organizations. In this talk, I argue that data modeling is a key enabler for success with AI. We must return to basics and revamp data modeling to work with modern business workflows and technologies. Long live data modeling!
💯21👨‍💻4❤‍🔥2🫡1
Modelling.pdf
3.7 MB
В продолжение темы про моделирование. Автор книги Data Modelling для Snowflake сделал нарезку типов таблиц фактов. Кто-нибудь смотрел книгу?

Они кстати продают инструмент для моделирования данных, когда через диаграммы вы создаете DDL, даже в datalearn я использовал их софт для postgres.
3
Вдруг вы забыли что такое AI, отличная статья про это самое https://www.okta.com/blog/2023/10/what-is-ai/

For the data to be effective, it must be of a sufficiently high quality. Quality can be determined by a number of factors. These include:

Relevance: Does the image show a breakfast cereal?
Quality: Can a human easily identify a breakfast cereal within the photo? Is the lighting, resolution, and framing good enough?
Variability: Does the data show the same variety of cereal in a number of different ways?
Bias: Is the data representative, not just of yourself, but of everyone that’s likely to use your system?
🌭5🍾1
💯30🫡8🤷7❤‍🔥2🗿2🦄2🌚1🍾1
Не знаю как сейчас, но когда я начинал карьеру ни одна компания меня так ни привлекала как McKinsey. Вообще вся это большая четверка, KPMG в Moscow City, и другие пафосные организации. Знакомые коллеги которые туда попадали и у них над головой появлялся ореол, они прям сияли😏

Тогда я думал лучше места нет и что успешный успех это у них. Я даже был на собесе в KPMG и меня спрашивали сколько беременных женщин сейчас едет в метро… по итогу предложили 50т рублей и ненормированный день, в итоге я с удовольствие пошел в Терадату за 120т рублей и первые 2 недели чилил с женой в Мадриде на new hire тренинге (с тех пор считаю себя главным поглотителем всевозможных корпоративных бенефитов, могу кстати тестировать ваши корпоративные бенефиты, за дорого).

К чему я все это? Да просто смешной ролик про McKinsey.

В Канаде я тоже как то видел их вакансию, но это уже не для многодетной семьи, да и зарплаты канадские это вам не московские🙁
Please open Telegram to view this post
VIEW IN TELEGRAM
💯25🙉7😈5
У меня тут бюджетик на учебу (те самые корпоративные бенефиты), кроме книг тратить не начто, скиньте топ книги по soft skills на английском или может прям тренинги есть, было бы полезно всем прокачаться. Спасибо
38
Неужели кто-то хотел бесплатно поучится дата инженирингу из Москвы😂
🌚38🗿8😭5👾2🤷‍♂1🙉1🙊1
После презентации Open AI - DevDay все ленты всех соц сетей усыпаны скринами и сообщения про будущее и настоящее с AI. Возможно пора уже вводить новые вакансии:
- AI BI Engineer
- AI Data Engineer
- AI ETL Developer
- AI Product Analytics
- AI BigData Engineer
и так далее, чтобы все красиво было в резюмешке!

Вообще мне всегда нравится MAD про всякие дата инструменты и каждый год все больше новых инструментов, а теперь просто будет Open AI, ведь теперь можно с NoSQL создать свой AI апп для всего на свете.
32🙈11❤‍🔥2
Databricks недавно выкатил новую фичу для Delta Lake 3.0 - Liquid Clustering.

Фича позволяет повысить скорось загрузки данных, например в статье приводится пример загрузки 1Тб данных и скорость выше в 2,5 раза.
🌭106😭2🌚1👨‍💻1
Прикольная штука https://equals.com/ - spreadsheet который можно сразу подключать к БД и работать с результатом в табличке. Но если человек может написать сам запрос, то ему и эксельку не нужна. Да и в обычном excel можно подключить любую БД
9💯3
Ну привет Bing! Посмотрим чего ты стоишь....🔪
Please open Telegram to view this post
VIEW IN TELEGRAM
💯122🌚1
AI - я не успеваю за тобой! Я скопировал ответ из Binga в Outlook, а тут уже Copilot бегает и проверяет мои письма и это все на MacOS💣
🙈20🤷‍♂3
Как приятно, что про меня помнят!
🍾241🙈8🍌5❤‍🔥4🎄4🌭2👾2🐳1
Feature Store.pdf
1.8 MB
На самом деле хотел расшарить слайды про Feature Store от Databricks.

Для мне термин feature store значит хранилище данных для ML инженеров или Data Scientist (кому как нравится).

PS если хочешь узнать точное определение, надо написать неточное в☝️
🙈3🍌1
Новый термин - Data Intelligence Platform от Databricks.

Database -> Data Mart -> Data Warehouse -> Data Lake -> Lake House -> Data Platform -> Data Intelligence Platform.


Ничего не забыл упомянуть?

Ах вот подсказывают в чате...

Data Wizardry Workshop - Where data spells are crafted!

Information Lagoon - A relaxed, tropical take on data storage.

Byte Bayou - A swampy, mysterious place for mysterious data.

Cloud Castle of Computations - High above it all, where data reigns supreme.

Digital Doughnut Depot - Because who doesn't like doughnuts with their data?

Pixel Palace - A regal residence for refined data.

Circuit Circus - A fun, chaotic jumble of data and entertainment.

Memory Lane Museum - A nostalgic trip through historical data.

Quantum Quarters - The futuristic abode of next-gen data.

Binary Beach Resort - Where data goes on vacation.

Neural Network Nook - A cozy corner for AI-driven data insights.

Data Dungeon - For those deep, dark data secrets.

Algorithm Abbey - A serene sanctuary for structured data analysis.
Info Island - An isolated oasis of organized information.
🙈26🙉9🙊9🐳4❤‍🔥2😭2🗿21
Все чаще замечаю продукт для тестов и качества данных Soda. Есть open source - soda core (где то я уже это слышал), а есть коммерческая версия soda platform. Обязательно попробуйте на следующем проекте. Кто-нибудь начал использовать?

А еще все топят за data contracts. В той же soda есть и в новом релизе dbt core, как получилось у вас «заключить контракт»?
💯11
Наверна одна из самых больших новостей. Мне нравится Ethan за его взгляд на вещи! Мужик топчик, и кстати он выплатил ипотеку, так что красавчик. Надеюсь Sam тоже без ипотеки)))

https://techcrunch.com/2023/11/17/sam-altman-is-out-as-openais-ceo/
14🗿5🤷4