Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Сегодня в linkedin увидел картинку бывшего коллеги по Терадате с футболкой:
My wife found my Teradata-Sber T-Shirt. About 10 years ago it was the project. Such projects you need to have experience. "Big deal" for Teradata Russia and lovely experience at my Taradata CPC award in Sydney afterwards!
Time flies so fast. T-shirt remains!


Это был проект Кредиты Юридических Лиц - Teradata + SAP BusinessObjects. И я сразу вспомнил несколько забавных историй того времени, которых мне не хватает в Северной Америки, коллеги у меня местные, и чувство юмора у нас не совпадает, так что я уже привык быть скучным и серьезным на работе.

Например, когда я только присоединился к проекту, мы работали в бывшем детском садике, переоборудованом под офис сбера (такое советское 2х этажное здание с охранниками на входе, а раньше и телефонов не было повтыкать, в общем они там скучали). В нашей комнате был чайник и печеньки.

Главный challenge это стулья. Стульев (нормальных) меньше, чем людей, поэтому шла борьба за них. Как-то я пошутил не колле, что моя коллега занимается йогой, вместо работы, и никто не понял, что я пошутил😋Она в ответ, сказала, что мы играем в Counter Strike в рабочее время, и она не шутила😣 В этом садики мы (консультанты) часто жили своей жизнью, и было весело.

Если посмотреть на карьеру, то в начале карьеры (мой 2й год) было намного интересней, так как передомной был океан и много неизведанного. Напоминает мне, когда я игра первый раз в Fallout 2, это такая RPG игра. Там была карта и можно ходить, открывать новые города, находить оружие и броню. И это было очень интересно, потому что игра - это как неизведанный мир. Так же и карьера в начале.

А теперь, уже все понятно +/-, тратишь силы на споры про 2% повышение зарплаты и понимаешь, что вся "карта" открыта. 🤔

Зато, когда мы закончили проект, возможно опоздав на годик-другой по срокам, мы должны были отметить это мероприятие в пивнухе. Так сложилось, что наш менеджер попросил помочь выбрать место. Уж я-то знал все места в Москве😎 Я ему предложил Аист (это такой ресторан в Москве, очень дорогой на Патриарших, рядом всегда были бентли, феррари и другие чудеса техники). Мы зашли на сайт, и там почти ничего не было, так небольшое простенькое меню, цены не очень большие (скорей всего за 100г). И столик нашелся на 25-30 человек.

Мне кажется, для одних это место было открытие, а другие не заметили разницы. Пошли заказы на стейки, лобстеры и дорогие вина (были там ценители коллеги). Было так весело и вкусно, что народ, стал заказывать по 2му кругу горячие блюда. Кто-то выпил так много, что прили к фешенебельной раковине в фешенебельном туалете🤢.

Принесли счет, сумма была огого, явно превышала положенный бюджет на 30 человек раз в 5-6. Потом оказалось, что это чек не проходит в expense систему, и никто не может сделать approve, этот чек дошел до HQ Teradata. Такой вод проектик))

Как же не хватает таких историй🥳
Хороший пост из 2х частей про роль Program Manager от Microsoft:

In this two-part article series, author describe the unique responsibilities of a program manager (PM) on an ML team, the value that a PM adds, and how to be successful in this new role.

ML program management at scale (Part 1 of 2)
ML program management at scale (Part 2 of 2)
В общем качество данных это не шутка! Поэтому у бизнеса и у нас должны быть высокие ожидание про качества данных, что есть Great Expectations!

А еще, неплохо бы не изобретать велосипед, а использовать готовый framework для обеспечения качества данных, можно например использовать Deequ для Spark (Scala или Pyspark), а можно посмотреть на новый популярный инструмент, который работает без спарка - Great Expectations.

Вот вам аж целых 3 поста про них!
https://greatexpectations.io/blog/maximizing-productivity-of-analytics-teams-pt1/

https://greatexpectations.io/blog/maximizing-productivity-of-analytics-teams-pt2/

https://greatexpectations.io/blog/maximizing-productivity-of-analytics-teams-pt3/

Great Expectations writes a three-part series on maximizing the productivity of the analytics team, focusing on the debugability of the dashboards, reducing the technical debt on the data pipeline, and the role of Great Expectations in the data engineering process.
Что может быть общего подхода по моделированию данных Data Vault и Python? Оказывается есть - diepvries is the name of a Python library. It automates the data loading process for Data Vault and avoids the maintenance of repetitive SQL queries for ETL jobs.

https://blog.picnic.nl/releasing-diepvries-a-data-vault-framework-for-python-3f01a5d46f84
"As data people, we definitely have a lot of tools. In 2017, Y Combinator—an incubator of both startups and the Silicon Valley zeitgeist—funded 15 analytics, data engineering, and AI and ML companies. In 2021, they funded 100.² It’s impossible to make sense of this many tools, much less manage even a fraction of them in a single stack."

Все так - кол-во инструментов (tools) для работы с данными растет в геометрической прогрессии. Свеже испеченным дата профессионалом будет очень сложно понять разницу в инструментах, их назначении и различии. 🙄

Новички, как собираетесь решать проблему? Всего не перепробовать и не выучить, и концов не найти. Как в песне:

Data может, data может
Все что угодно....
Специально нашел soundtracks Tableau Conference 2019, раз уж про песни заговорил, https://open.spotify.com/playlist/5mohLACrVKdX6zxCfagScw
Через 2 минуты начинаем кстати гоу в зум кому в кайф:
Подключиться к конференции Zoom
https://us02web.zoom.us/j/89848486805?pwd=THg0UHRGdTBxZml6ZjNtZnF3VFVCdz09

Идентификатор конференции: 898 4848 6805
Код доступа: 996986
Одно касание на мобильном телефоне
+13017158592,,89848486805#,,,,*996986# Соединенные Штаты Америки (Washington DC)
+13126266799,,89848486805#,,,,*996986# Соединенные Штаты Америки (Chicago)

Набор в зависимости от местоположения
+1 301 715 8592 Соединенные Штаты Америки (Washington DC)
+1 312 626 6799 Соединенные Штаты Америки (Chicago)
+1 346 248 7799 Соединенные Штаты Америки (Houston)
+1 669 900 6833 Соединенные Штаты Америки (San Jose)
+1 929 205 6099 Соединенные Штаты Америки (New York)
+1 253 215 8782 Соединенные Штаты Америки (Tacoma)
Идентификатор конференции: 898 4848 6805
Код доступа: 996986
Найдите свой местный номер: https://us02web.zoom.us/u/kd2F7vdGeS
Вы уже знакомы с TPC benchmarking (модуль 6.2)? Вот и Databricks сделал свои тесты https://databricks.com/product/databricks-sql-2
У кого есть возможность, можете оставить отзыв Роман Зыков на Amazon про его книну: Roman's Data Science: How to monetize your data

Amazon.ca
Amazon.com
Или на вашем амазоне, например в Европе.
А если вы были на автограф сессии, ваша фотография может быть на Амазоне!)
И снова хорошие новости, Табло конференция будет 9-12 ноября ( прям на мое др) и поэтому она бесплатна для вас, хотя она и так бесплатна, так как 100% онлайн. Уверен будет много интересного. https://www.tableau.com/events/conference?utm_campaign=PowerBI
Свежая статья про FeatureStore. Никто не хочет рассказать про него на вебинаре? Отличие от хранилища данных, архитектура, и тп.
Хотите разобраться в облачных технологиях?
19 и 20 сентября присоединяйтесь к онлайн-курсу от Microsoft, посвящённому облачным решениям Azure (200+ решений на одной платформе).

Специалисты Microsoft расскажут, как облачные сервисы решают проблему безопасности и конфиденциальности данных пользователей. Покажут, как быстро, безопасно и эффективно интегрировать Azure с существующими сетями.

На курсе вы сможете подготовиться к сертификационному экзамену по Azure и попробовать его сдать бесплатно.
Регистрируйтесь, чтобы не пропустить: https://bit.ly/3C1KEBD

PS Microsoft поддержал фонд.
Arguments made with data are celebrated as unimpeachable level-minded science; arguments without it are the shrill opinions of a hysteric. Walk into a conversation without a supporting graph, and you’re hit with a Goodread link to W. Edwards Deming quotes: “Without data, you’re just another person with an opinion.” “In God we trust; all others must bring data.”