Инжиниринг Данных
22.9K subscribers
1.76K photos
51 videos
181 files
3.05K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 9 лет в FAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Чувак просто жжет со своими курсами. Отличная мотивация для меня, повешу себе на стенку, чтобы не чиниться, а то так и придется еще долго на “дядь” трудится, чтобы столько зарабатывать👨‍💻
Please open Telegram to view this post
VIEW IN TELEGRAM
А вы продуктивный инженер или так себе? Вот Майкрософт решил провести опрос среди 413 разработчик и попытался ответить на это вопрос - Characterizing Software Developers by Perceptions of Productivity

Было выделено 6 групп и дано описание каждой группе.

1 Social developers (C1) feel productive when helping coworkers, collaborating and doing code reviews. 
2 Lone developers (C2) avoid disruptions such as noise, email, meetings, and code reviews. They feel most productive when they have little to no social interactions and when they can work on solving problems, fixing bugs or coding features in quiet and without interruptions. 
3 Focused developers (C3) feel most productive when they are working efficiently and concentrated on a single task at a time.  
4 Balanced developers (C4) are less affected by disruptions. They are also less likely to come to work early or stay at work late. 
5 Leading developers (C5) are more comfortable with meetings and emails. They feel more productive in the afternoon and when they can write and design things. 
6 Goal-oriented developers (C6) feel productive when they complete or make progress on tasks. They feel less productive when they
multi-task, are goal-less or are stuck.
Вот что значит у них печатный станок налажен, верхней планки у зп нет📬
Please open Telegram to view this post
VIEW IN TELEGRAM
Термин data observability достаточно недавно стал применятся к хранилищам данных и ETL. Раньше просто говорили - качество данных.

The concept of data observability was first described by Barr Moses, co-founder and CEO of software vendor Monte Carlo Data. Moses coined the term in 2019, when she wrote a blog post about applying the general principles of observability for IT systems to data.



а сам термин observability пришел из devops, подразумевает процесс мониторинга ИТ систем и возможность быстро найти причину неполадки.
Где как не на сайте Мonte Carlo можно узнать больше про data observability - What is Data Observability? Для меня это просто процесс мониторинги всего чего только можно в нашем хранилище данных и случае отклонения -> ⚠️.
Самое интересное у них это типы "мониторов", то есть типы проверок ваших данных, которые могут покрыть все решение. Я сам пользуюсь уже год, и продукт мне нравится, а недавно мы стали интегрировать dbt и MC.
Если нет денег на MC, всегда можно подсмотреть идеи у них и уже сделать с помощью dbt, python, или какой язык вы там используете.
Что для вас значит хороший код и как измерить его качество? На этот вопрос ответили в статье Developers talking about code quality.

В ней опросили больше 100 инженеров и все сошлись на мнении, что хороший код про понятный структурированный код, который легко читать и понимать.
🏆 Yandex Cup 2023 — открытый чемпионат для настоящих творцов

Разработчики — художники нового мира. Они создают смыслы, правила и законы, манифестируют идеи, творят миры и целые вселенные. И, если их предшественники делали это, используя слова, краски и звуки, то современные творцы создают новую реальность с помощью программного кода.

Искусство писать код

Тема чемпионата в этом году «Решаем искусство». Участников ждут нестандартные задачи на стыке IT и творчества, а лучшие встретятся лицом к лицу в финале, чтобы оживить арт-инсталляцию и разделить между собой 8 500 000 рублей.

Показать своё мастерство можно в 6 направлениях:

🔸 Фронтенд
🔸 Бэкенд
🔸 Мобильная разработка
🔸 Аналитика
🔸 Алгоритмы
🔸 Машинное обучение

Финал и церемония награждения пройдут офлайн в офисе Яндекса в Казахстане. Яндекс предоставит финалистам проезд и проживание в Алматы.

Регистрация открыта до 29 октября включительно:

👉 Участвую!

#Yandex_Cup23
Насколько дорого делать AI? На графике расходы Microsoft, Google, Meta.
Человек на 60% состоит из воды, а Тинькофф на 100% из масштабных ИТ-задач и ежедневных вызовов

Если ты опытный ИТ-спец, этот вызов для тебя. А решение бытовых забот берем на себя: от ультра расширенной медстраховки и юридической поддержки до компенсации питания, спорта и дополнительного обучения.

Выбрать вакансию и стать частью ИТ-команды можно тут:
https://u.tinkoff.ru/career.it_about

АО «Тинькофф Банк», ИНН 7710140679
Про новые бейджики в Linkedin - чувак просто рандомно отвечал и получил бейдж. Мне кажется скоро будет стыдно их иметь🐔 Вопросы там тоже так себе, ведь они сгенерированы AI.
Please open Telegram to view this post
VIEW IN TELEGRAM
Привет из Северной Америки!
Если бы я скучал в роли инженера данных, я бы обязательно изучил бы DuckDb, и прочитал бы их книгу. Кто-нибудь используете их? Может поделитесь, что за утка?
У меня тут супер концепт появился для Surfalytics - каждый месяц я буду выбирать проект и вместе со студентами мы будем делать его, каждый в своем ритме и параллельно обсуждать. Идей у меня куча, что можно сделать полезного для себя, для портфолио, да и просто углубиться в вопрос.

Уже выбрал первый проект - развернуть кластер Azure Databricks в виртуальной сети (VNET) и использовать конфигурации Security Cluster Connectivity, это когда виртуальные машины не торчат в интернет. Так же есть и на AWS c VPC. Тут главное про настройку сети, а не Spark/PySpark. Если есть возможности сделайте like в LinkedIn - мой пост про важность конфигурации сети, пост Surfalytics про первый проект.

Для Surfalytics я запустил Discord и там будут закрытые каналы для проектов. По результатам проекта запишу видосик.

Вообще планирую в будущем 2 типа проектов
- BI/Analyst
- Data Engineer

Вообще миссию себе придумал, быть номер 1 ресурсом в мире по началу пути в дата профессии. Это длинный путь, но меня штырит от таких движух и даже если финансово не заработает, все равно будет приятно, что кому-то это принесет пользу.

Сегодня утром у меня сын 11 лет на youtube нашел мои записи про BI Academy в Ламоде и все 3ое детей смотрели видосики, и им было так круто, что папку у них показывают и там и тут (особенно робот Борис), и потом я им показал datalearn канал, там они там залипли, места знакомые из наших поездок, где-то они на фоне бегают. Потом стали читать комментарии и угорать, особенно им понравились комменты про томатный сок. 🍅 Так что планирую заполонить весь интернет видосами surfalytics 🍸

И самое главное у меня уже было целых 2 платные консультации из Торонто и Австралии, мы там обязательно добьем все вопросы! 📈

PS если еще не в друзьях в Linkedin, добавляйтесь. https://www.linkedin.com/in/dmitryanoshin/
Please open Telegram to view this post
VIEW IN TELEGRAM
Можно добавить к списку книг, которые неплохо бы прочитать https://x.com/naval/status/1002103360646823936?s=20
Мне тут подкинули видосик и там с 12 минуты супер отзыв про datalearn курс за 0 рублей, приятно что контент помогает и самое интересное он еще очень даже актуален, так как фундаментально ничего не поменялось. Евгений спасибо, за отзыв!

#testimmonial
Когда вам будет скучно - сделайте BI Server update, так по быстренькому перед сном...Вот и я думал, ща я по playbook копирну новые jars для Looker, перезагружу и спать. Утром меня похвалят, что я такое красавчик сверх урочно еще и обновил наш сервер.

Вообще я ни разу в жизни не работал с Looker до этого как администратор и первый раз сделал SSH на виртуальную машину.

Как будто до этого я не "убивал" SAP Business Objects и Tableau. Бэкапы для слабаков. Ну в общем грохнул я Looker сервер, который крутится на EC2.

Сейчас я понимаю, что на самом деле было не все так плохо, просто надо было решить проблему с ключом шифрования (согласно логам), но это я понял потом.

Сначала я нашел бэкап 2021 года и познакомился с новой фичей Ec2 - swap root drive, в общем в конец все поломал. Когда делал swap, он грохнул текущий жесткий диск.⚰️ Такая ностальгия по былым временам. 🤪

Конечно idempotent ETL мне больше нравится. Жалко что BI server не idempotent. Придется с нуля новый сервер ставить, интегрировать с saml и потом еще выслушивать упреки менеджера. Можно зато потом блог пост написать - установка looker на EC2 и интеграция с saml и github. Как раз был пробел в знаниях🦩

Поэтому как ни крути, бэкапы все таки экономят время.

У вас есть веселые истории как вы грохнули прод? 🪓

Коллега меня поддержал, сказал у него не старой работе менеджер говорил, если инженер не грохнул Hadoop в проде хотя бы раз в жизни, мы его не возьмем на работу, так что полезный skill. Если не клали прод, вы знаете, что делать! 🫡
Please open Telegram to view this post
VIEW IN TELEGRAM
Статья на Хабре про российский BI с NLP🤖, который присылает отчеты прямо в мессенджер. Разработчики рассказали о том, почему они придумали именно такое решение и как оно сокращает путь пользователя к данным.
Самый неприятный топик в инжиниринге данных это модель данных, она вроде бы есть (в вопросах на собеседовании), но ее вроде бы нет (на проекте). Выступление автора Fundamentals of Data Engineering напомнило -

DATA MODELING IS DEAD! LONG LIVE DATA MODELING!

Data modeling is on life support. Some say it’s dead. The traditional practices are increasingly ignored and forgotten. The result is often a loss of structure and a shared understanding of business rules and vocabulary. At the same time, data modeling is more critical than ever. With AI's rising popularity, many organizations rush to incorporate it into their infrastructure. Without consideration of the underlying data framework, the result will be unpleasant for many organizations. In this talk, I argue that data modeling is a key enabler for success with AI. We must return to basics and revamp data modeling to work with modern business workflows and technologies. Long live data modeling!
Modelling.pdf
3.7 MB
В продолжение темы про моделирование. Автор книги Data Modelling для Snowflake сделал нарезку типов таблиц фактов. Кто-нибудь смотрел книгу?

Они кстати продают инструмент для моделирования данных, когда через диаграммы вы создаете DDL, даже в datalearn я использовал их софт для postgres.
Вдруг вы забыли что такое AI, отличная статья про это самое https://www.okta.com/blog/2023/10/what-is-ai/

For the data to be effective, it must be of a sufficiently high quality. Quality can be determined by a number of factors. These include:

Relevance: Does the image show a breakfast cereal?
Quality: Can a human easily identify a breakfast cereal within the photo? Is the lighting, resolution, and framing good enough?
Variability: Does the data show the same variety of cereal in a number of different ways?
Bias: Is the data representative, not just of yourself, but of everyone that’s likely to use your system?