Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Куда ни глянь, везде пишут про data contracts. Это прям уже какой-то новый тренд после Data Mesh и других “инновационных” вещей. На проекте, где используются Snowflake+dbt поверх платформы на S3, тоже затронули тему data contracts.

Я был очен ленив и не смог прочитать все посты на medium по этой теме, но согласно нашим инженерам, они создали процесс, который посчитает кол-во клиентов/строк/заказов/событий/кликов) или еще чего в системе источнике и в хранилище данных и сравнивают результат. Согласно контракту, кол-во должно совпадать, а если не совпадает, то Хьюстон, у нас проблема! и мы получим в алерт в слак.

Я такое еще делал в SAP BusinessObjects 10 лет назад. А как у вас с data contracts, как вы понимаете этот термин?
👍22
Recruiter:
- We offer a competitive salary.
Employee:
- Great, how much is it?
Recruiter:
- Don't worry about it, it's competitive. Anyways, what skills do you have?
Employee:
- Oh, I have amazing skills.
Recruiter:
- Great, can you tell me more about them?
Employee:
- Don't worry, they're amazing.
😁239👍25👏6🔥5
25-26 октября будет конференция от Monte Carlo - Impact. Вот ссылка для регистрации https://impactdatasummit.com/2022?utm_source=datadog 😏 Можете узнать больше про data observability.

В следующем спринте мне предстоит внедрять это штуку и вообще разобраться в особенностях между dbt, datadog и МС

At Monte Carlo — named after the simulation, not the destination — we’re committed to making data reliable. - это все прекрасно, но гугл выдает совсем другую информацию, когда мы ищем про МС😄
👍7
Пока одни бегут от Redshift на Snowflake, databricks или ещё куда подальше, другие рассказывают об успешных кейсах внедрения redshift. Картинка от Peloton. Интересно, массовые увольнения, резкий спад стоимости акций как-то связан с выбором технологий?🫠
🤔15👍5😁1
Кстати, сегодня первый день я больше не в Xbox. За почти 2 года работы я многое узнал о создании ААА игр, сам процесс от идеи до реализации, особенности аналитики для дизайна игр и анализа поведения игрока и многое другое. За это время у меня было 3 xbox дома, Xbox game pass, топовый gaming PC. Мои дети подсели на Minecraft и сам я понял насколько gaming плохо, когда стала появляться зависимость от Fortnite. Было очень весело играть с одноклассниками сына, наверно я был единственным папашей кто играл онлайн с 4хкласниками. Когда я провалил собес в Epic, мне это помогло разорвать связь с Fortnite и я окончательно решил не тратить время на игры. Главная причина ухода из Xbox локальные отношения с менеджером, мягко говоря у нас была нездоровая среда. Другой минус ААА это жесткий микроменеджемент, мне кажется иначе нереально сделать топ игру за 3-4 года, но такой стиль работы мне не подходит, я больше чувствую себя свободным художником, чем машиной по написанию кода и логированию времени каждый день.

Больше я не принадлежу одной компании, а что-то вроде advisory/consulting для 3х компаний, как говориться один год за три😋
🔥114👍44🎉7🤔5
Мне кажется, замечательная книга, чтобы ее найти и положить в pdf в комменты😜 я не смог найти😞
🤩15🔥9🤔4👍3
Teradata CTO Stephen Brobst drowns data lakehouse concept - несмотря на то, что мне нравится идея lake house, где мы берем лучшее от DW и Data Lake, этот концепт больше про buzz word. До этого был пост на обзор white paper про lake house, где автор тоже не увидел сильных преимуществ.

"You need to have a unified architecture, but they are discrete things. There is a difference between the raw data, which is really data lake, and the data product, which is the enterprise data warehouse," Brobst says.

PS Brobst супер чувак, он как из фильма Назад в Будущее, и всегда в теме, его не проведешь какими-то buzz словечками)) я его видел один раз, когда сам работал в Терадата, он все так же выступал в гавайской рубашке.
👍7🔥7
Snowflake явно лидирует согласно этому опросу https://new.reddit.com/r/dataengineering/comments/xuudr1/what_data_lakewarehouse_do_you_use/
🤔8
Forwarded from Rumyantsev Feed
Октябрь обещает быть богатым на конференции. Все они имеют гибридный формат, а это значит, что мероприятия будут так же транслироваться и онлайн. Подготовил подборку бесплатных конференций, информация о которых всплывала в различных источниках в последние дни.

08.10 - KOLESA Conf: "Масштабная конференция, объединяющая IT-сообщество Казахстана." Анонсировано 35+ спикеров в 4 направлениях: Web, Management, Data, Mobile. А также конкурсы, где можно выйграть мерч, и нетворкинг. Начало в 10.00, но не забываем и про часовой пояс(UTC +6).

11.10 - 14.10 - Next: конфа с большим размахом от Google. Будет несколько стримов, среди которых Analyze(Recommended for data scientists and data analysts) и Design(Recommended for data engineers).

17.10 - 21.10 - Coalesce: конференция, проводимая dbt Labs. Понятное дело, что будет очень много разговоров и примеров использования dbt. Но ведь это и не плохо, верно?

25.10 - 26.10 - IMPACT: The Data Observability Summit: всё о data observability от компании Monte Carlo. Давольно-таки модернстековый состав приглашённых ключевых спикеров, среди которых Ali Ghodsi(CEO & Co-Founder Databricks), George Fraser(CEO & co-founder Fivetran), Zhamak Dehghani(мать Data Mesh), Tristan Handy(CEO & co-founder dbt Labs) и не только.

З.Ы. Пост будет дополняться, если обнаружатся ещё какие-то ивенты.
👍29🔥3
Немножко новостей про экономику на tech рынке. Топовые компании, и не только, все сейчас занимаются тем, что урезают косты. Компаниям становится сложней привлекать клиентов и продавать сервисы и продукты. Все их предыдущие прогнозы на основе линейной регрессии не оправдались.

Если компании поменьше сокращают людей, то компании побольше останавливают найм или закрывают оффлайн офисы.

Facebook Parent Meta to Shrink Some Offices as It Adapts to Hybrid Work

Даже Амазон, который был очень стойкий, и тот, поставил все на паузу.

Amazon Freeze Corporate hiring и по своему опыту я уже понял, что Microsoft так еще сделал в июне (freeze).

И если даже людей не сократили, то их total compensation будет очень низким, так как как минимум половина состояла из стоков. А стоки все упали и больше не ликвидны. Недавно мне выдали стоков на 180к US$. На момент выдачи, они стоили по 120US$. Теперь по 50$. А на пике продавались за 300$.

Поэтому еще один аргумент за диверсификацию рисков.
👍20🤔3
Расскажу вам про lifehack.

Если вы пишите код, но вы не знаете, что вы делаете, или вам лень, а может у вас просто нет время на такую ерунду как писать хороший код, то вам просто надо добавить комментарий:

# TODO: bla bla bla

А если вы прям матерый Senior, то вам нужно сделать так:

# TODO: bla bla bla. Jira #.

Главное, чтобы код хоть что-то делал, а то за один большой TODO зарплату не заплатят.

И уже не прикопаться.

А потом уже будут другие приоритеты, другие задачи, и вы всей командой будет обсуждать technical debt, и на доске miro/figma будете двигать виртуальные sticky notes и планировать ваши битву с technical debt.

Но это будет потом... А пока можно добавить # TODO и пойти по своим делам😜
😁47👍11🔥4🤔3👏1
Подсмотрел, сколько стоит 3 дня тренинга по Azure Synapse Data warehouse для успешных клиентов - 40k$, так что все платные курсы на отечественном рынке это вообще копейки по сравнению с официальными курсами🫣

Вообще как обстановка в компаниях, часто покупает ваша компания курсы? Отправляет вас на конференции? и тп.

Последний раз, я делал что-то оффлайн году в 2017, это когда в перерывах кофе и булочками угощают и можно не думать о работе и просто отдыхать и учиться. А когда учусь онлайн, одним глазом на рабочий слак, другим на лектора, в итоге и там и там не хватает время.

PS ничто меня так не мотивировало: как закончить недельный углубленный тренинг (offline, full time и с полной отдачей) и принести новые идеи и навыки на работу и видеть как начинаешь приносить пользу, поэтому инвестируйте в оффлайн тренинги для своих сотрудников.
👍44😁4🤔2
У всех, наверно бывают моменты, из-за которых вы всю жизнь можете потом грустить и думать, а как бы было хорошо если я сделал бы по другому.

Вот и у меня такой есть, вместо того, чтобы покупать акции apple по 0.4$ я учился в 10 классе в 2002😞
😁109👍20😢7🔥63
Менеджеры в дата области бывают разные, это очень сильно зависит от их бекграунда. Саму дату область можно разделить на несколько областей: BI, хранилище данных, data science. Где-то все это под одним человеком, где-то разбито на части.

Вот несколько типов:

🖇Бизнеса - с трудом отличит sql от python, вообще по барабану как че там работает, главное чтобы работало. Очень классные soft skills, умеет красиво говорить и писать, понимает, что нужно бизнесу.

⚙️Фанаты открытого ПО - аналитическое решение будет разбито на множество git репозиториев, любой запрос на добавление новой фичи будет занимать много времени, решения будет обрастать костылями и workarounds, иначе говорят будет расти technical debt, и с ростом команды скорость разработки не будет расти, зато навыки разработки ПО будут расти. Удовлетворение от работы у инженеров под вопросом.

🎢Иноваторы - обожают buzz words, любят читать gartner и forester, возможно уже внедряют data mesh, data contracts и другие штучки. Не буду писать, что это, сам не очень понимаю. Иногда выстреливает и можно с кейсом идти на конференцию.

🗿Консерваторы - если решение работает, зачем его трогать, пусть работает, главное не дышать на него, а то сломается.

🛠Инженеры - типичный случай, когда инженер, который работал лет 5 в компании становиться менеджером, ему есть до всего дела, кто как пишет код. Как правило везде вставляет свои 5 копеек, чтобы все было так, как он раньше писал. Возникают трудности с развитием команды и soft skills.

🎠Осторожные - те кто не будет изобретать велосипед, а выберет проверенные решения и проверенные кейсы, например сейчас в Северной Америке это будет snowflake+dbt+looker/Tableau.

Конечно я утрирую, но и часто это будет микс. Но это по моему опыту, я кстати буду между «осторожный» и «иноватор». А вы как поделите руководителей аналитики? А может их и нельзя классифицировать:)
👍52😁2😢1
Когда мы чем-то занимаемся мы должны оптимизировать свои усилия на конкретный результат. Чем-то напоминает CAP теорему, когда мы можем получить любые 2 характеристики и пожертвовать третью.

В зависимости от карьерной ступени мы можем менять приоритеты.

Например, в начале карьеры нам важно много учиться и получать опыт, наш фокус на новых скилах и мы можем пожертвовать доходом и комфортом.

Другой вариант, мы можем пожертвовать доход, но работать в месте, которое нам доставляет удовольствие, возможно это престиж компании, офис в центре или международная компания. И зарплата будет не плохой, и опыт хороший. Но перспективы туманные.

Возможно, мы открыты ко всему новому, и готовы сместить фокус на поиск работы за границей, критерий успешности это рабочая виза или программа миграции. Все остальное не так важно.

Иногда, работать надоедает, и хочется сокращать количество рабочих часов, желательно без потери уровня дохода и комфорта. В этом случае, мы уже врят ли получаем много новых знаний и наши доходы не будут расти, зато есть много свободного времени на хобби.

В какой-то момент, можно захотеть стать предпринимателем, и сместить фокус на своё дело. Можно получить хороший опыт, но маленькая вероятность разбогатеть и больше никогда не работать. Зато будет чувство собственного достоинства, главное, чтобы было чем платить по счётам.

Ещё бывают ситуации, когда драйвером становится зарабатывание денег, это опасная дорожка, которая может привести не туда, куда нужно. Теперь KPI это отношение заработанных денег к потраченному времени.

Таким образом у вас есть 60-80 продуктивных часов в неделю, и вам нужно выбрать, на что вы его хотите потратить, и что для вас приоритет в текущий момент и на что будет направлен фокус. Ведь можно работать и 10 часов в неделю и больше ничего наделать, а можно работать все 80 (работать я имею ввиду не бесплатные переработки, а именно оплачиваемое врем. Бесплатные переработки это только в случае, если вы учитесь и получаете новые скилы. ) А ещё нужно найти время на бытовые дела и семью. У кого на что фокус? Меня ли вы приоритеты?
👍58
Товарищ все размышляет о dbt- быть или не быть хороший продукт или плохой, вот в чем вопрос. В итоге он сказал, пока ниче так, можно юзать🦥

https://benn.substack.com/p/how-dbt-fails
👍5
Microsoft празднует 10 лет линейки Surface, и я вам пишу с ноутбука Surface на Windows 11.

В этом году я поработал на разных ноутбуках:
- новый mac pro 16"
- новый mac air 13"
- surface laptop 4 13"
- hp elitebook 15"
- lenovo thinkpad 15"
- dynamobook 13" (toshiba)

Самый удобный это mac pro 16". Вчера поставил Windows 11 на surface, очень приятный интерфейс. Про dynamobook я вообще не слышал, пока не получил такой, оказался достаточно приятный. А вот lenovo, hp для меня показались деревянными.

Кстати как вам Windows 11?
👍94
В Microsoft я не люблю 2 продукта:
- Power BI - просто потому что, я люблю Tableau и Looker
- Azure Data Explorer (ADX или Kusto как наш любимый водолаз в красной шапочке) - потому что это не про хранилище данных или озеро данных в понятии инженера данных. Но в Microsoft используют ADX для всего. Это какая-то универсальная штука, которая умеет хранить, обрабатывать, визуализировать, делать ML, работать с текстом и все в реальном времени. Поэтому, многие разработчики используют этот продукт вообще для полного цикла аналитики, + в Microsoft отличная интеграцию продуктов друг с другом. (Скоро будет SmartData конференция и я там как раз поговорю про инжиниринг данных в Майкрософт).

Так вот, когда я уходил из Xbox, у меня был выбор - присоединиться к Databricks или Synapse (той части, которая отвечает за классическое хранилище данных - Dedicated SQL Pool). Я решил выбрать что полегче и более знакомо - MPP хранилища данных (позиция что-то вроде customer engineer).

Но ирония судьбы заключается в том, что меня назначили отвечать за ADX под Synapse. Выдали мне тренингов на 2 месяца вперед и обрадовали, что я буду экспертом ADX🤪

Кстати вот хорошие материалы по этому продукту:
Introducing Azure Data Explorer
Azure Data Explorer Technology 101
IT and developer success with Microsoft Azure - KEY03
The Intelligent Cloud - Techorama Netherlands 2018 Opening Keynote (Scott Guthrie)
ADX technical white paper
👍35😁19🔥1🤬1
Тема тренингов и курсов мне не нова, я сам часто таким занимался в той или иной степени. Мне часто попадаются хорошие тренинги, которые созданы экспертом в области аналитики или около того. Я не говорю про коммерческие школы, которые, кстати, могут купить рекламу аж за 60т рублей😝 в канале, но по опыту не покупают🤨

Я говорю про классные авторские курсы, которые иногда проскакивают в разных каналах, и которые не нацелены на mass market. Таких не много, но они есть, и их стало еще сложней продавать и стало сложней доносить знания то целевой аудитории, поэтому если у вас есть такой свой курс, то почему бы вам не сделать небольшой вебинар про кусочек вашего курса, и заодно вы сможете бесплатно рассказать о себе, о своем курсе и все это будет хранится в нашем канале и возможно даже поможет студентам datalearn.
👍42