Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Расскажу вам про lifehack.

Если вы пишите код, но вы не знаете, что вы делаете, или вам лень, а может у вас просто нет время на такую ерунду как писать хороший код, то вам просто надо добавить комментарий:

# TODO: bla bla bla

А если вы прям матерый Senior, то вам нужно сделать так:

# TODO: bla bla bla. Jira #.

Главное, чтобы код хоть что-то делал, а то за один большой TODO зарплату не заплатят.

И уже не прикопаться.

А потом уже будут другие приоритеты, другие задачи, и вы всей командой будет обсуждать technical debt, и на доске miro/figma будете двигать виртуальные sticky notes и планировать ваши битву с technical debt.

Но это будет потом... А пока можно добавить # TODO и пойти по своим делам😜
😁47👍11🔥4🤔3👏1
Подсмотрел, сколько стоит 3 дня тренинга по Azure Synapse Data warehouse для успешных клиентов - 40k$, так что все платные курсы на отечественном рынке это вообще копейки по сравнению с официальными курсами🫣

Вообще как обстановка в компаниях, часто покупает ваша компания курсы? Отправляет вас на конференции? и тп.

Последний раз, я делал что-то оффлайн году в 2017, это когда в перерывах кофе и булочками угощают и можно не думать о работе и просто отдыхать и учиться. А когда учусь онлайн, одним глазом на рабочий слак, другим на лектора, в итоге и там и там не хватает время.

PS ничто меня так не мотивировало: как закончить недельный углубленный тренинг (offline, full time и с полной отдачей) и принести новые идеи и навыки на работу и видеть как начинаешь приносить пользу, поэтому инвестируйте в оффлайн тренинги для своих сотрудников.
👍44😁4🤔2
У всех, наверно бывают моменты, из-за которых вы всю жизнь можете потом грустить и думать, а как бы было хорошо если я сделал бы по другому.

Вот и у меня такой есть, вместо того, чтобы покупать акции apple по 0.4$ я учился в 10 классе в 2002😞
😁109👍20😢7🔥63
Менеджеры в дата области бывают разные, это очень сильно зависит от их бекграунда. Саму дату область можно разделить на несколько областей: BI, хранилище данных, data science. Где-то все это под одним человеком, где-то разбито на части.

Вот несколько типов:

🖇Бизнеса - с трудом отличит sql от python, вообще по барабану как че там работает, главное чтобы работало. Очень классные soft skills, умеет красиво говорить и писать, понимает, что нужно бизнесу.

⚙️Фанаты открытого ПО - аналитическое решение будет разбито на множество git репозиториев, любой запрос на добавление новой фичи будет занимать много времени, решения будет обрастать костылями и workarounds, иначе говорят будет расти technical debt, и с ростом команды скорость разработки не будет расти, зато навыки разработки ПО будут расти. Удовлетворение от работы у инженеров под вопросом.

🎢Иноваторы - обожают buzz words, любят читать gartner и forester, возможно уже внедряют data mesh, data contracts и другие штучки. Не буду писать, что это, сам не очень понимаю. Иногда выстреливает и можно с кейсом идти на конференцию.

🗿Консерваторы - если решение работает, зачем его трогать, пусть работает, главное не дышать на него, а то сломается.

🛠Инженеры - типичный случай, когда инженер, который работал лет 5 в компании становиться менеджером, ему есть до всего дела, кто как пишет код. Как правило везде вставляет свои 5 копеек, чтобы все было так, как он раньше писал. Возникают трудности с развитием команды и soft skills.

🎠Осторожные - те кто не будет изобретать велосипед, а выберет проверенные решения и проверенные кейсы, например сейчас в Северной Америке это будет snowflake+dbt+looker/Tableau.

Конечно я утрирую, но и часто это будет микс. Но это по моему опыту, я кстати буду между «осторожный» и «иноватор». А вы как поделите руководителей аналитики? А может их и нельзя классифицировать:)
👍52😁2😢1
Когда мы чем-то занимаемся мы должны оптимизировать свои усилия на конкретный результат. Чем-то напоминает CAP теорему, когда мы можем получить любые 2 характеристики и пожертвовать третью.

В зависимости от карьерной ступени мы можем менять приоритеты.

Например, в начале карьеры нам важно много учиться и получать опыт, наш фокус на новых скилах и мы можем пожертвовать доходом и комфортом.

Другой вариант, мы можем пожертвовать доход, но работать в месте, которое нам доставляет удовольствие, возможно это престиж компании, офис в центре или международная компания. И зарплата будет не плохой, и опыт хороший. Но перспективы туманные.

Возможно, мы открыты ко всему новому, и готовы сместить фокус на поиск работы за границей, критерий успешности это рабочая виза или программа миграции. Все остальное не так важно.

Иногда, работать надоедает, и хочется сокращать количество рабочих часов, желательно без потери уровня дохода и комфорта. В этом случае, мы уже врят ли получаем много новых знаний и наши доходы не будут расти, зато есть много свободного времени на хобби.

В какой-то момент, можно захотеть стать предпринимателем, и сместить фокус на своё дело. Можно получить хороший опыт, но маленькая вероятность разбогатеть и больше никогда не работать. Зато будет чувство собственного достоинства, главное, чтобы было чем платить по счётам.

Ещё бывают ситуации, когда драйвером становится зарабатывание денег, это опасная дорожка, которая может привести не туда, куда нужно. Теперь KPI это отношение заработанных денег к потраченному времени.

Таким образом у вас есть 60-80 продуктивных часов в неделю, и вам нужно выбрать, на что вы его хотите потратить, и что для вас приоритет в текущий момент и на что будет направлен фокус. Ведь можно работать и 10 часов в неделю и больше ничего наделать, а можно работать все 80 (работать я имею ввиду не бесплатные переработки, а именно оплачиваемое врем. Бесплатные переработки это только в случае, если вы учитесь и получаете новые скилы. ) А ещё нужно найти время на бытовые дела и семью. У кого на что фокус? Меня ли вы приоритеты?
👍58
Товарищ все размышляет о dbt- быть или не быть хороший продукт или плохой, вот в чем вопрос. В итоге он сказал, пока ниче так, можно юзать🦥

https://benn.substack.com/p/how-dbt-fails
👍5
Microsoft празднует 10 лет линейки Surface, и я вам пишу с ноутбука Surface на Windows 11.

В этом году я поработал на разных ноутбуках:
- новый mac pro 16"
- новый mac air 13"
- surface laptop 4 13"
- hp elitebook 15"
- lenovo thinkpad 15"
- dynamobook 13" (toshiba)

Самый удобный это mac pro 16". Вчера поставил Windows 11 на surface, очень приятный интерфейс. Про dynamobook я вообще не слышал, пока не получил такой, оказался достаточно приятный. А вот lenovo, hp для меня показались деревянными.

Кстати как вам Windows 11?
👍94
В Microsoft я не люблю 2 продукта:
- Power BI - просто потому что, я люблю Tableau и Looker
- Azure Data Explorer (ADX или Kusto как наш любимый водолаз в красной шапочке) - потому что это не про хранилище данных или озеро данных в понятии инженера данных. Но в Microsoft используют ADX для всего. Это какая-то универсальная штука, которая умеет хранить, обрабатывать, визуализировать, делать ML, работать с текстом и все в реальном времени. Поэтому, многие разработчики используют этот продукт вообще для полного цикла аналитики, + в Microsoft отличная интеграцию продуктов друг с другом. (Скоро будет SmartData конференция и я там как раз поговорю про инжиниринг данных в Майкрософт).

Так вот, когда я уходил из Xbox, у меня был выбор - присоединиться к Databricks или Synapse (той части, которая отвечает за классическое хранилище данных - Dedicated SQL Pool). Я решил выбрать что полегче и более знакомо - MPP хранилища данных (позиция что-то вроде customer engineer).

Но ирония судьбы заключается в том, что меня назначили отвечать за ADX под Synapse. Выдали мне тренингов на 2 месяца вперед и обрадовали, что я буду экспертом ADX🤪

Кстати вот хорошие материалы по этому продукту:
Introducing Azure Data Explorer
Azure Data Explorer Technology 101
IT and developer success with Microsoft Azure - KEY03
The Intelligent Cloud - Techorama Netherlands 2018 Opening Keynote (Scott Guthrie)
ADX technical white paper
👍35😁19🔥1🤬1
Тема тренингов и курсов мне не нова, я сам часто таким занимался в той или иной степени. Мне часто попадаются хорошие тренинги, которые созданы экспертом в области аналитики или около того. Я не говорю про коммерческие школы, которые, кстати, могут купить рекламу аж за 60т рублей😝 в канале, но по опыту не покупают🤨

Я говорю про классные авторские курсы, которые иногда проскакивают в разных каналах, и которые не нацелены на mass market. Таких не много, но они есть, и их стало еще сложней продавать и стало сложней доносить знания то целевой аудитории, поэтому если у вас есть такой свой курс, то почему бы вам не сделать небольшой вебинар про кусочек вашего курса, и заодно вы сможете бесплатно рассказать о себе, о своем курсе и все это будет хранится в нашем канале и возможно даже поможет студентам datalearn.
👍42
Когда мы работает в облаке, да что там в облаке, просто в интернете, то мы часто сталкиваемся с понятиями identity, authentication, authorization и все, что с этим связано. Это достаточно важные концепты современного цифрового мира, чтобы лучше разобраться, можно например изучить теория Introduction to Identity and Access Management (IAM), это не самое интересное чтение, но явно важно, которое затрагивает много аспектов software и data engineering и architecting.

Есть еще видео Introduction to Identity
👍14👏2🔥1
Теперь вы понимаете, почему я так топлю за использование командной строки. Реально в этом что-то есть, теперь я смотрю с презрением на коллег у кого дефолтный CLI.
😁90🤔3👍2
Forwarded from Data engineering events (Николай Крупий)
#Анонс на неделю (дополняется):

🗓Пн, 17/10:
17-18/10 #SmartData 2022 - Конференция для дата‑инженеров
17-21/10 #Podlodka Techlead Crew - «Observability: monitoring, alerting, tracing»
17-21/10 #Coalesce by dbt Labs - конференция, проводимая dbt Labs

🗓Вт, 18/10:
12:15-13:30 SmartData 2022 - Community day (free)
18-19/10 #PiterPy 2022 - конференция для тех, кто пишет на Python и использует его в работе
17:00 Доступный AutoML: как оптимизировать работу с ML-моделями с помощью VK Cloud и FEDOT

🗓Ср, 19/10:
10:30-13:00 PiterPy 2022 - Community day (free)
19-20/10 #DevOops 2022 - конференция по инженерным DevOps-решениям

🗓Чт, 20/10:
10:30-13:15 DevOops 2022 - Community day (free)

🗓Пт, 21/10:
10:00-18:00 #ArchDays - конференция по архитектуре IT-решений

🗓Сб, 22/10:
🗓Вс, 23/10:

След неделя (draft):
25/10:
18:30 #ЮMoney делает свой уютный, но хардовый митап про системную аналитику
👍16
В чатике Инжиннирг Данных мы обсуждали Data Mesh, и Никита Бабуров скинул несколько хороших вводных материалов по этой теме:

Как с помощью Data Mesh разломать ваше DWH — Евгений Ермаков, Яндекс GO

Introduction to Data Mesh with Zhamak Dehghani

Data Mesh in Practice - Max Schultze

Ну и книга Data Mesh (есть pdf? кидайте в комменты)

Статья, которая легла в основу книги https://martinfowler.com/articles/data-monolith-to-mesh.html


Мне не доводилось внедрять дата меш, как я понимаю это для крупных компаний, у кого уже безнадега в аналитическом (их) решении(ях), то им самое время задуматься о таком концепте и начать думать о своих данных как о продукте.

Как вы понимаете data mesh?
👍20🤬2
У Microsoft прошла их главная конференция Microsoft Ignite. И конечно есть видео, где расскажут все, что касается аналитических решений.

https://youtu.be/IN1xNRFX3ic
👍2
Прошло мое выступление на SmartData с докладом Инжиниринг Данных в Microsoft, 45 слайдов за 45 минут и даже время осталось на вопросы🤗

Рассказал вкратце про задачи аналитики и инжиниринга данных, про трудоустройство, про проекты за 2 года в играх, и про специфику инструментов и технологий.

Организация конференции очень хорошая, надеюсь когда-нибудь смогу приехать и рассказать что-нибудь со сцены. Рано или поздно будет запись и я смогу поделиться.

PS кепка прям поспела за день до конференции:)
🔥68👍26
Forwarded from Data Apps Design (Artemiy Kzr)
Databricks + Wheely Proof of Concept

I will be assessing Databricks as our new data platform (to succeed AWS Redshift)

– Requirements to E - L - T
– Current setup description
– Proof of Concept plan

Desired business impact:

– Cost effective (at least compared to what we currently spend on AWS Redshift reserved flat rate)
– Performance gains desired
– Extended features support (H3, in-database ML, Advanced analytics, ...)
– Access to ecosystem (docs, solutions, code examples, how-to guides)
– Democratization of access to data and data-related services: built-in Notebook experience
– No degradation (performance, outage, timeouts, job failures) in comparison with current state
👍5🤔41
А вот еще интересные новости про Databricks - Databricks Is Trimming Its Valuation While Other Startups Are Slashing Theirs, Snowflake уже публичная компания и они упали на 44 процента с прошлого года, а Darabricks еще не публичная, и каждый год стартапы заполняют форму 409 А, в которой производится оценка компании и пересчитывается цена акции

Valuation in most recent funding round: $38 billion (August 2021)

Public market comp: Snowflake, down 44% since August 2021

Last 409A common share price: $55.77, down 7% from last year

Last valuation implied by 409A: $31 billion

Fidelity share price: Cut Series H shares by 33% to $48.68 as of May

Вообще это хороший показатель, значит Databricks действительно оправдывает ожидание клиентов и это хорошая технология. Поэтому пост выше про Wheely я могу лишь только их поддержать, так как сам работал 2 года с Databricks и мне решение понравилось. Единственный недочет был это локальная разработка без ноутбуков.
👍8
Давайте проведем опрос, кто сколько получает на руки в месяц в рублях или долларах (курс 60р). Понятно, что и цены разные везде, но все равно интересно посмотреть распределение. Можете в комментах писать сколько в месяц на руки, страну и чем занимаетесь:)
Anonymous Poll
8%
Безработный
4%
Студент
7%
До 60т (1к$)
25%
60т-120т(1к$-2к$)
26%
180-240т(3т$-4т$)
22%
240т-480т(4т$-6т$)
4%
480т-720т(6т$-8т$)
2%
720т-1млн20т(8т$-13т$)
0%
1млн20т-1.5млн (13т$-18т$)
1%
1.5млн+ (18т$+)
👍3