Инжиниринг Данных – Telegram

Инжиниринг Данных

23.5K subscribers

1.98K photos

56 videos

192 files

3.2K links

Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Download Telegram

About

Blog

Apps

Platform

Инжиниринг Данных

23.5K subscribers

Инжиниринг Данных

Интересная интеграция dbt + cube

Про cube я писал ранее, что мы использовали open source для красивой визуализации и рассылки emails для внешних клиентов. (назовем это embedded BI).

В данном кейсе, пример больше про классический BI.

❤‍🔥28

9.5K viewsDmitry, 19:20

Инжиниринг Данных

Я давно изменил структуру своих подписок и теперь больше читаю всяких экспертов в разных областях. Вот один из них, бывший VP Amazon. В своем посте он рассказывает об очевидной проблеме связанной с удаленной работой, где главное препятствие это недоверие работодателя к сотрудникам. И далее он предлагает пути решения, связанные с gentle мониторингом вашей активности, чтобы вы, не дай бог, на 3х работах не работали. Но если разобраться, почему людям приходится работать на 3х работах, то очевидно, что это высокая стоимость жизни и низкие зарплаты. Вот буквально видел 5 минут назад вакансию на инженера данных в Канаде за 85к в год, это 4500 канадских в месяц, а рент более менее это 2500 в месяц. И таких вакансий много. Возможно одно из главных решений это оплата труда для хороших специалистов, которая закроет потребности, например в Канаде это 15к, то есть в 3.5 раза больше. Но откуда VP будет знать о таких мелочах, он уже и забыл когда он мало зарабатывал и еле сводил концы с концами.

💯105⚡4🦄2🌚1

9.49K viewsDmitry, 18:34

Инжиниринг Данных

Еще один Success Story для Surfalytics от Максима из Онтарио.

Бэкграунд:
Закончил железнодорожный университет в Новосибирске по специальности инженер, информационные системы и технологии.
После универа начал работать инженером тех поддержки в международной компании, затем продолжил как технический писатель, после чего перешёл в технические проджект менеджеры и проработал около 13 лет. Из инструментов немного использовал SQL для простых запросов и Python для автоматизации отчётов. Английский был на уровне intermediate, разговорный практически на нуле. Поэтому до переезда нашел репетитора и начал заниматься с упором на разговорный. За полгода занятий поднял до уровня upper-intermediate / advanced, которого уже было достаточно для прохождения интервью.

В Канаду переехал вместе с семьёй в декабре 2022, 10 месяцев назад.
После переезда по инерции начал искать работу проджектом. В процессе откликов понял что хочу сменить сферу и выбрал направление аналитики данных.

Определиться с направлением (ответить на вопрос Куда?) - это большое дело. Но мне было совершенно непонятно Как туда идти, а куча курсов, ресурсов, информации делали это еще сложнее.
Через нетворк в LinkedIn я узнал про Диму и data learn. Это помогло мне получить понимание и ответы на вопрос «Как?»
Ещё было очень полезно оказаться в группе Surfalytics bootcamp, в которой мы обсуждали вакансии, ЗП вилки, помогали друг другу улучшить резюме и даже созванивались для подготовки к интервью.

Поиск работы
1 раунд поиска
С мая по октябрь 2023
Откликов - 210(+40) шт. 210 отмечал в экселе, около 40 откликался через easy apply на LinkedIn и Indeed без отметок в экселе, поэтому цифра 40 примерная
Приглашений на интервью - 14 шт.
Оферов - 1 шт:
Senior Data Analyst в technology solutions provider - 110k base salary + 15% annual bonus
В процессе много экспериментировал с резюме с целью повысить конверсию в приглашения, всего было около 10 версий резюме.

Что учил:
Активно начал заниматься с середины марта 2023

- Прошёл SQL курс на DataLearn
- Прошел 3 модуля DataLearn
- Решил практически все задачки по SQL на DataLemur
- DBT fundamentals course
- Курс Google Data Analytics на курсере (8 модулей)
- Visualization with Tableau program (5 модулей)
- Прочитал Lean Analytics
- Подготовил портфолио
1 Excel project
4 Tableau projects
1 Power BI project
2 SQL projects
2 Python
1 data engineering project with deployment BI solution in cloud and data modeling (Amazon Redshift and Tableau Server Linux on MS Azure cloud)
- Освежил знания по Python и pandas, прошёл несколько курсов по python, в т.ч. на kaggle. Сделал выжимку из прошедших ранее курсов в виде Jupyter Notebook

К каждому раунду интервью готовился по несколько часов. Активно пинговал рекрутеров через LinkedIn и по e-mail после откликов

Делал записи интервью для разбора ошибок и подготовки ответов на вопросы, по которым затупил.

❤‍🔥122⚡15💯4🍌3🗿1

9.45K viewsDmitry, 21:04

Инжиниринг Данных

Если вы еще не знакомы с dbt, то стоит обратить внимание на этот инструмент, который умеет работать с вашими SQL запросами и превращать их в SQL модели и собирать из них Directed Acyclic Graph, ну то есть выполнять ваши SQL запросы модели по очереди. А еще можно макросы писать (каждый раз пишу это слова и немного вздрагиваю от мысли о VBA макросах). В dbt все попроще с этим, там jinja - близко к питончику. А еще dbt умеет те же модели, но на Python. Хотя excel тоже уже умеет на питоне, даже мой сын в 11 лет немного умеет))

Ладно, 16-19 октября будет у них конференция в Сан Диего, но можно и онлайн записаться - https://coalesce.getdbt.com/register/online

💯12🐳3

8.78K viewsDmitry, 06:50

Инжиниринг Данных

Недавно у нас был вебинар LLM / Большие языковые модели / Самообучаемый чат бот на котором Сергей Христолюбов и Роман Чуприков рассказали про большие языковые модели, LLM, а также как работать с ботом, его исходники и пояснение.

Сергей попросил проголосовать за его бота:
1. Зайдите на сайт https://productradar.ru/
2. Войдите с помощью яндекс или google
3. Проголосуйте за WikiBot - он №1 в списке WikiBot - Сервис по созданию чат-бота для поддержки клиентов. WikiBot обучается на вашей базе знаний и отвечает как человек.

Давайте поддержим хороших ребят.

LLM / Большие языковые модели / Самообучаемый чат бот / DataLearn

Сегодня у нас в гостях команда WikiBot, которые создают сервис по по созданию чат-бота с искусственным интеллектом для общения с клиентами.
Спикеры: Сергей Христолюбов и Роман Чуприков

Их цель - сделать простое решение которое позволяет компаниям сократить…

🐳11❤‍🔥2🌭1

9.01K viewsDmitry, 15:39

Инжиниринг Данных

Пока одни вендоры думают как им сделать real time решения, побольше новых фич и сервисов, Microsoft fabric заморачивается с иконками🏖

Please open Telegram to view this post

VIEW IN TELEGRAM

🌚17🦄10⚡3🗿3🙈2

8.26K viewsDmitry, edited 22:12

Инжиниринг Данных

Building an Observability Startup: Chronosphere - статья от Pragmatic Engineer. В статье автор рассказывает про инженера, который поработал в Microsoft, потом AWS, где трудился над observability для виртуальных машин и создал сервис AWS System Manager, затем создавал observability систему M3 в Uber и уже потом создал продукт Chronosphere и получил под него инвестиции.

В этой истории мне понравилось, что мужик всю жизнь занимался +/- одним и тем же и потом решил сделать продукт по своей теме. Достаточно популярная история.

Но я задумался о другом - о возможностях. В Северной Америке я вижу много успешных кейсов, когда студенты computer science уже после 3го курса попадают в FAANG на стажировку, а после окончания учебы уже работают на полную ставку. Я сам наблюдал, как приходят стажеры в Amazon, быстро учатся, через 1-2 годика уже в штате, через 1-2 годика уже senior. Было очевидно, что компания делает на них ставку, поощряет их и инвестирует в них.

Для них все выглядит просто и они плывут практически по течению карьерного роста. Конечно, надо напрягаться, учиться, и еще раз учиться. В LinkedIn я часто вижу как вчерашние junior сегодня уже staff инженеры и рассказывают о высоких зарплатах и продают консультации по 200$ в час, где вам могут дать пару дельных советов.

Со временем я осознал, что мой тернистый путь, совсем другой. Что для стажера местного университета роль и должность сеньора это вполне достижимый результат за короткий срок, главное попасть в хорошую компанию. Для меня же, иммигранта, инженера конструктора с тремя детьми это почему-то никогда не работало.

Все таки, хороший старт очень важен, а если он еще произошел в 20 лет, а не 35, то вообще будет замечательно. Но мне кажется, что "хороший старт" это не про большинство моих читателей, у всех свой "тернистый" путь, он тяжелый, и чтобы достичь более менее такого же результата нам придется постараться и сделать намного больше. А если мы еще хотим и зарплату как в долине, но это уже тогда вообще придется как следует впахивать на старости лет. Хотя это же относительный термин, кто-то и в 70 себя на 20 ощущает.

У меня вот есть самовар на дровах, и если вдруг не будет электричества, я всегда смогу скипятить чайку, а вот все эти инженеры из долины не смогут, так что не все так плохо!

Pragmaticengineer

Building an Observability Startup: Chronosphere

From learning to code in Australia, to launching Chronosphere in Silicon Valley. Cofounder and CEO Martin Mao shares his story, and offers advice for aspiring founders currently at tech companies.

💯56👨‍💻25❤‍🔥10⚡8🌚4

8.57K viewsDmitry, edited 01:57

Инжиниринг Данных

16 по 20 Октября у Microsoft будет онлайн ивент - Airlift. Раньше не слышал про такое событие, там будут секции про Data&AI, где будут углубленные сессия по аналитическим решениям.

Основные бенефиты:
- попрактиковать английский
- понять куда Microsoft двигает аналитическую индустрию
- узнать больше про новые продукты и use cases (Power BI, Fabric, Synapse, Databricks, Azure ML and etc)

Airlift 2024 - Airlift 2024: Home

Website for Airlift 2024

🌚9🎄5👾1

8.66K viewsDmitry, 17:30

Инжиниринг Данных

Зак все правильно говорит - много работы, проектов, ad-hoc запросов вам не помогут получить промо, да и вообще будут проблемы с результатом, потому что во всей это билиберде (или белеберде) мало ценности, много лишних телодвижений, сообщений, и активностей, но для руководства и бизнеса это бесполезно.

Поэтому на работе попробуйте понять какие проекты ценны, и какие люди важны для вашего промо и фидбека, и работайте на них. Все хотелки от пользователей (если это не директор/vp) можно слать лесом.

💯35🫡29❤‍🔥4🤷‍♂4⚡1

8.61K viewsDmitry, edited 20:13

Инжиниринг Данных

Очень интересный кейс https://medium.com/@laurengreerbalik/hightouch-is-just-blindly-copying-rudderstack-2e80dba56b27

Когда один инструмент копирует код из другого инструмента, а другой инструмент копирует его из 3го. Целая драма. А если написано Лаурой то вообще атас😐

А вот ее пост из за которого ее блокнул LinkedIn https://t.me/rockyourdata/3730

Please open Telegram to view this post

VIEW IN TELEGRAM

🌚6

8.47K viewsDmitry, edited 18:12

Инжиниринг Данных

AWS Glue: Hands-on Optimization Workshop
Thursday, October 26 2023 | 9:00AM - 12:00PM PDT

Отличная возможность узнать про Spark на AWS.

AWS Glue: Hands-on Optimization Workshop

Attend this hands-on workshop to learn how to optimize costs and increase performance of your AWS Glue workloads.Customers leveraging or exploring AWS Glue often have questions, such as:- Is their existing AWS Glue workload optimized?- What new AWS Glue features…

❤‍🔥13👨‍💻3

7.88K viewsDmitry, 20:04

Инжиниринг Данных

Только булки все расслабили, а тут опять увольнения, да еще в серьезных компаниях 😞

Please open Telegram to view this post

VIEW IN TELEGRAM

🗿29🫡8🐳2🌚2😭1

7.39K viewsDmitry, 04:15

Инжиниринг Данных

Forwarded from Книжный куб (Alexander Polomodov)

Why Most Data Projects Fail and How to Avoid It • Jesse Anderson • YOW! 2022

Интересное выступление про data проекты от Jesse Anderson, автора книги "Data Teams". Автор говорит о ключевых вопросах, которые стоит задать при старте проектов
- Who - Автор говорит про правильный состав команды для data проектов. Собственно автор про это написал целую книгу и он говорит про баланс data scientists, data engineers, operations.
- What - Автор задает вопрос про бизнес значение того data продукта/проекта, которым вы занимаетесь. Автор говорит о том, что фразы "Мы делаем AI" от CEO не хватает для data strategy:) В общем, надо понимать как ваш проект принесет ценность для бизнеса. Причем помимо стратегии нужен план и его execution. Особенно во времена, когда tech компании занимаются сокращениями в направлениях, что не приносят деньги.
- When - Автор говорит о том, а когда эта бизнес ценность будет создана. Нужен проект с понятными временными границами, чтобы он не был слишокм долгим, чтобы быть отмененным где-то посердине и не слишком коротким, обещающим золотые горы, которым на самом деле будет невозможно соответствовать.
- Where - И вот мы наконец-то добрались до первого технического вопроса, а где собственно эти данные будут обрабатываться, как будет выглядеть архитектура решения. И тут для ответа тоже не хватает фразу "Мы будем использовать технологию XYZ вендора ABC". Проблема в том, что вендор может пообещать все что угодно, но это обещание не факт, что выполнимо, более того, не факт, что оно оптимально для заказчика:)
- How - Здесь речь идет про план выполнения и про фокусировку на приоритетных направлениях. Хотя часто такие data проекты пытаются успеть сразу везде, а дальше теряют эффективность на context switches и застывают на месте, переставая генерировать какую-либо ценность кроме рассказов о наступлении AI:) Автор интересно рассказывает про то, как бизнес заказчикам перпендикулярно на конкретные технические решения, но важно какую бизнес-ценность они могут получить по результатам выполнения плана.
- Why - Автор задает вопрос, а почему же эти данные обладают ценностью? Просто отгружать данные и гонять ETL/ELT пайпланы не достаточно. Важно понимать как использование данных в новых проектах позволит обеспечить нужный ROI (return on investments), причем автор говорит о том, что он ищет 10x ROI для data проектов

Напоследок автор говорит о том, что для AI и data проектов важно понимать, что такие проекты сложны и требуют навыков, людей и организационных изменений для своего успеха. И это достаточно сложно и не все способны приносить пользу в таких проектах. Конкретно, автор рассказывает про то, что если запускать data и AI проекты внутри DWH команд, то такие проекты обречены на неудачу ("the team where good data projects go to die). Это обусловлено не тем, что DWH технологии плохие, а потому, что это скорее проблема людей ("people problem"), которые очень специфично разбираются с проблемами и очень специфичным образом выстраивают свою работу. В общем, автор говорит о том, что эта не та команда, которая должна отвечать за data и AI проекты нового типа.

В конце автор рассказывает о том, как можно получить помощь с такими проектами за счет аутсорсинга (если у компании нет своей инженерной команды и культуры), за счет привлечения консультантов (правда, автор говорит о том, что консультанты по менеджменту типа BCG, Bain, Mckinsey зачастую не обладают компетенциями для помощи в таких data проектах). В конце автор упоминает свою книгу "Data teams", которую он написал для менеджеров, которым предстоит запускать data и AI проекты.

P.S.
Мне автор продал свою книгу, поэтому я добавлю ее в свой long list на чтение:)

#Management #Leadership #Data #DataScience #AI #Engineering #Software #SoftwareDevelopment #ML

Why Most Data Projects Fail and How to Avoid It • Jesse Anderson • YOW! 2022

This presentation was recorded at YOW! 2022. #GOTOcon #YOW
https://yowcon.com

Jesse Anderson - Managing director of Big Data Institute, host of The Data Dream Team podcast @jessetanderson

RESOURCES
https://twitter.com/jessetanderson
https://www.jesse-anderson.com…

❤‍🔥22⚡6

7.41K viewsDmitry, 15:59

Инжиниринг Данных

К гадалки не ходи, понятно, что лучше удерживать народ, чем потом искать замену. Но никто не хочет этого делать, вдруг дешевле все таки использовать свежие кадры💀

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥19💯13🙈1

8.16K viewsDmitry, 21:39

Инжиниринг Данных

Spark Data Skewness.pdf

Маленькая презентация про Data Skew (перекос данных) в Databricks.

Перекос данных известный термин при работе с распределенными системами (Redshift, Synapse, Hadoop и тд). Можно сказать это фундаментальная вещь. Но решается в каждом продукте по своему.

🫡17⚡9

8.23K viewsDmitry, 18:45

Инжиниринг Данных

Классная математика увольнений 🧮

🙈19🗿6⚡2

7.71K viewsDmitry, edited 01:32

Инжиниринг Данных

В статье Working at a Startup vs in Big Tech автор сравнивает работу в стартапе и большой компании.

В табличке как раз хорошо отражены + и -. Сам я практически всегда работал в Big Tech, как-то надежней, но всегда получал и продолжаю получать Misaligned Incentives (точее ничего не получать).

А как вы считаете, где лучше?

Мне кажется лучше работать в стартапе типа Apple, Google в 90х или Lyft, Uber, Airbnb в 2000х и потом плавно вырасти в Big Tech и уйти на пенсию через 10 лет работы после IPO😎

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥11🌚6💯3🗿2

7.41K viewsDmitry, 06:21

Инжиниринг Данных

Бизнес, данные и кибер-футуризм: Alfa Data Science Meetup #3 🪩

27 октября в Екатеринбурге пройдет хардовый Alfa DS Meetup #3 Business. Участникам предложат посмотреть на ценности, метрики и особенности CLTV через призму бизнеса и аналитики.

Ребята из Альфы расскажут о том, как успешно справляются с рутиной с помощью машинного обучения, а также всех гостей ждет два отдельных трека докладов.

Только для очных зрителей будет доступна закрытая панельная дискуссия с приглашенными спикерами из билайна и СберМаркета про особенности разработки и применения моделей CLTV и Networking Party.

Когда: 27 октября в 19:00 (по местному времени)

Где: г. Екатеринбург, ул. Горького, д. 7А (офис Альфа-Банка) + онлайн-трансляция

Успейте зарегистрироваться на митап по ссылке — количество мест ограничено!

Реклама. АО "АЛЬФА-БАНК" erid: 2Vtzqxm7VW4 шла

🗿3⚡2🌭1

7.72K viewsDmitry, 07:01

Инжиниринг Данных

ML-инженер Газпромбанка опубликовал на Хабре статью про автоматизацию переобучения моделей в банковских условиях. Когда на работу влияет не только финансовая специфика, но и куча регуляторики с требованиями безопасников (нет того же Git LFS).

Текст об параллельном выполнении процесса сканирования и выкатки кода по CI/CD-процессу, благодаря архитектурному разграничению весов модели и самого кода как разных сущностей сборки.

Как автоматизировать переобучение моделей?

Меня зовут Денис, я управляю разработкой и внедрением моделей машинного обучения в «Газпромбанке» в розничный бизнес. Наша команда ML-инженеров работает в связке с DevOps, мне помогает мой коллега...

😭11⚡7👨‍💻3❤‍🔥2🌚2

8.87K viewsDmitry, 15:14

Инжиниринг Данных

Мой бывший коллега Андрей Менде ищет человека:

Привет!

Я ищу инженера и/или аналитика данных на проект. Сразу предупрежу, что это не трудоустройство, имеет смысл вписываться если вы хотите добавить себе в портфолио интересный кейс и попрактиковаться за вознаграждение.

Сервис аренды автомобилей систематически логировал в ClickHouse все поиски, клики и бронирования, которые делали клиенты.

Задача состоит в том, чтобы попробовать определить случаются ли ситуации, когда недостаток предложения автомобилей в определенном сегменте приводит к тому, что клиентам скорее всего нечего бронировать, и выдать рекомендации каких предложений нужно добавить в инвентарь, чтобы избежать падения конверсии.

Писать в телеграм @andrewmende

Ок кстати еще и на data learn выступал - Data science и Product Management

Для опыта будет неплохо вам поковырять реальные данные, заодно можно и refference попросить на будущее к нему в компанию (booking)

Data science и Product Management / Booking / Владимир Калмыков / Андрей Менде

Владимир Калмыков (Group Tech PM booking.com) и Андрей Менде (PM DataScience booking.com) расскажут, в чем особенности работы PM в Data Science командах, и как датасаентисту эффективно построить работу со своим PM. Разберем, какие ошибки совершают PM'ы у…

❤‍🔥21⚡9👾1

8.34K viewsDmitry, 05:08

Инжиниринг Данных

Чувак просто жжет со своими курсами. Отличная мотивация для меня, повешу себе на стенку, чтобы не чиниться, а то так и придется еще долго на “дядь” трудится, чтобы столько зарабатывать👨‍💻

Please open Telegram to view this post

VIEW IN TELEGRAM

🌚27⚡16🐳5💯2

8.02K viewsDmitry, 08:17