Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Самый популярный hint в SQL 1=1

Когда только начинал, никак не мог понять зачем. Оказывается все просто, можно убирать и добавлять условия и не нужно переживать за лишний AND.
❤‍🔥104💯32🙉14🙈4
Продолжаю серию постов про пеликанов. VK Cloud опубликовали кейс - Как облако помогло ученым посчитать пеликанов за 30 миллисекунд вместо 7 дней

Ссылка на канал VK Cloud - 🌎 Мы считали пеликанов: как нейросеть помогает сохранять популяцию редких птиц в дикой природе

А вот история постов про пеликанов
Пост1 - идея использовать ML для подсчета колоний пеликанов
Пост2, Пост3 - публикация научной статьи
Пост4 - статья в научном журнале

PS технический лидер проекта Владимир Валеев зарекомендовал себя как очень крутой специалист по компьютерному зрению да теперь еще и большой опыт ML на отечественных облаках, если вам нужен специалист, то обращайтесь к нему, он как раз ищет новый проект! А если хотите получить ML опыт, тоже пишите ему, лишние руки не помешают!

PS А если вы в Москве, приходите в зоопарк посмотреть на живых пеликанов..
❤‍🔥20🍌5🐳1
От удаленной работы до анализа данных с бейджей. ИТ превращается в режимные объекты, пока планируют трекать время в офисе, но пора добавлять время в туалете или кофе брейке, большие данные они такие…
😈4🌭2
This media is not supported in your browser
VIEW IN TELEGRAM
Коллеги из компании Sapiens solutions разработали фреймворк, выполняющий следующие задачи:

➡️ стандартизация ETL процессов,
➡️ загрузка и расчет данных с помощью метаданных и минимального объема разработок.

Фреймворк доступен на GitHub как Open source по лицензии Apache 2.0

🖥3 октября они проведут вебинар, на котором рассмотрят вопросы:

1. Проблемы в процессах ETL
2. Подходы к загрузке в Greenplum
3. Преимущества ETL фреймворка
4. Компоненты фреймворка
5. Развертывание и использование
6. Продуктивные кейсы

📌Всем зарегистрированным будет отправлена запись.

Вебинар будет полезен для компаний, которые планируют использовать хранилище данных на платформе Arenadata DB / Greenplum и проектов миграции хранилищ данных с проприетарных DB (SAP HANA, Oracle, Teradata и др.)

Спикеры:

Юрий Ефаров
- Основатель и CEO Sapiens solutions (в ТОП-15 поставщиков аналитических решений в РФ)

Дмитрий Исмаилов - Архитектор хранилищ данных, эксперт в вопросах миграции на Greenplum.

Ссылка на вебинар.

🗓 03 октября, 11:00 мск • Онлайн

#промо
12❤‍🔥4🙈3👨‍💻1
🫡23👾4🙈3🤷2
VK Data Meetup — митап об инструментах и людях, которые умеют работать с данными

Когда: 12 октября, 14:00 по Москве
📍 Регистрация

VK Data Meetup — это серия событий о практиках работы с данными на разных уровнях.

Митап 12 октября посвящен работе с большими данными и ML. Обсудим:
• Тренды работы с данными;
• Процессы взаимодействия со смежными подразделениями и внутри дата-команд;
• Новые инструменты, такие как Spark on Kubernetes и No Code AutoML-платформы;
• Кейсы решения практических бизнес-задач от ведущих российских компаний.

Митап будет интересен дата- и ML-инженерам, тимлидам и разработчикам платформ данных, архитекторам и специалистам по Data Science.

Присоединяйтесь к сообществу VK Data Meetup, чтобы узнать про работающие практики и поделиться своим опытом.

Зарегистрироваться

#промо
❤‍🔥9🙉2
Ставка по ипотеке в Северной Америке достигла 7.5% (раньше было около 2х), теперь лента в linkedin заиграла новыми красками. И это не только в СФ, а в любом крупном городе Канады или США. Ссылка на дискуссию под постом. Еще есть вариант бесплатной эвтаназии, если не тянете😐
Please open Telegram to view this post
VIEW IN TELEGRAM
😭26🙈10🍾3🗿2🎄1
Яндекс открыл подачу заявок на научную премию в области машинного обучения

Научную премию Яндекс проводит не первый год, но именно в этот раз впервые лауреатами Yandex ML Prize могут стать ученые, которые занимаются генеративными моделями. Кроме этого, наградят тех, кто отличился в изучении распознавания и синтеза речи, компьютерного зрения, информационного поиска и анализа данных и обработки естественного языка.

Участвовать могут исследователи, которые работают или учатся в университетах России, Азербайджана, Армении, Беларуси, Казахстана, Кыргызстана, Молдовы, Сербии, Таджикистана, Туркменистана или Узбекистана.

Призы, кстати, нешуточные: до миллиона рублей, грант от Yandex Cloud на использование сервиса для исследования (там, к слову, можно развернуть нейросетку на основе Stable Diffusion или любыми другими генеративными штуками заняться) и до кучи подписка на Яндекс 360. Подать заявку можно до 16 октября — отличная возможность заявить о себе сообществу и попробовать свои силы.
🙈36❤‍🔥8🌚7💯2😈21🐳1💘1
Опачки! 31 Октября у AWS появилась сертификация Data Engineer. (У azure и gcp уже давно были).

https://aws.amazon.com/certification/certified-data-engineer-associate/
51❤‍🔥4🌭3🤷‍♂1
Все чаще вижу кейсы когда хотят использовать хранилище данных для:
- добавления новых фичи в сам продукт, используя данные из хранилища данных
- писать в Sales Force, Market и другие SaaS API для "real time" actions
- обогащать данные real-time телеметрии для операционной аналитики
- Использование PII (клиентские) данные для downstream систем, что сильно меняет требования к аналитическому решению

Тем самым извращаю цель хранилища данных - анализировать исторические данные и принимать решения, использовать данные для систем машинного обучения или просто как песочницу для аналитиков, где они могу искать data insights.

Как только мы начинаем использовать хранилище данных для customer face продукта, приложения, сразу происходит искажение SLA для решения. Теперь, если какой-нибудь ETL упал ночью, это сразу Sev A (то есть инцидент с самой высокой категорией, который необходимо решить немедленно). Команда хранилища данных (инженеры данных) сразу должны быть On-Call и просыпаться ночью, чтобы починить pipeline.

Как правило, чтобы строить такое решение используют 2 варианта
- Open Source (код) или Reverse ETL
- Сложные интеграции с командами разработкой и множеством слоев

По-моему опыту все эти поделки добавляют кучу проблем для команды хранилища дынных (инженеров данных), тратя их ресурсы на поддержание работоспособности кастомизированного решения и ведет к снижению вовлеченности в работу.

Мне кажется, тут нет идеального рецепта и все несчастливы по своему.

А вам приходилось с таким сталкиваться?
💯51🫡5
Очень классное сравнение ПО (SDE) и data (data engineering):

(я честно пытался перевести, но получилось такая шляпа, решил оставить оригинал):

Here are 10 ways software engineering and data fundamentally differ from each other:

1. Software is built fit-for-purpose, but Data is recycled many times.

2. Software is owned by the team that created and uses it. Data may not be owned by the team that uses it, or even know who created it in the first place.

3. Most software changes are reviewed within teams, whereas most data changes should be reviewed between teams.

4. 'Pipelines' are not a concept in software engineering.

5. Data architecture is based on the real-world semantic truth of the business. Software architecture is based on what solves the functional requirements.

6. In software, nothing gets built without a clear customer use case. In data, you don't know if the answer to a question will be useful or not until you've answered it.

7. Software teams require tooling for creating, Data teams require tools for exploring.

8. Governance in software engineering usually relates to development patterns. Governance in data usually relates to the way data is organized and accessed.

9. In software, microservices make teams ultimately go faster. In data, microservices make teams ultimately go slower, as it leads to duplication and no single source of truth.

10. Technical debt causes a lack of scalability and devex issues. Data debt causes a lack of trust and quality issues.

The bottom line:

Data and Software are unique disciplines. While they both require writing code - the goals, organizational structure, architecture, applications, toolsets, and processes have very different INTENT and outcomes.

When organizations don't understand how the intent and outcomes of each industry function, where there is overlap, and where there is not, it will lead to extreme dissatisfaction, churn, and gaps in ROI.
💯25🤷‍♂4🌚2❤‍🔥11🐳1
Forwarded from Книжный куб (Alexander Polomodov)
Как я выбираю какую книгу читать следующей

Мне периодически задают такой вопрос и я всегда отвечаю, что это зависит от контекста и текущей ситуации. Например, пару недель назад пролетела новость про то, что Cisco покупает компанию Splunk за 28 млрд долларов. Это интересная новость в силу того, что Cisco - это топовая компания по производству сетевых устройств и не только, а Splunk - это один из лидеров на рынке observability платформ. Поэтому я решил узнать про нее побольше и, закончив читать предыдущие книги, взял с полки бумажную книгу "Соединяя точки. Уроки лидерства" Джона Чемберса, ex-CEO компании с 1995 года по 2015.

В этой книге Джон рассказывает про свой подход к управлению на примерах из жизни IBM, Wang Laboratories и в основном Cisco, где он за 20 лет построил компанию, которая в 2000 году даже была самой дорогой в мире:) Одна из глав как раз называется "Мой план успешных поглощений", в которой Джон говорит про свой подход, в основе которого лежат 4 ключевых принципа
1) Сосредоточиться на тех поглощениях, что позволят выйти на новые рынки в переходном периоде или расширить на них свою деятельность
2) Прислушиваться к рекомендациям клиентов
3) Сразу же интегрировать компанию в свою структуру, если вы не покупаете ее в качестве самостоятельной бизнес-единицы
4) Настойчиво добиваться соответствия вашей культуре и ценностям

Интересно, что именно стратегическое поглощение Crescendo, закончившееся успешно, позволило Джону стать главой компании, а потом провернуть еще 179 поглощений, которые он проводил в соответствии с приведенными выше принципами. Дальше он поделился семью золотыми правилами, что они использовали при заключении сделок:
1. Каждое поглощение должно соответствовать вашему видению и стратегии
2. В центре внимания должны находиться рыночные преобразования и подрывные инновации в области технологий
3. Прислушивайтесь к рекомендациям клиентов при выборе объекта поглощения
4. Создайте взаимовыгодную ситуацию для обеих компаний, их руководителей, инвесторов, сотрудников и клиентов
5. Отдавайте предпочтение компаниям и технологиям, соответствующим вашему профилю
6. Выбирайте компании, культура которых в значительной степени соответствует вашей
7. Учитывайте географическую близость к своей штаб-квартире или основным операционным центрам

Отдельно Джон говорит о том, что объединение - это хорошая возможность для компаний разных размеров, где большая компания поглощает маленькую. А вот для сравнимых по размерам компаний лучшим вариантом является стратегическое партнерство - это не так рискованно как объединение, но позволяет получить хорошие результаты. В этом случае оно тоже должно иметь стратегическое значение для компаний, у обеих компаний должна быть мотивация к этому партнерству, эту идею должен разделять весь топ-менеджмент компании, а также в рамках партнерства стоит инициировать несколько проектов, чтобы общий баланс ценности портфеля был относительно справедливо распределены между компаниями.
Отдельно Джон приводит статистику того, что из 180 поглощений только треть была неудачными, а несколько десятков компаний выросли в миллиардные направления по обороту. Именно за счет поглощений компания Cisco активно наращивала свой портфель продуктов для "Changing the way, we work, live, play and learn".

P.S.
Отдельно потом напишу про книгу целиком, а то тут получилось рассказать только про одну главу:)
#Management #Leadership #Processes
❤‍🔥275
Интересная интеграция dbt + cube

Про cube я писал ранее, что мы использовали open source для красивой визуализации и рассылки emails для внешних клиентов. (назовем это embedded BI).

В данном кейсе, пример больше про классический BI.
❤‍🔥28
Я давно изменил структуру своих подписок и теперь больше читаю всяких экспертов в разных областях. Вот один из них, бывший VP Amazon. В своем посте он рассказывает об очевидной проблеме связанной с удаленной работой, где главное препятствие это недоверие работодателя к сотрудникам. И далее он предлагает пути решения, связанные с gentle мониторингом вашей активности, чтобы вы, не дай бог, на 3х работах не работали. Но если разобраться, почему людям приходится работать на 3х работах, то очевидно, что это высокая стоимость жизни и низкие зарплаты. Вот буквально видел 5 минут назад вакансию на инженера данных в Канаде за 85к в год, это 4500 канадских в месяц, а рент более менее это 2500 в месяц. И таких вакансий много. Возможно одно из главных решений это оплата труда для хороших специалистов, которая закроет потребности, например в Канаде это 15к, то есть в 3.5 раза больше. Но откуда VP будет знать о таких мелочах, он уже и забыл когда он мало зарабатывал и еле сводил концы с концами.
💯1054🦄2🌚1
Еще один Success Story для Surfalytics от Максима из Онтарио.

Бэкграунд:
Закончил железнодорожный университет в Новосибирске по специальности инженер, информационные системы и технологии.
После универа начал работать инженером тех поддержки в международной компании, затем продолжил как технический писатель, после чего перешёл в технические проджект менеджеры и проработал около 13 лет. Из инструментов немного использовал SQL для простых запросов и Python для автоматизации отчётов. Английский был на уровне intermediate, разговорный практически на нуле. Поэтому до переезда нашел репетитора и начал заниматься с упором на разговорный. За полгода занятий поднял до уровня upper-intermediate / advanced, которого уже было достаточно для прохождения интервью.

В Канаду переехал вместе с семьёй в декабре 2022, 10 месяцев назад.
После переезда по инерции начал искать работу проджектом. В процессе откликов понял что хочу сменить сферу и выбрал направление аналитики данных.

Определиться с направлением (ответить на вопрос Куда?) - это большое дело. Но мне было совершенно непонятно Как туда идти, а куча курсов, ресурсов, информации делали это еще сложнее.
Через нетворк в LinkedIn я узнал про Диму и data learn. Это помогло мне получить понимание и ответы на вопрос «Как?»
Ещё было очень полезно оказаться в группе Surfalytics bootcamp, в которой мы обсуждали вакансии, ЗП вилки, помогали друг другу улучшить резюме и даже созванивались для подготовки к интервью.

Поиск работы
1 раунд поиска
С мая по октябрь 2023
Откликов - 210(+40) шт. 210 отмечал в экселе, около 40 откликался через easy apply на LinkedIn и Indeed без отметок в экселе, поэтому цифра 40 примерная
Приглашений на интервью - 14 шт.
Оферов - 1 шт:
Senior Data Analyst в technology solutions provider - 110k base salary + 15% annual bonus
В процессе много экспериментировал с резюме с целью повысить конверсию в приглашения, всего было около 10 версий резюме.

Что учил:
Активно начал заниматься с середины марта 2023

- Прошёл SQL курс на DataLearn
- Прошел 3 модуля DataLearn
- Решил практически все задачки по SQL на DataLemur
- DBT fundamentals course
- Курс Google Data Analytics на курсере (8 модулей)
- Visualization with Tableau program (5 модулей)
- Прочитал Lean Analytics
- Подготовил портфолио
1 Excel project
4 Tableau projects
1 Power BI project
2 SQL projects
2 Python
1 data engineering project with deployment BI solution in cloud and data modeling (Amazon Redshift and Tableau Server Linux on MS Azure cloud)
- Освежил знания по Python и pandas, прошёл несколько курсов по python, в т.ч. на kaggle. Сделал выжимку из прошедших ранее курсов в виде Jupyter Notebook

К каждому раунду интервью готовился по несколько часов. Активно пинговал рекрутеров через LinkedIn и по e-mail после откликов

Делал записи интервью для разбора ошибок и подготовки ответов на вопросы, по которым затупил.
❤‍🔥12215💯4🍌3🗿1
Если вы еще не знакомы с dbt, то стоит обратить внимание на этот инструмент, который умеет работать с вашими SQL запросами и превращать их в SQL модели и собирать из них Directed Acyclic Graph, ну то есть выполнять ваши SQL запросы модели по очереди. А еще можно макросы писать (каждый раз пишу это слова и немного вздрагиваю от мысли о VBA макросах). В dbt все попроще с этим, там jinja - близко к питончику. А еще dbt умеет те же модели, но на Python. Хотя excel тоже уже умеет на питоне, даже мой сын в 11 лет немного умеет))

Ладно, 16-19 октября будет у них конференция в Сан Диего, но можно и онлайн записаться - https://coalesce.getdbt.com/register/online
💯12🐳3
Недавно у нас был вебинар LLM / Большие языковые модели / Самообучаемый чат бот на котором Сергей Христолюбов и Роман Чуприков рассказали про большие языковые модели, LLM, а также как работать с ботом, его исходники и пояснение.


Сергей попросил проголосовать за его бота:
1. Зайдите на сайт https://productradar.ru/
2. Войдите с помощью яндекс или google
3.
Проголосуйте за WikiBot - он №1 в списке WikiBot - Сервис по созданию чат-бота для поддержки клиентов. WikiBot обучается на вашей базе знаний и отвечает как человек.



Давайте поддержим хороших ребят.
🐳11❤‍🔥2🌭1
Пока одни вендоры думают как им сделать real time решения, побольше новых фич и сервисов, Microsoft fabric заморачивается с иконками🏖
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚17🦄103🗿3🙈2
Building an Observability Startup: Chronosphere - статья от Pragmatic Engineer. В статье автор рассказывает про инженера, который поработал в Microsoft, потом AWS, где трудился над observability для виртуальных машин и создал сервис AWS System Manager, затем создавал observability систему M3 в Uber и уже потом создал продукт Chronosphere и получил под него инвестиции.

В этой истории мне понравилось, что мужик всю жизнь занимался +/- одним и тем же и потом решил сделать продукт по своей теме. Достаточно популярная история.

Но я задумался о другом - о возможностях. В Северной Америке я вижу много успешных кейсов, когда студенты computer science уже после 3го курса попадают в FAANG на стажировку, а после окончания учебы уже работают на полную ставку. Я сам наблюдал, как приходят стажеры в Amazon, быстро учатся, через 1-2 годика уже в штате, через 1-2 годика уже senior. Было очевидно, что компания делает на них ставку, поощряет их и инвестирует в них.

Для них все выглядит просто и они плывут практически по течению карьерного роста. Конечно, надо напрягаться, учиться, и еще раз учиться. В LinkedIn я часто вижу как вчерашние junior сегодня уже staff инженеры и рассказывают о высоких зарплатах и продают консультации по 200$ в час, где вам могут дать пару дельных советов.

Со временем я осознал, что мой тернистый путь, совсем другой. Что для стажера местного университета роль и должность сеньора это вполне достижимый результат за короткий срок, главное попасть в хорошую компанию. Для меня же, иммигранта, инженера конструктора с тремя детьми это почему-то никогда не работало.

Все таки, хороший старт очень важен, а если он еще произошел в 20 лет, а не 35, то вообще будет замечательно. Но мне кажется, что "хороший старт" это не про большинство моих читателей, у всех свой "тернистый" путь, он тяжелый, и чтобы достичь более менее такого же результата нам придется постараться и сделать намного больше. А если мы еще хотим и зарплату как в долине, но это уже тогда вообще придется как следует впахивать на старости лет. Хотя это же относительный термин, кто-то и в 70 себя на 20 ощущает.

У меня вот есть самовар на дровах, и если вдруг не будет электричества, я всегда смогу скипятить чайку, а вот все эти инженеры из долины не смогут, так что не все так плохо!
💯56👨‍💻25❤‍🔥108🌚4
16 по 20 Октября у Microsoft будет онлайн ивент - Airlift. Раньше не слышал про такое событие, там будут секции про Data&AI, где будут углубленные сессия по аналитическим решениям.

Основные бенефиты:
- попрактиковать английский
- понять куда Microsoft двигает аналитическую индустрию
- узнать больше про новые продукты и use cases (Power BI, Fabric, Synapse, Databricks, Azure ML and etc)
🌚9🎄5👾1
Зак все правильно говорит - много работы, проектов, ad-hoc запросов вам не помогут получить промо, да и вообще будут проблемы с результатом, потому что во всей это билиберде (или белеберде) мало ценности, много лишних телодвижений, сообщений, и активностей, но для руководства и бизнеса это бесполезно.

Поэтому на работе попробуйте понять какие проекты ценны, и какие люди важны для вашего промо и фидбека, и работайте на них. Все хотелки от пользователей (если это не директор/vp) можно слать лесом.
💯35🫡29❤‍🔥4🤷‍♂41