Инжиниринг Данных – Telegram

Инжиниринг Данных

23.5K subscribers

1.98K photos

56 videos

192 files

3.2K links

Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Download Telegram

About

Blog

Apps

Platform

Инжиниринг Данных

23.5K subscribers

Инжиниринг Данных

Очень интересный кейс https://medium.com/@laurengreerbalik/hightouch-is-just-blindly-copying-rudderstack-2e80dba56b27

Когда один инструмент копирует код из другого инструмента, а другой инструмент копирует его из 3го. Целая драма. А если написано Лаурой то вообще атас😐

А вот ее пост из за которого ее блокнул LinkedIn https://t.me/rockyourdata/3730

Please open Telegram to view this post

VIEW IN TELEGRAM

🌚6

8.47K viewsDmitry, edited 18:12

Инжиниринг Данных

AWS Glue: Hands-on Optimization Workshop
Thursday, October 26 2023 | 9:00AM - 12:00PM PDT

Отличная возможность узнать про Spark на AWS.

AWS Glue: Hands-on Optimization Workshop

Attend this hands-on workshop to learn how to optimize costs and increase performance of your AWS Glue workloads.Customers leveraging or exploring AWS Glue often have questions, such as:- Is their existing AWS Glue workload optimized?- What new AWS Glue features…

❤‍🔥13👨‍💻3

7.88K viewsDmitry, 20:04

Инжиниринг Данных

Только булки все расслабили, а тут опять увольнения, да еще в серьезных компаниях 😞

Please open Telegram to view this post

VIEW IN TELEGRAM

🗿29🫡8🐳2🌚2😭1

7.39K viewsDmitry, 04:15

Инжиниринг Данных

Forwarded from Книжный куб (Alexander Polomodov)

Why Most Data Projects Fail and How to Avoid It • Jesse Anderson • YOW! 2022

Интересное выступление про data проекты от Jesse Anderson, автора книги "Data Teams". Автор говорит о ключевых вопросах, которые стоит задать при старте проектов
- Who - Автор говорит про правильный состав команды для data проектов. Собственно автор про это написал целую книгу и он говорит про баланс data scientists, data engineers, operations.
- What - Автор задает вопрос про бизнес значение того data продукта/проекта, которым вы занимаетесь. Автор говорит о том, что фразы "Мы делаем AI" от CEO не хватает для data strategy:) В общем, надо понимать как ваш проект принесет ценность для бизнеса. Причем помимо стратегии нужен план и его execution. Особенно во времена, когда tech компании занимаются сокращениями в направлениях, что не приносят деньги.
- When - Автор говорит о том, а когда эта бизнес ценность будет создана. Нужен проект с понятными временными границами, чтобы он не был слишокм долгим, чтобы быть отмененным где-то посердине и не слишком коротким, обещающим золотые горы, которым на самом деле будет невозможно соответствовать.
- Where - И вот мы наконец-то добрались до первого технического вопроса, а где собственно эти данные будут обрабатываться, как будет выглядеть архитектура решения. И тут для ответа тоже не хватает фразу "Мы будем использовать технологию XYZ вендора ABC". Проблема в том, что вендор может пообещать все что угодно, но это обещание не факт, что выполнимо, более того, не факт, что оно оптимально для заказчика:)
- How - Здесь речь идет про план выполнения и про фокусировку на приоритетных направлениях. Хотя часто такие data проекты пытаются успеть сразу везде, а дальше теряют эффективность на context switches и застывают на месте, переставая генерировать какую-либо ценность кроме рассказов о наступлении AI:) Автор интересно рассказывает про то, как бизнес заказчикам перпендикулярно на конкретные технические решения, но важно какую бизнес-ценность они могут получить по результатам выполнения плана.
- Why - Автор задает вопрос, а почему же эти данные обладают ценностью? Просто отгружать данные и гонять ETL/ELT пайпланы не достаточно. Важно понимать как использование данных в новых проектах позволит обеспечить нужный ROI (return on investments), причем автор говорит о том, что он ищет 10x ROI для data проектов

Напоследок автор говорит о том, что для AI и data проектов важно понимать, что такие проекты сложны и требуют навыков, людей и организационных изменений для своего успеха. И это достаточно сложно и не все способны приносить пользу в таких проектах. Конкретно, автор рассказывает про то, что если запускать data и AI проекты внутри DWH команд, то такие проекты обречены на неудачу ("the team where good data projects go to die). Это обусловлено не тем, что DWH технологии плохие, а потому, что это скорее проблема людей ("people problem"), которые очень специфично разбираются с проблемами и очень специфичным образом выстраивают свою работу. В общем, автор говорит о том, что эта не та команда, которая должна отвечать за data и AI проекты нового типа.

В конце автор рассказывает о том, как можно получить помощь с такими проектами за счет аутсорсинга (если у компании нет своей инженерной команды и культуры), за счет привлечения консультантов (правда, автор говорит о том, что консультанты по менеджменту типа BCG, Bain, Mckinsey зачастую не обладают компетенциями для помощи в таких data проектах). В конце автор упоминает свою книгу "Data teams", которую он написал для менеджеров, которым предстоит запускать data и AI проекты.

P.S.
Мне автор продал свою книгу, поэтому я добавлю ее в свой long list на чтение:)

#Management #Leadership #Data #DataScience #AI #Engineering #Software #SoftwareDevelopment #ML

Why Most Data Projects Fail and How to Avoid It • Jesse Anderson • YOW! 2022

This presentation was recorded at YOW! 2022. #GOTOcon #YOW
https://yowcon.com

Jesse Anderson - Managing director of Big Data Institute, host of The Data Dream Team podcast @jessetanderson

RESOURCES
https://twitter.com/jessetanderson
https://www.jesse-anderson.com…

❤‍🔥22⚡6

7.41K viewsDmitry, 15:59

Инжиниринг Данных

К гадалки не ходи, понятно, что лучше удерживать народ, чем потом искать замену. Но никто не хочет этого делать, вдруг дешевле все таки использовать свежие кадры💀

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥19💯13🙈1

8.16K viewsDmitry, 21:39

Инжиниринг Данных

Spark Data Skewness.pdf

Маленькая презентация про Data Skew (перекос данных) в Databricks.

Перекос данных известный термин при работе с распределенными системами (Redshift, Synapse, Hadoop и тд). Можно сказать это фундаментальная вещь. Но решается в каждом продукте по своему.

🫡17⚡9

8.23K viewsDmitry, 18:45

Инжиниринг Данных

Классная математика увольнений 🧮

🙈19🗿6⚡2

7.71K viewsDmitry, edited 01:32

Инжиниринг Данных

В статье Working at a Startup vs in Big Tech автор сравнивает работу в стартапе и большой компании.

В табличке как раз хорошо отражены + и -. Сам я практически всегда работал в Big Tech, как-то надежней, но всегда получал и продолжаю получать Misaligned Incentives (точее ничего не получать).

А как вы считаете, где лучше?

Мне кажется лучше работать в стартапе типа Apple, Google в 90х или Lyft, Uber, Airbnb в 2000х и потом плавно вырасти в Big Tech и уйти на пенсию через 10 лет работы после IPO😎

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥11🌚6💯3🗿2

7.41K viewsDmitry, 06:21

Инжиниринг Данных

Бизнес, данные и кибер-футуризм: Alfa Data Science Meetup #3 🪩

27 октября в Екатеринбурге пройдет хардовый Alfa DS Meetup #3 Business. Участникам предложат посмотреть на ценности, метрики и особенности CLTV через призму бизнеса и аналитики.

Ребята из Альфы расскажут о том, как успешно справляются с рутиной с помощью машинного обучения, а также всех гостей ждет два отдельных трека докладов.

Только для очных зрителей будет доступна закрытая панельная дискуссия с приглашенными спикерами из билайна и СберМаркета про особенности разработки и применения моделей CLTV и Networking Party.

Когда: 27 октября в 19:00 (по местному времени)

Где: г. Екатеринбург, ул. Горького, д. 7А (офис Альфа-Банка) + онлайн-трансляция

Успейте зарегистрироваться на митап по ссылке — количество мест ограничено!

Реклама. АО "АЛЬФА-БАНК" erid: 2Vtzqxm7VW4 шла

🗿3⚡2🌭1

7.72K viewsDmitry, 07:01

Инжиниринг Данных

ML-инженер Газпромбанка опубликовал на Хабре статью про автоматизацию переобучения моделей в банковских условиях. Когда на работу влияет не только финансовая специфика, но и куча регуляторики с требованиями безопасников (нет того же Git LFS).

Текст об параллельном выполнении процесса сканирования и выкатки кода по CI/CD-процессу, благодаря архитектурному разграничению весов модели и самого кода как разных сущностей сборки.

Как автоматизировать переобучение моделей?

Меня зовут Денис, я управляю разработкой и внедрением моделей машинного обучения в «Газпромбанке» в розничный бизнес. Наша команда ML-инженеров работает в связке с DevOps, мне помогает мой коллега...

😭11⚡7👨‍💻3❤‍🔥2🌚2

8.87K viewsDmitry, 15:14

Инжиниринг Данных

Мой бывший коллега Андрей Менде ищет человека:

Привет!

Я ищу инженера и/или аналитика данных на проект. Сразу предупрежу, что это не трудоустройство, имеет смысл вписываться если вы хотите добавить себе в портфолио интересный кейс и попрактиковаться за вознаграждение.

Сервис аренды автомобилей систематически логировал в ClickHouse все поиски, клики и бронирования, которые делали клиенты.

Задача состоит в том, чтобы попробовать определить случаются ли ситуации, когда недостаток предложения автомобилей в определенном сегменте приводит к тому, что клиентам скорее всего нечего бронировать, и выдать рекомендации каких предложений нужно добавить в инвентарь, чтобы избежать падения конверсии.

Писать в телеграм @andrewmende

Ок кстати еще и на data learn выступал - Data science и Product Management

Для опыта будет неплохо вам поковырять реальные данные, заодно можно и refference попросить на будущее к нему в компанию (booking)

Data science и Product Management / Booking / Владимир Калмыков / Андрей Менде

Владимир Калмыков (Group Tech PM booking.com) и Андрей Менде (PM DataScience booking.com) расскажут, в чем особенности работы PM в Data Science командах, и как датасаентисту эффективно построить работу со своим PM. Разберем, какие ошибки совершают PM'ы у…

❤‍🔥21⚡9👾1

8.34K viewsDmitry, 05:08

Инжиниринг Данных

Чувак просто жжет со своими курсами. Отличная мотивация для меня, повешу себе на стенку, чтобы не чиниться, а то так и придется еще долго на “дядь” трудится, чтобы столько зарабатывать👨‍💻

Please open Telegram to view this post

VIEW IN TELEGRAM

🌚27⚡16🐳5💯2

8.02K viewsDmitry, 08:17

Инжиниринг Данных

Ну это пушка Dbeaver + ChatGPT https://youtu.be/ujXKnUZKrNM?si=hyi-23efWYE-mmyo

GPT-3 / ChatGPT: your AI assistant in DBeaver

GPT-3 has taken a huge step forward and quickly gained popularity around the world. One of its more popular uses is to help you write code in various languages. And now, ChatGPT can become your assistant in writing SQL queries in DBeaver.
--
Text version:…

⚡29🗿1👾1

10.5K viewsDmitry, 00:47

Инжиниринг Данных

А вы продуктивный инженер или так себе? Вот Майкрософт решил провести опрос среди 413 разработчик и попытался ответить на это вопрос - Characterizing Software Developers by Perceptions of Productivity

Было выделено 6 групп и дано описание каждой группе.

1 Social developers (C1) feel productive when helping coworkers, collaborating and doing code reviews.
2 Lone developers (C2) avoid disruptions such as noise, email, meetings, and code reviews. They feel most productive when they have little to no social interactions and when they can work on solving problems, fixing bugs or coding features in quiet and without interruptions.
3 Focused developers (C3) feel most productive when they are working efficiently and concentrated on a single task at a time.
4 Balanced developers (C4) are less affected by disruptions. They are also less likely to come to work early or stay at work late.
5 Leading developers (C5) are more comfortable with meetings and emails. They feel more productive in the afternoon and when they can write and design things.
6 Goal-oriented developers (C6) feel productive when they complete or make progress on tasks. They feel less productive when they multi-task, are goal-less or are stuck.

⚡14🐳1

8.1K viewsDmitry, 20:30

Инжиниринг Данных

Вот что значит у них печатный станок налажен, верхней планки у зп нет📬

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥13🌭1

7.6K viewsDmitry, 13:05

Инжиниринг Данных

Термин data observability достаточно недавно стал применятся к хранилищам данных и ETL. Раньше просто говорили - качество данных.

The concept of data observability was first described by Barr Moses, co-founder and CEO of software vendor Monte Carlo Data. Moses coined the term in 2019, when she wrote a blog post about applying the general principles of observability for IT systems to data.

а сам термин observability пришел из devops, подразумевает процесс мониторинга ИТ систем и возможность быстро найти причину неполадки.
Где как не на сайте Мonte Carlo можно узнать больше про data observability - What is Data Observability? Для меня это просто процесс мониторинги всего чего только можно в нашем хранилище данных и случае отклонения -> ⚠️.
Самое интересное у них это типы "мониторов", то есть типы проверок ваших данных, которые могут покрыть все решение. Я сам пользуюсь уже год, и продукт мне нравится, а недавно мы стали интегрировать dbt и MC.
Если нет денег на MC, всегда можно подсмотреть идеи у них и уже сделать с помощью dbt, python, или какой язык вы там используете.

🧑‍🎓 What is Data Observability?

This section includes two videos, an introduction to Data Observability and how we approach Data Observability at Monte Carlo.

❤‍🔥6🤷‍♂6🤷‍♀3🤷3🎄2

15.7K viewsDmitry, 05:17

Инжиниринг Данных

Что для вас значит хороший код и как измерить его качество? На этот вопрос ответили в статье Developers talking about code quality.

В ней опросили больше 100 инженеров и все сошлись на мнении, что хороший код про понятный структурированный код, который легко читать и понимать.

🫡24❤‍🔥9💯1

7.5K viewsDmitry, 01:57

Инжиниринг Данных

🏆 Yandex Cup 2023 — открытый чемпионат для настоящих творцов

Разработчики — художники нового мира. Они создают смыслы, правила и законы, манифестируют идеи, творят миры и целые вселенные. И, если их предшественники делали это, используя слова, краски и звуки, то современные творцы создают новую реальность с помощью программного кода.

Искусство писать код

Тема чемпионата в этом году «Решаем искусство». Участников ждут нестандартные задачи на стыке IT и творчества, а лучшие встретятся лицом к лицу в финале, чтобы оживить арт-инсталляцию и разделить между собой 8 500 000 рублей.

Показать своё мастерство можно в 6 направлениях:

🔸 Фронтенд
🔸 Бэкенд
🔸 Мобильная разработка
🔸 Аналитика
🔸 Алгоритмы
🔸 Машинное обучение

Финал и церемония награждения пройдут офлайн в офисе Яндекса в Казахстане. Яндекс предоставит финалистам проезд и проживание в Алматы.

Регистрация открыта до 29 октября включительно:

👉 Участвую!

#Yandex_Cup23

🍌7🫡5❤‍🔥1

8.53K viewsDmitry, 15:29

Инжиниринг Данных

Насколько дорого делать AI? На графике расходы Microsoft, Google, Meta.

👨‍💻12🐳5⚡3🌚1

8.12K viewsDmitry, 00:38

Инжиниринг Данных

Человек на 60% состоит из воды, а Тинькофф на 100% из масштабных ИТ-задач и ежедневных вызовов

Если ты опытный ИТ-спец, этот вызов для тебя. А решение бытовых забот берем на себя: от ультра расширенной медстраховки и юридической поддержки до компенсации питания, спорта и дополнительного обучения.

Выбрать вакансию и стать частью ИТ-команды можно тут:
https://u.tinkoff.ru/career.it_about

АО «Тинькофф Банк», ИНН 7710140679

🗿19🙊12❤‍🔥5🍌2

8.22K viewsDmitry, 06:36

Инжиниринг Данных

Про новые бейджики в Linkedin - чувак просто рандомно отвечал и получил бейдж. Мне кажется скоро будет стыдно их иметь🐔 Вопросы там тоже так себе, ведь они сгенерированы AI.

Please open Telegram to view this post

VIEW IN TELEGRAM

🗿44🤷‍♂2🌭1

10.1K viewsDmitry, edited 15:37