Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
К гадалки не ходи, понятно, что лучше удерживать народ, чем потом искать замену. Но никто не хочет этого делать, вдруг дешевле все таки использовать свежие кадры💀
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥19💯13🙈1
Spark Data Skewness.pdf
860.4 KB
Маленькая презентация про Data Skew (перекос данных) в Databricks.

Перекос данных известный термин при работе с распределенными системами (Redshift, Synapse, Hadoop и тд). Можно сказать это фундаментальная вещь. Но решается в каждом продукте по своему.
🫡179
Классная математика увольнений 🧮
🙈19🗿62
В статье Working at a Startup vs in Big Tech автор сравнивает работу в стартапе и большой компании.

В табличке как раз хорошо отражены + и -. Сам я практически всегда работал в Big Tech, как-то надежней, но всегда получал и продолжаю получать Misaligned Incentives (точее ничего не получать).

А как вы считаете, где лучше?

Мне кажется лучше работать в стартапе типа Apple, Google в 90х или Lyft, Uber, Airbnb в 2000х и потом плавно вырасти в Big Tech и уйти на пенсию через 10 лет работы после IPO😎
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥11🌚6💯3🗿2
Бизнес, данные и кибер-футуризм: Alfa Data Science Meetup #3 🪩

27 октября в Екатеринбурге пройдет хардовый Alfa DS Meetup #3 Business. Участникам предложат посмотреть на ценности, метрики и особенности CLTV через призму бизнеса и аналитики.

Ребята из Альфы расскажут о том, как успешно справляются с рутиной с помощью машинного обучения, а также всех гостей ждет два отдельных трека докладов.

Только для очных зрителей будет доступна закрытая панельная дискуссия с приглашенными спикерами из билайна и СберМаркета про особенности разработки и применения моделей CLTV и Networking Party.

Когда: 27 октября в 19:00 (по местному времени)

Где: г. Екатеринбург, ул. Горького, д. 7А (офис Альфа-Банка) + онлайн-трансляция

Успейте зарегистрироваться на митап по ссылке — количество мест ограничено!

Реклама. АО "АЛЬФА-БАНК" erid: 2Vtzqxm7VW4 шла
🗿32🌭1
ML-инженер Газпромбанка опубликовал на Хабре статью про автоматизацию переобучения моделей в банковских условиях. Когда на работу влияет не только финансовая специфика, но и куча регуляторики с требованиями безопасников (нет того же Git LFS).

Текст об параллельном выполнении процесса сканирования и выкатки кода по CI/CD-процессу, благодаря архитектурному разграничению весов модели и самого кода как разных сущностей сборки.
😭117👨‍💻3❤‍🔥2🌚2
Мой бывший коллега Андрей Менде ищет человека:

Привет!

Я ищу инженера и/или аналитика данных на проект. Сразу предупрежу, что это не трудоустройство, имеет смысл вписываться если вы хотите добавить себе в портфолио интересный кейс и попрактиковаться за вознаграждение.

Сервис аренды автомобилей систематически логировал в ClickHouse все поиски, клики и бронирования, которые делали клиенты.

Задача состоит в том, чтобы попробовать определить случаются ли ситуации, когда недостаток предложения автомобилей в определенном сегменте приводит к тому, что клиентам скорее всего нечего бронировать, и выдать рекомендации каких предложений нужно добавить в инвентарь, чтобы избежать падения конверсии.

Писать в телеграм
@andrewmende

Ок кстати еще и на data learn выступал - Data science и Product Management

Для опыта будет неплохо вам поковырять реальные данные, заодно можно и refference попросить на будущее к нему в компанию (booking)
❤‍🔥219👾1
Чувак просто жжет со своими курсами. Отличная мотивация для меня, повешу себе на стенку, чтобы не чиниться, а то так и придется еще долго на “дядь” трудится, чтобы столько зарабатывать👨‍💻
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚2716🐳5💯2
А вы продуктивный инженер или так себе? Вот Майкрософт решил провести опрос среди 413 разработчик и попытался ответить на это вопрос - Characterizing Software Developers by Perceptions of Productivity

Было выделено 6 групп и дано описание каждой группе.

1 Social developers (C1) feel productive when helping coworkers, collaborating and doing code reviews. 
2 Lone developers (C2) avoid disruptions such as noise, email, meetings, and code reviews. They feel most productive when they have little to no social interactions and when they can work on solving problems, fixing bugs or coding features in quiet and without interruptions. 
3 Focused developers (C3) feel most productive when they are working efficiently and concentrated on a single task at a time.  
4 Balanced developers (C4) are less affected by disruptions. They are also less likely to come to work early or stay at work late. 
5 Leading developers (C5) are more comfortable with meetings and emails. They feel more productive in the afternoon and when they can write and design things. 
6 Goal-oriented developers (C6) feel productive when they complete or make progress on tasks. They feel less productive when they
multi-task, are goal-less or are stuck.
14🐳1
Вот что значит у них печатный станок налажен, верхней планки у зп нет📬
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥13🌭1
Термин data observability достаточно недавно стал применятся к хранилищам данных и ETL. Раньше просто говорили - качество данных.

The concept of data observability was first described by Barr Moses, co-founder and CEO of software vendor Monte Carlo Data. Moses coined the term in 2019, when she wrote a blog post about applying the general principles of observability for IT systems to data.



а сам термин observability пришел из devops, подразумевает процесс мониторинга ИТ систем и возможность быстро найти причину неполадки.
Где как не на сайте Мonte Carlo можно узнать больше про data observability - What is Data Observability? Для меня это просто процесс мониторинги всего чего только можно в нашем хранилище данных и случае отклонения -> ⚠️.
Самое интересное у них это типы "мониторов", то есть типы проверок ваших данных, которые могут покрыть все решение. Я сам пользуюсь уже год, и продукт мне нравится, а недавно мы стали интегрировать dbt и MC.
Если нет денег на MC, всегда можно подсмотреть идеи у них и уже сделать с помощью dbt, python, или какой язык вы там используете.
❤‍🔥6🤷‍♂6🤷‍♀3🤷3🎄2
Что для вас значит хороший код и как измерить его качество? На этот вопрос ответили в статье Developers talking about code quality.

В ней опросили больше 100 инженеров и все сошлись на мнении, что хороший код про понятный структурированный код, который легко читать и понимать.
🫡24❤‍🔥9💯1
🏆 Yandex Cup 2023 — открытый чемпионат для настоящих творцов

Разработчики — художники нового мира. Они создают смыслы, правила и законы, манифестируют идеи, творят миры и целые вселенные. И, если их предшественники делали это, используя слова, краски и звуки, то современные творцы создают новую реальность с помощью программного кода.

Искусство писать код

Тема чемпионата в этом году «Решаем искусство». Участников ждут нестандартные задачи на стыке IT и творчества, а лучшие встретятся лицом к лицу в финале, чтобы оживить арт-инсталляцию и разделить между собой 8 500 000 рублей.

Показать своё мастерство можно в 6 направлениях:

🔸 Фронтенд
🔸 Бэкенд
🔸 Мобильная разработка
🔸 Аналитика
🔸 Алгоритмы
🔸 Машинное обучение

Финал и церемония награждения пройдут офлайн в офисе Яндекса в Казахстане. Яндекс предоставит финалистам проезд и проживание в Алматы.

Регистрация открыта до 29 октября включительно:

👉 Участвую!

#Yandex_Cup23
🍌7🫡5❤‍🔥1
Насколько дорого делать AI? На графике расходы Microsoft, Google, Meta.
👨‍💻12🐳53🌚1
Человек на 60% состоит из воды, а Тинькофф на 100% из масштабных ИТ-задач и ежедневных вызовов

Если ты опытный ИТ-спец, этот вызов для тебя. А решение бытовых забот берем на себя: от ультра расширенной медстраховки и юридической поддержки до компенсации питания, спорта и дополнительного обучения.

Выбрать вакансию и стать частью ИТ-команды можно тут:
https://u.tinkoff.ru/career.it_about

АО «Тинькофф Банк», ИНН 7710140679
🗿19🙊12❤‍🔥5🍌2
Про новые бейджики в Linkedin - чувак просто рандомно отвечал и получил бейдж. Мне кажется скоро будет стыдно их иметь🐔 Вопросы там тоже так себе, ведь они сгенерированы AI.
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿44🤷‍♂2🌭1
Привет из Северной Америки!
😭98❤‍🔥13🌭10🐳41
Если бы я скучал в роли инженера данных, я бы обязательно изучил бы DuckDb, и прочитал бы их книгу. Кто-нибудь используете их? Может поделитесь, что за утка?
🤷‍♂14❤‍🔥6🦄4🙊1
У меня тут супер концепт появился для Surfalytics - каждый месяц я буду выбирать проект и вместе со студентами мы будем делать его, каждый в своем ритме и параллельно обсуждать. Идей у меня куча, что можно сделать полезного для себя, для портфолио, да и просто углубиться в вопрос.

Уже выбрал первый проект - развернуть кластер Azure Databricks в виртуальной сети (VNET) и использовать конфигурации Security Cluster Connectivity, это когда виртуальные машины не торчат в интернет. Так же есть и на AWS c VPC. Тут главное про настройку сети, а не Spark/PySpark. Если есть возможности сделайте like в LinkedIn - мой пост про важность конфигурации сети, пост Surfalytics про первый проект.

Для Surfalytics я запустил Discord и там будут закрытые каналы для проектов. По результатам проекта запишу видосик.

Вообще планирую в будущем 2 типа проектов
- BI/Analyst
- Data Engineer

Вообще миссию себе придумал, быть номер 1 ресурсом в мире по началу пути в дата профессии. Это длинный путь, но меня штырит от таких движух и даже если финансово не заработает, все равно будет приятно, что кому-то это принесет пользу.

Сегодня утром у меня сын 11 лет на youtube нашел мои записи про BI Academy в Ламоде и все 3ое детей смотрели видосики, и им было так круто, что папку у них показывают и там и тут (особенно робот Борис), и потом я им показал datalearn канал, там они там залипли, места знакомые из наших поездок, где-то они на фоне бегают. Потом стали читать комментарии и угорать, особенно им понравились комменты про томатный сок. 🍅 Так что планирую заполонить весь интернет видосами surfalytics 🍸

И самое главное у меня уже было целых 2 платные консультации из Торонто и Австралии, мы там обязательно добьем все вопросы! 📈

PS если еще не в друзьях в Linkedin, добавляйтесь. https://www.linkedin.com/in/dmitryanoshin/
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥1176🗿4🐳2💯1😭1🦄1
Можно добавить к списку книг, которые неплохо бы прочитать https://x.com/naval/status/1002103360646823936?s=20
❤‍🔥73🗿1