Инжиниринг Данных
21.4K subscribers
1.6K photos
38 videos
177 files
2.91K links
Делюсь новостями из мира аналитики и карьерными советами;)

15 лет в Аналитике и Инжиниринге Данных, 9 лет в FAANG, solo entrepreneur🏄‍♂️

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
В понедельник уволили моего хорошего китайского товарища (кто в чате datalearn, то это он на английском поздравлял вас с новым годом и говорил I love Russia), которого я привел, к сожалению он был data scientist, но ему пришлось работать инженером данных, и понятно дело он не очень понимал как это все происходит, в декабре его посадили на performance improvement и в понедельник уволили. Конечно это косяк менеджера в первую очередь, потому что он взял чувака с Phd по экономике и давал ему задачки ковыряться в чужом SQL (technical debt💩). Когда товарища взяли к нам на работу он мне подарил norinco 97🫣

А вчера Sr. Analytics Engineer, сам уволился, сказал - ВСЕ С МЕНЯ ХВАТИТ. Сказал вечером, и утром уволился. Вот такие нежные ребята во Флориде. Если был русский, было понятно, что у него оффер горит и выходить на новую работу, а тут вроде тяжелый случай, мне кажется он мог расплакаться по зуму😥 потому что dbt логика для финансов это реальный ☠️.

У компании 2 продукта B2C и B2B. Проблема в аналитики для финансов, что sales все время меняет исходные данные руками в системе источника, и поэтому каждый день цифры не сходятся, а там 50-60 dbt моделей из гавна и палок только для финансов.

Он кстати бы единственным сертифицированным по dbt. В числе причин увольнения он написал, что все слишком хаотично, 2 раза менялось руководство, работать сложно (а почему? а потому что technical debt, который не в приоритете). Неопределенность его доконала и он решил уйти, так же он сказал, что одна из причин, что "Дима пропустил kick off митинг во вторник"😂 Я просто забыл сказать команде, что в это время буду в Сиэтле покупать лосьон и играть в гольф с испанцами.

Отсюда следующие выводы:
1. Не надо нервничать на работе, потому что пользы от стресса никакого, а только а вреда очень много, и чем мы старше тем опасней для здоровья.
2. Везде будет свой technical debt и хаос, нужно находить положительные моменты и развлекать себя, чтобы не скучать.
3. Даже если у вас хорошая работа, не забудьте хотя бы раз в квартал просматривать вакансии и может даже пройти собес. Я кстати сегодня пообщался разок со стартапом из YC, чтобы навыки не растерять, ищут DE, кто положит жизнь ради них и построит с нуля инфру и аналитику. Ага, слыхали про стартап культуры и золотые горы😅
4. Постарайтесь отложить хотя бы 3 месяца запас денег. В ИТ платят хорошо, если вы отложите, то вам будет не так страшно попасть под увольнения.
5. С финансами лучше избегать работать, будьте преактивными с Маркетингом и Продуктовыми отделами.
Вот поэтому я всегда говорю - забудьте про джуна и будет вам счастье! В начале data learn один в один советы!
Forwarded from Data Coffee
Forwarded from Rumyantsev Feed
ETL vs. ELT

Интересный момент касательно ETL/ELT процесса, который с одной стороны очевиден, а с другой стороны - не задумываешься о разнице до поры до времени. Так вот, чем отличается ETL от ELT? Самый очевидный ответ - порядком выполнения степов Extract, Transform, Load. Да, но когда применять ETL, а когда - ELT?

Исторически ETL использовался в концепциях обработки данных для DWH. Была и до сих пор остаётся куча тулов, таких, как Informatica, Talend, Pentaho и т.д., которые являются ETL инструментами: загружаем данные из сорсов на машину/сервер с тулом, применяем трансформации, выгружаем в наше хранилище данных. Да, такой подход работает, когда мы говорим об обработке небольшого объёма данных. А что, если данных десятки и сотни гигабайт? А если они ещё и полу-структурированные? Какой бы мощный сервер с ETL тулом не был, в какой-то момент и он перестанет справляться с такими объёмами данных или будет делать это медленнее, тем самым задерживая доставку необходимых данных конечным пользователям.

И вот тут появляется Data Lake с возможностью хранить терабайты разных данных (structured, semi-structured, unstructured). Да ещё и с оптимизированными на чтение схемами. И что же имеем сейчас: забрали данные из сорсов, сложили в DL, сделали трансформации с помощью BigData тулов.

Да, здесь много частных случаем и можно долго спорить. Но если абстрагироваться от частного и посмотреть на общее - получаем, что ETL - это про DWH, а ELT - про Data Lake.

Неплохой повод включить в качестве вопроса со ⭐️кой для собеседований кандидатов.
Сегодня был вопрос в команда, кто будет делать screen share, чтобы пройтись по Scrum board, issues and so on.

Все тупо молчали. Обычно я всегда сам это делаю. Потому что, всегда вспоминаю фразу из 1984 - ""Соблюдая маленькие правила, можно нарушать большие"🦥

Но сегодня был небольшой собес с СТО и СОО в стартапчике, поэтому надо было отлучиться. И я нашел решение - https://wheelofnames.us/ - веселый сервис с колесом фортуны. Ну как нашел, подсмотрел в другой команде)) Так что после объявления победителя нашего казино, я спокойно свалил с митинга.

По собесу СТО меня спросил:
1) Что нового было в Python и Spark? Что в Snowflake?
2) Минусы Python
3) Что такое Index в БД и как работает
4) Как объяснить СЕО зачем нужен ETL
5) Как решать проблемы с производительность
6) Что я знаю про privacy/compliance и как использую в работе
7) git rebase/merge процесс

СОО спросил:
1) Про проекты где я брал инициативу и сам все делал
2) Как решать конфликтные ситуации в команде (классический вопрос)

Я спросил их про cashflow, financial plan, invest rounds и перспективах.

Обещали прислать coding. Тотал комп 170к САД + 15к signup + опцион. Думаю завалю след раунд. Но у меня нет задачи найти работу, так бекап если где сократят.
Вот так выглядит мой выходной. Пока дети в Русской школе, где учиться писать, читать, математику, история, танцуют, поют и играют на балалайке, я могу в библиотеке:
- почитать про Linux, очень хорошая книга, добавлю потом видео урок про shell и командную строку
- поделать учебный проект на django
- закончить углубленные тренинги по Azure Synapse
- пофиксить косяки в Glue/Spark
- Начать изучать kinesis stream для snowplow/posthog
- создать новый pipeline из Stripe в озеро Athena
- переделать логику расчета показателей в dbt/snowflake
- написать документацию по метрикам в Alation

У меня еще есть термос с Аргентинским чаем мате, я же готовлюсь к Аргентине 🧉

А мог бы просто на велосипеде покататься, у нас +10 и дождя нет. Конечно за один день все не успеть, но я работаю на марафоном Джедайских Техник и уже понимаю как можно меньше отвлекаться и больше успевать. Всем крайне рекомендую.

А как у вас выходные?
📌 Онлайн-дискуссия «Вместе в облако. Мониторинг облачных приложений». Присоединяйтесь к экспертам VK Cloud

Когда: 7 февраля, 17:00 MSK
📍Регистрация

В процессе мониторинга не всегда получается отследить, что происходит с локальным монолитом, и вовремя среагировать. Стандартная микросервисная архитектура частично работает на PaaS, частично на партнерских инструментах. И главная сложность – определить, как все составляющие влияют друг на друга и где реально возникла проблема.


В программе:
🔸 Философия мониторинга и Observability.
🔸 Что сейчас модно, а что действительно работает.
🔸 Роль машинного обучения сегодня и попробуем заглянуть в будущее.
🔸 Q&A-сессия со спикерами.

Спикеры:
▪️ Илья Петропавловский, продуктовый менеджер платформы данных VK Cloud.
▪️ Василий Городянский, руководитель команды разработки Data Platform в VK Cloud.

Модератор:
▪️ Александр Белоцерковский, евангелист-архитектор VK Cloud и Tarantool.

Зарегистрироваться

#реклама
Google тоже торопится выпустить свой умный сервис под названием Bard

Google is finally waking up. After weeks of excitement coursing through tech about OpenAI’s ChatGPT chatbot, paired with news coverage of how Microsoft plans to incorporate it into products like Bing and Word, Google has made a move. The tech company once seen as a leader in artificial intelligence on Monday unveiled its version of a conversational AI service, which it calls Bard. Google said it was opening Bard “to trusted testers ahead of making it more widely available to the public in the coming weeks.” It’s about time.

Как мы раньше жили без ChatGPT, и что с нами будет🫣 совсем обленимся🦥
Всем привет, завтра (8 февраля) в 20:00 по мск вебинар.
Тема: Дата инжиниринг для ML глазами продакта.
Спикер: Андрей Менде
Андрей уже не первый раз у нас в гостях так что приходите послушать
Ссылка навебинар: https://youtube.com/live/YDy6LWr8GOo?feature=share
Время может поменяться следите за обновлением.
#вебинар #datalearn
Заметили, как постепенно растет популярность алгоритма Raft? Описание понятное, реализации мелькают, и вроде как все хорошо. Но так ли это на самом деле? Или на практике всё же не все обещания Raft можно реализовать без дополнительных решений?

Об этом написал целую статью архитектор репликации в проекте Tarantool, где поделился опытом реализации Raft, рассказал о поддержке работоспособности кластера Tarantool в условиях частичной связности и даже привел реальные примеры того, как чистый Raft не справился с задачей.

Способы решения всех возникших проблем там тоже есть. Подробности раскрывать не буду, читайте вот тут

#реклама
Всем привет, завтра (9го февраля) в 20:00 по МСК вебинар.
Тема: FineBI
Спикер: Ruslan Sharifullin из BI Consult.
Ссылка: https://youtube.com/live/OMtI9CpPSug?feature=share
Вкратце: Покажем обработку данных на датасете, как из грязных данных получить чистую витрину.

Примечание: Время может немного изменится, следите за обновлениями, ах да, это все от Сергея Громова, очень классно что на DataLearn приходят знаменитые компании и личности)))

Ссылки на ресурсы ребят:
https://finebi.datafinder.ru/ - онлайн спринт-обучение по FineBI
https://www.youtube.com/@bifinebiqliksensetableaupo6294/featured - ютуб канал про FineBI
https://datafinder.ru/products/uchebnyy-kurs-po-finebi-obuchenie-finebi-prakticheskie-zadachi - бесплатный учебный курс по FineBI.

#вебинар #datalearn
Как построить систему геоаналитики с применением ML?

Когда: 20 февраля, 17:00 (мск)

📍 Регистрация
Эксперты расскажут про особенности создания ML-решений на примере построения системы предиктивной аналитики на основе геопространственных данных.
В программе:
🔹 Разбор кейсов и специфики построения ML-моделей и подходов к разработке проектов.
🔹Обсуждение выбора технологического стека для работы с Machine Learning: какие инструменты пригодятся, как их выбрать и применять.
🔹 QA-сессия со экспертами вебинара.
Спикеры:
🔹 Александр Мамаев, руководитель отдела машинного обучения и анализа данных, PREDICT, VK
🔹Артем Агафонов, руководитель группы геоаналитики, PREDICT, VK
🔹Александр Волынский, PM сервиса Cloud ML Platform, VK Cloud

Зарегистрироваться

#реклама
Metaverse еще не все. Диалог A New Reality: Building the Metaverse, в котором CPO meta рассказывает, почему они верят в свою идею. Мне понравилось сравнение, в котором современный интернет - "плоский", это просто страница на экране. Идея мета вселенный по его словам, это возможность уйти от "плоского" интернета.

Хотя с другой стороны, сегоня Microsoft уволил команду, которая занимался метаверсом у них - In a surprising reversal, Microsoft has killed a team it formed four months ago to help customers use the metaverse in industrial settings, according to a person with direct knowledge of the matter.

Возможно еще не время.

По другим большим новостям:
1. Знакомый скинул интересные ссылки про увольнения 7% в GitLab, 10% в Github.

2. Disney тоже уволил 7000 человек

3. Starship не летит на марс, потому что внутри двигателя выросли грибы. И вообще в SpaceX проблемы с бюрократией.

4. Я уже писал ранее несколько раз про paswordless и все больше информации о компаниях, которые активно двигаются в эту сторону и развивают passkey. Это вам не metaverse, а вполне конкретный и полезный случай применения технологий и ИТ для решения проблем удобства и безопасности. "Go Passwordless Whenever You Can, Wherever You Can", Ant Allan, VP Analyst, Gartner.

5. Zoom тоже уволил 15%. Их CEO урезал себе зп и бонусы н 98 процентов и вся верхушка, урезала себе все на 20%. Все верно - чем выше, тем больнее падать.

Недавно слушал другого CEO, которому задали вопрос, про урезание зп верхушки, на что он сказал, что это все маркетинг, никому не будут урезать зп, так как у компании большие планы, и чтобы их достичь нужен достойный reward. Мне кажется так честней. Так же эта компания решила сделать off site в Мексике на недельку затусить и пообщаться перед большими делами, чему я очень рад, так что скоро вывезу еще одну книжку в Мексику, но теперь 1м классом🌴

Что мы еще пропустили?
Теперь я знаю, что должен уметь крутой power bi разработчик.
Внес свой небольшой вклад в "УПРАВЛЕНИЕ ДАННЫМИ В ГОССЕКТОРЕ, НАВИГАТОР ДЛЯ НАЧИНАЮЩИХ" для Центра подготовки руководителей цифровой трансформации ВШГУ РАНХиГС🥸

Нашел в яндексе саму книгу
Всем привет! Приветствую вас на бесплатном образовательном проекте DATALEARN! Как говорится никакого bullshit, все по делу;)

Это новая версия вступления, на котором я расскажу про идею, про ресурсы, про история и много других организационных моментов!

В этом видео:
📌 Что такое Datalearn
📌 Как появился
📌 Как записаться
📌Какие перспективы
📌 Все наши ресурсы, которые мы создали за 3 года
📌 И многое другое!

Must have смотреть!

Ссылка на материалы:
🔥Самые актуальные новости про аналитику в Telegram канале: https://t.me/rockyourdata
🔥Канал для студентов datalearn https://t.me/datalearn_chat
🔥Чат Инжиниринг данных https://t.me/dataengineering_chat_ru
🔥Мои статья на хабре https://habr.com/ru/users/dimoobraznii/posts/
🔥GitHub учебник https://github.com/Data-Learn/data-engineering
🔥Подкасты https://anchor.fm/dmitry23/
Видя очередной стартап или продукт про STEM (обычно используется в контексте раннего воспитания и изучения технологий для детей, и все чаще просто программирования), я задаюсь вопросом, а детям это вообще надо? интересно ли им? Я лет 7 в сфере обучения детей, подростков и взрослых (и это не обязательно дателерн) и все чаще задаюсь вопросом, а кто же детей научит использовать пилу и молоток? Как забить гвоздь? И далее по списку. Зато все знают Scratch, слышали про роботов и алгоритмы и умеют нажимать кнопки на различных девайсов, а некоторые даже знают питон лучше меня в 5 лет=)

Как вы считаете, какова реальная ценность программирования, STEM игрушек (они могут стоит 5 долларов, а могут 5000 долларов) для детей в раннем возрасте?

Недавно был забавный случай, собирали с товарищем кухню икея, позвали подростка 18 лет помочь, попросили распилить доску пополам, а он в жизни пилу в руках не держал!)))

Если бы я создавал компанию в сфере обучения, я бы хотел учить детей работать руками (хотя у самого они растут не из того место), но все таки - забить гвоздь, просверлить дырку в стене и тп))

Может уже есть такие ресурсы?