Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Отзыв от Екатерины, кстати это она переводила статью выше 1,5 года назад, и это реальная матрица инженера данных в Амазоне.

Привет! Меня зовут Екатерина, я из города Самара, мне 33 года. По образованию я инженер связи, после института работала по специальности. Потом ушла в декрет. На основную работу возвращаться не хотелось. Я мечтала стать аналитиком, но у меня не было ни опыта, ни образования)) пока сидела в декрете, начала проходить курс Data Learn, прошла первые три модуля. Было сложновато, приходилось дополнительно гуглить. Возможно это были очевидные вещи, но мне они были не знакомы)) стала на hh везде отправлять свое резюме, получила и много отказов, но и несколько тестовых. выполнила тестовое в компанию ВД ком. Компания - вендор для финансовой отчетности. И меня взяли на должность младшего аналитика! Конечно, первый год у меня зп была 50 тысяч рублей😊 но сейчас прошло время и меня повысили, даже пригласили из вендора перейти на штатную должность в банке. Спасибо Дмитрию за такой чудесный курс😊 и бесплатный!

Кстати, у
меня тоже первый год было 50т рублей в качестве BI разработчика и первые 3 месяца я бесплатно работал, правда это был 2010 год.

#testimmonial
🐳42❤‍🔥23💯6🦄4
💯46❤‍🔥5🍾2🗿1
В субботу в Surfalytics мы с 0 разобрали Docker и контейнеры. Все смогли создать их Docker и Docker Compose и главное понять зачем он нужен в повседневной жизни аналитика или инженера.

Мурат сделал отличную фотку в тему контейнеров из окна.

В следующую субботу мы возьмем наши контейнеры и разверенем их в облаке, за одно узнаем наконец, что такое CI/CD процес и где же должен хоститься dbt и Airflow, которые пока у нас на локальных машинах, хоть и в докере.

Теперь файлы типа:
- Dockerfile
- docker-compose.yml
- requirements.txt
- .gitignore
- .pre-commit-config.yaml
- .github/workflows/pre_commit.yml

не должны больше пугать. Потому что хочешь не хочешь, мы все делаем через GitHub.

Таким образом я сделал контент для prerequisites к основному курсы (аналог datalearn):

- Just Enough IDE (VisaulCode)
- Just Enough CLI
- Just Enough GitHub
- Just Enough Docker


Осталось записать видео.

Так же независимо от меня, у нас 2-3 раза в неделю решается LeetCode задачки по SQL, Python.

По проектам у меня дальше план такой:

Data Engineering:
- Deploy containers on Azure/AWS
- Pytest for CI and pre-commit
- Apache Spark, Databricks, Delta Lake
- Trino
- BigQuery
- Kubernetes
- DuckDb
- Metlano/Airbyte
- Snowpark (Snowflake)

Analytics:
- Metabase
- Redash
- Looker
- Apache Superset
- Классно было бы добавить задачки по A/B тестам и примеры анализа дынных с использованием статистики

GenAI:
- Databricks, Azure, AWS entry level trainings

Так как я полностью закрыл пробел в Docker, Git, CLI, IDE то все проекты у нас будут +/- в одном и том же framework.

Сам концеп Surfalytics уже финализировался - What, How, Who, Why и сейчас Лала пересобирает сайт и оттачивает навыки UI/UX и product vision/product features на реальном продукте.
77❤‍🔥14🐳3🌭1🗿1
🌭24💯16🫡14🙈7❤‍🔥1🦄1👾1
На новом проекте используем Trino на GCP поверх iceberg lakehouse. Все это живет на kubernetes. Сама компания занимается созданием High Frequency Trading решений для традиционных бирж и крипты, то есть трейдинг через код.

В качестве BI - Metabase, в качестве ETL Airflow + dbt.

Есть еще и Airbyte+BigQuery, но для локальных маленьких задач.

Trino, который произошел от Presto, был разработан в Facebook. Далее они ушли в open source и стали называться Trino. А коммерческая версия называется Starburst.

AWS Athena тоже использует Presto. Оказывается Teradata в своем время выделила 20 инженеров, которые контрибьютили в open source.

Сейчас читаю книгу по Trino - Trino: The Definitive Guide, 2nd Edition. В 1й главе книги очень классно рассказана история решения и развитие продукта.

В книге подробно рассказывают про функционал и много примеров. Я уже добавил в список проектов на Surfalytics на следующий год.

Есть ли у вас опыт работы с Trino? Как впечатление?

PS Linkedin сжалился надомной и выдал мне "Top Data Engineering Voice" хотя я уже ничего особого не делал для этого, кроме раз в день писал пост про Data Engineering. Не знаете кому ставить likes в Linkedin, ставьте мне! А я буду вам ставить=) Мне кажется это единственный вариант стать популряным в этой сети, когда люди начинают друг другу elevate content.
❤‍🔥52
Давно уже пора чем-то заменить фанги, манги, на что-то другое. Вот уже и термин подоспел.
31🫡14🌚5🐳4
Media is too big
VIEW IN TELEGRAM
🫡35💯16❤‍🔥117🎄3👾3🙈2
Уважаемый человек попросил расшарить вакансию, вакансия и видение мне очень понравилось, так что если кого заинтересует может откликнуться или написать напрямую Виталию. (@VitalyASazonov)

Ищу Директора центра аналитики данных в дирекцию управления данными Президентской Академии (РАНХиГС).

Чем предстоит заниматься: с начала операционка - дашборды руководителей и простые отчеты и аналитики. Быстрая организация всего этого.

Как это сделаем, полезем в отслеживание процессов обучения, адаптивку и ИИ.

В подчинении будут аналитики данных (4-5 для начала) и скрамер или продакт овнер для управления задачами - набирай команду единомышленников!
Стек: SuperSet, DataLens
Локация: МСК

Вакансия общая описана здесь:
https://hh.ru/vacancy/89346257
🫡25🗿22🍌12🙈53🦄3🌚2🌭2❤‍🔥1
Nearly 40% of Snowflake accounts also run Databricks.
About 46% of Databricks accounts run Snowflake.


То есть компании одновременно используют и Databricks и Snowflake.

Из статьи Connecting the dots on Snowflake’s Data Cloud ambitions
👨‍💻11🤷‍♂9🗿5❤‍🔥3
Интересная эволюция аналитического решения от Notion. Начали с современного решения Snowflake+Fivetran и перешли на Hudi + Spark.

Запись на linkedin https://www.linkedin.com/events/ahudiliveevent-notion-sjourneyt7138325735781400576/comments/
17🫡5🌚4
29🍾10🎄6👨‍💻2
2 автора лучших книг по SDE best practices в 2023 году встретились пропустить по стаканчику.

Tidy First?: A Personal Exercise in Empirical Software Design

Messy code is a nuisance. "Tidying" code, to make it more readable, requires breaking it up into manageable sections. In this practical guide, author Kent Beck, creator of Extreme Programming and pioneer of software patterns, suggests when and where you might apply tidyings to improve your code while keeping the overall structure of the system in mind.

Instead of trying to master tidying all at once, this book lets you try out a few examples that make sense for your problem. If you have a big function containing many lines of code, you'll learn how to logically divide it into smaller chunks. Along the way, you'll learn the theory behind software design: coupling, cohesion, discounted cash flows, and optionality.

The Software Engineer's Guidebook: Navigating senior, tech lead, and staff engineer positions at tech companies and startups

In my first few years as a developer I assumed that hard work was all I needed. Then I was passed over for a promotion and my manager couldn’t give me feedback on what areas to improve, so I could get to the senior engineer level. I was frustrated; even bitter: not as much about missing the promotion, but because of the lack of guidance.

By the time I became a manager, I was determined to support engineers reporting to me with the kind of feedback and support I wish I would have gotten years earlier. And I did. While my team tripled over the next two years, people became visibly better engineers, and this progression was clear from performance reviews and promotions.

This book is a summary of the advice I’ve given to software engineers over the years – and then some more.
💘13🐳61
Все чаще вижу упоминание DuckDb и даже у нас на одном из проектов Security команда использует DuckDB вместо default Snowflake.

Multi-engine data stack

А еще из самого новенького заметил, что векторные БД становятся популярней, вот пример новой фичи у Databricks - Introducing Databricks Vector Search
10❤‍🔥1
Как одеваются Канадцы?

На фотографии типичный представитель канадской интеллигенции, если тут вообще такое бывает🍸

Если не понятно человек идет на работу или на хайк (от слова hike, hiking), то это канадец или русский по канадца косит😉 Еще обязательно под курткой должна быть жилетка или кофта Patagonia, тоже для хайка, а вдруг с коллегами отправимся в поход или на гору полезем в обед.

В такой одежде я могу ходить несколько лет зимой и летом в дождь и снег. Вообще ее довольно сложно ушатать, почти вечная.

Куртка и штаны Arc’teryx, это в Ванкувере самое популярное. Куртка goretex, то есть не промокает. Куртке несколько лет, как новая. Ванкувер это еще Raincouver (до 200х дней в году может быть дожди).

Ботинки вообще бомба, я их ношу лет 5 уже - Blundstone. Каждый второй человек в Канаде их носят и дети и взрослые (только цветом отличаются). Я узнал что это австралийская обувь для заключенных, поэтому у них там не популярна вообще.

И недавно нашел очень удобный рюкзак Bellroy чтобы можно было сразу все засунуть. Из всех что были, оказался самый удобный.

А еще есть шапка Peak Performance, это вроде для горных лыж.

Еще пару предметов, которые часто со мной:

Нашуники Apple AirMax мне не понравились. У них нереальная шумоизоляция, но почему-то от них устает голова, и они сильно тупят с bluetooth если много девайсев одновременно их используют.

А вот новые нашники Logithech с usb-c очень удобны для работы оказались, особенно если несколько лэптопов.

MacbookPro M3 16" - это конечно вещь. Только пока DockerApp не работает.

А у вас как дела? Только не говорите, что вам было не интересно про штаны и ботинки читать😠
Please open Telegram to view this post
VIEW IN TELEGRAM
121❤‍🔥37🎄19💯10
Продолжаем тему beauty blog. На фотографии 2013 год, до ковидных мемов в трусах с галстуком еще почти 10 лет.

Это я завалил собеседование в Берлин. Scheiße.

А в 2021 году написал замечательную статью - Amazon, Microsoft, Facebook, Tesla, Lyft — история поиска работы мечты, или «Вредные» советы для карьерного развития

(там кстати на фотке на одной те же самые ботинки blundstone, мне кажется можно будет их носить еще лет 10, надо бы гуталинчиком смазать)

В статье 29 советов, которые в то время казались немного "не этично" по отношению к работадателю, но спустя 2-3 года, несколько сот тысяч увольнений, и уже весь Linkedin пестрит похожими советами.

Ищите работу или планируюте искать, обязательно ознакомьтесь.
❤‍🔥76👨‍💻10💯7🦄2🍌1
Основы виртуализации

https://www.youtube.com/watch?v=R02KBiCc72g&list=PLcDkQ2Au8aVM6hSTeiBGTXNMNBwzQyuZG

Интересная тема, помогает понять, что же там внутри "облака" и где "живут" контейнеры.
❤‍🔥255🌚4
Приятно читать как живут интересные люди и как у них прошел 2023 год https://vas3k.blog/blog/2023/
26🍾6🍌2🌭1
Наконец-то на своем опыте узнал, что такое stock options в компании, которая еще не стала публичной и как это работает.

Вроде бы все как обычно, вы работаете в стартапе, вам вестятся ваши акции, у них есть номинальная цена.

За 2 года в одном стартапе у меня навестилось аж на 20к USD. Потом я решил уйти, и теперь у меня есть 90 дней, чтобы выкупить это дело за 28к CAD или они просто сгорят.

28к CAD это 3-4 хороших зарплаты в ИТ тут. Зато, у вас есть надежда, что когда-нибудь, ваши 20к USD преврятятся в 100к USD, а могут преврятится в "тыкву".

Как говорит Jason Calacanis - "high-risk, high-reward". Так-то это ко всему применимо. Jason один из участников и основателей подкаста all-in. А вот статья про команду подкаста - The Besties’ Revenge: How the ‘All-In’ Podcast Captured Silicon Valley (paywall)

После прочтения его книги The Angel Investor, лучше понимаешь как работают стартапы, фаундеры, и вообще весь VC рынок, и одновременно понимаешь насколько ничтожный рынок в Канаде по VC, стартапам, финансам. В моем случае стартап уже в pre-IPO и возможность потерять все не велика, но и особо не заработать.

Я всегда знал, что какая-то шляпа с этими опционами, но теперь вот узнал, какая.

Раньше, на своем опыте я узнал, что такое capital gain, когда продавал акции Amazon и Microsoft спустя несколько лет после vested date и был приятно удивлен capital loss, когда продавал акции в убыток, и налоговая списала часть налогов.

И самое смешное, что все эти мысли у меня паралельно с курсом, который смотрю - Основы виртуализации, паралельно в Ikea конфигурирую шкаф, читаю книгу про Trino и вот-вот начну курс по Kubernetes. И в это самое время падает Airflow Dag (Airflow как раз на GCP в Kubernetes) и никак не могу уже несколько дней запустить на Google Cloud Build шаг с pre-commit.
22🍌4❤‍🔥3😭1
Всех с Новым годом!🍾🎉🎁
🎄170😈20💯9🍾9🤷‍♂2🐳2💘1