Инжиниринг Данных
23.5K subscribers
1.98K photos
55 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Продолжая серию постов про транспортные средства (я уже писал про электро велосипед и самокат), я хочу поделиться опытом про доску с веслом - paddle board. Их бывает много и разброс цен большой. Бывают твердые и надувные. Не буду вас грузить подробностями. Так как у нас океан под боком, я решил выбрать модель touring - это длинные доски 12"-14" на которых комфортно плавать при небольших волнах и встречном ветре и можно брать с собой много груза или детей)

В общем я выбрал себе Starboard Touring 14"x30. Доска идет без весла и к ней я выбрал карбоновое весло из 3х частей. Я ждал эту доску в наличие больше года. Другой хороший бренд - Red, у них есть доска Red Voyager. Вчера проплыл не ней 9км с дочкой, мы попали в встречный ветер и волны, но доплыли, макс скорость была 9км\ч и средняя 5 км\ч при встречном ветре и волнах это хорошо. Если вы в Strava то я там посщу тренировки.

И чтобы лучше трекать все, я купил часы Suunto 9 Baro - очень крутые!
Кратко о моих обязанностях из LinkedIn
Заметил интересный момент, вот этот товарищ возглавлял и развивал Azure Databricks и делал это очень успешно. Azure Databricks один из самый пользуемых продуктов в аналитике на Azure Cloud. Недавно я общался с VP Azure и еще рядом менеджером, где мы обсуждали можно ли нам не использовать Azure Synapse, а продолжать использовать Databricks. Azure Synapse это посути замена Databricks но уже от Microsoft. ПОка это не говорят в слух, но выглядит очевидно, что 2 продукта похожих в Azure не очень уживутся. И сейчас я заметил, что товарищ ушел из Microsoft и перешел в другою компанию, интересно как дальше сложится с Azure Databricks и Synapse Analytics.
Новый термин - синтетические данные (synthetic data) применимо к кейсам ML. - Synthetic data is annotated information that computer simulations or algorithms generate as an alternative to real-world data.
Амазон добавил ещё 2 leadership принципа:
Strive to be Earth’s Best Employer
Leaders work every day to create a safer, more productive, higher performing, more diverse, and more just work environment. They lead with empathy, have fun at work, and make it easy for others to have fun. Leaders ask themselves: Are my fellow employees growing? Are they empowered? Are they ready for what’s next? Leaders have a vision for and commitment to their employees’ personal success, whether that be at Amazon or elsewhere.

Success and Scale Bring Broad Responsibility
We started in a garage, but we’re not there anymore. We are big, we impact the world, and we are far from perfect. We must be humble and thoughtful about even the secondary effects of our actions. Our local communities, planet, and future generations need us to be better every day. We must begin each day with a determination to make better, do better, and be better for our customers, our employees, our partners, and the world at large. And we must end every day knowing we can do even more tomorrow. Leaders create more than they consume and always leave things better than how they found them.

Список всех https://www.aboutamazon.com/about-us/leadership-principles
Окей, облако это хорошо, но что делать, если существующее решение существует on-premise? Ответ прост - мигрировать. Но как? Облачные вендоры максимально решили нам помочь и предоствили огромное колличество сервисов, которые упростят нашу жизнь.

Из модуля вы узнаете:
📌 Стратегии миграции в облако
📌 Примеры миграции базы данных и аналитического решения
📌 AWS Schema Conversion Tool
📌 AWS Database Migration Service
📌 Azure Migration Services

https://youtu.be/QGgQj34JG1Q
Forwarded from Anscombe's Quartet
Немного поработал с фреймворком для написания веб-приложений на Python под названием Streamlit - и описал пример такого приложения в отдельной статейке:

https://polarpersonal.medium.com/building-data-visualization-apps-with-streamlit-and-databricks-sql-54e51bb6b0a8
👍2
У AWS Glue (ETL от AWS на базе Spark) появился продукт Data Brew, с помощью которого можно чистить данные и изучать их природу. Для Data scientist должно быть очень удобно при работе с большим объемом.
Тут назрел вопрос, с удаленной работой, можно теперь “теоретически” работать full time на несколько работах. Мой хороший товарищ в Канаде😜, успешно это делает, причем у него не начальные позиции, а senior с зарплатой выше среднего. Я, например, мог бы не увольняться из Amazon и работь на Microsoft. Информация о моих общих доходах и о том, что я делаю конфиденциальна для моего работодателя. Но я перегорел и хотел просто больше времени отдыхать. Возможно в будущем я вернусь к этой затеи. Мне интересно про рынок в РФ, реально ли там удаленно работать на 2 фулл тайм работе? (конечно, если вы опытный специалист). Вариант про фул тайм + подработка я не рассматриваю, это всегда было норм.
На канале мы обсуждали про инструмент для ETL, которые делает T с помощью кода - DBT tool. Да ещё и опен сорс. 2 свежие статьи:
Julien Kervizic: Leveraging DBT as a Data Modeling tool
DBT: dbt + Materialize: Streaming to a dbt project near you
"Management is the opportunity to help people become better people. Practiced that way, it’s a magnificent profession." Clayton Christensen
Облачные вычисления дают нам много преимущест, и аналитика не исключение. Мы можем сфокусироваться на решение бизнес задач и не тратить время на создание инфраструктуры. В зависимости от задачи и доступных ресурсов мы можем использвать IaaS, PaaS или SaaS. Пару кликов и у вас есть хранилище данных, куда вы можете загружать данные и сразу их визуализировать практически в реальном времени. Если кратко, то возможности безграничны и зависят лишь от вашей фантазии и кошелька.

В этом видео вы узнаете про:
📌 Основные компоненты аналитики
📌 Роли и специалисты
📌 AWS решения для аналитики
📌 Azure решения для аналитики
📌 GCP решения для аналитики

https://youtu.be/E4kZI4-S2SY
Как-то давно, после внедрения Matillion ETL, мне предложили написать use case про наше решение в Amazon Subsidiary - Migrates to the cloud and increases ETL literacy within the company by 150%. Ну написал и забыл.

Оказывается, есть много венчурных компаний, которые исследуюь рынок дата и опрашивают пользователей инструментов, чтобы лучше понять инвестировать или нет. Рынок ETL не исключение, я уже много раз рассказывал про разные инструменты, их +\- и тд, даже если не работал с инструментов особо (пример это Fivetran). Одна консультация стоит 350US$ в час. И находят они меня через этот use case. И они где-то 1-2 раза в месяц. Можно их считать спонсором телеграмм канала, на котором нет рекламы за 2000 рублей😝

Теперь про фирмы, которые вы можете посмотреть и попробовать вписаться:
https://thirdbridge.com/
https://www.alphasights.com/
Есть и много других.
(Перезалил видео)

AWS, Azure и GCP предлагают нам сертификацию на любой вкус и цвет. Есть для начинающих и продвинутых. Помимо основной сертификации есть еще специализация в Аналитике, сетях, безопасности и тд.

В этом видео вы узнаете про:
📌 Сертификации и специализации в AWS, Azure, GCP
📌 Материалы подготовки
📌 Нужна ли сертификация или нет?
📌 Обзор облачных профессий на HeadHunter и Indeed

https://youtu.be/0-sbxggc9KQ
Все хотят строить модели, но не все хотят ковыряться в данных, чистить их, интегрировать и консолидировать. https://research.google/pubs/pub49953/