Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Недавно полистал эту книжку, вышла недавно. Книга не фонтан, подойдет для тех кто планирует работать в облаке Azure и никогда не работал там, но есть уже опыт в data engineering.

Книга вышла в августе 2021 и в ней 600+ страниц.

Вот ее содержание:
Part I. Getting Started
Part II. Azure Data Factory For ELT
Part III. Real-Time Analytics In Azure
Part IV. DevOps For Continuous
Part V. Advanced Analytics
Part VI. Data Governance

В книге вы узнаете про SSIS, ADF, Synapse Analytics, DevOpse, Azure Stream, и много других ключевых слов, даже есть Purview.


Как вы видите есть вообще все, что только возможно. Но и без глубокого погружения.
Анилитическое хранилище данных Snowflake появилось в 2015 году и порвало всех конкурентов - on-premise (Oracle, Teradata, Netezza и др) и облачных (Redshift, Azure SQL DW, BigQuery).

https://youtu.be/CzrOa15QbWk

Продукт был создан с 0я выходцами и Оракл и они понимали проблемы индустрии и знали о возможностях облачных вычислений. И подарили нам замечательный продукт, где при помощи SQL, мы можем обрабатывать терабайты данных и не думать слишком много об организации данных.

Snowflake одноверменно SMP и MPP, если вы смотрели другие уроки этого модуля, то вы должны знать, что это!;) Огромное спасибо команде снежинки за то, что они дали огромный пинок всей индустрии и заставили других вендоров шевелиться и улучшать их продукты. В Северной Америки снежинка в топе хранилищ данных среди организций и больше половины организаций от мало до велика использую снежинку как свое хранилище данных.

Кстати, а вы знали, что Snowflake - это Lakehouse - смесь хранилища данных и озера данных? Теперь точно знаете!:)

В этом уроке вы узнаете про:
📌 Историю Snowflake
📌 Материалы по изучения продукта
📌 Выход на IPO
📌 Кейсы миграции
📌 Архитектуру и особенности снежинки
📌 О продукта экосистемы снежники - SnowCLI, SnowPipe, SnowSight, SnowPark
📌 Ключевые фичи - Time Travel, Data Sharing, Zero Cloning
📌 Экосистему партнеров и конкурентов снежинки

На лабораорной работе:
📌 Я вам покажу как создать бесплатный кластер снежинки
📌 Загрузить данные SuperStore в хранилище данных
📌 Создать Database, Stage, IAM user (AWS)

Дополнительные материалы:
📌 The Snowflake Elastic Data Warehouse Paper
📌 Snowflake, Anchor Model, ELT и как с этим жить
📌 Обзор первого эластичного хранилища данных Snowflake Elastic Data Warehouse
📌 Пример архитектуры аналитического решения с использованием платформы Snowflake
📌 Руководство по аналитике для основателя стартапа
📌 Вебинар ДатаЛерн SNOWFLAKE ИЛИ КАК БД ВЫБИРАЛИ / НИКОЛАЙ ГОЛОВ / MANYCHAT

В качестве лабораторной работы вы можете:
📌 Выполнить оффициальные tutorial Snowflake
📌 Сделать близкий к реальному кейс с SalesForce, Fivetran, Snowflake, Tableau - Zero To Snowflake
📌 Сделать упражнения модуля 4 datalearn DE-101 при помощи SQL и Pentaho DI и заодно понять почему ETL это плохо для Cloud DW;)
📌 Зарегистрироваться и пройти бесплатные курсы Snowflake Data Academy
Hype Cycle for Data Management, 2021 где Lake House на взлете! https://databricks.com/p/ebook/gartner-hype-cycle-for-data-management-2021
Учите Data Engineering и Data Science? Сейчас и потом….
Татьяна выложила свою крутую статья про Амазон на хабр, и конечно сразу же нашлись умники, которые ее уже видели на VC, и поспешили об этом написать🤣

Пожалуйста, лайкните и оставьте коммент, если вы на хабр.
Я заметил, что зарплаты меняются очень быстро. Например в Канаде за последние 6 лет базовая зарплата меняется каждый год на 10т канадских. Все hr имеет доступ к одинаковым данных о цене специалистов и все предлагают одинаковую зарплату. Faang в Канаде может лишь сверху предложить сумму стока (акций) на 4 года, что эквивалентно живым деньгам с конским налогом. Компании, которые частные, дадут вам маленькую долю, которую можно потратить только в случае успешного IPO.

Другой интересный момент, что в Канаде зарплата имеет корреляцию со стоимостью рынка жилья. Это только в ИТ. Все остальные получают столько же, сколько и 5 лет назад.

Но самая главная мысль, которая свойственна не только Канаде, а вообще всем - это то, что ваша входная зарплата будет ровно такая, на какую вы пришли. Очень редко компании будут повышать вас, обычно это индексация. Но всеми силами буду рассказывать вам басни о ценности, миссии и видении и о вашем прогрессе, и что вы молодец, но ещё не совсем молодец, чтобы получить лишнюю денюшку.

Пройдет какое-то время пока молодой специалист снимет розовые очки и поймет, что к чему и побежит искать работу, поменяет работу и получит минимум 50% прибавки.

Поэтому все красивые слова про миссию компании, печеньки и кофе в офисе вас должны мало волновать. Как я скидывал в статье выше, вы предлагаете свои услуги рынку, рынок как на аукционе предлагает вознаграждение, за ваше время. А не наоборот.

Цените себя и свой труд и почаще снимайте "лапшу с ушей". Делайте так как удобно вам и вашей семье. Ну и конечно, если вы что-то делаете, делайте это максимально круто и качественно!
Собрался силами и опубликовал свой курс "Введение в Облачные Вычисления для всех" на хабр.

Хотел на степик, но там столько заморочек и ограничений, что решил так. Для всех всех, кто хочет знать больше про облака, будет теперь идеальный контент на русском.
Еще до Microsoft я перешел на VSCode, а теперь он доступен в браузере! https://vscode.dev/
Сейчас я в библиотеке University of British Columbia, мне попался энциклопедический словарь, в нем я нашел слово, data(множественное для datum), и вот его значение(я)
Придумал как объяснить SMP vs MPP. Вы же знаете, что ресурсы можно масштабировать вертикально, как у SMP баз данных, и горизонтально, как у MPP баз данных. Карьерный рост - это вертикальное масштабирование, и оно не дает значительного прироста в деньгах, а вот горизонтальное масштабирование может - удвоение, утроение работ и тп. 😇
Идеи публикаций подходят к концу. Можно сказать, что это почти research work. Сначала я проводил "эксперименты", а потом описал их. Все про все заняло месяц.

Есть ли жизнь после FAANG компании или мой опыт собеседований в Северной Америке, 20+ компаний за 3 недели

Возможно будет интересно вам как дела обстоят на западе. Хорошо, что все онлайн происходит, а представляете ходить по несколько раз в офис чужой. Хотя у меня давно была идея бесплатных путешествий по Северной Америке, такой вот интервью тур.

Самое ценное это выводы, но можете посмотреть детали "эксперимента", буду ошибки, а их много отмечайте в хабр.

Обязательно лайк. Вот прошлая статья про облака вообще не двигается, а там такая большая работа проведена на создание контента 🙄
Forwarded from Data Coffee
Ура, сегодня воскресенье!

Кто-то отдыхает и попивает раф с банановым молоком, кто-то с утра выпил двойной эспрессо и работает над свалившейся внезапно задачей. Ну а ещё кто-то не может усидеть на месте и думает — куда же ему развиваться в целом в IT и в области данных в частности. Один из таких людей обратился к нам с просьбой помочь.

Наш постоянный слушатель пришёл за советом в области образования, а это вопрос очень серьёзный. Мы не могли просто так в паре слов упомянуть об этом в новостном выпуске, от образования ведь зависит будущее человека! Мы решили помочь нашему слушателю и сотням других людей, которые тоже сейчас сомневаются и не могут выбрать дальнейший образовательный путь, для чего обратились к нескольким data-экспертам и попросили их ответить на поставленный вопрос.

Представляем вашему вниманию специальный бонусный эпизод подкаста Data Coffee🎙и приглашаем к прослушиванию!

#datacoffee #data #podcast #данные #подкаст

https://anchor.fm/data-coffee/episodes/23-bonus-e197nft
Карьера как продукт.

Мой недавний пост про горизонтальное/вертикальное масштабирование вызвал резонанс. Мой поинт бы не в том, чтобы работать 16 часов в день. И саморазвитие это очень важно.

Главное воспринимать свою карьеру как продукт. У вас должны появляться продуктовые гипотезы и вы должны их проверять. Чем больше гипотез проверили, тем лучше для вашего продукта.

Другой важный аспект в саморазвитии - это ограниченность временных рамок. Я не хочу в 50 лет учить какой-то новый тул с 0 или новый язык программирования. Поэтому после 10 лет усиленного саморазвития я осознаю пределы своих способностей и возможностей. Поэтому пока есть силы нужно крутиться и вертеться, неважно какое развитие (вертикальное или горизонтальное), главное понимать где вы будете через 5,10,15 лет.

Больше гипотез и экспериментов - лучше продукт.
Кто-то скинул в комментарий к статье на хабр - про необходимость прибыли в стартапе. Сразу становится понятно про современных единорогов. https://youtu.be/f1h76GSQtKg
Продолжаем нашу серию переводов про ценность измерения показателей для бизнеса на примере Амазон.

Татьяна сделала еще один перевод статьи про Amazon подход - Одержимость контролируемыми входными метриками

Поставьте лайки и поддержите комментом.

Таня сейчас бизнес/продуктовый аналитик в ДомКлике от Сбербанка, планирует развиваться в продуктовой аналитике и data science. Верит в большой потенциал у этого направления.

Она из химической технологии и науки перешла в Анализ данных, любит математику!! Но не Олимпиадница)))


Вот ее прошлая статья - Как Амазон измеряет эффективность. Обе эти статья помогут вам лучше понять роль аналитики в эффективности бизнеса и принятии бизнес решений.
У Harvard есть много бесплатных онлайн курсов на Edx от лучших преподов мира, вот некоторые из них:
Самый популярный курс по Computer Science CS50 и его дополнительны стримы:
CS50's Introduction to Computer Science (единственный курс, который я частично смотрел, очень приятный)
CS50's Web Programming with Python and JavaScript
CS50's Introduction to Artificial Intelligence with Python
CS50's Introduction to Game Development
CS50's Understanding Technology
CS50's Mobile App Development with React Native

Даже есть для не технических пользователей:
CS50's Computer Science for Business Professionals

Есть и для Data Science:
Data Science: R Basics
Data Science: Machine Learning
Data Science: Wrangling
Data Science: Productivity Tools
Data Science: Linear Regression
Data Science: Visualization
Data Science: Probability
Data Science: Inference and Modeling

Есть Leadership:
Exercising Leadership: Foundational Principles
Remote Work Revolution for Everyone

PS Если вы выбираете специализацию, то уже стоит денюшку.
Зато у Harward нету программы по data engineering. Но не беда, если вы в Бостоне Кембридже, вы можете проехать пару станций на метро и на реке Черльз красуется MIT.

Всего за 7000US$ и 6 месяцав, 20 часов в неделю, к сожалению онлайн вас научат как быть Инженером данных - Professional Certificate in Data Engineering

"Data engineering really is a core component of today’s data infrastructure. And because organizations can’t function without data, it’s also a career with a great deal of opportunity and incredibly interesting work as well."
– Abel Sanchez, Research Scientist and Executive Director of MIT’s Geospatial Data Center

Как сказал Абель, без инжиниринга не будет даты, а без даты все организации умрут. То есть это хороший deal, за 7т спасти загнивающие западные корпорации😜

Давайте посмотрим чему вас научат:
Секция 1:
Модуль 1-3: Python, NumPy и Pandas (они не хотили копировать data learn и решили сделать наоборот, сначало посложней Python, а потом полегче - SQL🙅‍♂️)
Модуль 4-6: SQL от простого до Advanced (это наверно Window функции)
Модуль 7-8: Проектики

Секция 2:
Модуль 9: Python кейс в IDE (заинтриговали!)
Модуль 10-12: SDE скилы (git, CLI, CI/CD - расскажут про необходимость + Agile💃)
Модуль 13-15: Базы данных (вы узнаете, что данные хранятся в базах данных в таблицах, и вы поймете, зачем было столько SQL!)
Модуль 16: Data Wrangling (все время путаю с фирмой джинсов Wrangler)

Секция 3:
Модуль 17-18: Хранилище данных (скажут, что это база даннных, но БОЛЬШАЯ)
Модуль 19-20: BigData (расскажут вам история hadoop, и намекнут, что слоник то on fire🐘)
Модуль 21-22: Streaming и Distributed Computing (наверно покажут вам Kafka и Spark)
Модуль 23-24: Введение в AI и ML (наверно дадут билет на метро до Harward, чтобы вы обратно проехали 2 остановки и поучили AI и ML, а лучше слетать к Анастасии Риццо на Мальту или посмотреть ее онлайн курс про введение в DS&ML101).

После завершения у вас будет сертификат, вы можете перейти дорогу и поймать за рукав HR Amazon, а лучше стоять с сертификатом у офиса Амазон! Помимо сертификата, скорей всего, у вас будет кредит на 7000 долларов в добавок к кредуту за iphone 13.

PS Это еще не все! Вас научать как сделать резюме, обновить профайл LinkedIn (кстати отечественные курсы еще могут учить как VPN🪗 установить), покажут сайты для поиска работы и как вести переговоры про зарплату.

А если посмотреть для кого этот курс, то мы увидим вообще всех желающих. Я бы на них посмотрел, как они будут Python учить. Как по мне, это не просто с 0 въехать, уже лучше в SQL разобраться сначала.