Я люблю рассказывать про 2 типа дата инженера - gentle и hardcore. А вот в этой статье тоже есть 2 типа инженера:
(1) Data Engineers: Software engineers, Data
Described as: Software engineering specialists, with data as the core specialisation, who can focus on the niche areas of data engineering and can work with complex real-time data systems.
Needed When: Only required in tech businesses, and only when software engineers cannot assist. This is not needed for 99% of businesses and these candidates know what they want to work on and have the agency to decide.
(2) Data Engineers: Solutions oriented engineers, Data
Described as: Business optimisers. Data engineers that engineer data because it is the biggest blocker in the optimisation of a bigger picture issue, namely analytics as it relates to business improvement efforts.
Needed when: Data engineering data extraction and centralisation is identified as the key issue in a long line of issues. The primary bottleneck in the optimisation process.
(1) Data Engineers: Software engineers, Data
Described as: Software engineering specialists, with data as the core specialisation, who can focus on the niche areas of data engineering and can work with complex real-time data systems.
Needed When: Only required in tech businesses, and only when software engineers cannot assist. This is not needed for 99% of businesses and these candidates know what they want to work on and have the agency to decide.
(2) Data Engineers: Solutions oriented engineers, Data
Described as: Business optimisers. Data engineers that engineer data because it is the biggest blocker in the optimisation of a bigger picture issue, namely analytics as it relates to business improvement efforts.
Needed when: Data engineering data extraction and centralisation is identified as the key issue in a long line of issues. The primary bottleneck in the optimisation process.
group by 1
The future history of Data Engineering
On Data Engineers and their place in a Data SaaS world
👍10
Если google относится к SQL как языку программирования, то почему бы и нам так не думать про него. А вы как его воспринимаете?
Medium
Why You Should Treat Your SQL Like Code
For the past 2 years working at a large Silicon Valley technology company, I’ve been observing the way Data Engineers treat SQL the same…
👍4
Писал про Microsoft Garage - место где можно изучать 3d printing, паяние, микроконтроллеры. Ещё у них есть библиотека, где можно брать вещи напрокат, например робот Romomaster S1. Есть дроны, и Microsoft Lens.
Я взял этот танк поиграть детям. Его цена почти 700$. Можно управлять с телефона, работает по wifi. Есть возможность использовать визуальный coding, и даже поддержка python, чтобы сделать его автономным.
В целом это штука не стоит своих денег. Код можно писать только через app, и если только телефон , то экран малюсенький. На сайте есть "типа тренинги по роботам", но на самом деле это несколько 10ти минутных роликов вводных. Отличная идея и технология, но вот интерфейс для взаимодействия мне не понравился и очень мало материалов. Но детям нравится ездить по дому и стрелять в родителей маленькими шариками🤪
Я взял этот танк поиграть детям. Его цена почти 700$. Можно управлять с телефона, работает по wifi. Есть возможность использовать визуальный coding, и даже поддержка python, чтобы сделать его автономным.
В целом это штука не стоит своих денег. Код можно писать только через app, и если только телефон , то экран малюсенький. На сайте есть "типа тренинги по роботам", но на самом деле это несколько 10ти минутных роликов вводных. Отличная идея и технология, но вот интерфейс для взаимодействия мне не понравился и очень мало материалов. Но детям нравится ездить по дому и стрелять в родителей маленькими шариками🤪
👍19🔥6
Полностью согласен с автором, что нужно знать SQL, CLI (командная строка), git. Именно поэтому datalearn именно с этого начинается и используются SQL, git, CLI почти во всех модулях.
★ Vicki Boykis ★
Git, SQL, CLI
The three MVP tools you need to know to do data work
👍14😱1🎉1
Статья про сравнение Airflow, Prefect и Dagstrer. Набор такого дата хипстера со знанием питона и неотъемлемая часть buzz word - modern data stack, про который я любил рассказывать на конференциях в 2018 году и раньше. Теперь мне уже стыдно даже в канале писать про modern data stack. Это уже как писать про современное средство передвижение - электро автомобиль🤗
Кстати со всеми этими workflow-orchestration инструментам, есть одна большая проблема - production использование. Запустить докер на ноутбуке и установить туда airflow, а вот чтобы сделать production ready систему это уже большая и сложная задача. И самое главное у наших open source инструментов очень ограниченная документация по этому вопросу. Зачем вам это знать, ведь есть платная версия в cloud, за вас уже все настроили.🤑
Кстати со всеми этими workflow-orchestration инструментам, есть одна большая проблема - production использование. Запустить докер на ноутбуке и установить туда airflow, а вот чтобы сделать production ready систему это уже большая и сложная задача. И самое главное у наших open source инструментов очень ограниченная документация по этому вопросу. Зачем вам это знать, ведь есть платная версия в cloud, за вас уже все настроили.🤑
Medium
Airflow, Prefect, and Dagster: An Inside Look
One of the great things about the Modern Data Stack is the interoperability with all the different components that make up the stack, but…
👍7🎉1
Недавно думал о современных требованиях к инженерам. Все вы знакомы с моим разделением специалистов на бизнес ориентированных (gentle) и инженерно-технических(hardcore).
Что уж там лукавить, 2м быть лучше, даже если зарплата будет одинакова(а она одинакова на западе💯), возможностей больше у 2х, именно поэтому мы всегда открыты новому и продолжаем постигать азы питона, командной строки и Гита.😋
Но теперь можно разделить специальность в другой плоскости:
- создание инфраструктуры с 0
- использование существующей инфраструктуры
И не важно какая роль, может быть задача по созданию и использованию платформы данных, может быть выбор BI инструмента.
Ведь получается, могут взять нас на работу, а там уже есть хранилище данных, ETL инструмент (python based или UI), BI инструмент и другие вещи. Нам остаётся только научиться этим пользоваться, но мы можем совершенно не знать как все это дело работает и взаимодействует, у нас нет доступов, нет понимании всей картины. Хороший пример это Сбербанк. Сиди себе тихо и клепай отчетики или трансформации данных. Такая вот обезьянья работа🐒 (сам через это
прошел, в Сбере).
А есть задачки, где надо с 0 выстроить инфраструктуру, вот где реальный опыт и знания и ниодни курсы вас не научат, ну может в даталерн вам расскажу дополнительно про системы и их установку и всю экосистему🤫.
А так обычно на курсах вас будут учить инструментам, но не инфраструктуре, для меня ценность инфраструктуры выше, чем знание конкретного инструмента.
В общем, получилось ещё 2 категории инженеров:
1. Узко специализированные Кнопко нажиматели и мышкокликатели.
2. Инфраструктурно ориентированные многостаночники.
А вам как видится с вашей колокольни?
Что уж там лукавить, 2м быть лучше, даже если зарплата будет одинакова(а она одинакова на западе💯), возможностей больше у 2х, именно поэтому мы всегда открыты новому и продолжаем постигать азы питона, командной строки и Гита.😋
Но теперь можно разделить специальность в другой плоскости:
- создание инфраструктуры с 0
- использование существующей инфраструктуры
И не важно какая роль, может быть задача по созданию и использованию платформы данных, может быть выбор BI инструмента.
Ведь получается, могут взять нас на работу, а там уже есть хранилище данных, ETL инструмент (python based или UI), BI инструмент и другие вещи. Нам остаётся только научиться этим пользоваться, но мы можем совершенно не знать как все это дело работает и взаимодействует, у нас нет доступов, нет понимании всей картины. Хороший пример это Сбербанк. Сиди себе тихо и клепай отчетики или трансформации данных. Такая вот обезьянья работа🐒 (сам через это
прошел, в Сбере).
А есть задачки, где надо с 0 выстроить инфраструктуру, вот где реальный опыт и знания и ниодни курсы вас не научат, ну может в даталерн вам расскажу дополнительно про системы и их установку и всю экосистему🤫.
А так обычно на курсах вас будут учить инструментам, но не инфраструктуре, для меня ценность инфраструктуры выше, чем знание конкретного инструмента.
В общем, получилось ещё 2 категории инженеров:
1. Узко специализированные Кнопко нажиматели и мышкокликатели.
2. Инфраструктурно ориентированные многостаночники.
А вам как видится с вашей колокольни?
👍32🔥3🤩1
Когда вы выучить data, найдете хорошую работу, какой автомобиль вы купите? А может уже планы осуществили и купили, кидайте тогда фотку в комменты для мотивации нам всем!😜🤑😎
Anonymous Poll
9%
Mercedes
13%
BMW
10%
Audi
12%
Volvo
16%
Tesla
5%
Lexus/Infinity
12%
Toyota/Honda/Nisan/Mitsubishi
4%
Cadillac/Chevrolet/Ford
6%
Range Rover/Jaguar/ Alfa Romeo
12%
Другой ответ в комментах
🔥6👍2
Lake House архитектура становится все популярней. Вендоры активно развивают open source решения и добавляют их к себе в портфолио.
1. Snowflake (неожиданно) решил добавить поддержку Apache Iceberg.
2. AWS Elastic Map Reduce (Hadoop) добавил поддержку Apache Iceberg, до этого они активно использовали Hudi и Delta Lake (последнее мы даже использовали в Alexa).
3. Apache Hudi написали пост по результатам 2021 года. И другой пост про Change Data Capture подход с использованием Debezium (для Postgres и Mysql).
В общем и целом, lake house наше будущее, пока что. А дальше видно будет=)
1. Snowflake (неожиданно) решил добавить поддержку Apache Iceberg.
2. AWS Elastic Map Reduce (Hadoop) добавил поддержку Apache Iceberg, до этого они активно использовали Hudi и Delta Lake (последнее мы даже использовали в Alexa).
3. Apache Hudi написали пост по результатам 2021 года. И другой пост про Change Data Capture подход с использованием Debezium (для Postgres и Mysql).
В общем и целом, lake house наше будущее, пока что. А дальше видно будет=)
Snowflake
Expanding the Data Cloud with Apache Iceberg
Snowflake announces external table support for Apache Iceberg, which provides additional flexibility & interoperability, in private preview.
👍8
Нужно ли провести вебинар про Lake House? Рассказать как я использую его, что это и показать пример Delta Lake? (Можно выбрать несколько вариантов)
Anonymous Poll
71%
Нужно!
24%
Мне бы понять что такое Data Warehouse?
15%
Вообще не плохо знать, но что мне с этим знаями делать
1%
Не нужно!
1%
Еще один poll и я точно отпишусь от канала!
20%
Хотим больше вебинаров, хотим модуль 7,8,9! Давай уже заканчивай свой datalearn хваленый!
0%
Ваш вариант в комментах.
2%
Ах, чуть не забыл! Нам задаром не сдался ваш lake house! У меня дача хорошая с баней и речкой.
👍5😱1
Я сейчас читаю лекции в университете по Cloud Computing для бизнес студентов. Студенты подключаются из Канады, Филипин, Кореи и Южной Америки. Cloud Computing это технический топик и лабы там тоже технические. Иногда мне жалко студентов, мне кажется они засыпают. Я их развлекаю картинками из комиксов про облачные вычисления и историями из Амазона и Майкрософт.
Но вчера зашел вопрос про поиск работы в Канаде. Я далеко ходить не стал, показал картинку с лошадкой и рогом из рожка для мороженного с подписью fake it till you make it, показал им канадские зарплаты, рассказал как нужно создать себе резюме на примере мужичка, который работал security guard. Упомянул про 20 собеседований, которые надо завалить, чтобы понять, что от вас хотят.
Но главное, это выбрать роль, кем работать, потому что, они все думают, что надо учить отдельно стоящие вещи, типа языки программирования, программы разные и тп. Но совершенно не понятно для чего.
В общем им все очень понравились и они все подумали "А что так можно было?"🤣 Получается, что не важно где вы и что делаете, проблемы у всех схожие на карьерном пути
Но вчера зашел вопрос про поиск работы в Канаде. Я далеко ходить не стал, показал картинку с лошадкой и рогом из рожка для мороженного с подписью fake it till you make it, показал им канадские зарплаты, рассказал как нужно создать себе резюме на примере мужичка, который работал security guard. Упомянул про 20 собеседований, которые надо завалить, чтобы понять, что от вас хотят.
Но главное, это выбрать роль, кем работать, потому что, они все думают, что надо учить отдельно стоящие вещи, типа языки программирования, программы разные и тп. Но совершенно не понятно для чего.
В общем им все очень понравились и они все подумали "А что так можно было?"🤣 Получается, что не важно где вы и что делаете, проблемы у всех схожие на карьерном пути
👍45❤8🔥3
Для всех новичков в datalearn записал короткий но важный ролик:
Практически каждый урок каждого модуля имеет домшнее задание или лабораторную работу. Я всегда прошу сохранять результат работы в Git, но никогда не показывал как это делать. Теперь вот показал.
Из видео вы узнаете:
- Как зарегистрироваться в Git
- Создать репозитория для своих файлов
- Как можно упростить задачу и использовать GitHub Desktop
- Узнаете как вы можете использовать Git в командной строке (по желанию)
- Узнаете как используют git в реальных условия, на пример создания собстевнного branch, модификации файлов и push их обратно в репозиторий в Visual Code (IDE)
- Узнаете как создавать файлы в Markdown
- Покажу вам отличный пример оформления домашнего задания
Таким образом сохраняя свое домашнее задание в git вы можете получать востребованные навыки без лишних усилий и самое главное использовать свой гит как дополнение к резюме.
https://youtu.be/USDNzpTMNSs
Практически каждый урок каждого модуля имеет домшнее задание или лабораторную работу. Я всегда прошу сохранять результат работы в Git, но никогда не показывал как это делать. Теперь вот показал.
Из видео вы узнаете:
- Как зарегистрироваться в Git
- Создать репозитория для своих файлов
- Как можно упростить задачу и использовать GitHub Desktop
- Узнаете как вы можете использовать Git в командной строке (по желанию)
- Узнаете как используют git в реальных условия, на пример создания собстевнного branch, модификации файлов и push их обратно в репозиторий в Visual Code (IDE)
- Узнаете как создавать файлы в Markdown
- Покажу вам отличный пример оформления домашнего задания
Таким образом сохраняя свое домашнее задание в git вы можете получать востребованные навыки без лишних усилий и самое главное использовать свой гит как дополнение к резюме.
https://youtu.be/USDNzpTMNSs
YouTube
DATALEARN | DE - 101 | ВВЕДЕНИЕ ЧАСТЬ 3 | ОФОРМЛЕНИЕ ДОМАШНЕГО ЗАДАНИЯ - GIT, MARKDOWN, CLI
Практически каждый урок каждого модуля имеет домшнее задание или лабораторную работу. Я всегда прошу сохранять результат работы в Git, но никогда не показывал как это делать. Теперь вот показал.
Из видео вы узнаете:
- Как зарегистрироваться в Git
- Создать…
Из видео вы узнаете:
- Как зарегистрироваться в Git
- Создать…
👍49🔥6❤1
Интересно следить за гигантами аналитического мира - Databricks vs Snowflake. Даже The Information написало статью их дружбы в молодые годы и текущего противостояния:
“Things moved pretty quickly from ‘We can work together with Snowflake’ to ‘We need to rip and replace Snowflake,” said the former Databricks employee.
Несмотря на их противостояни, они отлично драйвят analytics adoption в компаниях, из армия sales объясняют на пальцах ценность аналитики и помогает индустрии развиваться. Теперь вот все хотят дата инженера, чтобы внедрять Databricks или Snowflake=)
В любом случае, все у них будет хорошо. Рынок большей, всем хватит!:
“I think Snowflake will be very successful, and I think Databricks will be very successful,” he said. “You will also see other ones pop up in the top, I’m sure, over the next three to four years. It’s just such a big market and it makes sense that lots of people would focus on going after it.”
PS Вот и firebolt получил раунд С инвестиций и тоже стали единорогом. Очень смешное видео сделали - We have an announcement 🦄
“Things moved pretty quickly from ‘We can work together with Snowflake’ to ‘We need to rip and replace Snowflake,” said the former Databricks employee.
Несмотря на их противостояни, они отлично драйвят analytics adoption в компаниях, из армия sales объясняют на пальцах ценность аналитики и помогает индустрии развиваться. Теперь вот все хотят дата инженера, чтобы внедрять Databricks или Snowflake=)
В любом случае, все у них будет хорошо. Рынок большей, всем хватит!:
“I think Snowflake will be very successful, and I think Databricks will be very successful,” he said. “You will also see other ones pop up in the top, I’m sure, over the next three to four years. It’s just such a big market and it makes sense that lots of people would focus on going after it.”
PS Вот и firebolt получил раунд С инвестиций и тоже стали единорогом. Очень смешное видео сделали - We have an announcement 🦄
The Information
Snowflake vs. Databricks: How Onetime Friends Became Fierce Cloud Rivals
A few years ago, Snowflake and Databricks were up-and-coming cloud software startups that were so friendly, their sales teams regularly passed customer leads to each other. Both companies made unglamorous but critical components for businesses—from Shell…
👍4😱1
Forwarded from Nikolay Golov
Привет еще раз :) ... Вышла новая моя статья про моделирование данных, как продолжение тех двух видео про Data Vault и Anchor Modeling, там в статье есть ссылки на них. Думаю, людям в канале было бы интересно :) https://habr.com/ru/company/manychat/blog/647675/
Хабр
Дилемма моделирования в рамках Data Vault/Anchor Modeling: объект или событие
Всем привет :) Меня зовут Голов Николай, я строю платформу данных на основе Snowflake и Anchor Modeling в ManyChat. В этой статье я уже подробно рассказывал, как решал аналогичную задачу в Авито...
🔥23👍1
Всем привет!
У нас на подходе вебинарчик:3 февраля в 19:00 по мск
Тема: Для кого ML роли и какие вообще подроли
Спикер: Валерий Бабушкин
Валерий расскажет о том, кто же есть в профессии и почему вы никогда не найдете Data Scientist
Ссылка на вебинар:
https://youtu.be/4voLlzLT3uM
Если что, то да, это тот самый Валерий Бабушкин :)
Контакты спикера:
https://t.me/cryptovalerii
У нас на подходе вебинарчик:3 февраля в 19:00 по мск
Тема: Для кого ML роли и какие вообще подроли
Спикер: Валерий Бабушкин
Валерий расскажет о том, кто же есть в профессии и почему вы никогда не найдете Data Scientist
Ссылка на вебинар:
https://youtu.be/4voLlzLT3uM
Если что, то да, это тот самый Валерий Бабушкин :)
Контакты спикера:
https://t.me/cryptovalerii
YouTube
ДЛЯ КОГО ML РОЛИ И КАКИЕ ВООБЩЕ ПОДРОЛИ / Валерий Бабушкин
Контакты спикера:
🔗 https://www.linkedin.com/in/venheads
🔗 https://t.me/cryptovalerii
🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!
📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться…
🔗 https://www.linkedin.com/in/venheads
🔗 https://t.me/cryptovalerii
🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!
📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться…
🔥40👍4🎉2
Не знаете, чтобы такого сделать, чтобы потренироваться с data pipelines? Вот отличный кейс - Automating Nike Run Club Data Analysis with Python, Airflow and Google Data Studio
🔥14👍1
Python for Everybody Exploring Data Using Python 3.pdf
2.3 MB
Python for Everybody
Exploring Data Using Python 3 (PDF)
Exploring Data Using Python 3 (PDF)
👍4
Пока большинство изучает SQL и Python для задач инжиниринга данных, а индустрия упрощает решения (например lake house), некоторые размышляют о следующем популярном языке для задач дата инжиниринга (интеграция и трансформация данных) -
Let's break down these past years and understand data engineers' current programming language ecosystem and the ideal candidate for 2022. Could Scala, Golang, or Rust be our next favourites? Let's find out.
А вы что думаете? Надеюсь все останется как есть и не надо учить новые framework😳😂
Let's break down these past years and understand data engineers' current programming language ecosystem and the ideal candidate for 2022. Could Scala, Golang, or Rust be our next favourites? Let's find out.
А вы что думаете? Надеюсь все останется как есть и не надо учить новые framework😳😂
Medium
The Battle for Data Engineer’s Favorite Programming Language Is Not Over Yet
Let's discuss the next contender for 2022
👍4
Стань разработчиком DWH Яндекс.Облака!
Мы проектируем и разрабатываем географически распределенные DWH, ETL-процессы, создаем инфраструктуру для контроля качества и стабильности данных, помогаем выстраивать смежные процессы которые влияют на качество данных, необходимых для принятия важнейших бизнес решений
Greenplum, Clickhouse, YT (in-house BigData Hadoop + Hive + HBase), Python. Используем как яндексовые разработки, так и популярный в индустрии стек
Сильная команда, международный проект, возможность лично влиять на вектор развития инфраструктуры
Москва, Прага, Санкт-Петербург, Екатеринбург, Казань или удаленка
250 000 - 500 000 р. (для РФ)
tg: @alexanderyugov (руководитель направления), @annashutrova (рекрутер)
https://clck.ru/apoyw
#вакансия #яндекс #remote
PS пост поддержал приют для собак.
Мы проектируем и разрабатываем географически распределенные DWH, ETL-процессы, создаем инфраструктуру для контроля качества и стабильности данных, помогаем выстраивать смежные процессы которые влияют на качество данных, необходимых для принятия важнейших бизнес решений
Greenplum, Clickhouse, YT (in-house BigData Hadoop + Hive + HBase), Python. Используем как яндексовые разработки, так и популярный в индустрии стек
Сильная команда, международный проект, возможность лично влиять на вектор развития инфраструктуры
Москва, Прага, Санкт-Петербург, Екатеринбург, Казань или удаленка
250 000 - 500 000 р. (для РФ)
tg: @alexanderyugov (руководитель направления), @annashutrova (рекрутер)
https://clck.ru/apoyw
#вакансия #яндекс #remote
PS пост поддержал приют для собак.
👍15
Небольшой доклад на русском про использование Airflow, Google Cloud, Big Query и Power BI. Видео имеет всего 4 лайка, давайте поддержим спикера.
YouTube
Бахтагуль Имашева, «AirFlow — дата-процессы нового уровня в Колёсах», Kolesa Conf 2021
Бахтагуль Имашева, Tech Lead направления Data engineering в Kolesa Group
Kolesa Conf 2021, 13 ноября
Описание доклада:
Как мы перенесли загрузку данных от первоисточника до конечного пользователя. Как было раньше и какие потери были, и как сейчас реализовано.…
Kolesa Conf 2021, 13 ноября
Описание доклада:
Как мы перенесли загрузку данных от первоисточника до конечного пользователя. Как было раньше и какие потери были, и как сейчас реализовано.…
👍10