Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Я люблю рассказывать про 2 типа дата инженера - gentle и hardcore. А вот в этой статье тоже есть 2 типа инженера:

(1) Data Engineers: Software engineers, Data
Described as: Software engineering specialists, with data as the core specialisation, who can focus on the niche areas of data engineering and can work with complex real-time data systems.

Needed When: Only required in tech businesses, and only when software engineers cannot assist. This is not needed for 99% of businesses and these candidates know what they want to work on and have the agency to decide.



(2) Data Engineers: Solutions oriented engineers, Data
Described as: Business optimisers. Data engineers that engineer data because it is the biggest blocker in the optimisation of a bigger picture issue, namely analytics as it relates to business improvement efforts.

Needed when: Data engineering data extraction and centralisation is identified as the key issue in a long line of issues. The primary bottleneck in the optimisation process.
👍10
Если google относится к SQL как языку программирования, то почему бы и нам так не думать про него. А вы как его воспринимаете?
👍4
Писал про Microsoft Garage - место где можно изучать 3d printing, паяние, микроконтроллеры. Ещё у них есть библиотека, где можно брать вещи напрокат, например робот Romomaster S1. Есть дроны, и Microsoft Lens.

Я взял этот танк поиграть детям. Его цена почти 700$. Можно управлять с телефона, работает по wifi. Есть возможность использовать визуальный coding, и даже поддержка python, чтобы сделать его автономным.

В целом это штука не стоит своих денег. Код можно писать только через app, и если только телефон , то экран малюсенький. На сайте есть "типа тренинги по роботам", но на самом деле это несколько 10ти минутных роликов вводных. Отличная идея и технология, но вот интерфейс для взаимодействия мне не понравился и очень мало материалов. Но детям нравится ездить по дому и стрелять в родителей маленькими шариками🤪
👍19🔥6
Полностью согласен с автором, что нужно знать SQL, CLI (командная строка), git. Именно поэтому datalearn именно с этого начинается и используются SQL, git, CLI почти во всех модулях.
👍14😱1🎉1
Статья про сравнение Airflow, Prefect и Dagstrer. Набор такого дата хипстера со знанием питона и неотъемлемая часть buzz word - modern data stack, про который я любил рассказывать на конференциях в 2018 году и раньше. Теперь мне уже стыдно даже в канале писать про modern data stack. Это уже как писать про современное средство передвижение - электро автомобиль🤗

Кстати со всеми этими workflow-orchestration инструментам, есть одна большая проблема - production использование. Запустить докер на ноутбуке и установить туда airflow, а вот чтобы сделать production ready систему это уже большая и сложная задача. И самое главное у наших open source инструментов очень ограниченная документация по этому вопросу. Зачем вам это знать, ведь есть платная версия в cloud, за вас уже все настроили.🤑
👍7🎉1
Раньше все дети учили английский любыми возможными способами! Теперь все дети учат англиский и программирование, тоже, всеми возможными способами! В будущем, надо будет учить детей работать руками.
👍19😁7
Недавно думал о современных требованиях к инженерам. Все вы знакомы с моим разделением специалистов на бизнес ориентированных (gentle) и инженерно-технических(hardcore).

Что уж там лукавить, 2м быть лучше, даже если зарплата будет одинакова(а она одинакова на западе💯), возможностей больше у 2х, именно поэтому мы всегда открыты новому и продолжаем постигать азы питона, командной строки и Гита.😋

Но теперь можно разделить специальность в другой плоскости:
- создание инфраструктуры с 0
- использование существующей инфраструктуры

И не важно какая роль, может быть задача по созданию и использованию платформы данных, может быть выбор BI инструмента.

Ведь получается, могут взять нас на работу, а там уже есть хранилище данных, ETL инструмент (python based или UI), BI инструмент и другие вещи. Нам остаётся только научиться этим пользоваться, но мы можем совершенно не знать как все это дело работает и взаимодействует, у нас нет доступов, нет понимании всей картины. Хороший пример это Сбербанк. Сиди себе тихо и клепай отчетики или трансформации данных. Такая вот обезьянья работа🐒 (сам через это
прошел, в Сбере).

А есть задачки, где надо с 0 выстроить инфраструктуру, вот где реальный опыт и знания и ниодни курсы вас не научат, ну может в даталерн вам расскажу дополнительно про системы и их установку и всю экосистему🤫.

А так обычно на курсах вас будут учить инструментам, но не инфраструктуре, для меня ценность инфраструктуры выше, чем знание конкретного инструмента.

В общем, получилось ещё 2 категории инженеров:
1. Узко специализированные Кнопко нажиматели и мышкокликатели.

2. Инфраструктурно ориентированные многостаночники.

А вам как видится с вашей колокольни?
👍32🔥3🤩1
Когда вы выучить data, найдете хорошую работу, какой автомобиль вы купите? А может уже планы осуществили и купили, кидайте тогда фотку в комменты для мотивации нам всем!😜🤑😎
Anonymous Poll
9%
Mercedes
13%
BMW
10%
Audi
12%
Volvo
16%
Tesla
5%
Lexus/Infinity
12%
Toyota/Honda/Nisan/Mitsubishi
4%
Cadillac/Chevrolet/Ford
6%
Range Rover/Jaguar/ Alfa Romeo
12%
Другой ответ в комментах
🔥6👍2
Lake House архитектура становится все популярней. Вендоры активно развивают open source решения и добавляют их к себе в портфолио.

1. Snowflake (неожиданно) решил добавить поддержку Apache Iceberg.
2. AWS Elastic Map Reduce (Hadoop) добавил поддержку Apache Iceberg, до этого они активно использовали Hudi и Delta Lake (последнее мы даже использовали в Alexa).
3. Apache Hudi написали пост по результатам 2021 года. И другой пост про Change Data Capture подход с использованием Debezium (для Postgres и Mysql).

В общем и целом, lake house наше будущее, пока что. А дальше видно будет=)
👍8
Я сейчас читаю лекции в университете по Cloud Computing для бизнес студентов. Студенты подключаются из Канады, Филипин, Кореи и Южной Америки. Cloud Computing это технический топик и лабы там тоже технические. Иногда мне жалко студентов, мне кажется они засыпают. Я их развлекаю картинками из комиксов про облачные вычисления и историями из Амазона и Майкрософт.

Но вчера зашел вопрос про поиск работы в Канаде. Я далеко ходить не стал, показал картинку с лошадкой и рогом из рожка для мороженного с подписью fake it till you make it, показал им канадские зарплаты, рассказал как нужно создать себе резюме на примере мужичка, который работал security guard. Упомянул про 20 собеседований, которые надо завалить, чтобы понять, что от вас хотят.

Но главное, это выбрать роль, кем работать, потому что, они все думают, что надо учить отдельно стоящие вещи, типа языки программирования, программы разные и тп. Но совершенно не понятно для чего.

В общем им все очень понравились и они все подумали "А что так можно было?"🤣 Получается, что не важно где вы и что делаете, проблемы у всех схожие на карьерном пути
👍458🔥3
Для всех новичков в datalearn записал короткий но важный ролик:

Практически каждый урок каждого модуля имеет домшнее задание или лабораторную работу. Я всегда прошу сохранять результат работы в Git, но никогда не показывал как это делать. Теперь вот показал.

Из видео вы узнаете:
- Как зарегистрироваться в Git
- Создать репозитория для своих файлов
- Как можно упростить задачу и использовать GitHub Desktop
- Узнаете как вы можете использовать Git в командной строке (по желанию)
- Узнаете как используют git в реальных условия, на пример создания собстевнного branch, модификации файлов и push их обратно в репозиторий в Visual Code (IDE)
- Узнаете как создавать файлы в Markdown
- Покажу вам отличный пример оформления домашнего задания

Таким образом сохраняя свое домашнее задание в git вы можете получать востребованные навыки без лишних усилий и самое главное использовать свой гит как дополнение к резюме.


https://youtu.be/USDNzpTMNSs
👍49🔥61
Интересно следить за гигантами аналитического мира - Databricks vs Snowflake. Даже The Information написало статью их дружбы в молодые годы и текущего противостояния:

“Things moved pretty quickly from ‘We can work together with Snowflake’ to ‘We need to rip and replace Snowflake,” said the former Databricks employee.

Несмотря на их противостояни, они отлично драйвят analytics adoption в компаниях, из армия sales объясняют на пальцах ценность аналитики и помогает индустрии развиваться. Теперь вот все хотят дата инженера, чтобы внедрять Databricks или Snowflake=)

В любом случае, все у них будет хорошо. Рынок большей, всем хватит!:

“I think Snowflake will be very successful, and I think Databricks will be very successful,” he said. “You will also see other ones pop up in the top, I’m sure, over the next three to four years. It’s just such a big market and it makes sense that lots of people would focus on going after it.”

PS Вот и firebolt получил раунд С инвестиций и тоже стали единорогом. Очень смешное видео сделали - We have an announcement 🦄
👍4😱1
Forwarded from Nikolay Golov
Привет еще раз :) ... Вышла новая моя статья про моделирование данных, как продолжение тех двух видео про Data Vault и Anchor Modeling, там в статье есть ссылки на них. Думаю, людям в канале было бы интересно :) https://habr.com/ru/company/manychat/blog/647675/
🔥23👍1
Всем привет!
У нас на подходе вебинарчик:3 февраля в 19:00 по мск
Тема: Для кого ML роли и какие вообще подроли
Спикер: Валерий Бабушкин
Валерий расскажет о том, кто же есть в профессии и почему вы никогда не найдете Data Scientist
Ссылка на вебинар:
https://youtu.be/4voLlzLT3uM

Если что, то да, это тот самый Валерий Бабушкин :)
Контакты спикера:
https://t.me/cryptovalerii
🔥40👍4🎉2
Не знаете, чтобы такого сделать, чтобы потренироваться с data pipelines? Вот отличный кейс - Automating Nike Run Club Data Analysis with Python, Airflow and Google Data Studio
🔥14👍1
Python for Everybody Exploring Data Using Python 3.pdf
2.3 MB
Python for Everybody
Exploring Data Using Python 3 (PDF)
👍4
Пока большинство изучает SQL и Python для задач инжиниринга данных, а индустрия упрощает решения (например lake house), некоторые размышляют о следующем популярном языке для задач дата инжиниринга (интеграция и трансформация данных) -

Let's break down these past years and understand data engineers' current programming language ecosystem and the ideal candidate for 2022. Could Scala, Golang, or Rust be our next favourites? Let's find out.

А вы что думаете? Надеюсь все останется как есть и не надо учить новые framework😳😂
👍4
Стань разработчиком DWH Яндекс.Облака!

Мы проектируем и разрабатываем географически распределенные DWH, ETL-процессы, создаем инфраструктуру для контроля качества и стабильности данных, помогаем выстраивать смежные процессы которые влияют на качество данных, необходимых для принятия важнейших бизнес решений

Greenplum, Clickhouse, YT (in-house BigData Hadoop + Hive + HBase), Python. Используем как яндексовые разработки, так и популярный в индустрии стек

Сильная команда, международный проект, возможность лично влиять на вектор развития инфраструктуры

Москва, Прага, Санкт-Петербург, Екатеринбург, Казань или удаленка
250 000 - 500 000 р. (для РФ)

tg: @alexanderyugov (руководитель направления), @annashutrova (рекрутер)

https://clck.ru/apoyw

#вакансия #яндекс #remote

PS пост поддержал приют для собак.
👍15