Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Spark часто используеют Ganglia Monitoring System. В Databricks она используется по умолчанию. Мой любимый блогер записал видео про Getting Started with Ganglia in Databricks, где рассказал и показал ganglia.
👍13
Еще один замечательный и главное подробный отзыв. Буквально недавно я думал про то, что при желание можно достичь абсолютно любой цели. Например, мечтаем быть ML инженером, но не знаем coding и математику, нет опыта, но при желании можно овладеть этими навыками и стать ML инженером в FAANG. Так устроен мир, что если мы чего-то очень сильно хотим, и мы к этому стремися (важно consistency), то обязательно получим.

Хочу выразить огромную благодарность команде data-learn! Сегодня произошел мой первый отказ на собеседовании на дата-инженера,
но я все равно полон оптимизма! Считаю сегодня первый день моего зарождения именно как дата-инженера, потому что я хотя бы побывал на двух этапах сс.
На data-learn уникальная информация, собранная в одном месте по многим технологиям. Это как современный лектор и учитель, который тебе говорит что к чему и почему.
Также лидер курса - просто угарный чел и приятно наблюдать за любыми его активностями.

Я начинал как SEO-шник, потом интернет-маркетолог, и даже проджект-менеджером удалось побывать. До сих пор веду Я.Директ/Google Ads для одного небольшого проекта. Долгое время работал маркетинг-аналитиком, использовал много лет BigQuery. Но при этом, совсем не знал правильной культуры работы с данными, потому что в компании не было таких процессов. С нас спрашивали отчеты в PowerBI, анализы и т.д.
Даже не знал что такое партицирование и кластеризация таблиц. Т.к. не было необходимости - платили на BQ немного.
Данные в BQ складывались хаотично, что-то написала какая-то команда разработки, что-то подключили через коннектор, что-то сами заколхозили, что-то тупо вручную через CSV грузили.
Самому автоматизировать на выходных? Нафиг надо, ведь за это не платят!

Ситуация сдвинулась в конце 2020 года, когда ушел оттуда и начал искать работу дата-инженера.
Во-первых хочется автоматизировать, во вторых маркетинговым аналитикам платят мало, в третьих их никто не перевозит на релокейт.
Понял что очень мало знаю, предлагали работу на небольшие деньги в неинтересные места (но я не искал тщательно). С двумя детьми не прожить. Поэтому я нашел работу типа "Analytics Engineer"
в небольшой компании. Платят нормально, т.к. я делаю полностью все один, и компании не нужно нанимать несколько разных специалистов.
Самостоятельно начал программировать ELT выгрузки на python. Настройка dbt, администрирование аналитического сервера, PowerBI, Google Analytics и т.д. - все один.
Параллельно фоном думаю про переезд за границу, больше как мечты. Потому что те, знакомые которые переезжали были совсем не похожи на меня:
часто очень молоды (мне 38 лет), совершенный английский (у меня считай школьная программа и сериальчики с субтитрами. курсы, занятия и тд всегда бесили и не шло),
наконец они все senior software engineers. А я не что не senior, а даже не software engineer.

В ноябре 2021 происходит событие которое меня жутко смотивировало: мой корефан, такой же как я, без английского, девопс, хороший (может и отличный), но даже не тимлид, в общем обычный чел.
получает случайно оффер на Кипр на 7000 евро грязными. Причем он даже не искал ничего, и резюме свое не вылизывал (как я, например) - рекрутер ему сам написал.
Английский не нужен! т.к. вся команда русскоязычная.

И у меня сразу шило в заднице. Давно знал про datalearn, но ничего не делал. Как засел на 2 месяца не вставая из-за компа! Обычно 2-3 дня работы по 14 часов в день (с паузами конечно, тк семья дети и тд),
потом 1-2 дня не вставая дата лерн. Иногда в смешанном режиме: типа 8 часов поработал, потом часа 3 посидел над курсом.
Очень много уложилось в голове. Оказывается я уже использовал решения, но даже не знал что у этого есть свои названия и т.д.
До этого нащупывал все как бы в темноте. А тут открывается единая картина что как и для чего. Считаю себя сейчас еле-еле миддлом, но миддлом, в первую очередь за счет своего бэкграунда до дата лерн.
Когда курс будет доделан и пройти несколько собесов, то будешь еле-еле сеньором. Еле еле - потому что все таки нужна практика в реальных проектах.
👍37🔥8
Также на курсе много ссылок на дополнительные материалы. Сейчас так много информации, не понятно что хорошо, а что плохо. На data learn именно то что нужно.

По программе курса: да все круто! Что бы отметил:
- looker вообще не оценил. потыкал пощупал, хрень какая-то.
- Spark / Databricks еще пока не изучал, жду пока Дима снимет 7 модуль.
- Redshift - Дима его сильно восхваляет, говорит что у них это было первое и т.д.
Но я много работал в BQ, и все штуки про которые говорил Дима появились там раньше. И сам BQ на год старше. И сам по себе проще, удобней, гибче и функциональней.
Redshift мне показался как Postgres на максималках. Единственный плюс - вроде как не платишь за трафик который гоняешь внутри одного региона.
Но за все остальное что-то AWS много денег у меня посписывал. Хз, даже биллинг у BQ намного понятней. Но хз, может вопрос привычки.
- Модуль 6.5 в лабораторной работе я бы еще добавил новый вариант "загрузить данные из лабы 6.3 TPC-H benchmark kit" и выполнить аналогичный запрос в Snowflake.
Лучше усваиваешь как снежинка сжимает данные, сравниваешь скорость работы и особенности SQL-синтаксиса.

Я попробовал первое собеседование на дата инженера в компанию Nabuminds с релокейтом в Эстонию. И о чудо! Они мне ответили!
Мое обычное еле-мидловское резюме их заинтересовало! Дальше я прошел первое интервью с рекрутером-британцев!
Что? Как я это сделал? Не знаю, бэ мэ, ну мы друг друга поняли. Меня позвали на тех. интервью с русскоязычными ребятами.
Тут случился облом, интервью опять на английском. Что-то ответил, что-то нет. Тут уже истина вскрылась, ребятам нужен реальный дата инженер,
а не чел который что-то умеет, а тут подучит в течение полгодика. В общем понятно нам чем работать, и понятно что нужно улучшить чтобы найти работу, и я знаю как это сделать.
Приятно, что на меня, почти новичка обратили внимание.

По финансам Европа все-таки грустновато, так прикидываю, наверно, я могу найти что-то вроде
5000 евро гроссом. Это на руки примерно 3500 евро. И цены на жилье и прочее в 2-3 раза дороже. Понятно дело, на все необходимое хватит.
Но как бы, не знаю, привычно, например, половину зп откладывать. Кароч в Европу чтобы ехать нужно в России перед этим заработать))
Но корефан мой нашел на 7000 евро гроссом. Значит и я наверное смогу через год-два. Так что выходит просто засунуть свои амбиции подальше на 1-2 года?
Но блин сколько можно, скоро 40 лет, а все жизнь не устроена. Ладно.

Ближайшие планы:
- изучить теорические вопросы, которые мне задали на себесе.
- интегрировать на работе Apache Airflow (это будет интеграция ради интеграции, в небольшом проекте все работает и так (дергается cgi-bin shell-скрипт, когда прогеры выгрузят данные из продакш-базы, остальное по cron)).
хотя интуитивно я хочу dragster - кто-то писал что он проще. а я именно хочу попроще, хардкор я в принципе не люблю) но во всех вакухах Apache Airflow. Может еще помониторю вакухи.
- хорошо усвоить докер. Я устанавливал самостоятельно Redash, Metabase и Apache Superset, но это было супер-больно; по итогу мне корефан помог.
- внедрить на работе всякие улучшения, которые увидел на курсе
- ждать новые модули на курсе и смотреть все вебинары
- если будет свободное время получить сертификаты Snowflake, Google Cloud, может и другие
- откликаться на все буржуйские вакансии, где теоретически прохожу по стеку. Чехия? Отлично! Южная Африка? давно хотел на юг! Канада? Люблю снег, и не нужен третий язык!
Собеседования ради собеседований! По английски это будет позор конечно, но ничего, немного унижения потерпеть.
Думаю к лету что-нибудь найду, раз были шансы без подготовки и практики в сегодняшнем сс. Если к лету на найду, куда деваться, пойду в российскую компанию качать хард скилы. А потом по новой за бугор.

Еще есть вариант фриланс-визы, но это не во всех странах есть. Для Чехии, например, нужно показать официальный доход минимум 4350 евро гроссом.
И я так понимаю по такой визе у тебя больше ограничений, чем по рабочей визе? Не изучал подробно. Тут в общем устроит любая высокоплачивамая работа, без релокейта.
👍56🔥6
Спасибо Дмитрию Аношину, Роману Пономареву, Николаю Голову, Денису Соловьеву, Артемию Козырю, Анастасие Дробышевой и остальным ребятам!
👍40🔥3
Мы уже слышали про Lake House архитектуру и open source решения в этой области:
- delta lake for spark
- apache hudi
- apache iceberg

Не все используют Databricks, поэтому интересно смотреть как другие компании строят ACID friendly data lake.

https://blogs.halodoc.io/lake-house-architecture-halodoc-data-platform-2-0/amp/
🤩3👍2
Data Team Enablement 📈 👥 💪

Sales Enablement is a thing. It's been a thing for years. It is a discipline (Sales Enablement Manager) and a process and category of tools.

Data Team Enablement is everything that improves the speed, quality, and cost of delivery of data products.

Data Team Enablement is everything that helps data professionals offload low-value, high-effort work in favor of high-value outcomes.

Data Team Enablement is:

People
a. Mature management, who has done the job before.
b. Standardized hiring practices for analysts, DS, engineering.
c. Defined ownership, whether shared or individual, over deliverables, outcomes, and analysis.

Process
a. Here is how we run a ticketing queue. Here are the SLAs.
b. Here is how we balance tech debt with backlog with proactive work.
c. Here is how we validate correctness, version control, and ensure repeatable outcomes.

Technology
a. This tool enables analysts to discover data quicker.
b. This solution helps data engineers and analysts communicate better.
c. This platform helps detect errors immediately, thus saving the team 20 hrs a month. (c)
👍3
Вакансия: Junior Capabilities & Insights Analyst

Любите работать над исследовательскими задачами? Если да, то у McKinsey Россия @mckinseyrussia для вас интересная вакансия — Junior Capabilities & Insights Analyst: https://mck.co/3Cr7iE9

Вам предстоит извлекать инсайты из обширных данных, выявлять тренды и вместе с консультантами формулировать обоснованные рекомендации для решения бизнес-задач клиентов.

Эта позиция для студентов старших курсов и выпускников 2021 года, которые специализируются на математике, физике, экономике, финансах, статистике или бизнес-информатике.

Ближе познакомиться с командой Capabilities & Insights, в которой вы будете работать, вам помогут эти материалы:
— Как устроено это направление: https://vk.cc/ca4YMm
— Видео с ответами на самые популярные вопросы о Capabilities & Insights: https://youtu.be/Sxp6_nHGCcg

#промо

PS пост поддержал приют для собак
👍12
Несмотря на то, что новсть про Microsoft to acquire Activision Blizzard to bring the joy and community of gaming to everyone, across every device появилась только сегодня, она уже облетела весь мир и я о ней узнал последний. Но тем неменее если, вы еще не знаете.

В наших кружках инженеров данных уже гадают про объемы данных, которые добавятся в Xbox. И скоро мы узнаем, как у них там работает инжиниринг данных. Например, когда Xbox приобрел Officially Welcoming Bethesda to Team Xbox, я был первый инженер, кто познакомился с их командой и узнал, как они работают. Кстати используют databricks+scala для всего. Надеюсь получится узнать и про Activision Blizzard.

Вообще удобно, по цене game pass можно получить все лучшие игры. Я лично хочу поиграть в Last of Us 2, но надо ждать, когда Xbox купит Playstation=)
👍6
Еще в 2013 году нам нарисовали комикс про облачные вычисления. Мультик озвучен Stephen Fry, он же озвучивает аудио книгу о Гарри Поттере, приятная аудио книга, чтобы учить английский.
👍61
Financial Times любит заморачиваться с графиками и визуализацией=)
😁13👍5😢1🤩1
👍8
В комментах расшарили хорошее видео про open source менеджер паролей для Linux - pass. Вообще идея использовать хороший менеджер пароль в современном мире очень правильная. В идеале для каждой системы должен быть свой уникальный пароль и включен MFA. Это для личного пользования, а для рабочего, особенно когда работаем с данными, это крайне важно!
👍3
Многие знакомы с Agile и Scrum. И только ленивый не используют эти подходы на работе. Всякие daily stand up, retrospective, poker planning, и sprint planning уже въелось глубоко в голову🙈 А вот в статье Don’t Make Data Scientists Do Scrum есть opinion на эту тему.
👍10🎉1
Я люблю рассказывать про 2 типа дата инженера - gentle и hardcore. А вот в этой статье тоже есть 2 типа инженера:

(1) Data Engineers: Software engineers, Data
Described as: Software engineering specialists, with data as the core specialisation, who can focus on the niche areas of data engineering and can work with complex real-time data systems.

Needed When: Only required in tech businesses, and only when software engineers cannot assist. This is not needed for 99% of businesses and these candidates know what they want to work on and have the agency to decide.



(2) Data Engineers: Solutions oriented engineers, Data
Described as: Business optimisers. Data engineers that engineer data because it is the biggest blocker in the optimisation of a bigger picture issue, namely analytics as it relates to business improvement efforts.

Needed when: Data engineering data extraction and centralisation is identified as the key issue in a long line of issues. The primary bottleneck in the optimisation process.
👍10
Если google относится к SQL как языку программирования, то почему бы и нам так не думать про него. А вы как его воспринимаете?
👍4
Писал про Microsoft Garage - место где можно изучать 3d printing, паяние, микроконтроллеры. Ещё у них есть библиотека, где можно брать вещи напрокат, например робот Romomaster S1. Есть дроны, и Microsoft Lens.

Я взял этот танк поиграть детям. Его цена почти 700$. Можно управлять с телефона, работает по wifi. Есть возможность использовать визуальный coding, и даже поддержка python, чтобы сделать его автономным.

В целом это штука не стоит своих денег. Код можно писать только через app, и если только телефон , то экран малюсенький. На сайте есть "типа тренинги по роботам", но на самом деле это несколько 10ти минутных роликов вводных. Отличная идея и технология, но вот интерфейс для взаимодействия мне не понравился и очень мало материалов. Но детям нравится ездить по дому и стрелять в родителей маленькими шариками🤪
👍19🔥6
Полностью согласен с автором, что нужно знать SQL, CLI (командная строка), git. Именно поэтому datalearn именно с этого начинается и используются SQL, git, CLI почти во всех модулях.
👍14😱1🎉1
Статья про сравнение Airflow, Prefect и Dagstrer. Набор такого дата хипстера со знанием питона и неотъемлемая часть buzz word - modern data stack, про который я любил рассказывать на конференциях в 2018 году и раньше. Теперь мне уже стыдно даже в канале писать про modern data stack. Это уже как писать про современное средство передвижение - электро автомобиль🤗

Кстати со всеми этими workflow-orchestration инструментам, есть одна большая проблема - production использование. Запустить докер на ноутбуке и установить туда airflow, а вот чтобы сделать production ready систему это уже большая и сложная задача. И самое главное у наших open source инструментов очень ограниченная документация по этому вопросу. Зачем вам это знать, ведь есть платная версия в cloud, за вас уже все настроили.🤑
👍7🎉1
Раньше все дети учили английский любыми возможными способами! Теперь все дети учат англиский и программирование, тоже, всеми возможными способами! В будущем, надо будет учить детей работать руками.
👍19😁7