Я – Дата Инженер | Евгений Виндюков
5.04K subscribers
352 photos
36 videos
13 files
243 links
💵 Как стать Data Engineer
🗄 Смотри Roadmap в закрепе!
_____________________________
Автор @halltape
Все вопросы по рекламе @k_shredinger
Download Telegram
История от подписчика по трудоустройству

Устроился в крупный телеком на стажировку за 75к.

Рассказываю.
Ещё до Нового года я собирался увольняться с моей предыдущей работы, чтобы вкатиться в IT. Мне необходимо было немного подготовиться, чтобы активно откликаться: немного подтянуть базу по DWH и ключевым инструментам ДЕ. Скажу сразу, магистратура у меня ДС, а не ДЕ. База по Python и SQL у меня была, но я решил всё равно чуть подтянуть SQL, чтобы от зубов отскакивало.

Я прошёл первый модуль симулятора Карпова до оконных функций и приступил к пет-проекту + изучению основ.
Это всё было в течении января. Из роадмапа я изучил весь основной материал для стажёра/джуна для DWH: OLTP, OLAP, ACID, Инмон, Кимбалл, batch, lambda, kappa; видео по Spark смотрел полностью, записывал, и немного читал статью. По Hadoop только самое основное читал. Про Airflow только самые необходимые вещи, которые потом в проекты использовал (DAG, EmptyOperator, PythonOperator). Про Greenplum чисто, чтобы рассказать немного про его архитектуру на собеседовании. Плюсом суперполезные статьи по Докеру и Гиту. Так же по Докеру бесплатно очень крутой от Карпова курс. Я его начинал, но не закончил. Там начала курса и роадмапа хватило, чтобы docker compose писать

Проект делал тот, который писал выше: Modern ETL с DWH на данных погоды из открытого API (Airflow, Greenplum, Clickhouse, Metabase, Docker, Git)

Самое главное было в откликах.
Я отобрал 30 рандомных вакансий и выписал, какие там ключевые навыки требуются и какие ключевые слова попадаются. Это, чтобы обойти АТС фильтры (опыт я ставил два года). Откликаться я начал, как только доделал проект (~30-31 января). Увольнялся я 10.

По итогу, я где-то 2 недели+ откликался, наверное, откликов 200 сделал (большая часть хх + хабр карьера). Было 3 собеса: один в фармкомпанию (они только открывали позицию ДЕ), один вообще линукс инженер (я по приколу чисто собесился к ним), крупный Телеком и один должен был быть в Сбер, но я тогда в крупный Телеком уже выходил и отменил его. Несколько раз (где-то 3-4 мне писали или звонили сами рекрутеры, к которым я даже не откликался)

Как-то так в целом. Роадмап помог в принципе очень сильно при подготовке пет-проекта, и ответах на собесах

В резюме было 2 года 2 месяца
Хотя проект по сути я недели за 3 сделал
24👍8🔥4😁3👏1
Как вывести себя в ТОП?

Все очень тупо.
1. В резюме в должностях пишем Data Engineer | Инженер Данных

В описании опыта больше слов с Data
Data WareHouse, Data Lake, Data Quality и так далее

В о себе тоже пишем какую-нибудь чушь со словами Data

2. Ставим Активно ищет работу

3. Образование ставим Высшее (не бакалавр или магистр), лучшее общую формулировку поставить

4. Подтвержденные навыки тоже будут вас выкидывать наверх. Я попробовал пройти sql и python с чатом гпт. В плане просто телефоном показывал экран. Даже не читал задания. В итоге чат гпт дает половину правильных ответов. Что равно тупо кликать наугад. Лучше проходить с невидимым ассистентом для собесов. Но в целом вас по ключевым словам и так выводит в топ.

ВСЕ. ЗАНАВЕС
35👍20🔥6
БИГ ДАТА ВСЁ! СПАРК ВСЁ!

В ЛинкеДЫНЕ увидел интересный пост. Решил тут его запостить с указанием автора.
А ведь реально, зачем иногда запускать спарк, когда можно все крутить другими инструментами, менее требовательными к настройке и железу.


Начало поста:
⚡️ Data Engineer 2026: Хватит использовать кувалду для гвоздей. Почему Spark часто избыточен.

"Spark или Polars?".
Решил провести тест на реальных данных — 1 ТБ логов (соединения, аггрегации, фильтры).

Условия:

Spark: Кластер EMR (3 ноды, суммарно 48 ядер, 128 ГБ RAM). Время включает поднятие сессий и настройку.

Polars + DuckDB: Ноутбук с 64 ГБ RAM. Никакого кластера.

Результаты меня самого удивили:

Spark (кластер): ~20 минут чистой обработки + 5 минут на инициализацию. Итог: 25 минут.

Polars + DuckDB (на компе):

Обработка пачками по 100 ГБ: 7 минут (и можно параллелить).

Однопроходная обработка всего 1 ТБ: 11 минут.

Почему так? Данные не врут, и они совпадают с последними исследованиями :

Скорость: На данных до 1-2 ТБ современные векторизованные движки (Polars, DuckDB) просто быстрее JVM-стека Spark из-за отсутствия накладных расходов на сериализацию и shuffle .

Память: Polars в ленивом режиме реально жрет на 60-70% меньше памяти, чем Spark на аналогичных операциях. Это доказано в тестах MDPI . Данные не хранятся в памяти, а текут через процесс (streaming).

Удобство: Не надо настраивать кластер. Просто pip install.

Но давайте без хайпа. Где правда?

Polars + DuckDB идеальны, когда:

Ваши данные "помещаются" на один хороший сервер (до 5-10 ТБ).

Вы ненавидите возню с конфигами Spark.

У вас 80% ETL-задач — фильтрация, аггрегация, джойны (но не 100-столовые монстры).

Spark все еще рулит, если:

У вас петабайты и тысячи ядер.

Нужна единая платформа с глобальным каталогом данных (Unity Catalog и т.п.).

Требуется сложный стриминг exactly-once, который уже обкатан годами .

Мой вывод: Для 90% дата-инженеров, работающих с "терабайтами", Spark — это оверкилл. Мы платим за сложность инфраструктуры там, где можно обойтись одним мощным инстансом и умным кодом.

Конец поста
Источник

Мое мнение: Вообще согласен. Но до реальности это может так и не дойти, либо дойдет очень и очень не скоро. Сколько кода уже написано и переписывать его на новые инструменты не целесообразно - это ведь деньги. И очень непонятно, как объяснить бизнесу, что надо сейчас АСТАНАВИТЬСЯ! и все переделывать под поларс и duckDB. Но с другой стороны запуск спарка, когда у тебя есть кластера - не проблема. Ну да.. крутим этими кластерами не ТБ, а даже меньше. А что если в какой-то момент надо будет крутить больше.. Будем срочно перекатываться?

Да и на запуск спарка я бы не сказал, что это проблема. Да, инициализация бывает долгая, пока спарк стартанет. Ну подождать 5 минут можно.. Хотя если ресурсы есть, то за 10 секунд все собирает.

Короче это холиварная тема. Согласен, что некоторые инструменты просто не нужны в компании, но кто даст время не пересборку всех кубер операторов, переписывание и переделку инфры?

В мелких компаниях я бы рассмотрел polars + duckDB точно.. Там еще и рядом starrocks же есть. Вообще всеми руками за!
👍2612🔥7
Roadmap обновляется быстрее, чем вы успеваете проходить!

Закинули свежие задачи по SQL и Python — всё с реальных собесов.

Плюс добавили песочницу для SQL прямо в браузере:
никаких установок, просто заходишь и решаешь.

Раздел: «Вопросы с собеседований → SQL задачи»

Получить Roadmap —> @bootcampych_bot
🔥47👍128
Крутой пример типичной задачи для Дата Инженера!

Есть два стула датасета формата XML. Один 60Гб, другой 400Мб. Надо взять последние 2 года из первого и сджойнить со вторым.

В чем сложности?
60 гигов в формате XML это просто один большой кусок файла. Он не разбит на партции, не имеет в комплекте готовую схему данных + внутри некоторые значения полей могут быть не совсем валидны (в поле год, может стоять не дата, а номер).

С файликом в 400Мб все ок, он без дубликатов и с хорошим качеством - ну это считайте словарик.

Я описал в roadmap этот пет проект, можете смело брать и тестировать, реально коммерческий пример сборки витрины данных.

Что уже есть внутри:
- Пример кода для сборки витрин на PySpark
- Пример чтения XML и сохранения в parquet
- Уже готовый датасет в формате parquet

➡️ еще раз, вот ссылка на пет проект - Проект №5 - Сборка витрины на Spark

——-
P.S. кстати, если хотите сказать спасибо roadmap, то вот ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2910👏5🔥4
Media is too big
VIEW IN TELEGRAM
📸 Отзывы участников
#BootCampDE — Январь-Февраль 2026

Меня зовут Александр. Я обучался на 4-м потоке буткемпа.

О буткемпе случайно узнал в январе 2026 года. В это время я искал новое место работы, так как попал под сокращение из-за урезания финансирования проекта со стороны заказчика.

Я работал разработчиком SQL более 10 лет и задумался: стоит ли мне дальше искать работу в этом же направлении или пройти обучение и получить более востребованную на рынке специальность.

Наткнувшись на сайт roadmappers.ru, я заинтересовался дата инженерией и посмотрел доступные на youtube видеоролики организаторов буткемпа. Идея пройти обучение в формате реального рабочего места мне показалась очень правильной, и я записался на курс.

Во время обучения мне очень понравилась подача материала в формате видеозвонков, постановка задача в жире, подробная документация в конфлюенсе и конечно же возможность самому решать реальные задачи на базе развернутой инфраструктуры рабочего места. Организаторы буткемпа, Володя и Женя, всегда помогали, если были проблемы. Практически 24 часа в сутках были на связи и очень здорово мотивировали в учебе и дальнейшем поиске работы.

В конце курса Володя с Женей помогли нам доработать и систематизировать резюме, чтобы они проходили фильтры ИИ и попадали в топ поиска для HR компаний. Как закономерный итог обучения я смог найти работу по специальности дата-инженера🏁.

Выражаю огромную благодарность за обучение, наставничество и помощь с трудоустройством!
Рекомендую буткемп всем, кто хочет реально войти в профессию.

🔥 Всем хороших офферов!
_____________________________

📝 От команды 📝

Александр — пример сильного подхода к обучению.

За 2 месяца он:
— глубоко погружался в темы
— задавал много вопросов
— проходил дополнительный материал
— не ограничивался базовой программой

💪 Такой результат — это всегда сочетание программы и усилий самого человека.

Поздравляем с оффером! 🚀

Набор на май месяц в самом разгаре, уже забронирвано половина потока, так что поторопись записаться – @bootcampych_bot.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍54👏4
Когда идём?

Я собрал прикольное приложение (как мне кажется).

Заходишь в приложение, отмечаешь с друзьями дни, когда свободен, и видишь, когда все могут.

Вот я хотел собрать друзей на картинг. И как же мне надоело у каждого спрашивать, в какой день он (она) может. Это какой-то ад. Все занятые бизнесмены, как и я. В понедельник не может — яхту покупает. В среду не может — Бентли забирает из салона.

В итоге я взял вайбкодинг и собрал мини-апп. Все заходят по ссылке-приглашению и выбирают день, когда свободны. Приложение само определяет пересечения и показывает общий день. Авторизация через Телеграм, но в будущем можно сделать через что угодно.

Через что сделал?
Вайбкодинг на Codex от OpenAI + искал вдохновение на ReplitAI.

Из приколюх: есть кнопка «Напомнить всем». Нажимаешь, и приложение всем присылает напоминалку о событии либо о том, что надо выбрать день.

Версия альфа, поэтому, вероятно, найдёте бэкдоры, баги или ошибки. Предлагаю нам потестировать! Можете и свои встречи создавать!

Вот, я создал встречу. Лимит на одну встречу максимум 15 человек. Заходите-пробуйте!

Уже набрали 15 человек)
Для всех, вот приложение
@kogda_idemBot

➡️ update: теперь можно еще и выбрать место. Подключил API Яндекс Карты

P.S. если найдете баги, ошибки или приложение упадет, пишите в лс. Разберемся.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31👍13👏63
🚀 Data Engineer за 2 месяца

Не кликбейт. Мы реально сделали супер интенсив за 2 месяца в DE.
Это буквально копия вашей будущей работы.

Представьте, что вы приходите на новое место работы, и увольняющийся коллега передаёт вам дела. У него есть две недели, чтобы показать, что и как делать. Вы буквально впитываете всё как губка, потому что потом спрашивать будет не у кого.

Так вот именно эту идею мы и вложили в Bootcamp!
За короткое время вы погружаетесь в работу инженера данных, осваиваете современный стек и получаете навыки прохождения собеседований и составления резюме.

Мы реально вычеркнули большую часть бесполезной теории. Упор исключительно на практику.
Чтобы вы пришли на работу и сказали: "Мы это уже делали"

Что внутри буткемпа

Вы получаете доступ к инфраструктуре, максимально приближенной к продакшену:
• Postgres
• ClickHouse (распределённый, 2 шарда)
• GreenPlum (8 сегментов)
• Spark
• S3
• AirFlow
• Kafka
• DBT
• GitHub
• Jira
• Confluence

Как часто занятия?
• 3 раза в неделю (Живые лекции, на которых можно задать вопрос и сразу получить ответ)
• Вечером (после работы) в 20:00 по МСК
• Все лекции записываются и доступны навсегда

Поддержка и практика
• Чат с ответами почти 24/7
• Можно задать любой вопрос
• Можно попросить задачу сложнее
• Разбор ваших решений на созвонах

Подготовка к работе
• Mock собеседования
• Прожарка резюме
• Разбор реальных кейсов

После буткемпа все выпускники приглашаются в чат, где мы делимся ситуацией на рынке, вопросами с собесов, а также поддерживаем друг друга!

Кстати, мы добавили классную фишку — доступ к лекциям из новых потоков. Даже после окончания буткемпа вы остаетесь в обучении и можете следить за обновлениями.

А если не успеваете?
У нас есть InfraSharing. Это тот же самый буткемп, но без лекций. Просто готовая инфраструктура. Даже если не успеваете сделать все задачи в Bootcamp, можете продолжить в InfraSharing. Тем более для всех выпускников мы даем огромную скидку!

Ближайший старт потока — 1 мая
Переходите в наш бот @bootcampych_bot и жми Хочу на BootCamp
🔥127👍5