Я – Дата Инженер | Евгений Виндюков

Data Science и Data Engineering: какое направление выбрать в 2026 году?

🎧 1 апреля пройдет День открытых дверей онлайн-магистратуры НИЯУ МИФИ «Специалист по работе с данными и ИИ» в партнёрстве с Яндекс Практикумом.

На встрече обсудят:

💙 как рост ИИ трансформируют рынок труда
💙 4 трека для развития: ML, CV, NLP и Data Engineering
💙 какие задачи усложняются и где усиливается конкуренция

И расскажут, как за 2 года освоить фундаментальную базу, собрать портфолио из проектов и получить диплом магистра без отрыва от работы.

Подключайтесь онлайн 1 апреля в 19:00 мск.

🏃‍♀️ Записаться на ДОД

🤔4🔥3👍2👏2

2.94K views09:00

Я – Дата Инженер | Евгений Виндюков

История от подписчика по трудоустройству

Устроился в крупный телеком на стажировку за 75к.

Рассказываю.
Ещё до Нового года я собирался увольняться с моей предыдущей работы, чтобы вкатиться в IT. Мне необходимо было немного подготовиться, чтобы активно откликаться: немного подтянуть базу по DWH и ключевым инструментам ДЕ. Скажу сразу, магистратура у меня ДС, а не ДЕ. База по Python и SQL у меня была, но я решил всё равно чуть подтянуть SQL, чтобы от зубов отскакивало.

Я прошёл первый модуль симулятора Карпова до оконных функций и приступил к пет-проекту + изучению основ.
Это всё было в течении января. Из роадмапа я изучил весь основной материал для стажёра/джуна для DWH: OLTP, OLAP, ACID, Инмон, Кимбалл, batch, lambda, kappa; видео по Spark смотрел полностью, записывал, и немного читал статью. По Hadoop только самое основное читал. Про Airflow только самые необходимые вещи, которые потом в проекты использовал (DAG, EmptyOperator, PythonOperator). Про Greenplum чисто, чтобы рассказать немного про его архитектуру на собеседовании. Плюсом суперполезные статьи по Докеру и Гиту. Так же по Докеру бесплатно очень крутой от Карпова курс. Я его начинал, но не закончил. Там начала курса и роадмапа хватило, чтобы docker compose писать

Проект делал тот, который писал выше: Modern ETL с DWH на данных погоды из открытого API (Airflow, Greenplum, Clickhouse, Metabase, Docker, Git)

Самое главное было в откликах.
Я отобрал 30 рандомных вакансий и выписал, какие там ключевые навыки требуются и какие ключевые слова попадаются. Это, чтобы обойти АТС фильтры (опыт я ставил два года). Откликаться я начал, как только доделал проект (~30-31 января). Увольнялся я 10.

По итогу, я где-то 2 недели+ откликался, наверное, откликов 200 сделал (большая часть хх + хабр карьера). Было 3 собеса: один в фармкомпанию (они только открывали позицию ДЕ), один вообще линукс инженер (я по приколу чисто собесился к ним), крупный Телеком и один должен был быть в Сбер, но я тогда в крупный Телеком уже выходил и отменил его. Несколько раз (где-то 3-4 мне писали или звонили сами рекрутеры, к которым я даже не откликался)

Как-то так в целом. Роадмап помог в принципе очень сильно при подготовке пет-проекта, и ответах на собесах

В резюме было 2 года 2 месяца
Хотя проект по сути я недели за 3 сделал
——

❤24👍8🔥4😁3👏1

2.75K viewsedited 21:06

Я – Дата Инженер | Евгений Виндюков

Как вывести себя в ТОП?

Все очень тупо.
1. В резюме в должностях пишем Data Engineer | Инженер Данных

В описании опыта больше слов с Data
Data WareHouse, Data Lake, Data Quality и так далее

В о себе тоже пишем какую-нибудь чушь со словами Data

2. Ставим Активно ищет работу

3. Образование ставим Высшее (не бакалавр или магистр), лучшее общую формулировку поставить

4. Подтвержденные навыки тоже будут вас выкидывать наверх. Я попробовал пройти sql и python с чатом гпт. В плане просто телефоном показывал экран. Даже не читал задания. В итоге чат гпт дает половину правильных ответов. Что равно тупо кликать наугад. Лучше проходить с невидимым ассистентом для собесов. Но в целом вас по ключевым словам и так выводит в топ.

ВСЕ. ЗАНАВЕС

❤35👍20🔥6

2.94K views16:22

Я – Дата Инженер | Евгений Виндюков

БИГ ДАТА ВСЁ! СПАРК ВСЁ!

В ЛинкеДЫНЕ увидел интересный пост. Решил тут его запостить с указанием автора.
А ведь реально, зачем иногда запускать спарк, когда можно все крутить другими инструментами, менее требовательными к настройке и железу.

Начало поста:

⚡️ Data Engineer 2026: Хватит использовать кувалду для гвоздей. Почему Spark часто избыточен.

"Spark или Polars?".
Решил провести тест на реальных данных — 1 ТБ логов (соединения, аггрегации, фильтры).

Условия:

Spark: Кластер EMR (3 ноды, суммарно 48 ядер, 128 ГБ RAM). Время включает поднятие сессий и настройку.

Polars + DuckDB: Ноутбук с 64 ГБ RAM. Никакого кластера.

Результаты меня самого удивили:

Spark (кластер): ~20 минут чистой обработки + 5 минут на инициализацию. Итог: 25 минут.

Polars + DuckDB (на компе):

Обработка пачками по 100 ГБ: 7 минут (и можно параллелить).

Однопроходная обработка всего 1 ТБ: 11 минут.

Почему так? Данные не врут, и они совпадают с последними исследованиями :

Скорость: На данных до 1-2 ТБ современные векторизованные движки (Polars, DuckDB) просто быстрее JVM-стека Spark из-за отсутствия накладных расходов на сериализацию и shuffle .

Память: Polars в ленивом режиме реально жрет на 60-70% меньше памяти, чем Spark на аналогичных операциях. Это доказано в тестах MDPI . Данные не хранятся в памяти, а текут через процесс (streaming).

Удобство: Не надо настраивать кластер. Просто pip install.

Но давайте без хайпа. Где правда?

✅ Polars + DuckDB идеальны, когда:

Ваши данные "помещаются" на один хороший сервер (до 5-10 ТБ).

Вы ненавидите возню с конфигами Spark.

У вас 80% ETL-задач — фильтрация, аггрегация, джойны (но не 100-столовые монстры).

❌ Spark все еще рулит, если:

У вас петабайты и тысячи ядер.

Нужна единая платформа с глобальным каталогом данных (Unity Catalog и т.п.).

Требуется сложный стриминг exactly-once, который уже обкатан годами .

Мой вывод: Для 90% дата-инженеров, работающих с "терабайтами", Spark — это оверкилл. Мы платим за сложность инфраструктуры там, где можно обойтись одним мощным инстансом и умным кодом.

Конец поста
Источник

Мое мнение: Вообще согласен. Но до реальности это может так и не дойти, либо дойдет очень и очень не скоро. Сколько кода уже написано и переписывать его на новые инструменты не целесообразно - это ведь деньги. И очень непонятно, как объяснить бизнесу, что надо сейчас АСТАНАВИТЬСЯ! и все переделывать под поларс и duckDB. Но с другой стороны запуск спарка, когда у тебя есть кластера - не проблема. Ну да.. крутим этими кластерами не ТБ, а даже меньше. А что если в какой-то момент надо будет крутить больше.. Будем срочно перекатываться?

Да и на запуск спарка я бы не сказал, что это проблема. Да, инициализация бывает долгая, пока спарк стартанет. Ну подождать 5 минут можно.. Хотя если ресурсы есть, то за 10 секунд все собирает.

Короче это холиварная тема. Согласен, что некоторые инструменты просто не нужны в компании, но кто даст время не пересборку всех кубер операторов, переписывание и переделку инфры?

В мелких компаниях я бы рассмотрел polars + duckDB точно.. Там еще и рядом starrocks же есть. Вообще всеми руками за!

👍26❤12🔥7

3.42K views10:58

Я – Дата Инженер | Евгений Виндюков

Roadmap обновляется быстрее, чем вы успеваете проходить!

Закинули свежие задачи по SQL и Python — всё с реальных собесов.

Плюс добавили песочницу для SQL прямо в браузере:
никаких установок, просто заходишь и решаешь.

Раздел: «Вопросы с собеседований → SQL задачи»

Получить Roadmap —> @bootcampych_bot

🔥47👍12❤8

4.7K views08:12

Я – Дата Инженер | Евгений Виндюков

Крутой пример типичной задачи для Дата Инженера!

Есть два ~~стула~~ датасета формата XML. Один 60Гб, другой 400Мб. Надо взять последние 2 года из первого и сджойнить со вторым.

В чем сложности?
60 гигов в формате XML это просто один большой кусок файла. Он не разбит на партции, не имеет в комплекте готовую схему данных + внутри некоторые значения полей могут быть не совсем валидны (в поле год, может стоять не дата, а номер).

С файликом в 400Мб все ок, он без дубликатов и с хорошим качеством - ну это считайте словарик.

Я описал в roadmap этот пет проект, можете смело брать и тестировать, реально коммерческий пример сборки витрины данных.

Что уже есть внутри:
- Пример кода для сборки витрин на PySpark
- Пример чтения XML и сохранения в parquet
- Уже готовый датасет в формате parquet

➡️

еще раз, вот ссылка на пет проект - Проект №5 - Сборка витрины на Spark

——-
P.S. кстати, если хотите сказать спасибо roadmap, то вот ссылка

Please open Telegram to view this post

VIEW IN TELEGRAM

👍30❤10🔥5👏5

2.34K views19:36

Я – Дата Инженер | Евгений Виндюков

1:10

Media is too big

VIEW IN TELEGRAM

📸

Отзывы участников
#BootCampDE — Январь-Февраль 2026

Меня зовут Александр. Я обучался на 4-м потоке буткемпа.

О буткемпе случайно узнал в январе 2026 года. В это время я искал новое место работы, так как попал под сокращение из-за урезания финансирования проекта со стороны заказчика.

Я работал разработчиком SQL более 10 лет и задумался: стоит ли мне дальше искать работу в этом же направлении или пройти обучение и получить более востребованную на рынке специальность.

Наткнувшись на сайт roadmappers.ru, я заинтересовался дата инженерией и посмотрел доступные на youtube видеоролики организаторов буткемпа. Идея пройти обучение в формате реального рабочего места мне показалась очень правильной, и я записался на курс.

Во время обучения мне очень понравилась подача материала в формате видеозвонков, постановка задача в жире, подробная документация в конфлюенсе и конечно же возможность самому решать реальные задачи на базе развернутой инфраструктуры рабочего места. Организаторы буткемпа, Володя и Женя, всегда помогали, если были проблемы. Практически 24 часа в сутках были на связи и очень здорово мотивировали в учебе и дальнейшем поиске работы.

В конце курса Володя с Женей помогли нам доработать и систематизировать резюме, чтобы они проходили фильтры ИИ и попадали в топ поиска для HR компаний. Как закономерный итог обучения я смог найти работу по специальности дата-инженера🏁.

Выражаю огромную благодарность за обучение, наставничество и помощь с трудоустройством!
Рекомендую буткемп всем, кто хочет реально войти в профессию.

🔥 Всем хороших офферов!
_____________________________

📝 От команды 📝

Александр — пример сильного подхода к обучению.

За 2 месяца он:
— глубоко погружался в темы
— задавал много вопросов
— проходил дополнительный материал
— не ограничивался базовой программой

💪

Такой результат — это всегда сочетание программы и усилий самого человека.

Поздравляем с оффером! 🚀

Набор на май месяц в самом разгаре, уже забронирвано половина потока, так что поторопись записаться – @bootcampych_bot.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥17👍5❤4👏4

2.24K views09:07

Я – Дата Инженер | Евгений Виндюков

Когда идём?

Я собрал прикольное приложение (как мне кажется).

Заходишь в приложение, отмечаешь с друзьями дни, когда свободен, и видишь, когда все могут.

Вот я хотел собрать друзей на картинг. И как же мне надоело у каждого спрашивать, в какой день он (она) может. Это какой-то ад. Все занятые бизнесмены, как и я. В понедельник не может — яхту покупает. В среду не может — Бентли забирает из салона.

В итоге я взял вайбкодинг и собрал мини-апп. Все заходят по ссылке-приглашению и выбирают день, когда свободны. Приложение само определяет пересечения и показывает общий день. Авторизация через Телеграм, но в будущем можно сделать через что угодно.

Через что сделал?
Вайбкодинг на Codex от OpenAI + искал вдохновение на ReplitAI.

Из приколюх: есть кнопка «Напомнить всем». Нажимаешь, и приложение всем присылает напоминалку о событии либо о том, что надо выбрать день.

Версия альфа, поэтому, вероятно, найдёте бэкдоры, баги или ошибки. Предлагаю нам потестировать! Можете и свои встречи создавать!

Вот, я создал встречу. Лимит на одну встречу максимум 15 человек. Заходите-пробуйте!

Уже набрали 15 человек)
Для всех, вот приложение
@kogda_idemBot

➡️ update: теперь можно еще и выбрать место. Подключил API Яндекс Карты

P.S. если найдете баги, ошибки или приложение упадет, пишите в лс. Разберемся.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥32👍13👏6❤3

2.59K views17:20

Я – Дата Инженер | Евгений Виндюков

🚀 Data Engineer за 2 месяца

Не кликбейт. Мы реально сделали супер интенсив за 2 месяца в DE.
Это буквально копия вашей будущей работы.

Представьте, что вы приходите на новое место работы, и увольняющийся коллега передаёт вам дела. У него есть две недели, чтобы показать, что и как делать. Вы буквально впитываете всё как губка, потому что потом спрашивать будет не у кого.

Так вот именно эту идею мы и вложили в Bootcamp!
За короткое время вы погружаетесь в работу инженера данных, осваиваете современный стек и получаете навыки прохождения собеседований и составления резюме.

Мы реально вычеркнули большую часть бесполезной теории. Упор исключительно на практику.
Чтобы вы пришли на работу и сказали: "Мы это уже делали"

Что внутри буткемпа

Вы получаете доступ к инфраструктуре, максимально приближенной к продакшену:
• Postgres
• ClickHouse (распределённый, 2 шарда)
• GreenPlum (8 сегментов)
• Spark
• S3
• AirFlow
• Kafka
• DBT
• GitHub
• Jira
• Confluence

Как часто занятия?
• 3 раза в неделю (Живые лекции, на которых можно задать вопрос и сразу получить ответ)
• Вечером (после работы) в 20:00 по МСК
• Все лекции записываются и доступны навсегда

Поддержка и практика
• Чат с ответами почти 24/7
• Можно задать любой вопрос
• Можно попросить задачу сложнее
• Разбор ваших решений на созвонах

Подготовка к работе
• Mock собеседования
• Прожарка резюме
• Разбор реальных кейсов

После буткемпа все выпускники приглашаются в чат, где мы делимся ситуацией на рынке, вопросами с собесов, а также поддерживаем друг друга!

Кстати, мы добавили классную фишку — доступ к лекциям из новых потоков. Даже после окончания буткемпа вы остаетесь в обучении и можете следить за обновлениями.

А если не успеваете?
У нас есть InfraSharing. Это тот же самый буткемп, но без лекций. Просто готовая инфраструктура. Даже если не успеваете сделать все задачи в Bootcamp, можете продолжить в InfraSharing. Тем более для всех выпускников мы даем огромную скидку!

Ближайший старт потока — 1 мая
Переходите в наш бот @bootcampych_bot и жми Хочу на BootCamp

🔥12❤8👍5

2.31K views10:34

Я – Дата Инженер | Евгений Виндюков

ТРИНАААА!

Начал читать про Trino. У меня в голове были несостыковки, типа зачем еще один очередной инструмент в этом Дата Инжиниринге?

АСТАНАВИТЕСЬ!

Рассказываю на пальцах и только самое основное.
Вот есть Spark. С ним мы можем подключиться к PG, CH, S3, GP и другим хранилкам данных.

Пишем там df_pg = spark.read.format("jdbc") Потом отдельно df_ch = spark.read.format("jdbc")
Короче говоря, каждый раз надо подключаться и читать отдельно каждую таблицу.

А я хочу просто написать ОДИН SQL запрос и сразу так:

SELECT u.name, o.order_id
FROM postgres.public.users u
JOIN clickhouse.sales.orders o
  ON u.id = o.user_id;

Чтобы в самом запросе у меня уже указывались разные БД и мне не надо было ничего отдельно читать.
Так вот спарк так не умеет, А ТРИНО УМЕЕТ!

Фишка Трино — это куча коннекторов. Т.е. установили Трино и дальше просто читаем из разных источников. Ничего больше делать не надо. Буквально вы в Dbeaver пишете запрос и все работает. ИЗИ. Кстати к Kafka тоже можно подключиться, но имейте в виду, что в Кафку данные постоянно добавляются и с каждым новым запросом, данные могут меняться.

Короче говоря, супер для AD HOC аналитики!
Называется все это ФЕДЕРАТИВНЫЕ ЗАПРОСЫ

А что еще?
Когда в спарке мы в лоб читаем данные через JDBC, то на все создается одно подключение и 1 партиция. А спарк же распределенный, у нас много executors, на которые надо раскидать данные. И поэтому нужно дописывать еще кода, который читает определенный столбец, создает несколько jdbc подключений и раскидывает все по executors. Короче тут без бутылки водки не разберешься

В трино же просто пишешь один SQL запрос и он сам параллельно читает и раскидывает на свои воркеры. Никаких танцев с бубном. Кстати, внутри Трино и Спарк реально похожи. Такие же координаторы и и воркеры наряду с драйвером и executor.

Какие еще фишки?
Можно создать view и перенести часть вычислений на уровне БД. Например пишем запрос на Trino, но вся нагрузка идет сначала в PG. Типа необязательно тянуть к себе в память. Ну и по факту кол-во фишек еще больше, но думаю и так достаточно инфы.

В чем минусы?
В трино Нет стриминга, MLlib, как в спарке. Также нельзя контролировать кол-во создаваемых файлов, как в спарке через coalesce и repartition. Там есть некоторые общие настройки, которые позволяют компактить, но все же это не совсем то, как это делает спарк во время записи здесь и сейчас.

Короче, Трино идеально подходит для ad hoc запросов. Возможно не всегда его стоит использовать для ETL, потому что нет такой гибкой настройки и контроля прямо, как в спарк. Хотя на мой взгляд, если данных меньше Тб, то почему бы не обойтись только им. Тем более на SQL умеет писать даже собака из соседнего подъезда. А на вашем спарк апи еще пойди найди человека..

P.S.Если есть замечания или еще чего-то знаете, делитесь.

🔥15❤12👍11😁2

1.32K views10:27

About

Blog

Apps

Platform