Я – Дата Инженер | Евгений Виндюков
5.09K subscribers
354 photos
38 videos
13 files
243 links
💵 Как стать Data Engineer
🗄 Смотри Roadmap в закрепе!
_____________________________
Автор @halltape
Все вопросы по рекламе @k_shredinger
Download Telegram
Roadmap обновляется быстрее, чем вы успеваете проходить!

Закинули свежие задачи по SQL и Python — всё с реальных собесов.

Плюс добавили песочницу для SQL прямо в браузере:
никаких установок, просто заходишь и решаешь.

Раздел: «Вопросы с собеседований → SQL задачи»

Получить Roadmap —> @bootcampych_bot
🔥47👍128
Крутой пример типичной задачи для Дата Инженера!

Есть два стула датасета формата XML. Один 60Гб, другой 400Мб. Надо взять последние 2 года из первого и сджойнить со вторым.

В чем сложности?
60 гигов в формате XML это просто один большой кусок файла. Он не разбит на партции, не имеет в комплекте готовую схему данных + внутри некоторые значения полей могут быть не совсем валидны (в поле год, может стоять не дата, а номер).

С файликом в 400Мб все ок, он без дубликатов и с хорошим качеством - ну это считайте словарик.

Я описал в roadmap этот пет проект, можете смело брать и тестировать, реально коммерческий пример сборки витрины данных.

Что уже есть внутри:
- Пример кода для сборки витрин на PySpark
- Пример чтения XML и сохранения в parquet
- Уже готовый датасет в формате parquet

➡️ еще раз, вот ссылка на пет проект - Проект №5 - Сборка витрины на Spark

——-
P.S. кстати, если хотите сказать спасибо roadmap, то вот ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3011🔥5👏5
Media is too big
VIEW IN TELEGRAM
📸 Отзывы участников
#BootCampDE — Январь-Февраль 2026

Меня зовут Александр. Я обучался на 4-м потоке буткемпа.

О буткемпе случайно узнал в январе 2026 года. В это время я искал новое место работы, так как попал под сокращение из-за урезания финансирования проекта со стороны заказчика.

Я работал разработчиком SQL более 10 лет и задумался: стоит ли мне дальше искать работу в этом же направлении или пройти обучение и получить более востребованную на рынке специальность.

Наткнувшись на сайт roadmappers.ru, я заинтересовался дата инженерией и посмотрел доступные на youtube видеоролики организаторов буткемпа. Идея пройти обучение в формате реального рабочего места мне показалась очень правильной, и я записался на курс.

Во время обучения мне очень понравилась подача материала в формате видеозвонков, постановка задача в жире, подробная документация в конфлюенсе и конечно же возможность самому решать реальные задачи на базе развернутой инфраструктуры рабочего места. Организаторы буткемпа, Володя и Женя, всегда помогали, если были проблемы. Практически 24 часа в сутках были на связи и очень здорово мотивировали в учебе и дальнейшем поиске работы.

В конце курса Володя с Женей помогли нам доработать и систематизировать резюме, чтобы они проходили фильтры ИИ и попадали в топ поиска для HR компаний. Как закономерный итог обучения я смог найти работу по специальности дата-инженера🏁.

Выражаю огромную благодарность за обучение, наставничество и помощь с трудоустройством!
Рекомендую буткемп всем, кто хочет реально войти в профессию.

🔥 Всем хороших офферов!
_____________________________

📝 От команды 📝

Александр — пример сильного подхода к обучению.

За 2 месяца он:
— глубоко погружался в темы
— задавал много вопросов
— проходил дополнительный материал
— не ограничивался базовой программой

💪 Такой результат — это всегда сочетание программы и усилий самого человека.

Поздравляем с оффером! 🚀

Набор на май месяц в самом разгаре, уже забронирвано половина потока, так что поторопись записаться – @bootcampych_bot.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍54👏4
Когда идём?

Я собрал прикольное приложение (как мне кажется).

Заходишь в приложение, отмечаешь с друзьями дни, когда свободен, и видишь, когда все могут.

Вот я хотел собрать друзей на картинг. И как же мне надоело у каждого спрашивать, в какой день он (она) может. Это какой-то ад. Все занятые бизнесмены, как и я. В понедельник не может — яхту покупает. В среду не может — Бентли забирает из салона.

В итоге я взял вайбкодинг и собрал мини-апп. Все заходят по ссылке-приглашению и выбирают день, когда свободны. Приложение само определяет пересечения и показывает общий день. Авторизация через Телеграм, но в будущем можно сделать через что угодно.

Через что сделал?
Вайбкодинг на Codex от OpenAI + искал вдохновение на ReplitAI.

Из приколюх: есть кнопка «Напомнить всем». Нажимаешь, и приложение всем присылает напоминалку о событии либо о том, что надо выбрать день.

Версия альфа, поэтому, вероятно, найдёте бэкдоры, баги или ошибки. Предлагаю нам потестировать! Можете и свои встречи создавать!

Вот, я создал встречу. Лимит на одну встречу максимум 15 человек. Заходите-пробуйте!

Уже набрали 15 человек)
Для всех, вот приложение
@kogda_idemBot

➡️ update: теперь можно еще и выбрать место. Подключил API Яндекс Карты

P.S. если найдете баги, ошибки или приложение упадет, пишите в лс. Разберемся.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34👍13👏63
🚀 Data Engineer за 2 месяца

Не кликбейт. Мы реально сделали супер интенсив за 2 месяца в DE.
Это буквально копия вашей будущей работы.

Представьте, что вы приходите на новое место работы, и увольняющийся коллега передаёт вам дела. У него есть две недели, чтобы показать, что и как делать. Вы буквально впитываете всё как губка, потому что потом спрашивать будет не у кого.

Так вот именно эту идею мы и вложили в Bootcamp!
За короткое время вы погружаетесь в работу инженера данных, осваиваете современный стек и получаете навыки прохождения собеседований и составления резюме.

Мы реально вычеркнули большую часть бесполезной теории. Упор исключительно на практику.
Чтобы вы пришли на работу и сказали: "Мы это уже делали"

Что внутри буткемпа

Вы получаете доступ к инфраструктуре, максимально приближенной к продакшену:
• Postgres
• ClickHouse (распределённый, 2 шарда)
• GreenPlum (8 сегментов)
• Spark
• S3
• AirFlow
• Kafka
• DBT
• GitHub
• Jira
• Confluence

Как часто занятия?
• 3 раза в неделю (Живые лекции, на которых можно задать вопрос и сразу получить ответ)
• Вечером (после работы) в 20:00 по МСК
• Все лекции записываются и доступны навсегда

Поддержка и практика
• Чат с ответами почти 24/7
• Можно задать любой вопрос
• Можно попросить задачу сложнее
• Разбор ваших решений на созвонах

Подготовка к работе
• Mock собеседования
• Прожарка резюме
• Разбор реальных кейсов

После буткемпа все выпускники приглашаются в чат, где мы делимся ситуацией на рынке, вопросами с собесов, а также поддерживаем друг друга!

Кстати, мы добавили классную фишку — доступ к лекциям из новых потоков. Даже после окончания буткемпа вы остаетесь в обучении и можете следить за обновлениями.

А если не успеваете?
У нас есть InfraSharing. Это тот же самый буткемп, но без лекций. Просто готовая инфраструктура. Даже если не успеваете сделать все задачи в Bootcamp, можете продолжить в InfraSharing. Тем более для всех выпускников мы даем огромную скидку!

Ближайший старт потока — 1 мая
Переходите в наш бот @bootcampych_bot и жми Хочу на BootCamp
🔥128👍5
ТРИНАААА!

Начал читать про Trino. У меня в голове были несостыковки, типа зачем еще один очередной инструмент в этом Дата Инжиниринге?

АСТАНАВИТЕСЬ!

Рассказываю на пальцах и только самое основное.
Вот есть Spark. С ним мы можем подключиться к PG, CH, S3, GP и другим хранилкам данных.

Пишем там df_pg = spark.read.format("jdbc") Потом отдельно df_ch = spark.read.format("jdbc")
Короче говоря, каждый раз надо подключаться и читать отдельно каждую таблицу.

А я хочу просто написать ОДИН SQL запрос и сразу так:
SELECT u.name, o.order_id
FROM postgres.public.users u
JOIN clickhouse.sales.orders o
ON u.id = o.user_id;


Чтобы в самом запросе у меня уже указывались разные БД и мне не надо было ничего отдельно читать.
Так вот спарк так не умеет, А ТРИНО УМЕЕТ!

Фишка Трино — это куча коннекторов. Т.е. установили Трино и дальше просто читаем из разных источников. Ничего больше делать не надо. Буквально вы в Dbeaver пишете запрос и все работает. ИЗИ. Кстати к Kafka тоже можно подключиться, но имейте в виду, что в Кафку данные постоянно добавляются и с каждым новым запросом, данные могут меняться.

Короче говоря, супер для AD HOC аналитики!
Называется все это ФЕДЕРАТИВНЫЕ ЗАПРОСЫ

А что еще?
Когда в спарке мы в лоб читаем данные через JDBC, то на все создается одно подключение и 1 партиция. А спарк же распределенный, у нас много executors, на которые надо раскидать данные. И поэтому нужно дописывать еще кода, который читает определенный столбец, создает несколько jdbc подключений и раскидывает все по executors. Короче тут без бутылки водки не разберешься

В трино же просто пишешь один SQL запрос и он сам параллельно читает и раскидывает на свои воркеры. Никаких танцев с бубном. Кстати, внутри Трино и Спарк реально похожи. Такие же координаторы и и воркеры наряду с драйвером и executor.

Какие еще фишки?
Можно создать view и перенести часть вычислений на уровне БД. Например пишем запрос на Trino, но вся нагрузка идет сначала в PG. Типа необязательно тянуть к себе в память. Ну и по факту кол-во фишек еще больше, но думаю и так достаточно инфы.

В чем минусы?
В трино Нет стриминга, MLlib, как в спарке. Также нельзя контролировать кол-во создаваемых файлов, как в спарке через coalesce и repartition. Там есть некоторые общие настройки, которые позволяют компактить, но все же это не совсем то, как это делает спарк во время записи здесь и сейчас.

Короче, Трино идеально подходит для ad hoc запросов. Возможно не всегда его стоит использовать для ETL, потому что нет такой гибкой настройки и контроля прямо, как в спарк. Хотя на мой взгляд, если данных меньше Тб, то почему бы не обойтись только им. Тем более на SQL умеет писать даже собака из соседнего подъезда. А на вашем спарк апи еще пойди найди человека..

P.S.Если есть замечания или еще чего-то знаете, делитесь.
🔥2413👍12😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Самая быстрая сортировка EVER!
🔥18😁10🤔5👍2👏1
Trino и Iceberg теперь есть на Bootcamp!

Сейчас многие смотрят в сторону этого стека, да и в целом переходят на него. Поэтому мы тоже не стоим на месте.

Что уже есть?
Трино в режиме 1 координатор и 2 воркера. Также доступен Trino UI.
Ну про Iceberg че говорить.. Думаю все и так знают. Короче современный LAKEHOUSE.

По факту сейчас еще додумаем интересные pipeline к этому стеку и в майском потоке точно будет обновление!

Есть даже идея выбора pipeline!

Например можно выбрать стрим LakeHouse
Trino + s3 Iceberg + CH

Либо взять ближе к DWH, когда есть
Spark - Greenplum (DBT) - CH

Или пойти в сторону Data Lake
Spark - S3 - CH

При этом у нас также остается Kafka - Debezium. И вполне вероятно может появиться Flink. Точнее я уже его добавил))

И на каждый pipeline может быть своя логика сбора и обработки данных. На рынке стек в командах так быстро не меняется, поэтому разобравшись и познакомившись со всем этими инструментами будете намного увереннее себя чувствовать.

🔴 Мы уже набираем поток на МАЙ!
Записаться и попасть уже в чат можно тут -
@bootcampych_bot

Пишите смело, мы по ту сторону бота сидим, если что!

P.S. Примеры пайплайнов чисто формальные.. безусловно, там еще Airflow, Github, где-то PostgreSQL, где-то API, иногда S3 для метаданных может использоваться. Главное, чтобы вы поняли, что это мощнейщая и крутая шутковина!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍166👏4
Media is too big
VIEW IN TELEGRAM
📸 Отзывы участников
#BootCampDE — Январь-Февраль 2026

Я пришла на Bootcamp с базовыми знаниями SQL и Python, лайфкодила + применяла их для выполенения и облегчения своих рабочих задач, после чего поняла, что данные – это то, с чем я хочу связать свою жизнь.

Для меня самым тяжёлым стала моральная подготовка к буткемпу, чтобы впитывать знания целиком и полностью. Мне пришлось отказаться от TikTok, мемов, просмотра сериалов и т.д., чтобы не забивать мозг. И это того стоило!

У ребят курс построен поэтапно — шаг за шагом ты поглощаешь порцию новых знаний. В моменте кажется, что ничего непонятно, но как только начинаешь практиковаться, тыкаешь, выполняешь домашку — всё встаёт на свои места. Все уроки шли до победного, до последнего вопроса. (Было занятие, которое шло с 8 вечера и до 12 часов ночи, ибо вопросы не ждут).

Ну а вишенка на торте — мок-собесы, где тебя готовят к суровой реальности рынка. Женя с Вовой всегда на связи по любому вопросу, и это ФАКТ, который перетекает из каждого отзыва в отзыв🤗

Особую благодарность хочу выразить комьюнити: именно благодаря ребятам и чатам я так быстро смогла грейдануться. Сначала было страшно писать и задавать вопросы на созвонах, но спустя пару месяцев дружелюбная атмосфера полностью снимает страх — вы уже чувствуете себя как дома. Когда буткемп закончился, я немного растерялась и не знала, как двигаться дальше, но ребята пригласили всех в чат выпускников, и он всегда рядом(в закрепе), чтобы поддержать, дать ответы на любые вопросы, и сама теперь не стесняюсь их задавать!
_____________________________

📝 От команды 📝

Анастасия
— пример самой скромности, пока не подтолкнёшь, сама вопрос не задаст😂

В самом начале пути была тише воды, ниже травы — и это, кстати, абсолютно нормально, таких ребят на старте много. Но у Насти был огромный плюс: она не пропускала созвоны и всегда досиживала до конца, даже когда было сложно и казалось, что ничего непонятно.

И вот – в какой-то момент случился перелом — начала задавать вопросы, включаться, копать глубже… и дальше уже было не остановить🤢

Отдельно хотим отметить её дисциплину. Отказаться от отвлекающих вещей, сфокусироваться на обучении и довести это до результата — это дорогого стоит. Именно такие решения и приводят к реальным изменениям в жизни.

Мы безумно рады, что в итоге всё сложилось: оффер найден, направление выбрано, и теперь Настя будет заниматься тем, к чему действительно лежит душа, с достаточно большим багажом знаний и умений за плечами!

Гордимся тобой! И спасибо за доверие ☺️

Поздравляем с очередным оффером! 🚀

_________________

До начала следующего потока осталось совсем чуть-чуть, поторопись – @bootcampych_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
20👍6🔥5