Roadmap обновляется быстрее, чем вы успеваете проходить!
Закинули свежие задачи по SQL и Python — всё с реальных собесов.
Плюс добавили песочницу для SQL прямо в браузере:
никаких установок, просто заходишь и решаешь.
Раздел: «Вопросы с собеседований → SQL задачи»
Получить Roadmap —> @bootcampych_bot
Закинули свежие задачи по SQL и Python — всё с реальных собесов.
Плюс добавили песочницу для SQL прямо в браузере:
никаких установок, просто заходишь и решаешь.
Раздел: «Вопросы с собеседований → SQL задачи»
Получить Roadmap —> @bootcampych_bot
🔥47👍12❤8
Крутой пример типичной задачи для Дата Инженера!
Есть двастула датасета формата XML. Один 60Гб, другой 400Мб. Надо взять последние 2 года из первого и сджойнить со вторым.
В чем сложности?
60 гигов в формате XML это просто один большой кусок файла. Он не разбит на партции, не имеет в комплекте готовую схему данных + внутри некоторые значения полей могут быть не совсем валидны (в поле год, может стоять не дата, а номер).
С файликом в 400Мб все ок, он без дубликатов и с хорошим качеством - ну это считайте словарик.
Я описал в roadmap этот пет проект, можете смело брать и тестировать, реально коммерческий пример сборки витрины данных.
Что уже есть внутри:
- Пример кода для сборки витрин на PySpark
- Пример чтения XML и сохранения в parquet
- Уже готовый датасет в формате parquet
➡️ еще раз, вот ссылка на пет проект - Проект №5 - Сборка витрины на Spark
——-
P.S. кстати, если хотите сказать спасибо roadmap, то вот ссылка
Есть два
В чем сложности?
60 гигов в формате XML это просто один большой кусок файла. Он не разбит на партции, не имеет в комплекте готовую схему данных + внутри некоторые значения полей могут быть не совсем валидны (в поле год, может стоять не дата, а номер).
С файликом в 400Мб все ок, он без дубликатов и с хорошим качеством - ну это считайте словарик.
Я описал в roadmap этот пет проект, можете смело брать и тестировать, реально коммерческий пример сборки витрины данных.
Что уже есть внутри:
- Пример кода для сборки витрин на PySpark
- Пример чтения XML и сохранения в parquet
- Уже готовый датасет в формате parquet
——-
P.S. кстати, если хотите сказать спасибо roadmap, то вот ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤11🔥5👏5
Media is too big
VIEW IN TELEGRAM
#BootCampDE — Январь-Февраль 2026
Меня зовут Александр. Я обучался на 4-м потоке буткемпа.
О буткемпе случайно узнал в январе 2026 года. В это время я искал новое место работы, так как попал под сокращение из-за урезания финансирования проекта со стороны заказчика.
Я работал разработчиком SQL более 10 лет и задумался: стоит ли мне дальше искать работу в этом же направлении или пройти обучение и получить более востребованную на рынке специальность.
Наткнувшись на сайт roadmappers.ru, я заинтересовался дата инженерией и посмотрел доступные на youtube видеоролики организаторов буткемпа. Идея пройти обучение в формате реального рабочего места мне показалась очень правильной, и я записался на курс.
Во время обучения мне очень понравилась подача материала в формате видеозвонков, постановка задача в жире, подробная документация в конфлюенсе и конечно же возможность самому решать реальные задачи на базе развернутой инфраструктуры рабочего места. Организаторы буткемпа, Володя и Женя, всегда помогали, если были проблемы. Практически 24 часа в сутках были на связи и очень здорово мотивировали в учебе и дальнейшем поиске работы.
В конце курса Володя с Женей помогли нам доработать и систематизировать резюме, чтобы они проходили фильтры ИИ и попадали в топ поиска для HR компаний. Как закономерный итог обучения я смог найти работу по специальности дата-инженера🏁.
Выражаю огромную благодарность за обучение, наставничество и помощь с трудоустройством!
Рекомендую буткемп всем, кто хочет реально войти в профессию.
🔥 Всем хороших офферов!
_____________________________
Александр — пример сильного подхода к обучению.
За 2 месяца он:
— глубоко погружался в темы
— задавал много вопросов
— проходил дополнительный материал
— не ограничивался базовой программой
Поздравляем с оффером! 🚀
Набор на май месяц в самом разгаре, уже забронирвано половина потока, так что поторопись записаться – @bootcampych_bot.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍5❤4👏4
Когда идём?
Я собрал прикольное приложение (как мне кажется).
Заходишь в приложение, отмечаешь с друзьями дни, когда свободен, и видишь, когда все могут.
Вот я хотел собрать друзей на картинг. И как же мне надоело у каждого спрашивать, в какой день он (она) может. Это какой-то ад. Все занятые бизнесмены, как и я. В понедельник не может — яхту покупает. В среду не может — Бентли забирает из салона.
В итоге я взял вайбкодинг и собрал мини-апп. Все заходят по ссылке-приглашению и выбирают день, когда свободны. Приложение само определяет пересечения и показывает общий день. Авторизация через Телеграм, но в будущем можно сделать через что угодно.
Через что сделал?
Вайбкодинг на Codex от OpenAI + искал вдохновение на ReplitAI.
Из приколюх: есть кнопка «Напомнить всем». Нажимаешь, и приложение всем присылает напоминалку о событии либо о том, что надо выбрать день.
Версия альфа, поэтому, вероятно, найдёте бэкдоры, баги или ошибки. Предлагаю нам потестировать! Можете и свои встречи создавать!
Вот, я создал встречу. Лимит на одну встречу максимум 15 человек. Заходите-пробуйте!
Уже набрали 15 человек)
Для всех, вот приложение
@kogda_idemBot
➡️ update: теперь можно еще и выбрать место. Подключил API Яндекс Карты
P.S. если найдете баги, ошибки или приложение упадет, пишите в лс. Разберемся.
Заходишь в приложение, отмечаешь с друзьями дни, когда свободен, и видишь, когда все могут.
Вот я хотел собрать друзей на картинг. И как же мне надоело у каждого спрашивать, в какой день он (она) может. Это какой-то ад. Все занятые бизнесмены, как и я. В понедельник не может — яхту покупает. В среду не может — Бентли забирает из салона.
В итоге я взял вайбкодинг и собрал мини-апп. Все заходят по ссылке-приглашению и выбирают день, когда свободны. Приложение само определяет пересечения и показывает общий день. Авторизация через Телеграм, но в будущем можно сделать через что угодно.
Через что сделал?
Вайбкодинг на Codex от OpenAI + искал вдохновение на ReplitAI.
Из приколюх: есть кнопка «Напомнить всем». Нажимаешь, и приложение всем присылает напоминалку о событии либо о том, что надо выбрать день.
Версия альфа, поэтому, вероятно, найдёте бэкдоры, баги или ошибки. Предлагаю нам потестировать! Можете и свои встречи создавать!
Вот, я создал встречу. Лимит на одну встречу максимум 15 человек. Заходите-пробуйте!
Уже набрали 15 человек)
Для всех, вот приложение
@kogda_idemBot
P.S. если найдете баги, ошибки или приложение упадет, пишите в лс. Разберемся.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34👍13👏6❤3
🚀 Data Engineer за 2 месяца
Не кликбейт. Мы реально сделали супер интенсив за 2 месяца в DE.
Это буквально копия вашей будущей работы.
Представьте, что вы приходите на новое место работы, и увольняющийся коллега передаёт вам дела. У него есть две недели, чтобы показать, что и как делать. Вы буквально впитываете всё как губка, потому что потом спрашивать будет не у кого.
Так вот именно эту идею мы и вложили в Bootcamp!
За короткое время вы погружаетесь в работу инженера данных, осваиваете современный стек и получаете навыки прохождения собеседований и составления резюме.
Мы реально вычеркнули большую часть бесполезной теории. Упор исключительно на практику.
Чтобы вы пришли на работу и сказали: "Мы это уже делали"
Что внутри буткемпа
Вы получаете доступ к инфраструктуре, максимально приближенной к продакшену:
• Postgres
• ClickHouse (распределённый, 2 шарда)
• GreenPlum (8 сегментов)
• Spark
• S3
• AirFlow
• Kafka
• DBT
• GitHub
• Jira
• Confluence
Как часто занятия?
• 3 раза в неделю (Живые лекции, на которых можно задать вопрос и сразу получить ответ)
• Вечером (после работы) в 20:00 по МСК
• Все лекции записываются и доступны навсегда
Поддержка и практика
• Чат с ответами почти 24/7
• Можно задать любой вопрос
• Можно попросить задачу сложнее
• Разбор ваших решений на созвонах
Подготовка к работе
• Mock собеседования
• Прожарка резюме
• Разбор реальных кейсов
После буткемпа все выпускники приглашаются в чат, где мы делимся ситуацией на рынке, вопросами с собесов, а также поддерживаем друг друга!
Кстати, мы добавили классную фишку — доступ к лекциям из новых потоков. Даже после окончания буткемпа вы остаетесь в обучении и можете следить за обновлениями.
А если не успеваете?
У нас есть InfraSharing. Это тот же самый буткемп, но без лекций. Просто готовая инфраструктура. Даже если не успеваете сделать все задачи в Bootcamp, можете продолжить в InfraSharing. Тем более для всех выпускников мы даем огромную скидку!
Ближайший старт потока — 1 мая
Переходите в наш бот @bootcampych_bot и жми Хочу на BootCamp
Не кликбейт. Мы реально сделали супер интенсив за 2 месяца в DE.
Это буквально копия вашей будущей работы.
Представьте, что вы приходите на новое место работы, и увольняющийся коллега передаёт вам дела. У него есть две недели, чтобы показать, что и как делать. Вы буквально впитываете всё как губка, потому что потом спрашивать будет не у кого.
Так вот именно эту идею мы и вложили в Bootcamp!
За короткое время вы погружаетесь в работу инженера данных, осваиваете современный стек и получаете навыки прохождения собеседований и составления резюме.
Мы реально вычеркнули большую часть бесполезной теории. Упор исключительно на практику.
Чтобы вы пришли на работу и сказали: "Мы это уже делали"
Что внутри буткемпа
Вы получаете доступ к инфраструктуре, максимально приближенной к продакшену:
• Postgres
• ClickHouse (распределённый, 2 шарда)
• GreenPlum (8 сегментов)
• Spark
• S3
• AirFlow
• Kafka
• DBT
• GitHub
• Jira
• Confluence
Как часто занятия?
• 3 раза в неделю (Живые лекции, на которых можно задать вопрос и сразу получить ответ)
• Вечером (после работы) в 20:00 по МСК
• Все лекции записываются и доступны навсегда
Поддержка и практика
• Чат с ответами почти 24/7
• Можно задать любой вопрос
• Можно попросить задачу сложнее
• Разбор ваших решений на созвонах
Подготовка к работе
• Mock собеседования
• Прожарка резюме
• Разбор реальных кейсов
После буткемпа все выпускники приглашаются в чат, где мы делимся ситуацией на рынке, вопросами с собесов, а также поддерживаем друг друга!
Кстати, мы добавили классную фишку — доступ к лекциям из новых потоков. Даже после окончания буткемпа вы остаетесь в обучении и можете следить за обновлениями.
А если не успеваете?
У нас есть InfraSharing. Это тот же самый буткемп, но без лекций. Просто готовая инфраструктура. Даже если не успеваете сделать все задачи в Bootcamp, можете продолжить в InfraSharing. Тем более для всех выпускников мы даем огромную скидку!
Ближайший старт потока — 1 мая
Переходите в наш бот @bootcampych_bot и жми Хочу на BootCamp
🔥12❤8👍5
ТРИНАААА!
Начал читать про Trino. У меня в голове были несостыковки, типа зачем еще один очередной инструмент в этом Дата Инжиниринге?
АСТАНАВИТЕСЬ!
Рассказываю на пальцах и только самое основное.
Вот есть Spark. С ним мы можем подключиться к PG, CH, S3, GP и другим хранилкам данных.
Пишем там
Короче говоря, каждый раз надо подключаться и читать отдельно каждую таблицу.
А я хочу просто написать ОДИН SQL запрос и сразу так:
Чтобы в самом запросе у меня уже указывались разные БД и мне не надо было ничего отдельно читать.
Так вот спарк так не умеет, А ТРИНО УМЕЕТ!
Фишка Трино — это куча коннекторов. Т.е. установили Трино и дальше просто читаем из разных источников. Ничего больше делать не надо. Буквально вы в Dbeaver пишете запрос и все работает. ИЗИ. Кстати к Kafka тоже можно подключиться, но имейте в виду, что в Кафку данные постоянно добавляются и с каждым новым запросом, данные могут меняться.
Короче говоря, супер для AD HOC аналитики!
Называется все это ФЕДЕРАТИВНЫЕ ЗАПРОСЫ
А что еще?
Когда в спарке мы в лоб читаем данные через JDBC, то на все создается одно подключение и 1 партиция. А спарк же распределенный, у нас много executors, на которые надо раскидать данные. И поэтому нужно дописывать еще кода, который читает определенный столбец, создает несколько jdbc подключений и раскидывает все по executors. Короче тут без
В трино же просто пишешь один SQL запрос и он сам параллельно читает и раскидывает на свои воркеры. Никаких танцев с бубном. Кстати, внутри Трино и Спарк реально похожи. Такие же координаторы и и воркеры наряду с драйвером и executor.
Какие еще фишки?
Можно создать view и перенести часть вычислений на уровне БД. Например пишем запрос на Trino, но вся нагрузка идет сначала в PG. Типа необязательно тянуть к себе в память. Ну и по факту кол-во фишек еще больше, но думаю и так достаточно инфы.
В чем минусы?
В трино Нет стриминга, MLlib, как в спарке. Также нельзя контролировать кол-во создаваемых файлов, как в спарке через coalesce и repartition. Там есть некоторые общие настройки, которые позволяют компактить, но все же это не совсем то, как это делает спарк во время записи здесь и сейчас.
Короче, Трино идеально подходит для ad hoc запросов. Возможно не всегда его стоит использовать для ETL, потому что нет такой гибкой настройки и контроля прямо, как в спарк. Хотя на мой взгляд, если данных меньше Тб, то почему бы не обойтись только им. Тем более на SQL умеет писать даже собака из соседнего подъезда. А на вашем спарк апи еще пойди найди человека..
P.S.Если есть замечания или еще чего-то знаете, делитесь.
Начал читать про Trino. У меня в голове были несостыковки, типа зачем еще один очередной инструмент в этом Дата Инжиниринге?
АСТАНАВИТЕСЬ!
Рассказываю на пальцах и только самое основное.
Вот есть Spark. С ним мы можем подключиться к PG, CH, S3, GP и другим хранилкам данных.
Пишем там
df_pg = spark.read.format("jdbc") Потом отдельно df_ch = spark.read.format("jdbc")Короче говоря, каждый раз надо подключаться и читать отдельно каждую таблицу.
А я хочу просто написать ОДИН SQL запрос и сразу так:
SELECT u.name, o.order_id
FROM postgres.public.users u
JOIN clickhouse.sales.orders o
ON u.id = o.user_id;
Чтобы в самом запросе у меня уже указывались разные БД и мне не надо было ничего отдельно читать.
Так вот спарк так не умеет, А ТРИНО УМЕЕТ!
Фишка Трино — это куча коннекторов. Т.е. установили Трино и дальше просто читаем из разных источников. Ничего больше делать не надо. Буквально вы в Dbeaver пишете запрос и все работает. ИЗИ. Кстати к Kafka тоже можно подключиться, но имейте в виду, что в Кафку данные постоянно добавляются и с каждым новым запросом, данные могут меняться.
Короче говоря, супер для AD HOC аналитики!
Называется все это ФЕДЕРАТИВНЫЕ ЗАПРОСЫ
А что еще?
Когда в спарке мы в лоб читаем данные через JDBC, то на все создается одно подключение и 1 партиция. А спарк же распределенный, у нас много executors, на которые надо раскидать данные. И поэтому нужно дописывать еще кода, который читает определенный столбец, создает несколько jdbc подключений и раскидывает все по executors. Короче тут без
бутылки водки не разберешьсяВ трино же просто пишешь один SQL запрос и он сам параллельно читает и раскидывает на свои воркеры. Никаких танцев с бубном. Кстати, внутри Трино и Спарк реально похожи. Такие же координаторы и и воркеры наряду с драйвером и executor.
Какие еще фишки?
Можно создать view и перенести часть вычислений на уровне БД. Например пишем запрос на Trino, но вся нагрузка идет сначала в PG. Типа необязательно тянуть к себе в память. Ну и по факту кол-во фишек еще больше, но думаю и так достаточно инфы.
В чем минусы?
В трино Нет стриминга, MLlib, как в спарке. Также нельзя контролировать кол-во создаваемых файлов, как в спарке через coalesce и repartition. Там есть некоторые общие настройки, которые позволяют компактить, но все же это не совсем то, как это делает спарк во время записи здесь и сейчас.
Короче, Трино идеально подходит для ad hoc запросов. Возможно не всегда его стоит использовать для ETL, потому что нет такой гибкой настройки и контроля прямо, как в спарк. Хотя на мой взгляд, если данных меньше Тб, то почему бы не обойтись только им. Тем более на SQL умеет писать даже собака из соседнего подъезда. А на вашем спарк апи еще пойди найди человека..
P.S.Если есть замечания или еще чего-то знаете, делитесь.
🔥24❤13👍12😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Самая быстрая сортировка EVER!
🔥18😁10🤔5👍2👏1
Trino и Iceberg теперь есть на Bootcamp!
Сейчас многие смотрят в сторону этого стека, да и в целом переходят на него. Поэтому мы тоже не стоим на месте.
Что уже есть?
Трино в режиме 1 координатор и 2 воркера. Также доступен Trino UI.
Ну про Iceberg че говорить.. Думаю все и так знают. Короче современный LAKEHOUSE.
По факту сейчас еще додумаем интересные pipeline к этому стеку и в майском потоке точно будет обновление!
Есть даже идея выбора pipeline!
Например можно выбрать стрим LakeHouse
Trino + s3 Iceberg + CH
Либо взять ближе к DWH, когда есть
Spark - Greenplum (DBT) - CH
Или пойти в сторону Data Lake
Spark - S3 - CH
При этом у нас также остается Kafka - Debezium. И вполне вероятно может появиться Flink. Точнее я уже его добавил))
И на каждый pipeline может быть своя логика сбора и обработки данных. На рынке стек в командах так быстро не меняется, поэтому разобравшись и познакомившись со всем этими инструментами будете намного увереннее себя чувствовать.
🔴 Мы уже набираем поток на МАЙ!
Записаться и попасть уже в чат можно тут - @bootcampych_bot
Пишите смело, мы по ту сторону бота сидим, если что!
P.S. Примеры пайплайнов чисто формальные.. безусловно, там еще Airflow, Github, где-то PostgreSQL, где-то API, иногда S3 для метаданных может использоваться. Главное, чтобы вы поняли, что это мощнейщая и крутая шутковина!
Сейчас многие смотрят в сторону этого стека, да и в целом переходят на него. Поэтому мы тоже не стоим на месте.
Что уже есть?
Трино в режиме 1 координатор и 2 воркера. Также доступен Trino UI.
Ну про Iceberg че говорить.. Думаю все и так знают. Короче современный LAKEHOUSE.
По факту сейчас еще додумаем интересные pipeline к этому стеку и в майском потоке точно будет обновление!
Есть даже идея выбора pipeline!
Например можно выбрать стрим LakeHouse
Trino + s3 Iceberg + CH
Либо взять ближе к DWH, когда есть
Spark - Greenplum (DBT) - CH
Или пойти в сторону Data Lake
Spark - S3 - CH
При этом у нас также остается Kafka - Debezium. И вполне вероятно может появиться Flink. Точнее я уже его добавил))
И на каждый pipeline может быть своя логика сбора и обработки данных. На рынке стек в командах так быстро не меняется, поэтому разобравшись и познакомившись со всем этими инструментами будете намного увереннее себя чувствовать.
Записаться и попасть уже в чат можно тут - @bootcampych_bot
Пишите смело, мы по ту сторону бота сидим, если что!
P.S. Примеры пайплайнов чисто формальные.. безусловно, там еще Airflow, Github, где-то PostgreSQL, где-то API, иногда S3 для метаданных может использоваться. Главное, чтобы вы поняли, что это мощнейщая и крутая шутковина!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤6👏4
Forwarded from Инженерообязанный🫡 | Владимир Шустиков | Инженер Данных
Media is too big
VIEW IN TELEGRAM
#BootCampDE — Январь-Февраль 2026
Я пришла на Bootcamp с базовыми знаниями SQL и Python, лайфкодила + применяла их для выполенения и облегчения своих рабочих задач, после чего поняла, что данные – это то, с чем я хочу связать свою жизнь.
Для меня самым тяжёлым стала моральная подготовка к буткемпу, чтобы впитывать знания целиком и полностью. Мне пришлось отказаться от TikTok, мемов, просмотра сериалов и т.д., чтобы не забивать мозг. И это того стоило!
У ребят курс построен поэтапно — шаг за шагом ты поглощаешь порцию новых знаний. В моменте кажется, что ничего непонятно, но как только начинаешь практиковаться, тыкаешь, выполняешь домашку — всё встаёт на свои места. Все уроки шли до победного, до последнего вопроса. (Было занятие, которое шло с 8 вечера и до 12 часов ночи, ибо вопросы не ждут).
Ну а вишенка на торте — мок-собесы, где тебя готовят к суровой реальности рынка. Женя с Вовой всегда на связи по любому вопросу, и это ФАКТ, который перетекает из каждого отзыва в отзыв
Особую благодарность хочу выразить комьюнити: именно благодаря ребятам и чатам я так быстро смогла грейдануться. Сначала было страшно писать и задавать вопросы на созвонах, но спустя пару месяцев дружелюбная атмосфера полностью снимает страх — вы уже чувствуете себя как дома. Когда буткемп закончился, я немного растерялась и не знала, как двигаться дальше, но ребята пригласили всех в чат выпускников, и он всегда рядом(в закрепе), чтобы поддержать, дать ответы на любые вопросы, и сама теперь не стесняюсь их задавать!
_____________________________
Анастасия — пример самой скромности, пока не подтолкнёшь, сама вопрос не задаст
В самом начале пути была тише воды, ниже травы — и это, кстати, абсолютно нормально, таких ребят на старте много. Но у Насти был огромный плюс: она не пропускала созвоны и всегда досиживала до конца, даже когда было сложно и казалось, что ничего непонятно.
И вот – в какой-то момент случился перелом — начала задавать вопросы, включаться, копать глубже… и дальше уже было не остановить
Отдельно хотим отметить её дисциплину. Отказаться от отвлекающих вещей, сфокусироваться на обучении и довести это до результата — это дорогого стоит. Именно такие решения и приводят к реальным изменениям в жизни.
Мы безумно рады, что в итоге всё сложилось: оффер найден, направление выбрано, и теперь Настя будет заниматься тем, к чему действительно лежит душа, с достаточно большим багажом знаний и умений за плечами!
Гордимся тобой! И спасибо за доверие
Поздравляем с очередным оффером!
_________________
До начала следующего потока осталось совсем чуть-чуть, поторопись – @bootcampych_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20👍6🔥5