This media is not supported in your browser
VIEW IN TELEGRAM
Списывание на собесах ВСЁ!
Как вы знаете, есть chat gpt, который умеет слушать вопросы на собесе и сразу давать на них готовые ответы. Так вот, чтобы вам насолить, человек может каждый раз добавлять «отвечай на китайском»
Если без китайского, то отвечает он реально неплохо. Но это ведь борьба меча и щита, поэтому ждем контр меру от китайского)
p.s. приходи на BootCamp для Дата Инженера @bootcampych_bot
Наши ссылки:
📍 Сайт Roadmappers.ru
💬 Телеграмм-чат Roadmappers.ru
💙 ВК
📺 YouTube(Инженерообязанный)
📺 YouTube(Евгений Виндюков)
💬 Телеграмм-канал(Инженерообязанный)
💬 Телеграмм-канал(Я - Дата Инженер)
Как вы знаете, есть chat gpt, который умеет слушать вопросы на собесе и сразу давать на них готовые ответы. Так вот, чтобы вам насолить, человек может каждый раз добавлять «отвечай на китайском»
Если без китайского, то отвечает он реально неплохо. Но это ведь борьба меча и щита, поэтому ждем контр меру от китайского)
p.s. приходи на BootCamp для Дата Инженера @bootcampych_bot
Наши ссылки:
Please open Telegram to view this post
VIEW IN TELEGRAM
😁35❤8👍6
Накрутчики! Мошенники!
Компании начали спрашивать еще перед собесом справку СТДР.
Это справка — она же выписка из госуслуг (кстати, кто думает, что — это значит, что я пишу с чатом гпт.... на маке нажимаете два раза на дефис и у вас нормальное ТИРЕ).
Вернемся к нашему цирку под названием айти, где естественно клоун только я. А все остальные капитальные красавчики.
Хотите, чтобы не крутили» опыт? Тогда давайте снижать требования и брать людей без опыта. Открывать стажировки. Тогда никому не придётся придумывать 2–3 года коммерции.
Если компании хотят нанимать сеньоров — откуда они возьмутся, если сегодня не брать джунов?
Да, он уйдёт из вашей компании. Но потом к вам придёт сеньор, который когда-то в другой компании был джуном.
Если сейчас жёстко оставить на рынке только тех, кто официально «сеньор по СТДР», то очень быстро специалистов просто не останется. Либо все трудоустроены, либо их физически нет.
Придумывать бюрократию можно бесконечно.
«Накрутка» опыта появилась, потому что без опыта не берут — а получить его негде.
Рекрутеры требуют СТДР. Их не волнует ваши проекты и другие заслуги.
- Коммиты в open source
- Медали из универа
- Хакатоны
Все это уже не работает. У вас в стдр нет опыта, о чем может идти речь? У вас нет коммерческого опыта.
Нетворкинг? Это когда тебя взял брат, сват, друг. Для большинства людей это не воспроизводимая история. Это как выиграть в лотерею — должны сойтись все звёзды.
Иногда люди говорят: Вот я попал в IT без накрутки, а вы скатины обманывайте всех.
Только проблема в том, что такие люди попали в IT тогда, когда тебя брали просто за умение компьютер включать и не было такого ажиотажа.
Но вы возразите мне: "ВСЕ ИДУТ В IT! КУРСЫ ВСЕМ НАПЕЛИ ПРО ВЫСОКИЕ ЗАРПЛАТЫ И УСЛОВИЯ! НЕ НАДО СЮДА ИДТИ, ТВАРИ!"
А я вам отвечу: "Альтернативной профессии я пока не знаю, где можно получать высокую зарплату и сидеть на удаленке. Все примеры, как сын маминой подруги ведет бизнес или продает мебель, не вставая с дивана, являются исключениями. Везде есть богачи, но это не подчиняется системе конкретных действий"
Люди идут в ту деятельность, которая даст им деньги и комфортные условия. Какое вообще может быть дело кому-то о причинах перехода в профессию.
По поводу стажировок. Я знаю, что они иногда появляются и это конечно хорошо. Мы не говорим о том, что там немного платят. Но там и берут без опыта. Т.е. можно честно нормально залетать. Кстати, я говорю про те стажировки, которые для НЕ СТУДЕНТОВ. Вообще-то существуют люди, которые вкатываются в профессию старше студентов. И это нормально. Я сам такой.
Но их все еще не много.
Вывод: Есть опыт? Отвечаем да. Просят скинуть СТДР? Скидываем. Просят скинуть договоры, скидываем. Если им на той стороне что-то не понравится, просто скипаем компанию. Вдруг они вообще не смотрят и не сверяют и берут вас на понт. Короче фраза fake it till you make it.
Нет опыта в СТДР? На собес не позовем.
Компании начали спрашивать еще перед собесом справку СТДР.
Это справка — она же выписка из госуслуг (кстати, кто думает, что — это значит, что я пишу с чатом гпт.... на маке нажимаете два раза на дефис и у вас нормальное ТИРЕ).
Помнится, что некоторые рекрутеры считают длинным ТИРЕ признаком нейронки. ВОТ вам еще — — — ... я нейросеть ага.
Вернемся к нашему цирку под названием айти, где естественно клоун только я. А все остальные капитальные красавчики.
Хотите, чтобы не крутили» опыт? Тогда давайте снижать требования и брать людей без опыта. Открывать стажировки. Тогда никому не придётся придумывать 2–3 года коммерции.
Если компании хотят нанимать сеньоров — откуда они возьмутся, если сегодня не брать джунов?
Да, он уйдёт из вашей компании. Но потом к вам придёт сеньор, который когда-то в другой компании был джуном.
Если сейчас жёстко оставить на рынке только тех, кто официально «сеньор по СТДР», то очень быстро специалистов просто не останется. Либо все трудоустроены, либо их физически нет.
Придумывать бюрократию можно бесконечно.
«Накрутка» опыта появилась, потому что без опыта не берут — а получить его негде.
Рекрутеры требуют СТДР. Их не волнует ваши проекты и другие заслуги.
- Коммиты в open source
- Медали из универа
- Хакатоны
Все это уже не работает. У вас в стдр нет опыта, о чем может идти речь? У вас нет коммерческого опыта.
Нетворкинг? Это когда тебя взял брат, сват, друг. Для большинства людей это не воспроизводимая история. Это как выиграть в лотерею — должны сойтись все звёзды.
Иногда люди говорят: Вот я попал в IT без накрутки, а вы скатины обманывайте всех.
Только проблема в том, что такие люди попали в IT тогда, когда тебя брали просто за умение компьютер включать и не было такого ажиотажа.
Но вы возразите мне: "ВСЕ ИДУТ В IT! КУРСЫ ВСЕМ НАПЕЛИ ПРО ВЫСОКИЕ ЗАРПЛАТЫ И УСЛОВИЯ! НЕ НАДО СЮДА ИДТИ, ТВАРИ!"
А я вам отвечу: "Альтернативной профессии я пока не знаю, где можно получать высокую зарплату и сидеть на удаленке. Все примеры, как сын маминой подруги ведет бизнес или продает мебель, не вставая с дивана, являются исключениями. Везде есть богачи, но это не подчиняется системе конкретных действий"
Люди идут в ту деятельность, которая даст им деньги и комфортные условия. Какое вообще может быть дело кому-то о причинах перехода в профессию.
По поводу стажировок. Я знаю, что они иногда появляются и это конечно хорошо. Мы не говорим о том, что там немного платят. Но там и берут без опыта. Т.е. можно честно нормально залетать. Кстати, я говорю про те стажировки, которые для НЕ СТУДЕНТОВ. Вообще-то существуют люди, которые вкатываются в профессию старше студентов. И это нормально. Я сам такой.
Но их все еще не много.
Вывод: Есть опыт? Отвечаем да. Просят скинуть СТДР? Скидываем. Просят скинуть договоры, скидываем. Если им на той стороне что-то не понравится, просто скипаем компанию. Вдруг они вообще не смотрят и не сверяют и берут вас на понт. Короче фраза fake it till you make it.
❤34🔥17😁6👏4
Почему наш Roadmap переехал?
Потому чтоМы как Цирк дю Солей
Потому что захотелось адаптацию по мобилку, темную-светлую тему и кастомизацию по кнопкам и так далее. Короче весь фронтенд вайб..
И помог нам это сделать фронтенд разработчик Эрик @storm_de!
Кстати у него еще есть свои каналы:
вакансии для дата инженеров @data_engineer_jobs
Эрик сделал нам наш сайт и Roadmap для Дата Инженеров
roadmappers.ru
ссылку на roadmap для Дата Инженера можно получить тут - @bootcampych_bot
Потому что
Потому что захотелось адаптацию по мобилку, темную-светлую тему и кастомизацию по кнопкам и так далее. Короче весь фронтенд вайб..
И помог нам это сделать фронтенд разработчик Эрик @storm_de!
Кстати у него еще есть свои каналы:
вакансии для дата инженеров @data_engineer_jobs
Эрик сделал нам наш сайт и Roadmap для Дата Инженеров
roadmappers.ru
ссылку на roadmap для Дата Инженера можно получить тут - @bootcampych_bot
👍15🔥10❤3😁2
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍8👏2
Запись на 6й поток открыта!
Для записи переходи в бот
👉 @bootcampych_bot
Запись стрима, где подробно рассказали о буткемпе и из чего он состоит:
📺 Ютуб
📺 Рутуб
Для записи переходи в бот
Запись стрима, где подробно рассказали о буткемпе и из чего он состоит:
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Стрим. Поясняю за Буткем поток #6.
Записаться на буткемп: https://t.me/bootcampych_bot
👍9🔥6👏4
Но сейчас он выключен. Нужно ли снова включить его?
https://studio.roadmappers.ru
Что на сайте можно делать?
1. Сгенерировать задачу любой сложности по любому языку
2. Сгенерить 5 вопросов для мок собеса любой сложности по любому IT направлению
3. Сгенерить карточки с примером ответов любой сложности по любому IT направлению
4. Системный дизайн любой сложности по любому IT направлению
Короче, под капотом DeepSeek API. Деньги там закончились, так как люди начали, видимо, пользоваться активно.
update: начинаю закидывать бабки на счет
Please open Telegram to view this post
VIEW IN TELEGRAM
110👍128❤17🔥11
This media is not supported in your browser
VIEW IN TELEGRAM
Когда твое резюме никто не смотрит на HH и…
____________
Записывайся на BootCamp для дата инженера тут - @bootcampych_bot
____________
Записывайся на BootCamp для дата инженера тут - @bootcampych_bot
😁22🔥8👍3❤1
Ред Флаг для Инженера Данных
они вам не Глебы Соломины
▶️ Запись СТРИМА на YouTube
Запись стрима, который был 14 марта. Выбирали и обсуждали худшие и лучшие стеки и технологии для ДЕшника.
Под конец собрали СТЕК ЛУЧШЕЙ КОМПАНИИ И ХУДШЕЙ
для тех, кто не умеет смотреть ютуб —> RUTUBE прости господи
Наши ссылки:
📍 Сайт Roadmappers.ru
💬 Телеграмм-чат Roadmappers.ru
📺 YouTube(Инженерообязанный)
📺 YouTube(Евгений Виндюков)
💬 Телеграмм-канал(Я - Дата Инженер)
💬 Телеграмм-канал(Инженерообязанный)
💙 ВК
Запись стрима, который был 14 марта. Выбирали и обсуждали худшие и лучшие стеки и технологии для ДЕшника.
Под конец собрали СТЕК ЛУЧШЕЙ КОМПАНИИ И ХУДШЕЙ
для тех, кто не умеет смотреть ютуб —> RUTUBE прости господи
Наши ссылки:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤5🔥5
Короче вот, что я подумал.
Создадим везде каналы и чаты. В RoamdapDE и в телеге на главной будут ссылки.
Вот кто куда захочет, тот туда и перейдет. Если на какой-то площадке будет мертво, то она и умрет сама своей смертью.
Создадим везде каналы и чаты. В RoamdapDE и в телеге на главной будут ссылки.
Вот кто куда захочет, тот туда и перейдет. Если на какой-то площадке будет мертво, то она и умрет сама своей смертью.
👍33❤6🔥3🤯1😱1
500_2000s.csv
341.9 KB
📊 Мне друг подкинул интересную задачу
Объединение ДАМПОВ ДАННЫХ Discogs (Releases + Labels)
В чем сложность?
Есть два датасета: релизы и лейблы (Оба в формате XML).
Один весит 60Гб. Другой 400Мб.
Локально обработать 400Мб не проблема — это изи. А вот распарсить 60Гб и вытянуть оттуда только нужны период — хард задача.
Что нужно сделать:
1. Взять данные по релизам за последние 1.5–2 года
2. Сделать JOIN двух таблиц по названию лейбла (или по id)
В чем смысл?
В таблице releases (60Гб) надо взять названия лейблов, которые делали релизы за последние 2 года. Склеить их со справочной информацией из labels. Джойнить по id или по названию (выбрать ключ самостоятельно).
Датасеты (XML):
• Labels: https://data.discogs.com/?download=data%2F2026%2Fdiscogs_20260301_labels.xml.gz
• Releases: https://data.discogs.com/?download=data%2F2026%2Fdiscogs_20260301_releases.xml.gz
(Также есть семпл релизов во вложении — можно использовать для первичной проверки)
Пример чтения XML через PySpark:
Кто че думает? Какими инструментами бы обработали?
✅Update: витрину построили! Добавлю эту задачу в BootCamp!
Объединение ДАМПОВ ДАННЫХ Discogs (Releases + Labels)
В чем сложность?
Есть два датасета: релизы и лейблы (Оба в формате XML).
Один весит 60Гб. Другой 400Мб.
Локально обработать 400Мб не проблема — это изи. А вот распарсить 60Гб и вытянуть оттуда только нужны период — хард задача.
Что нужно сделать:
1. Взять данные по релизам за последние 1.5–2 года
2. Сделать JOIN двух таблиц по названию лейбла (или по id)
В чем смысл?
В таблице releases (60Гб) надо взять названия лейблов, которые делали релизы за последние 2 года. Склеить их со справочной информацией из labels. Джойнить по id или по названию (выбрать ключ самостоятельно).
Датасеты (XML):
• Labels: https://data.discogs.com/?download=data%2F2026%2Fdiscogs_20260301_labels.xml.gz
• Releases: https://data.discogs.com/?download=data%2F2026%2Fdiscogs_20260301_releases.xml.gz
(Также есть семпл релизов во вложении — можно использовать для первичной проверки)
Я планирую сегодня попробовать это все локально обработать. Спарк с моими 8-ми ядрами за минут 30-40 проходит. Но проблема в том, что трудно выцепить именно данные за определенный промежуток. Вот думаю.. возможно можно как-то обойти..
Пример чтения XML через PySpark:
import os
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("SparkExample") \
.config(
"spark.jars.packages",
"com.databricks:spark-xml_2.12:0.18.0"
) \
.getOrCreate()
from pyspark.sql.functions import max
df = (
spark.read
.format("xml")
.option("rowTag", "label")
.load("discogs_20260301_labels.xml")
)
df.show()
Кто че думает? Какими инструментами бы обработали?
✅Update: витрину построили! Добавлю эту задачу в BootCamp!
❤8👍5🔥3
Почему твое резюме НИКТО не видит?
Короче, у меня есть аккауант работодателя на ХАХА.точкаРУ
И я могу теперь видеть, где вы находитесь в выдаче ХАХА (полагаю все понимают, что за сайт же).
Например, я рекрутер и ищу Дата Инженера. Выставляю фильтры и ВАС там НЕ ВИЖУ.
Пример: Человек выложил резюме. Все круто.
При этом я выставляю фильтры по годам опыта, ставлю ВЫСШЕЕ образование, но резюме НЕТ.
А знаете почему?
Потому что можно поставить ВЫСШЕЕ, а можно поставить Бакалавр или Магистр. И это тоже является разницей!
По факту, лучше ставить просто ВЫСШЕЕ и ТОЧКА. В итоге человек поменял это и у меня в выдаче сразу появился.
Еще что заметил?
Когда листаешь резюме, симпатичнее выглядят те, на которых есть фотки. Вот как вы не хотите, но блин.. прям хочется тыкать на те, на которых есть реальный человек. Я не знаю, как это работает, но открывать людей без лица не охота))
Поэтому, кто хочет проверить свое резюме в выдаче и вообще прожариться, то го к нам в РОАДМАПЕРЫ!
Посмотрим, на каком месте ты в выдаче, по каким фильтрам тебя НЕ находят и что нужно поправить, чтобы тебя начали видеть
➡️ Вот здесь подписаться и сразу в чат залетай
Там сейчас 799 рубелй
Короче, у меня есть аккауант работодателя на ХАХА.точкаРУ
И я могу теперь видеть, где вы находитесь в выдаче ХАХА (полагаю все понимают, что за сайт же).
Например, я рекрутер и ищу Дата Инженера. Выставляю фильтры и ВАС там НЕ ВИЖУ.
В итоге вы сидите и не понимаете, почему вам НИКТО НЕ ПИШЕТ. Вы же не полковник - тут только милениалы поймут.
Пример: Человек выложил резюме. Все круто.
При этом я выставляю фильтры по годам опыта, ставлю ВЫСШЕЕ образование, но резюме НЕТ.
А знаете почему?
Потому что можно поставить ВЫСШЕЕ, а можно поставить Бакалавр или Магистр. И это тоже является разницей!
По факту, лучше ставить просто ВЫСШЕЕ и ТОЧКА. В итоге человек поменял это и у меня в выдаче сразу появился.
Еще что заметил?
Когда листаешь резюме, симпатичнее выглядят те, на которых есть фотки. Вот как вы не хотите, но блин.. прям хочется тыкать на те, на которых есть реальный человек. Я не знаю, как это работает, но открывать людей без лица не охота))
Есть ещё нюансы:
— HH подсвечивает резюме с ключевыми достижениями
— Показывает апрувнутые достижения на госуслугах
— Ну и еще куча всего, где надо прям тестировать
Поэтому, кто хочет проверить свое резюме в выдаче и вообще прожариться, то го к нам в РОАДМАПЕРЫ!
Посмотрим, на каком месте ты в выдаче, по каким фильтрам тебя НЕ находят и что нужно поправить, чтобы тебя начали видеть
Там сейчас 799 рубелй
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍5🔥5
Data Science и Data Engineering: какое направление выбрать в 2026 году?
🎧 1 апреля пройдет День открытых дверей онлайн-магистратуры НИЯУ МИФИ «Специалист по работе с данными и ИИ» в партнёрстве с Яндекс Практикумом.
Подключайтесь онлайн 1 апреля в 19:00 мск.
🏃♀️ Записаться на ДОД
🎧 1 апреля пройдет День открытых дверей онлайн-магистратуры НИЯУ МИФИ «Специалист по работе с данными и ИИ» в партнёрстве с Яндекс Практикумом.
На встрече обсудят:
💙 как рост ИИ трансформируют рынок труда
💙 4 трека для развития: ML, CV, NLP и Data Engineering
💙 какие задачи усложняются и где усиливается конкуренция
И расскажут, как за 2 года освоить фундаментальную базу, собрать портфолио из проектов и получить диплом магистра без отрыва от работы.
Подключайтесь онлайн 1 апреля в 19:00 мск.
🏃♀️ Записаться на ДОД
🤔4🔥3👍2👏2
История от подписчика по трудоустройству
Устроился в крупный телеком на стажировку за 75к.
Рассказываю.
Ещё до Нового года я собирался увольняться с моей предыдущей работы, чтобы вкатиться в IT. Мне необходимо было немного подготовиться, чтобы активно откликаться: немного подтянуть базу по DWH и ключевым инструментам ДЕ. Скажу сразу, магистратура у меня ДС, а не ДЕ. База по Python и SQL у меня была, но я решил всё равно чуть подтянуть SQL, чтобы от зубов отскакивало.
Я прошёл первый модуль симулятора Карпова до оконных функций и приступил к пет-проекту + изучению основ.
Это всё было в течении января. Из роадмапа я изучил весь основной материал для стажёра/джуна для DWH: OLTP, OLAP, ACID, Инмон, Кимбалл, batch, lambda, kappa; видео по Spark смотрел полностью, записывал, и немного читал статью. По Hadoop только самое основное читал. Про Airflow только самые необходимые вещи, которые потом в проекты использовал (DAG, EmptyOperator, PythonOperator). Про Greenplum чисто, чтобы рассказать немного про его архитектуру на собеседовании. Плюсом суперполезные статьи по Докеру и Гиту. Так же по Докеру бесплатно очень крутой от Карпова курс. Я его начинал, но не закончил. Там начала курса и роадмапа хватило, чтобы docker compose писать
Проект делал тот, который писал выше: Modern ETL с DWH на данных погоды из открытого API (Airflow, Greenplum, Clickhouse, Metabase, Docker, Git)
Самое главное было в откликах.
Я отобрал 30 рандомных вакансий и выписал, какие там ключевые навыки требуются и какие ключевые слова попадаются. Это, чтобы обойти АТС фильтры (опыт я ставил два года). Откликаться я начал, как только доделал проект (~30-31 января). Увольнялся я 10.
По итогу, я где-то 2 недели+ откликался, наверное, откликов 200 сделал (большая часть хх + хабр карьера). Было 3 собеса: один в фармкомпанию (они только открывали позицию ДЕ), один вообще линукс инженер (я по приколу чисто собесился к ним), крупный Телеком и один должен был быть в Сбер, но я тогда в крупный Телеком уже выходил и отменил его. Несколько раз (где-то 3-4 мне писали или звонили сами рекрутеры, к которым я даже не откликался)
Как-то так в целом. Роадмап помог в принципе очень сильно при подготовке пет-проекта, и ответах на собесах
В резюме было 2 года 2 месяца
Хотя проект по сути я недели за 3 сделал
——
Рассказываю.
Ещё до Нового года я собирался увольняться с моей предыдущей работы, чтобы вкатиться в IT. Мне необходимо было немного подготовиться, чтобы активно откликаться: немного подтянуть базу по DWH и ключевым инструментам ДЕ. Скажу сразу, магистратура у меня ДС, а не ДЕ. База по Python и SQL у меня была, но я решил всё равно чуть подтянуть SQL, чтобы от зубов отскакивало.
Я прошёл первый модуль симулятора Карпова до оконных функций и приступил к пет-проекту + изучению основ.
Это всё было в течении января. Из роадмапа я изучил весь основной материал для стажёра/джуна для DWH: OLTP, OLAP, ACID, Инмон, Кимбалл, batch, lambda, kappa; видео по Spark смотрел полностью, записывал, и немного читал статью. По Hadoop только самое основное читал. Про Airflow только самые необходимые вещи, которые потом в проекты использовал (DAG, EmptyOperator, PythonOperator). Про Greenplum чисто, чтобы рассказать немного про его архитектуру на собеседовании. Плюсом суперполезные статьи по Докеру и Гиту. Так же по Докеру бесплатно очень крутой от Карпова курс. Я его начинал, но не закончил. Там начала курса и роадмапа хватило, чтобы docker compose писать
Проект делал тот, который писал выше: Modern ETL с DWH на данных погоды из открытого API (Airflow, Greenplum, Clickhouse, Metabase, Docker, Git)
Самое главное было в откликах.
Я отобрал 30 рандомных вакансий и выписал, какие там ключевые навыки требуются и какие ключевые слова попадаются. Это, чтобы обойти АТС фильтры (опыт я ставил два года). Откликаться я начал, как только доделал проект (~30-31 января). Увольнялся я 10.
По итогу, я где-то 2 недели+ откликался, наверное, откликов 200 сделал (большая часть хх + хабр карьера). Было 3 собеса: один в фармкомпанию (они только открывали позицию ДЕ), один вообще линукс инженер (я по приколу чисто собесился к ним), крупный Телеком и один должен был быть в Сбер, но я тогда в крупный Телеком уже выходил и отменил его. Несколько раз (где-то 3-4 мне писали или звонили сами рекрутеры, к которым я даже не откликался)
Как-то так в целом. Роадмап помог в принципе очень сильно при подготовке пет-проекта, и ответах на собесах
В резюме было 2 года 2 месяца
Хотя проект по сути я недели за 3 сделал
——
❤24👍8🔥4😁3👏1
Как вывести себя в ТОП?
Все очень тупо.
1. В резюме в должностях пишем Data Engineer | Инженер Данных
В описании опыта больше слов с Data
Data WareHouse, Data Lake, Data Quality и так далее
В о себе тоже пишем какую-нибудь чушь со словами Data
2. Ставим Активно ищет работу
3. Образование ставим Высшее (не бакалавр или магистр), лучшее общую формулировку поставить
4. Подтвержденные навыки тоже будут вас выкидывать наверх. Я попробовал пройти sql и python с чатом гпт. В плане просто телефоном показывал экран. Даже не читал задания. В итоге чат гпт дает половину правильных ответов. Что равно тупо кликать наугад. Лучше проходить с невидимым ассистентом для собесов. Но в целом вас по ключевым словам и так выводит в топ.
ВСЕ. ЗАНАВЕС
Все очень тупо.
1. В резюме в должностях пишем Data Engineer | Инженер Данных
В описании опыта больше слов с Data
Data WareHouse, Data Lake, Data Quality и так далее
В о себе тоже пишем какую-нибудь чушь со словами Data
2. Ставим Активно ищет работу
3. Образование ставим Высшее (не бакалавр или магистр), лучшее общую формулировку поставить
4. Подтвержденные навыки тоже будут вас выкидывать наверх. Я попробовал пройти sql и python с чатом гпт. В плане просто телефоном показывал экран. Даже не читал задания. В итоге чат гпт дает половину правильных ответов. Что равно тупо кликать наугад. Лучше проходить с невидимым ассистентом для собесов. Но в целом вас по ключевым словам и так выводит в топ.
ВСЕ. ЗАНАВЕС
❤35👍20🔥6
БИГ ДАТА ВСЁ! СПАРК ВСЁ!
Начало поста:
Конец поста
Источник
Мое мнение: Вообще согласен. Но до реальности это может так и не дойти, либо дойдет очень и очень не скоро. Сколько кода уже написано и переписывать его на новые инструменты не целесообразно - это ведь деньги. И очень непонятно, как объяснить бизнесу, что надо сейчас АСТАНАВИТЬСЯ! и все переделывать под поларс и duckDB. Но с другой стороны запуск спарка, когда у тебя есть кластера - не проблема. Ну да.. крутим этими кластерами не ТБ, а даже меньше. А что если в какой-то момент надо будет крутить больше.. Будем срочно перекатываться?
Да и на запуск спарка я бы не сказал, что это проблема. Да, инициализация бывает долгая, пока спарк стартанет. Ну подождать 5 минут можно.. Хотя если ресурсы есть, то за 10 секунд все собирает.
Короче это холиварная тема. Согласен, что некоторые инструменты просто не нужны в компании, но кто даст время не пересборку всех кубер операторов, переписывание и переделку инфры?
В мелких компаниях я бы рассмотрел polars + duckDB точно.. Там еще и рядом starrocks же есть. Вообще всеми руками за!
В ЛинкеДЫНЕ увидел интересный пост. Решил тут его запостить с указанием автора.
А ведь реально, зачем иногда запускать спарк, когда можно все крутить другими инструментами, менее требовательными к настройке и железу.
Начало поста:
⚡️ Data Engineer 2026: Хватит использовать кувалду для гвоздей. Почему Spark часто избыточен.
"Spark или Polars?".
Решил провести тест на реальных данных — 1 ТБ логов (соединения, аггрегации, фильтры).
Условия:
Spark: Кластер EMR (3 ноды, суммарно 48 ядер, 128 ГБ RAM). Время включает поднятие сессий и настройку.
Polars + DuckDB: Ноутбук с 64 ГБ RAM. Никакого кластера.
Результаты меня самого удивили:
Spark (кластер): ~20 минут чистой обработки + 5 минут на инициализацию. Итог: 25 минут.
Polars + DuckDB (на компе):
Обработка пачками по 100 ГБ: 7 минут (и можно параллелить).
Однопроходная обработка всего 1 ТБ: 11 минут.
Почему так? Данные не врут, и они совпадают с последними исследованиями :
Скорость: На данных до 1-2 ТБ современные векторизованные движки (Polars, DuckDB) просто быстрее JVM-стека Spark из-за отсутствия накладных расходов на сериализацию и shuffle .
Память: Polars в ленивом режиме реально жрет на 60-70% меньше памяти, чем Spark на аналогичных операциях. Это доказано в тестах MDPI . Данные не хранятся в памяти, а текут через процесс (streaming).
Удобство: Не надо настраивать кластер. Просто pip install.
Но давайте без хайпа. Где правда?
✅ Polars + DuckDB идеальны, когда:
Ваши данные "помещаются" на один хороший сервер (до 5-10 ТБ).
Вы ненавидите возню с конфигами Spark.
У вас 80% ETL-задач — фильтрация, аггрегация, джойны (но не 100-столовые монстры).
❌ Spark все еще рулит, если:
У вас петабайты и тысячи ядер.
Нужна единая платформа с глобальным каталогом данных (Unity Catalog и т.п.).
Требуется сложный стриминг exactly-once, который уже обкатан годами .
Мой вывод: Для 90% дата-инженеров, работающих с "терабайтами", Spark — это оверкилл. Мы платим за сложность инфраструктуры там, где можно обойтись одним мощным инстансом и умным кодом.
Конец поста
Источник
Мое мнение: Вообще согласен. Но до реальности это может так и не дойти, либо дойдет очень и очень не скоро. Сколько кода уже написано и переписывать его на новые инструменты не целесообразно - это ведь деньги. И очень непонятно, как объяснить бизнесу, что надо сейчас АСТАНАВИТЬСЯ! и все переделывать под поларс и duckDB. Но с другой стороны запуск спарка, когда у тебя есть кластера - не проблема. Ну да.. крутим этими кластерами не ТБ, а даже меньше. А что если в какой-то момент надо будет крутить больше.. Будем срочно перекатываться?
Да и на запуск спарка я бы не сказал, что это проблема. Да, инициализация бывает долгая, пока спарк стартанет. Ну подождать 5 минут можно.. Хотя если ресурсы есть, то за 10 секунд все собирает.
Короче это холиварная тема. Согласен, что некоторые инструменты просто не нужны в компании, но кто даст время не пересборку всех кубер операторов, переписывание и переделку инфры?
В мелких компаниях я бы рассмотрел polars + duckDB точно.. Там еще и рядом starrocks же есть. Вообще всеми руками за!
👍26❤12🔥7
Roadmap обновляется быстрее, чем вы успеваете проходить!
Закинули свежие задачи по SQL и Python — всё с реальных собесов.
Плюс добавили песочницу для SQL прямо в браузере:
никаких установок, просто заходишь и решаешь.
Раздел: «Вопросы с собеседований → SQL задачи»
Получить Roadmap —> @bootcampych_bot
Закинули свежие задачи по SQL и Python — всё с реальных собесов.
Плюс добавили песочницу для SQL прямо в браузере:
никаких установок, просто заходишь и решаешь.
Раздел: «Вопросы с собеседований → SQL задачи»
Получить Roadmap —> @bootcampych_bot
🔥47👍12❤8
Крутой пример типичной задачи для Дата Инженера!
Есть двастула датасета формата XML. Один 60Гб, другой 400Мб. Надо взять последние 2 года из первого и сджойнить со вторым.
В чем сложности?
60 гигов в формате XML это просто один большой кусок файла. Он не разбит на партции, не имеет в комплекте готовую схему данных + внутри некоторые значения полей могут быть не совсем валидны (в поле год, может стоять не дата, а номер).
С файликом в 400Мб все ок, он без дубликатов и с хорошим качеством - ну это считайте словарик.
Я описал в roadmap этот пет проект, можете смело брать и тестировать, реально коммерческий пример сборки витрины данных.
Что уже есть внутри:
- Пример кода для сборки витрин на PySpark
- Пример чтения XML и сохранения в parquet
- Уже готовый датасет в формате parquet
➡️ еще раз, вот ссылка на пет проект - Проект №5 - Сборка витрины на Spark
——-
P.S. кстати, если хотите сказать спасибо roadmap, то вот ссылка
Есть два
В чем сложности?
60 гигов в формате XML это просто один большой кусок файла. Он не разбит на партции, не имеет в комплекте готовую схему данных + внутри некоторые значения полей могут быть не совсем валидны (в поле год, может стоять не дата, а номер).
С файликом в 400Мб все ок, он без дубликатов и с хорошим качеством - ну это считайте словарик.
Я описал в roadmap этот пет проект, можете смело брать и тестировать, реально коммерческий пример сборки витрины данных.
Что уже есть внутри:
- Пример кода для сборки витрин на PySpark
- Пример чтения XML и сохранения в parquet
- Уже готовый датасет в формате parquet
——-
P.S. кстати, если хотите сказать спасибо roadmap, то вот ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤10🔥5👏5
Media is too big
VIEW IN TELEGRAM
#BootCampDE — Январь-Февраль 2026
Меня зовут Александр. Я обучался на 4-м потоке буткемпа.
О буткемпе случайно узнал в январе 2026 года. В это время я искал новое место работы, так как попал под сокращение из-за урезания финансирования проекта со стороны заказчика.
Я работал разработчиком SQL более 10 лет и задумался: стоит ли мне дальше искать работу в этом же направлении или пройти обучение и получить более востребованную на рынке специальность.
Наткнувшись на сайт roadmappers.ru, я заинтересовался дата инженерией и посмотрел доступные на youtube видеоролики организаторов буткемпа. Идея пройти обучение в формате реального рабочего места мне показалась очень правильной, и я записался на курс.
Во время обучения мне очень понравилась подача материала в формате видеозвонков, постановка задача в жире, подробная документация в конфлюенсе и конечно же возможность самому решать реальные задачи на базе развернутой инфраструктуры рабочего места. Организаторы буткемпа, Володя и Женя, всегда помогали, если были проблемы. Практически 24 часа в сутках были на связи и очень здорово мотивировали в учебе и дальнейшем поиске работы.
В конце курса Володя с Женей помогли нам доработать и систематизировать резюме, чтобы они проходили фильтры ИИ и попадали в топ поиска для HR компаний. Как закономерный итог обучения я смог найти работу по специальности дата-инженера🏁.
Выражаю огромную благодарность за обучение, наставничество и помощь с трудоустройством!
Рекомендую буткемп всем, кто хочет реально войти в профессию.
🔥 Всем хороших офферов!
_____________________________
Александр — пример сильного подхода к обучению.
За 2 месяца он:
— глубоко погружался в темы
— задавал много вопросов
— проходил дополнительный материал
— не ограничивался базовой программой
Поздравляем с оффером! 🚀
Набор на май месяц в самом разгаре, уже забронирвано половина потока, так что поторопись записаться – @bootcampych_bot.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍5❤4👏4
Когда идём?
Я собрал прикольное приложение (как мне кажется).
Заходишь в приложение, отмечаешь с друзьями дни, когда свободен, и видишь, когда все могут.
Вот я хотел собрать друзей на картинг. И как же мне надоело у каждого спрашивать, в какой день он (она) может. Это какой-то ад. Все занятые бизнесмены, как и я. В понедельник не может — яхту покупает. В среду не может — Бентли забирает из салона.
В итоге я взял вайбкодинг и собрал мини-апп. Все заходят по ссылке-приглашению и выбирают день, когда свободны. Приложение само определяет пересечения и показывает общий день. Авторизация через Телеграм, но в будущем можно сделать через что угодно.
Через что сделал?
Вайбкодинг на Codex от OpenAI + искал вдохновение на ReplitAI.
Из приколюх: есть кнопка «Напомнить всем». Нажимаешь, и приложение всем присылает напоминалку о событии либо о том, что надо выбрать день.
Версия альфа, поэтому, вероятно, найдёте бэкдоры, баги или ошибки. Предлагаю нам потестировать! Можете и свои встречи создавать!
Вот, я создал встречу. Лимит на одну встречу максимум 15 человек. Заходите-пробуйте!
Уже набрали 15 человек)
Для всех, вот приложение
@kogda_idemBot
➡️ update: теперь можно еще и выбрать место. Подключил API Яндекс Карты
P.S. если найдете баги, ошибки или приложение упадет, пишите в лс. Разберемся.
Заходишь в приложение, отмечаешь с друзьями дни, когда свободен, и видишь, когда все могут.
Вот я хотел собрать друзей на картинг. И как же мне надоело у каждого спрашивать, в какой день он (она) может. Это какой-то ад. Все занятые бизнесмены, как и я. В понедельник не может — яхту покупает. В среду не может — Бентли забирает из салона.
В итоге я взял вайбкодинг и собрал мини-апп. Все заходят по ссылке-приглашению и выбирают день, когда свободны. Приложение само определяет пересечения и показывает общий день. Авторизация через Телеграм, но в будущем можно сделать через что угодно.
Через что сделал?
Вайбкодинг на Codex от OpenAI + искал вдохновение на ReplitAI.
Из приколюх: есть кнопка «Напомнить всем». Нажимаешь, и приложение всем присылает напоминалку о событии либо о том, что надо выбрать день.
Версия альфа, поэтому, вероятно, найдёте бэкдоры, баги или ошибки. Предлагаю нам потестировать! Можете и свои встречи создавать!
Вот, я создал встречу. Лимит на одну встречу максимум 15 человек. Заходите-пробуйте!
Уже набрали 15 человек)
Для всех, вот приложение
@kogda_idemBot
P.S. если найдете баги, ошибки или приложение упадет, пишите в лс. Разберемся.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32👍13👏6❤3