Я – Дата Инженер | Евгений Виндюков
5.03K subscribers
353 photos
36 videos
13 files
243 links
💵 Как стать Data Engineer
🗄 Смотри Roadmap в закрепе!
_____________________________
Автор @halltape
Все вопросы по рекламе @k_shredinger
Download Telegram
Всем привет!👋

Сразу хочу перед всеми вами извиниться😳 — давно ничего нормального не писал, не выкладывал ролики и всё такое.

После того как я начал заниматься предпринимательской деятельностью, на меня лёг вообще не лёгкий груз🙀. Постоянное улучшение продуктов, разборки с банками и налоговой, составление публичных оферт, подача данных в РНК, договоры оказания услуг, политики обработки данных и многое-многое другое.

Я никогда в жизни не думал, что буду постоянно общаться с юристами и бухгалтерами на темы вроде: «а где на сайте или в телеграм-боте поставить кнопку согласия на обработку персональных данных?» или «а почему возврат денежных средств является операцией прямого перевода со счёта ИП на физлицо?»

Я теперь начинаю понимать, почему курсы стоят по 100к, а менторство по 5–7к за 1 час. Не потому что, там проведена офигенная работа, а в первую очередь — потому что ты подставляешь свою пятую точку: за любой проёб, вплоть до уголовки. И без шуток — это иногда реально пугает!🤢

И всё это проходит параллельно с основной работой. А там тоже своих задач хватает.

В итоге времени просто подумать, о чём написать пост, нет от слова совсем.

Нооооо! Помимо всей этой банковско-налоговой движухи, мы продолжаем улучшать продукты. И я ПОЛНОСТЬЮ переписал статью по Airflow в роадмапе.

Ребята с буткемпа, роадмаперов и инфрашеринга уже успели заценить — они её обкатывали, чтобы для всех вас сделать только лучшее. Формат простой: берёшь, читаешь, копируешь код и реально понимаешь, как оно работает. Расписал на столько понятно, на сколько смог, но подобного ни где не находил. Да и в целом не просто статья, а полноценный курс, за который обычно берут нехилые деньги. А для Вас он бесплатен буден всегда.

Единсвенная просьба, буду рад любому распространению среди друзей, коллег, знакомых — это даст безумный буст и поможет находить время, чтобы клепать для вас что-то новое 🙌

В любом случае — не прощаемся и не теряемся. Надеюсь, в этом месяце разберусь со всей бюрократией и пойдём дальше клепать контент 🚀

Наши ссылки:
📍 Сайт Roadmapper.ru
💬 Телеграмм-чат Roadmappers.ru
💙 ВК
📺 YouTube(Инженерообязанный)
📺 YouTube(Евгений Виндюков)
💬 Телеграмм-канал(Инженерообязанный)
💬 Телеграмм-канал(Я - Дата Инженер)
🖤 Сетка
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2413👍8😁2😱1
🚫 Чёрные списки кандидатов в IT — тупиковая идея

Люди спрашивают: «А что если меня занесут в черный список?!»

Типа накрутил опыт или плохо ответил на собесе и на тебя поставили черную метку.

Давайте разберемся, почему сегодня черный список спасет Тим Лида от обманщика, но уже завтра станет предметом его шантажа.

Любые черные списки, где можно идентифицировать человека, являются источниками перс данных. Тут сразу 152 ФЗ, статья 88 ТК РФ. Коротко это о том, что нельзя хранить, обрабатывать или передавать перс данные третьим лицам без согласия человека. Иначе штраф, исправительные работы и далее по списку.

Плюс ко всему, если делается какой-то общий сервис неугодных, то он становится оператором перс данных. Дальше должны быть выполнены условия по хранению этих данных, безопасности и прочее. Короче говоря, там бюрократии еще больше, чем данных.

Теперь прикинем минусы таких BLACK LIST:

🔹Инструмент субъективизма.
Груб на собесе, сомнительное резюме, странный цвет глаз. Либо нужны правила, по которым человек может быть внесен или это будет чистая субъективщина.

🔹 Сегодня убили джуна, завтра не нашли сеньора
Человек плохо прошел собес, списал или накосячил - на него ставят черную метку. Через 2-3-100 лет он(а) вырастает в хорошего спеца для рынка, но компания уже не может взять его, так как черный список. Опять же, нужны правила выхода из черного списка. Это уже какой-то срок давности уголовного дела.

🔹 Шантаж
Захочешь уволиться раньше времени, мы тебя в черный список занесем! Ходишь параллельно на собесы, в черный список!

🔹 Коррупция
Надо человечка одного из черного списка убрать. Вопрос как будем решать: тихо мирно по телефону или моих псов подогнать? И наоборот. Надо человечка одного закинуть в бан лист, чтобы уже никогда не смог выбраться. Сколько будет стоить данный вопрос.

Ну т.е. простое эмоциональное желание подгадить другим людям, придумывая репрессивные методы, создает огромные риски вообще для всех. Плюс это еще одно увеличение очередных фильтров. Года опыта, возраст, а теперь еще и черный список.

В итоге по-настоящему идеальный кандидат у нас будет существовать только в книжке, как и какое-нибудь идеальное DWH.
🔥139👍3👏1
Нашего Roadmap скоро не станет!

На самом деле мы скоро будем закрывать текущую версию и перекатывать всех на новую обновленную, где есть светлая-темная тема, оптимизация под мобильные устройства и так далее.

Если зайдете и полистаете, то увидите, что дизайн реально стал круче и удобнее. Плюс добавлена функция копирования блоков кода - это прям удобно. И хостится это все теперь на нашем РОССИЙСКОМ сервере, а не на ОМЕРИКАНСКОМ ГИТХАБЕ! Уууу американцы

➡️ Можно прямо сейчас получить ссылку на новый роадмап в боте @bootcampych_bot

И кстати там же записаться на ближайший поток в BootCamp или купить InfraSharing.

Роадмап будет также доступен всем и абсолютно бесплатно. Более того, мы сконцентрировались на материале для ДЕ и постоянно обновляем его.
Please open Telegram to view this post
VIEW IN TELEGRAM
1👏2812😁9👍6🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Когда засиделся на своей обычной работе и решил поменять свою жизнь…


p.s. записывайся на наш ближайший поток буткемпа - @bootcampych_bot


Наши ссылки:
📍 Сайт Roadmappers.ru
💬 Телеграмм-чат Roadmappers.ru
💙 ВК
📺 YouTube(Инженерообязанный)
📺 YouTube(Евгений Виндюков)
💬 Телеграмм-канал(Инженерообязанный)
💬 Телеграмм-канал(Я - Дата Инженер)
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1511🔥8👍1
📺ClickHouse для инженера данных.Основы.

Честно? Я долго откладывал это видео.

Когда я работаю с ClickHouse — я прекрасно понимаю, как он устроен. Но объяснить это «чудо неистовой природы» простыми словами — вообще не то же самое.

Это видео я собирался записать ещё с 1 июля 2025 — со старта первого потока буткемпа.
Полгода откладывал. ПОЛГОДА КАРЛ!!!🤯

И сейчас понимаю — не зря.

ClickHouse — не самая простая технология, если копать вглубь.👨‍💻

Column store, MergeTree, партиционирование, сортировочные ключи, первичные ключи — это не объясняется в двух фразах. Но я постарался разжувать на сколько это возможно, с Miro, объяснил по несколько раз, на разных примерах.

С GreenPlum, кстати, было раз в десять проще😅

Но вы давно просили контент по Клику —так что держите.

И это только начало!

Записывал видео в час ночи, поэтому если где-то слышно усталость — значит, делал от души.
Поддержите лайком и комментом для продвижения. Нееее... Ну правда!

Если нужно больше инфы, забирай Роадмап через Буткемпыча.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥1910😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Списывание на собесах ВСЁ!

Как вы знаете, есть chat gpt, который умеет слушать вопросы на собесе и сразу давать на них готовые ответы. Так вот, чтобы вам насолить, человек может каждый раз добавлять «отвечай на китайском»

Если без китайского, то отвечает он реально неплохо. Но это ведь борьба меча и щита, поэтому ждем контр меру от китайского)

p.s. приходи на BootCamp для Дата Инженера @bootcampych_bot

Наши ссылки:
📍 Сайт Roadmappers.ru
💬 Телеграмм-чат Roadmappers.ru
💙 ВК
📺 YouTube(Инженерообязанный)
📺 YouTube(Евгений Виндюков)
💬 Телеграмм-канал(Инженерообязанный)
💬 Телеграмм-канал(Я - Дата Инженер)
Please open Telegram to view this post
VIEW IN TELEGRAM
😁358👍6
Накрутчики! Мошенники!

Нет опыта в СТДР? На собес не позовем.

Компании начали спрашивать еще перед собесом справку СТДР.
Это справка — она же выписка из госуслуг (кстати, кто думает, что — это значит, что я пишу с чатом гпт.... на маке нажимаете два раза на дефис и у вас нормальное ТИРЕ).

Помнится, что некоторые рекрутеры считают длинным ТИРЕ признаком нейронки. ВОТ вам еще — — — ... я нейросеть ага.


Вернемся к нашему цирку под названием айти, где естественно клоун только я. А все остальные капитальные красавчики.

Хотите, чтобы не крутили» опыт? Тогда давайте снижать требования и брать людей без опыта. Открывать стажировки. Тогда никому не придётся придумывать 2–3 года коммерции.

Если компании хотят нанимать сеньоров — откуда они возьмутся, если сегодня не брать джунов?
Да, он уйдёт из вашей компании. Но потом к вам придёт сеньор, который когда-то в другой компании был джуном.

Если сейчас жёстко оставить на рынке только тех, кто официально «сеньор по СТДР», то очень быстро специалистов просто не останется. Либо все трудоустроены, либо их физически нет.

Придумывать бюрократию можно бесконечно.
«Накрутка» опыта появилась, потому что без опыта не берут — а получить его негде.

Рекрутеры требуют СТДР. Их не волнует ваши проекты и другие заслуги.

- Коммиты в open source
- Медали из универа
- Хакатоны

Все это уже не работает. У вас в стдр нет опыта, о чем может идти речь? У вас нет коммерческого опыта.
Нетворкинг? Это когда тебя взял брат, сват, друг. Для большинства людей это не воспроизводимая история. Это как выиграть в лотерею — должны сойтись все звёзды.

Иногда люди говорят: Вот я попал в IT без накрутки, а вы скатины обманывайте всех.
Только проблема в том, что такие люди попали в IT тогда, когда тебя брали просто за умение компьютер включать и не было такого ажиотажа.

Но вы возразите мне: "ВСЕ ИДУТ В IT! КУРСЫ ВСЕМ НАПЕЛИ ПРО ВЫСОКИЕ ЗАРПЛАТЫ И УСЛОВИЯ! НЕ НАДО СЮДА ИДТИ, ТВАРИ!"

А я вам отвечу: "Альтернативной профессии я пока не знаю, где можно получать высокую зарплату и сидеть на удаленке. Все примеры, как сын маминой подруги ведет бизнес или продает мебель, не вставая с дивана, являются исключениями. Везде есть богачи, но это не подчиняется системе конкретных действий"

Люди идут в ту деятельность, которая даст им деньги и комфортные условия. Какое вообще может быть дело кому-то о причинах перехода в профессию.

По поводу стажировок. Я знаю, что они иногда появляются и это конечно хорошо. Мы не говорим о том, что там немного платят. Но там и берут без опыта. Т.е. можно честно нормально залетать. Кстати, я говорю про те стажировки, которые для НЕ СТУДЕНТОВ. Вообще-то существуют люди, которые вкатываются в профессию старше студентов. И это нормально. Я сам такой.

Но их все еще не много.

Вывод: Есть опыт? Отвечаем да. Просят скинуть СТДР? Скидываем. Просят скинуть договоры, скидываем. Если им на той стороне что-то не понравится, просто скипаем компанию. Вдруг они вообще не смотрят и не сверяют и берут вас на понт. Короче фраза fake it till you make it.
34🔥17😁6👏4
Почему наш Roadmap переехал?

Потому что Мы как Цирк дю Солей

Потому что захотелось адаптацию по мобилку, темную-светлую тему и кастомизацию по кнопкам и так далее. Короче весь фронтенд вайб..

И помог нам это сделать фронтенд разработчик Эрик @storm_de!

Кстати у него еще есть свои каналы:
вакансии для дата инженеров @data_engineer_jobs

Эрик сделал нам наш сайт и Roadmap для Дата Инженеров
roadmappers.ru

ссылку на roadmap для Дата Инженера можно получить тут - @bootcampych_bot
👍15🔥103😁2
ИИ рекрутеры наступают


и отступают потом
😁87👍11🔥103😱2
Если живешь в Беларуси!

Вот есть такая информация.

🔴 ДЛЯ ГРАЖДАН РЕСПУБЛИКИ БЕЛАРУСЬ!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍8👏2
Запись на 6й поток открыта!

Для записи переходи в бот
👉 @bootcampych_bot

Запись стрима, где подробно рассказали о буткемпе и из чего он состоит:

📺 Ютуб
📺 Рутуб
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥6👏4
➡️ Генератор вопросов и задач!

Но сейчас он выключен. Нужно ли снова включить его?

https://studio.roadmappers.ru

Что на сайте можно делать?
1. Сгенерировать задачу любой сложности по любому языку
2. Сгенерить 5 вопросов для мок собеса любой сложности по любому IT направлению
3. Сгенерить карточки с примером ответов любой сложности по любому IT направлению
4. Системный дизайн любой сложности по любому IT направлению

Короче, под капотом DeepSeek API. Деньги там закончились, так как люди начали, видимо, пользоваться активно.

🔴 Если этот пост соберет 50 лайков, я снова закидываю бабки на счет и вы крутите этот казиныч сервис.


update: начинаю закидывать бабки на счет
Please open Telegram to view this post
VIEW IN TELEGRAM
110👍12817🔥11
This media is not supported in your browser
VIEW IN TELEGRAM
Когда твое резюме никто не смотрит на HH и
____________

Записывайся на BootCamp для дата инженера тут - @bootcampych_bot
😁22🔥8👍31
Ред Флаг для Инженера Данных

они вам не Глебы Соломины

▶️ Запись СТРИМА на YouTube

Запись стрима, который был 14 марта. Выбирали и обсуждали худшие и лучшие стеки и технологии для ДЕшника.

Под конец собрали СТЕК ЛУЧШЕЙ КОМПАНИИ И ХУДШЕЙ

для тех, кто не умеет смотреть ютуб —> RUTUBE прости господи

Наши ссылки:
📍 Сайт Roadmappers.ru
💬 Телеграмм-чат Roadmappers.ru
📺 YouTube(Инженерообязанный)
📺 YouTube(Евгений Виндюков)
💬 Телеграмм-канал(Я - Дата Инженер)
💬 Телеграмм-канал(Инженерообязанный)
💙 ВК
Please open Telegram to view this post
VIEW IN TELEGRAM
👍175🔥5
Короче вот, что я подумал.

Создадим везде каналы и чаты. В RoamdapDE и в телеге на главной будут ссылки.

Вот кто куда захочет, тот туда и перейдет. Если на какой-то площадке будет мертво, то она и умрет сама своей смертью.
👍336🔥3🤯1😱1
500_2000s.csv
341.9 KB
📊 Мне друг подкинул интересную задачу

Объединение ДАМПОВ ДАННЫХ Discogs (Releases + Labels)

В чем сложность?
Есть два датасета: релизы и лейблы (Оба в формате XML).

Один весит 60Гб. Другой 400Мб.
Локально обработать 400Мб не проблема — это изи. А вот распарсить 60Гб и вытянуть оттуда только нужны период — хард задача.

Что нужно сделать:
1. Взять данные по релизам за последние 1.5–2 года
2. Сделать JOIN двух таблиц по названию лейбла (или по id)

В чем смысл?
В таблице releases (60Гб) надо взять названия лейблов, которые делали релизы за последние 2 года. Склеить их со справочной информацией из labels. Джойнить по id или по названию (выбрать ключ самостоятельно).

Датасеты (XML):
• Labels: https://data.discogs.com/?download=data%2F2026%2Fdiscogs_20260301_labels.xml.gz
• Releases: https://data.discogs.com/?download=data%2F2026%2Fdiscogs_20260301_releases.xml.gz

(Также есть семпл релизов во вложении — можно использовать для первичной проверки)

Я планирую сегодня попробовать это все локально обработать. Спарк с моими 8-ми ядрами за минут 30-40 проходит. Но проблема в том, что трудно выцепить именно данные за определенный промежуток. Вот думаю.. возможно можно как-то обойти..


Пример чтения XML через PySpark:

import os
from pyspark.sql import SparkSession

spark = SparkSession.builder \
.appName("SparkExample") \
.config(
"spark.jars.packages",
"com.databricks:spark-xml_2.12:0.18.0"
) \
.getOrCreate()

from pyspark.sql.functions import max

df = (
spark.read
.format("xml")
.option("rowTag", "label")
.load("discogs_20260301_labels.xml")
)

df.show()


Кто че думает? Какими инструментами бы обработали?

Update:
витрину построили! Добавлю эту задачу в BootCamp!
8👍5🔥3
Почему твое резюме НИКТО не видит?

Короче, у меня есть аккауант работодателя на ХАХА.точкаРУ

И я могу теперь видеть, где вы находитесь в выдаче ХАХА (полагаю все понимают, что за сайт же).
Например, я рекрутер и ищу Дата Инженера. Выставляю фильтры и ВАС там НЕ ВИЖУ.

В итоге вы сидите и не понимаете, почему вам НИКТО НЕ ПИШЕТ. Вы же не полковник - тут только милениалы поймут.


Пример: Человек выложил резюме. Все круто.
При этом я выставляю фильтры по годам опыта, ставлю ВЫСШЕЕ образование, но резюме НЕТ.

А знаете почему?
Потому что можно поставить ВЫСШЕЕ, а можно поставить Бакалавр или Магистр. И это тоже является разницей!
По факту, лучше ставить просто ВЫСШЕЕ и ТОЧКА. В итоге человек поменял это и у меня в выдаче сразу появился.

Еще что заметил?
Когда листаешь резюме, симпатичнее выглядят те, на которых есть фотки. Вот как вы не хотите, но блин.. прям хочется тыкать на те, на которых есть реальный человек. Я не знаю, как это работает, но открывать людей без лица не охота))

Есть ещё нюансы:
— HH подсвечивает резюме с ключевыми достижениями
— Показывает апрувнутые достижения на госуслугах
— Ну и еще куча всего, где надо прям тестировать


Поэтому, кто хочет проверить свое резюме в выдаче и вообще прожариться, то го к нам в РОАДМАПЕРЫ!
Посмотрим, на каком месте ты в выдаче, по каким фильтрам тебя НЕ находят и что нужно поправить, чтобы тебя начали видеть

➡️ Вот здесь подписаться и сразу в чат залетай
Там сейчас 799 рубелй
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍5🔥5
Data Science и Data Engineering: какое направление выбрать в 2026 году?

🎧 1 апреля пройдет День открытых дверей онлайн-магистратуры НИЯУ МИФИ «Специалист по работе с данными и ИИ» в партнёрстве с Яндекс Практикумом.

На встрече обсудят:

💙 как рост ИИ трансформируют рынок труда
💙 4 трека для развития: ML, CV, NLP и Data Engineering
💙 какие задачи усложняются и где усиливается конкуренция

И расскажут, как за 2 года освоить фундаментальную базу, собрать портфолио из проектов и получить диплом магистра без отрыва от работы.

Подключайтесь онлайн 1 апреля в 19:00 мск.

🏃‍♀️ Записаться на ДОД
🤔4🔥3👍2👏2
История от подписчика по трудоустройству

Устроился в крупный телеком на стажировку за 75к.

Рассказываю.
Ещё до Нового года я собирался увольняться с моей предыдущей работы, чтобы вкатиться в IT. Мне необходимо было немного подготовиться, чтобы активно откликаться: немного подтянуть базу по DWH и ключевым инструментам ДЕ. Скажу сразу, магистратура у меня ДС, а не ДЕ. База по Python и SQL у меня была, но я решил всё равно чуть подтянуть SQL, чтобы от зубов отскакивало.

Я прошёл первый модуль симулятора Карпова до оконных функций и приступил к пет-проекту + изучению основ.
Это всё было в течении января. Из роадмапа я изучил весь основной материал для стажёра/джуна для DWH: OLTP, OLAP, ACID, Инмон, Кимбалл, batch, lambda, kappa; видео по Spark смотрел полностью, записывал, и немного читал статью. По Hadoop только самое основное читал. Про Airflow только самые необходимые вещи, которые потом в проекты использовал (DAG, EmptyOperator, PythonOperator). Про Greenplum чисто, чтобы рассказать немного про его архитектуру на собеседовании. Плюсом суперполезные статьи по Докеру и Гиту. Так же по Докеру бесплатно очень крутой от Карпова курс. Я его начинал, но не закончил. Там начала курса и роадмапа хватило, чтобы docker compose писать

Проект делал тот, который писал выше: Modern ETL с DWH на данных погоды из открытого API (Airflow, Greenplum, Clickhouse, Metabase, Docker, Git)

Самое главное было в откликах.
Я отобрал 30 рандомных вакансий и выписал, какие там ключевые навыки требуются и какие ключевые слова попадаются. Это, чтобы обойти АТС фильтры (опыт я ставил два года). Откликаться я начал, как только доделал проект (~30-31 января). Увольнялся я 10.

По итогу, я где-то 2 недели+ откликался, наверное, откликов 200 сделал (большая часть хх + хабр карьера). Было 3 собеса: один в фармкомпанию (они только открывали позицию ДЕ), один вообще линукс инженер (я по приколу чисто собесился к ним), крупный Телеком и один должен был быть в Сбер, но я тогда в крупный Телеком уже выходил и отменил его. Несколько раз (где-то 3-4 мне писали или звонили сами рекрутеры, к которым я даже не откликался)

Как-то так в целом. Роадмап помог в принципе очень сильно при подготовке пет-проекта, и ответах на собесах

В резюме было 2 года 2 месяца
Хотя проект по сути я недели за 3 сделал
24👍8🔥4😁3👏1
Как вывести себя в ТОП?

Все очень тупо.
1. В резюме в должностях пишем Data Engineer | Инженер Данных

В описании опыта больше слов с Data
Data WareHouse, Data Lake, Data Quality и так далее

В о себе тоже пишем какую-нибудь чушь со словами Data

2. Ставим Активно ищет работу

3. Образование ставим Высшее (не бакалавр или магистр), лучшее общую формулировку поставить

4. Подтвержденные навыки тоже будут вас выкидывать наверх. Я попробовал пройти sql и python с чатом гпт. В плане просто телефоном показывал экран. Даже не читал задания. В итоге чат гпт дает половину правильных ответов. Что равно тупо кликать наугад. Лучше проходить с невидимым ассистентом для собесов. Но в целом вас по ключевым словам и так выводит в топ.

ВСЕ. ЗАНАВЕС
35👍20🔥6
БИГ ДАТА ВСЁ! СПАРК ВСЁ!

В ЛинкеДЫНЕ увидел интересный пост. Решил тут его запостить с указанием автора.
А ведь реально, зачем иногда запускать спарк, когда можно все крутить другими инструментами, менее требовательными к настройке и железу.


Начало поста:
⚡️ Data Engineer 2026: Хватит использовать кувалду для гвоздей. Почему Spark часто избыточен.

"Spark или Polars?".
Решил провести тест на реальных данных — 1 ТБ логов (соединения, аггрегации, фильтры).

Условия:

Spark: Кластер EMR (3 ноды, суммарно 48 ядер, 128 ГБ RAM). Время включает поднятие сессий и настройку.

Polars + DuckDB: Ноутбук с 64 ГБ RAM. Никакого кластера.

Результаты меня самого удивили:

Spark (кластер): ~20 минут чистой обработки + 5 минут на инициализацию. Итог: 25 минут.

Polars + DuckDB (на компе):

Обработка пачками по 100 ГБ: 7 минут (и можно параллелить).

Однопроходная обработка всего 1 ТБ: 11 минут.

Почему так? Данные не врут, и они совпадают с последними исследованиями :

Скорость: На данных до 1-2 ТБ современные векторизованные движки (Polars, DuckDB) просто быстрее JVM-стека Spark из-за отсутствия накладных расходов на сериализацию и shuffle .

Память: Polars в ленивом режиме реально жрет на 60-70% меньше памяти, чем Spark на аналогичных операциях. Это доказано в тестах MDPI . Данные не хранятся в памяти, а текут через процесс (streaming).

Удобство: Не надо настраивать кластер. Просто pip install.

Но давайте без хайпа. Где правда?

Polars + DuckDB идеальны, когда:

Ваши данные "помещаются" на один хороший сервер (до 5-10 ТБ).

Вы ненавидите возню с конфигами Spark.

У вас 80% ETL-задач — фильтрация, аггрегация, джойны (но не 100-столовые монстры).

Spark все еще рулит, если:

У вас петабайты и тысячи ядер.

Нужна единая платформа с глобальным каталогом данных (Unity Catalog и т.п.).

Требуется сложный стриминг exactly-once, который уже обкатан годами .

Мой вывод: Для 90% дата-инженеров, работающих с "терабайтами", Spark — это оверкилл. Мы платим за сложность инфраструктуры там, где можно обойтись одним мощным инстансом и умным кодом.

Конец поста
Источник

Мое мнение: Вообще согласен. Но до реальности это может так и не дойти, либо дойдет очень и очень не скоро. Сколько кода уже написано и переписывать его на новые инструменты не целесообразно - это ведь деньги. И очень непонятно, как объяснить бизнесу, что надо сейчас АСТАНАВИТЬСЯ! и все переделывать под поларс и duckDB. Но с другой стороны запуск спарка, когда у тебя есть кластера - не проблема. Ну да.. крутим этими кластерами не ТБ, а даже меньше. А что если в какой-то момент надо будет крутить больше.. Будем срочно перекатываться?

Да и на запуск спарка я бы не сказал, что это проблема. Да, инициализация бывает долгая, пока спарк стартанет. Ну подождать 5 минут можно.. Хотя если ресурсы есть, то за 10 секунд все собирает.

Короче это холиварная тема. Согласен, что некоторые инструменты просто не нужны в компании, но кто даст время не пересборку всех кубер операторов, переписывание и переделку инфры?

В мелких компаниях я бы рассмотрел polars + duckDB точно.. Там еще и рядом starrocks же есть. Вообще всеми руками за!
👍2612🔥7