Я – Дата Инженер | Евгений Виндюков

Запись на 6й поток открыта!

Для записи переходи в бот

👉

@bootcampych_bot

Запись стрима, где подробно рассказали о буткемпе и из чего он состоит:

📺

Ютуб

📺

Рутуб

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Стрим. Поясняю за Буткем поток #6.

Записаться на буткемп: https://t.me/bootcampych_bot

👍9🔥6👏4

4.04K views16:04

Я – Дата Инженер | Евгений Виндюков

➡️

Генератор вопросов и задач!

Но сейчас он выключен. Нужно ли снова включить его?

https://studio.roadmappers.ru

Что на сайте можно делать?
1. Сгенерировать задачу любой сложности по любому языку
2. Сгенерить 5 вопросов для мок собеса любой сложности по любому IT направлению
3. Сгенерить карточки с примером ответов любой сложности по любому IT направлению
4. Системный дизайн любой сложности по любому IT направлению

Короче, под капотом DeepSeek API. Деньги там закончились, так как люди начали, видимо, пользоваться активно.

🔴

Если этот пост соберет 50 лайков, я снова закидываю бабки на счет и вы крутите этот ~~казиныч~~ сервис.

update: начинаю закидывать бабки на счет

Please open Telegram to view this post

VIEW IN TELEGRAM

110👍128❤17🔥11

5.52K viewsedited 12:29

Я – Дата Инженер | Евгений Виндюков

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

Когда твое резюме никто не смотрит на HH и…
____________
Записывайся на BootCamp для дата инженера тут - @bootcampych_bot

😁22🔥8👍3❤1

4.38K views08:46

Я – Дата Инженер | Евгений Виндюков

Ред Флаг для Инженера Данных

они вам не Глебы Соломины

▶️

Запись СТРИМА на YouTube

Запись стрима, который был 14 марта. Выбирали и обсуждали худшие и лучшие стеки и технологии для ДЕшника.

Под конец собрали СТЕК ЛУЧШЕЙ КОМПАНИИ И ХУДШЕЙ

для тех, кто не умеет смотреть ютуб —> RUTUBE прости господи

Наши ссылки:

📍

Сайт Roadmappers.ru

💬

Телеграмм-чат Roadmappers.ru

📺

YouTube(Инженерообязанный)

📺

YouTube(Евгений Виндюков)

💬

Телеграмм-канал(Я - Дата Инженер)

💬

Телеграмм-канал(Инженерообязанный)

💙

ВК

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17❤5🔥5

3.51K views10:32

Я – Дата Инженер | Евгений Виндюков

Короче вот, что я подумал.

Создадим везде каналы и чаты. В RoamdapDE и в телеге на главной будут ссылки.

Вот кто куда захочет, тот туда и перейдет. Если на какой-то площадке будет мертво, то она и умрет сама своей смертью.

👍33❤6🔥3🤯1😱1

3.05K views11:56

Я – Дата Инженер | Евгений Виндюков

500_2000s.csv

341.9 KB

📊 Мне друг подкинул интересную задачу

Объединение ДАМПОВ ДАННЫХ Discogs (Releases + Labels)

В чем сложность?
Есть два датасета: релизы и лейблы (Оба в формате XML).

Один весит 60Гб. Другой 400Мб.
Локально обработать 400Мб не проблема — это изи. А вот распарсить 60Гб и вытянуть оттуда только нужны период — хард задача.

Что нужно сделать:
1. Взять данные по релизам за последние 1.5–2 года
2. Сделать JOIN двух таблиц по названию лейбла (или по id)

В чем смысл?
В таблице releases (60Гб) надо взять названия лейблов, которые делали релизы за последние 2 года. Склеить их со справочной информацией из labels. Джойнить по id или по названию (выбрать ключ самостоятельно).

Датасеты (XML):
• Labels: https://data.discogs.com/?download=data%2F2026%2Fdiscogs_20260301_labels.xml.gz
• Releases: https://data.discogs.com/?download=data%2F2026%2Fdiscogs_20260301_releases.xml.gz

(Также есть семпл релизов во вложении — можно использовать для первичной проверки)

Я планирую сегодня попробовать это все локально обработать. Спарк с моими 8-ми ядрами за минут 30-40 проходит. Но проблема в том, что трудно выцепить именно данные за определенный промежуток. Вот думаю.. возможно можно как-то обойти..

Пример чтения XML через PySpark:

import os
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("SparkExample") \
    .config(
        "spark.jars.packages",
        "com.databricks:spark-xml_2.12:0.18.0"
    ) \
    .getOrCreate()

from pyspark.sql.functions import max

df = (
    spark.read
        .format("xml")
        .option("rowTag", "label")
        .load("discogs_20260301_labels.xml")
)

df.show()

Кто че думает? Какими инструментами бы обработали?

✅Update: витрину построили! Добавлю эту задачу в BootCamp!

❤8👍5🔥3

2.83K viewsedited 09:54

Я – Дата Инженер | Евгений Виндюков

Почему твое резюме НИКТО не видит?

Короче, у меня есть аккауант работодателя на ХАХА.точкаРУ

И я могу теперь видеть, где вы находитесь в выдаче ХАХА (полагаю все понимают, что за сайт же).
Например, я рекрутер и ищу Дата Инженера. Выставляю фильтры и ВАС там НЕ ВИЖУ.

В итоге вы сидите и не понимаете, почему вам НИКТО НЕ ПИШЕТ. Вы же не полковник - тут только милениалы поймут.

Пример: Человек выложил резюме. Все круто.
При этом я выставляю фильтры по годам опыта, ставлю ВЫСШЕЕ образование, но резюме НЕТ.

А знаете почему?
Потому что можно поставить ВЫСШЕЕ, а можно поставить Бакалавр или Магистр. И это тоже является разницей!
По факту, лучше ставить просто ВЫСШЕЕ и ТОЧКА. В итоге человек поменял это и у меня в выдаче сразу появился.

Еще что заметил?
Когда листаешь резюме, симпатичнее выглядят те, на которых есть фотки. Вот как вы не хотите, но блин.. прям хочется тыкать на те, на которых есть реальный человек. Я не знаю, как это работает, но открывать людей без лица не охота))

Есть ещё нюансы:
— HH подсвечивает резюме с ключевыми достижениями
— Показывает апрувнутые достижения на госуслугах
— Ну и еще куча всего, где надо прям тестировать

Поэтому, кто хочет проверить свое резюме в выдаче и вообще прожариться, то го к нам в РОАДМАПЕРЫ!
Посмотрим, на каком месте ты в выдаче, по каким фильтрам тебя НЕ находят и что нужно поправить, чтобы тебя начали видеть

➡️

Вот здесь подписаться и сразу в чат залетай
Там сейчас 799 рубелй

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍5🔥5

4.88K views17:48

Я – Дата Инженер | Евгений Виндюков

Data Science и Data Engineering: какое направление выбрать в 2026 году?

🎧 1 апреля пройдет День открытых дверей онлайн-магистратуры НИЯУ МИФИ «Специалист по работе с данными и ИИ» в партнёрстве с Яндекс Практикумом.

На встрече обсудят:

💙 как рост ИИ трансформируют рынок труда
💙 4 трека для развития: ML, CV, NLP и Data Engineering
💙 какие задачи усложняются и где усиливается конкуренция

И расскажут, как за 2 года освоить фундаментальную базу, собрать портфолио из проектов и получить диплом магистра без отрыва от работы.

Подключайтесь онлайн 1 апреля в 19:00 мск.

🏃‍♀️ Записаться на ДОД

🤔4🔥3👍2👏2

2.84K views09:00

Я – Дата Инженер | Евгений Виндюков

История от подписчика по трудоустройству

Устроился в крупный телеком на стажировку за 75к.

Рассказываю.
Ещё до Нового года я собирался увольняться с моей предыдущей работы, чтобы вкатиться в IT. Мне необходимо было немного подготовиться, чтобы активно откликаться: немного подтянуть базу по DWH и ключевым инструментам ДЕ. Скажу сразу, магистратура у меня ДС, а не ДЕ. База по Python и SQL у меня была, но я решил всё равно чуть подтянуть SQL, чтобы от зубов отскакивало.

Я прошёл первый модуль симулятора Карпова до оконных функций и приступил к пет-проекту + изучению основ.
Это всё было в течении января. Из роадмапа я изучил весь основной материал для стажёра/джуна для DWH: OLTP, OLAP, ACID, Инмон, Кимбалл, batch, lambda, kappa; видео по Spark смотрел полностью, записывал, и немного читал статью. По Hadoop только самое основное читал. Про Airflow только самые необходимые вещи, которые потом в проекты использовал (DAG, EmptyOperator, PythonOperator). Про Greenplum чисто, чтобы рассказать немного про его архитектуру на собеседовании. Плюсом суперполезные статьи по Докеру и Гиту. Так же по Докеру бесплатно очень крутой от Карпова курс. Я его начинал, но не закончил. Там начала курса и роадмапа хватило, чтобы docker compose писать

Проект делал тот, который писал выше: Modern ETL с DWH на данных погоды из открытого API (Airflow, Greenplum, Clickhouse, Metabase, Docker, Git)

Самое главное было в откликах.
Я отобрал 30 рандомных вакансий и выписал, какие там ключевые навыки требуются и какие ключевые слова попадаются. Это, чтобы обойти АТС фильтры (опыт я ставил два года). Откликаться я начал, как только доделал проект (~30-31 января). Увольнялся я 10.

По итогу, я где-то 2 недели+ откликался, наверное, откликов 200 сделал (большая часть хх + хабр карьера). Было 3 собеса: один в фармкомпанию (они только открывали позицию ДЕ), один вообще линукс инженер (я по приколу чисто собесился к ним), крупный Телеком и один должен был быть в Сбер, но я тогда в крупный Телеком уже выходил и отменил его. Несколько раз (где-то 3-4 мне писали или звонили сами рекрутеры, к которым я даже не откликался)

Как-то так в целом. Роадмап помог в принципе очень сильно при подготовке пет-проекта, и ответах на собесах

В резюме было 2 года 2 месяца
Хотя проект по сути я недели за 3 сделал
——

❤24👍8🔥4😁3👏1

2.73K viewsedited 21:06

Я – Дата Инженер | Евгений Виндюков

Как вывести себя в ТОП?

Все очень тупо.
1. В резюме в должностях пишем Data Engineer | Инженер Данных

В описании опыта больше слов с Data
Data WareHouse, Data Lake, Data Quality и так далее

В о себе тоже пишем какую-нибудь чушь со словами Data

2. Ставим Активно ищет работу

3. Образование ставим Высшее (не бакалавр или магистр), лучшее общую формулировку поставить

4. Подтвержденные навыки тоже будут вас выкидывать наверх. Я попробовал пройти sql и python с чатом гпт. В плане просто телефоном показывал экран. Даже не читал задания. В итоге чат гпт дает половину правильных ответов. Что равно тупо кликать наугад. Лучше проходить с невидимым ассистентом для собесов. Но в целом вас по ключевым словам и так выводит в топ.

ВСЕ. ЗАНАВЕС

❤35👍20🔥6

2.93K views16:22

Я – Дата Инженер | Евгений Виндюков

БИГ ДАТА ВСЁ! СПАРК ВСЁ!

В ЛинкеДЫНЕ увидел интересный пост. Решил тут его запостить с указанием автора.
А ведь реально, зачем иногда запускать спарк, когда можно все крутить другими инструментами, менее требовательными к настройке и железу.

Начало поста:

⚡️ Data Engineer 2026: Хватит использовать кувалду для гвоздей. Почему Spark часто избыточен.

"Spark или Polars?".
Решил провести тест на реальных данных — 1 ТБ логов (соединения, аггрегации, фильтры).

Условия:

Spark: Кластер EMR (3 ноды, суммарно 48 ядер, 128 ГБ RAM). Время включает поднятие сессий и настройку.

Polars + DuckDB: Ноутбук с 64 ГБ RAM. Никакого кластера.

Результаты меня самого удивили:

Spark (кластер): ~20 минут чистой обработки + 5 минут на инициализацию. Итог: 25 минут.

Polars + DuckDB (на компе):

Обработка пачками по 100 ГБ: 7 минут (и можно параллелить).

Однопроходная обработка всего 1 ТБ: 11 минут.

Почему так? Данные не врут, и они совпадают с последними исследованиями :

Скорость: На данных до 1-2 ТБ современные векторизованные движки (Polars, DuckDB) просто быстрее JVM-стека Spark из-за отсутствия накладных расходов на сериализацию и shuffle .

Память: Polars в ленивом режиме реально жрет на 60-70% меньше памяти, чем Spark на аналогичных операциях. Это доказано в тестах MDPI . Данные не хранятся в памяти, а текут через процесс (streaming).

Удобство: Не надо настраивать кластер. Просто pip install.

Но давайте без хайпа. Где правда?

✅ Polars + DuckDB идеальны, когда:

Ваши данные "помещаются" на один хороший сервер (до 5-10 ТБ).

Вы ненавидите возню с конфигами Spark.

У вас 80% ETL-задач — фильтрация, аггрегация, джойны (но не 100-столовые монстры).

❌ Spark все еще рулит, если:

У вас петабайты и тысячи ядер.

Нужна единая платформа с глобальным каталогом данных (Unity Catalog и т.п.).

Требуется сложный стриминг exactly-once, который уже обкатан годами .

Мой вывод: Для 90% дата-инженеров, работающих с "терабайтами", Spark — это оверкилл. Мы платим за сложность инфраструктуры там, где можно обойтись одним мощным инстансом и умным кодом.

Конец поста
Источник

Мое мнение: Вообще согласен. Но до реальности это может так и не дойти, либо дойдет очень и очень не скоро. Сколько кода уже написано и переписывать его на новые инструменты не целесообразно - это ведь деньги. И очень непонятно, как объяснить бизнесу, что надо сейчас АСТАНАВИТЬСЯ! и все переделывать под поларс и duckDB. Но с другой стороны запуск спарка, когда у тебя есть кластера - не проблема. Ну да.. крутим этими кластерами не ТБ, а даже меньше. А что если в какой-то момент надо будет крутить больше.. Будем срочно перекатываться?

Да и на запуск спарка я бы не сказал, что это проблема. Да, инициализация бывает долгая, пока спарк стартанет. Ну подождать 5 минут можно.. Хотя если ресурсы есть, то за 10 секунд все собирает.

Короче это холиварная тема. Согласен, что некоторые инструменты просто не нужны в компании, но кто даст время не пересборку всех кубер операторов, переписывание и переделку инфры?

В мелких компаниях я бы рассмотрел polars + duckDB точно.. Там еще и рядом starrocks же есть. Вообще всеми руками за!

👍26❤12🔥7

3.39K views10:58

Я – Дата Инженер | Евгений Виндюков

Roadmap обновляется быстрее, чем вы успеваете проходить!

Закинули свежие задачи по SQL и Python — всё с реальных собесов.

Плюс добавили песочницу для SQL прямо в браузере:
никаких установок, просто заходишь и решаешь.

Раздел: «Вопросы с собеседований → SQL задачи»

Получить Roadmap —> @bootcampych_bot

🔥47👍12❤8

4.57K views08:12

Я – Дата Инженер | Евгений Виндюков

Крутой пример типичной задачи для Дата Инженера!

Есть два ~~стула~~ датасета формата XML. Один 60Гб, другой 400Мб. Надо взять последние 2 года из первого и сджойнить со вторым.

В чем сложности?
60 гигов в формате XML это просто один большой кусок файла. Он не разбит на партции, не имеет в комплекте готовую схему данных + внутри некоторые значения полей могут быть не совсем валидны (в поле год, может стоять не дата, а номер).

С файликом в 400Мб все ок, он без дубликатов и с хорошим качеством - ну это считайте словарик.

Я описал в roadmap этот пет проект, можете смело брать и тестировать, реально коммерческий пример сборки витрины данных.

Что уже есть внутри:
- Пример кода для сборки витрин на PySpark
- Пример чтения XML и сохранения в parquet
- Уже готовый датасет в формате parquet

➡️

еще раз, вот ссылка на пет проект - Проект №5 - Сборка витрины на Spark

——-
P.S. кстати, если хотите сказать спасибо roadmap, то вот ссылка

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29❤10👏5🔥4

2.26K views19:36

Я – Дата Инженер | Евгений Виндюков

1:10

Media is too big

VIEW IN TELEGRAM

📸

Отзывы участников
#BootCampDE — Январь-Февраль 2026

Меня зовут Александр. Я обучался на 4-м потоке буткемпа.

О буткемпе случайно узнал в январе 2026 года. В это время я искал новое место работы, так как попал под сокращение из-за урезания финансирования проекта со стороны заказчика.

Я работал разработчиком SQL более 10 лет и задумался: стоит ли мне дальше искать работу в этом же направлении или пройти обучение и получить более востребованную на рынке специальность.

Наткнувшись на сайт roadmappers.ru, я заинтересовался дата инженерией и посмотрел доступные на youtube видеоролики организаторов буткемпа. Идея пройти обучение в формате реального рабочего места мне показалась очень правильной, и я записался на курс.

Во время обучения мне очень понравилась подача материала в формате видеозвонков, постановка задача в жире, подробная документация в конфлюенсе и конечно же возможность самому решать реальные задачи на базе развернутой инфраструктуры рабочего места. Организаторы буткемпа, Володя и Женя, всегда помогали, если были проблемы. Практически 24 часа в сутках были на связи и очень здорово мотивировали в учебе и дальнейшем поиске работы.

В конце курса Володя с Женей помогли нам доработать и систематизировать резюме, чтобы они проходили фильтры ИИ и попадали в топ поиска для HR компаний. Как закономерный итог обучения я смог найти работу по специальности дата-инженера🏁.

Выражаю огромную благодарность за обучение, наставничество и помощь с трудоустройством!
Рекомендую буткемп всем, кто хочет реально войти в профессию.

🔥 Всем хороших офферов!
_____________________________

📝 От команды 📝

Александр — пример сильного подхода к обучению.

За 2 месяца он:
— глубоко погружался в темы
— задавал много вопросов
— проходил дополнительный материал
— не ограничивался базовой программой

💪

Такой результат — это всегда сочетание программы и усилий самого человека.

Поздравляем с оффером! 🚀

Набор на май месяц в самом разгаре, уже забронирвано половина потока, так что поторопись записаться – @bootcampych_bot.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16👍5❤4👏4

2.13K views09:07

Я – Дата Инженер | Евгений Виндюков

Когда идём?

Я собрал прикольное приложение (как мне кажется).

Заходишь в приложение, отмечаешь с друзьями дни, когда свободен, и видишь, когда все могут.

Вот я хотел собрать друзей на картинг. И как же мне надоело у каждого спрашивать, в какой день он (она) может. Это какой-то ад. Все занятые бизнесмены, как и я. В понедельник не может — яхту покупает. В среду не может — Бентли забирает из салона.

В итоге я взял вайбкодинг и собрал мини-апп. Все заходят по ссылке-приглашению и выбирают день, когда свободны. Приложение само определяет пересечения и показывает общий день. Авторизация через Телеграм, но в будущем можно сделать через что угодно.

Через что сделал?
Вайбкодинг на Codex от OpenAI + искал вдохновение на ReplitAI.

Из приколюх: есть кнопка «Напомнить всем». Нажимаешь, и приложение всем присылает напоминалку о событии либо о том, что надо выбрать день.

Версия альфа, поэтому, вероятно, найдёте бэкдоры, баги или ошибки. Предлагаю нам потестировать! Можете и свои встречи создавать!

Вот, я создал встречу. Лимит на одну встречу максимум 15 человек. Заходите-пробуйте!

Уже набрали 15 человек)
Для всех, вот приложение
@kogda_idemBot

➡️ update: теперь можно еще и выбрать место. Подключил API Яндекс Карты

P.S. если найдете баги, ошибки или приложение упадет, пишите в лс. Разберемся.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥31👍13👏6❤3

2.43K views17:20

Я – Дата Инженер | Евгений Виндюков

🚀 Data Engineer за 2 месяца

Не кликбейт. Мы реально сделали супер интенсив за 2 месяца в DE.
Это буквально копия вашей будущей работы.

Представьте, что вы приходите на новое место работы, и увольняющийся коллега передаёт вам дела. У него есть две недели, чтобы показать, что и как делать. Вы буквально впитываете всё как губка, потому что потом спрашивать будет не у кого.

Так вот именно эту идею мы и вложили в Bootcamp!
За короткое время вы погружаетесь в работу инженера данных, осваиваете современный стек и получаете навыки прохождения собеседований и составления резюме.

Мы реально вычеркнули большую часть бесполезной теории. Упор исключительно на практику.
Чтобы вы пришли на работу и сказали: "Мы это уже делали"

Что внутри буткемпа

Вы получаете доступ к инфраструктуре, максимально приближенной к продакшену:
• Postgres
• ClickHouse (распределённый, 2 шарда)
• GreenPlum (8 сегментов)
• Spark
• S3
• AirFlow
• Kafka
• DBT
• GitHub
• Jira
• Confluence

Как часто занятия?
• 3 раза в неделю (Живые лекции, на которых можно задать вопрос и сразу получить ответ)
• Вечером (после работы) в 20:00 по МСК
• Все лекции записываются и доступны навсегда

Поддержка и практика
• Чат с ответами почти 24/7
• Можно задать любой вопрос
• Можно попросить задачу сложнее
• Разбор ваших решений на созвонах

Подготовка к работе
• Mock собеседования
• Прожарка резюме
• Разбор реальных кейсов

После буткемпа все выпускники приглашаются в чат, где мы делимся ситуацией на рынке, вопросами с собесов, а также поддерживаем друг друга!

Кстати, мы добавили классную фишку — доступ к лекциям из новых потоков. Даже после окончания буткемпа вы остаетесь в обучении и можете следить за обновлениями.

А если не успеваете?
У нас есть InfraSharing. Это тот же самый буткемп, но без лекций. Просто готовая инфраструктура. Даже если не успеваете сделать все задачи в Bootcamp, можете продолжить в InfraSharing. Тем более для всех выпускников мы даем огромную скидку!

Ближайший старт потока — 1 мая
Переходите в наш бот @bootcampych_bot и жми Хочу на BootCamp

🔥12❤8👍5

1.96K views10:34

Я – Дата Инженер | Евгений Виндюков

ТРИНАААА!

Начал читать про Trino. У меня в голове были несостыковки, типа зачем еще один очередной инструмент в этом Дата Инжиниринге?

АСТАНАВИТЕСЬ!

Рассказываю на пальцах и только самое основное.
Вот есть Spark. С ним мы можем подключиться к PG, CH, S3, GP и другим хранилкам данных.

Пишем там df_pg = spark.read.format("jdbc") Потом отдельно df_ch = spark.read.format("jdbc")
Короче говоря, каждый раз надо подключаться и читать отдельно каждую таблицу.

А я хочу просто написать ОДИН SQL запрос и сразу так:

SELECT u.name, o.order_id
FROM postgres.public.users u
JOIN clickhouse.sales.orders o
  ON u.id = o.user_id;

Чтобы в самом запросе у меня уже указывались разные БД и мне не надо было ничего отдельно читать.
Так вот спарк так не умеет, А ТРИНО УМЕЕТ!

Фишка Трино — это куча коннекторов. Т.е. установили Трино и дальше просто читаем из разных источников. Ничего больше делать не надо. Буквально вы в Dbeaver пишете запрос и все работает. ИЗИ. Кстати к Kafka тоже можно подключиться, но имейте в виду, что в Кафку данные постоянно добавляются и с каждым новым запросом, данные могут меняться.

Короче говоря, супер для AD HOC аналитики!
Называется все это ФЕДЕРАТИВНЫЕ ЗАПРОСЫ

А что еще?
Когда в спарке мы в лоб читаем данные через JDBC, то на все создается одно подключение и 1 партиция. А спарк же распределенный, у нас много executors, на которые надо раскидать данные. И поэтому нужно дописывать еще кода, который читает определенный столбец, создает несколько jdbc подключений и раскидывает все по executors. Короче тут без бутылки водки не разберешься

В трино же просто пишешь один SQL запрос и он сам параллельно читает и раскидывает на свои воркеры. Никаких танцев с бубном. Кстати, внутри Трино и Спарк реально похожи. Такие же координаторы и и воркеры наряду с драйвером и executor.

Какие еще фишки?
Можно создать view и перенести часть вычислений на уровне БД. Например пишем запрос на Trino, но вся нагрузка идет сначала в PG. Типа необязательно тянуть к себе в память. Ну и по факту кол-во фишек еще больше, но думаю и так достаточно инфы.

В чем минусы?
В трино Нет стриминга, MLlib, как в спарке. Также нельзя контролировать кол-во создаваемых файлов, как в спарке через coalesce и repartition. Там есть некоторые общие настройки, которые позволяют компактить, но все же это не совсем то, как это делает спарк во время записи здесь и сейчас.

Короче, Трино идеально подходит для ad hoc запросов. Возможно не всегда его стоит использовать для ETL, потому что нет такой гибкой настройки и контроля прямо, как в спарк. Хотя на мой взгляд, если данных меньше Тб, то почему бы не обойтись только им. Тем более на SQL умеет писать даже собака из соседнего подъезда. А на вашем спарк апи еще пойди найди человека..

P.S.Если есть замечания или еще чего-то знаете, делитесь.

🔥10❤8👍6😁2

677 views10:27

About

Blog

Apps

Platform