Data Science и Data Engineering: какое направление выбрать в 2026 году?
🎧 1 апреля пройдет День открытых дверей онлайн-магистратуры НИЯУ МИФИ «Специалист по работе с данными и ИИ» в партнёрстве с Яндекс Практикумом.
Подключайтесь онлайн 1 апреля в 19:00 мск.
🏃♀️ Записаться на ДОД
🎧 1 апреля пройдет День открытых дверей онлайн-магистратуры НИЯУ МИФИ «Специалист по работе с данными и ИИ» в партнёрстве с Яндекс Практикумом.
На встрече обсудят:
💙 как рост ИИ трансформируют рынок труда
💙 4 трека для развития: ML, CV, NLP и Data Engineering
💙 какие задачи усложняются и где усиливается конкуренция
И расскажут, как за 2 года освоить фундаментальную базу, собрать портфолио из проектов и получить диплом магистра без отрыва от работы.
Подключайтесь онлайн 1 апреля в 19:00 мск.
🏃♀️ Записаться на ДОД
🤔4🔥3👍2👏2
История от подписчика по трудоустройству
Устроился в крупный телеком на стажировку за 75к.
Рассказываю.
Ещё до Нового года я собирался увольняться с моей предыдущей работы, чтобы вкатиться в IT. Мне необходимо было немного подготовиться, чтобы активно откликаться: немного подтянуть базу по DWH и ключевым инструментам ДЕ. Скажу сразу, магистратура у меня ДС, а не ДЕ. База по Python и SQL у меня была, но я решил всё равно чуть подтянуть SQL, чтобы от зубов отскакивало.
Я прошёл первый модуль симулятора Карпова до оконных функций и приступил к пет-проекту + изучению основ.
Это всё было в течении января. Из роадмапа я изучил весь основной материал для стажёра/джуна для DWH: OLTP, OLAP, ACID, Инмон, Кимбалл, batch, lambda, kappa; видео по Spark смотрел полностью, записывал, и немного читал статью. По Hadoop только самое основное читал. Про Airflow только самые необходимые вещи, которые потом в проекты использовал (DAG, EmptyOperator, PythonOperator). Про Greenplum чисто, чтобы рассказать немного про его архитектуру на собеседовании. Плюсом суперполезные статьи по Докеру и Гиту. Так же по Докеру бесплатно очень крутой от Карпова курс. Я его начинал, но не закончил. Там начала курса и роадмапа хватило, чтобы docker compose писать
Проект делал тот, который писал выше: Modern ETL с DWH на данных погоды из открытого API (Airflow, Greenplum, Clickhouse, Metabase, Docker, Git)
Самое главное было в откликах.
Я отобрал 30 рандомных вакансий и выписал, какие там ключевые навыки требуются и какие ключевые слова попадаются. Это, чтобы обойти АТС фильтры (опыт я ставил два года). Откликаться я начал, как только доделал проект (~30-31 января). Увольнялся я 10.
По итогу, я где-то 2 недели+ откликался, наверное, откликов 200 сделал (большая часть хх + хабр карьера). Было 3 собеса: один в фармкомпанию (они только открывали позицию ДЕ), один вообще линукс инженер (я по приколу чисто собесился к ним), крупный Телеком и один должен был быть в Сбер, но я тогда в крупный Телеком уже выходил и отменил его. Несколько раз (где-то 3-4 мне писали или звонили сами рекрутеры, к которым я даже не откликался)
Как-то так в целом. Роадмап помог в принципе очень сильно при подготовке пет-проекта, и ответах на собесах
В резюме было 2 года 2 месяца
Хотя проект по сути я недели за 3 сделал
——
Рассказываю.
Ещё до Нового года я собирался увольняться с моей предыдущей работы, чтобы вкатиться в IT. Мне необходимо было немного подготовиться, чтобы активно откликаться: немного подтянуть базу по DWH и ключевым инструментам ДЕ. Скажу сразу, магистратура у меня ДС, а не ДЕ. База по Python и SQL у меня была, но я решил всё равно чуть подтянуть SQL, чтобы от зубов отскакивало.
Я прошёл первый модуль симулятора Карпова до оконных функций и приступил к пет-проекту + изучению основ.
Это всё было в течении января. Из роадмапа я изучил весь основной материал для стажёра/джуна для DWH: OLTP, OLAP, ACID, Инмон, Кимбалл, batch, lambda, kappa; видео по Spark смотрел полностью, записывал, и немного читал статью. По Hadoop только самое основное читал. Про Airflow только самые необходимые вещи, которые потом в проекты использовал (DAG, EmptyOperator, PythonOperator). Про Greenplum чисто, чтобы рассказать немного про его архитектуру на собеседовании. Плюсом суперполезные статьи по Докеру и Гиту. Так же по Докеру бесплатно очень крутой от Карпова курс. Я его начинал, но не закончил. Там начала курса и роадмапа хватило, чтобы docker compose писать
Проект делал тот, который писал выше: Modern ETL с DWH на данных погоды из открытого API (Airflow, Greenplum, Clickhouse, Metabase, Docker, Git)
Самое главное было в откликах.
Я отобрал 30 рандомных вакансий и выписал, какие там ключевые навыки требуются и какие ключевые слова попадаются. Это, чтобы обойти АТС фильтры (опыт я ставил два года). Откликаться я начал, как только доделал проект (~30-31 января). Увольнялся я 10.
По итогу, я где-то 2 недели+ откликался, наверное, откликов 200 сделал (большая часть хх + хабр карьера). Было 3 собеса: один в фармкомпанию (они только открывали позицию ДЕ), один вообще линукс инженер (я по приколу чисто собесился к ним), крупный Телеком и один должен был быть в Сбер, но я тогда в крупный Телеком уже выходил и отменил его. Несколько раз (где-то 3-4 мне писали или звонили сами рекрутеры, к которым я даже не откликался)
Как-то так в целом. Роадмап помог в принципе очень сильно при подготовке пет-проекта, и ответах на собесах
В резюме было 2 года 2 месяца
Хотя проект по сути я недели за 3 сделал
——
❤24👍8🔥4😁3👏1
Как вывести себя в ТОП?
Все очень тупо.
1. В резюме в должностях пишем Data Engineer | Инженер Данных
В описании опыта больше слов с Data
Data WareHouse, Data Lake, Data Quality и так далее
В о себе тоже пишем какую-нибудь чушь со словами Data
2. Ставим Активно ищет работу
3. Образование ставим Высшее (не бакалавр или магистр), лучшее общую формулировку поставить
4. Подтвержденные навыки тоже будут вас выкидывать наверх. Я попробовал пройти sql и python с чатом гпт. В плане просто телефоном показывал экран. Даже не читал задания. В итоге чат гпт дает половину правильных ответов. Что равно тупо кликать наугад. Лучше проходить с невидимым ассистентом для собесов. Но в целом вас по ключевым словам и так выводит в топ.
ВСЕ. ЗАНАВЕС
Все очень тупо.
1. В резюме в должностях пишем Data Engineer | Инженер Данных
В описании опыта больше слов с Data
Data WareHouse, Data Lake, Data Quality и так далее
В о себе тоже пишем какую-нибудь чушь со словами Data
2. Ставим Активно ищет работу
3. Образование ставим Высшее (не бакалавр или магистр), лучшее общую формулировку поставить
4. Подтвержденные навыки тоже будут вас выкидывать наверх. Я попробовал пройти sql и python с чатом гпт. В плане просто телефоном показывал экран. Даже не читал задания. В итоге чат гпт дает половину правильных ответов. Что равно тупо кликать наугад. Лучше проходить с невидимым ассистентом для собесов. Но в целом вас по ключевым словам и так выводит в топ.
ВСЕ. ЗАНАВЕС
❤35👍20🔥6
БИГ ДАТА ВСЁ! СПАРК ВСЁ!
Начало поста:
Конец поста
Источник
Мое мнение: Вообще согласен. Но до реальности это может так и не дойти, либо дойдет очень и очень не скоро. Сколько кода уже написано и переписывать его на новые инструменты не целесообразно - это ведь деньги. И очень непонятно, как объяснить бизнесу, что надо сейчас АСТАНАВИТЬСЯ! и все переделывать под поларс и duckDB. Но с другой стороны запуск спарка, когда у тебя есть кластера - не проблема. Ну да.. крутим этими кластерами не ТБ, а даже меньше. А что если в какой-то момент надо будет крутить больше.. Будем срочно перекатываться?
Да и на запуск спарка я бы не сказал, что это проблема. Да, инициализация бывает долгая, пока спарк стартанет. Ну подождать 5 минут можно.. Хотя если ресурсы есть, то за 10 секунд все собирает.
Короче это холиварная тема. Согласен, что некоторые инструменты просто не нужны в компании, но кто даст время не пересборку всех кубер операторов, переписывание и переделку инфры?
В мелких компаниях я бы рассмотрел polars + duckDB точно.. Там еще и рядом starrocks же есть. Вообще всеми руками за!
В ЛинкеДЫНЕ увидел интересный пост. Решил тут его запостить с указанием автора.
А ведь реально, зачем иногда запускать спарк, когда можно все крутить другими инструментами, менее требовательными к настройке и железу.
Начало поста:
⚡️ Data Engineer 2026: Хватит использовать кувалду для гвоздей. Почему Spark часто избыточен.
"Spark или Polars?".
Решил провести тест на реальных данных — 1 ТБ логов (соединения, аггрегации, фильтры).
Условия:
Spark: Кластер EMR (3 ноды, суммарно 48 ядер, 128 ГБ RAM). Время включает поднятие сессий и настройку.
Polars + DuckDB: Ноутбук с 64 ГБ RAM. Никакого кластера.
Результаты меня самого удивили:
Spark (кластер): ~20 минут чистой обработки + 5 минут на инициализацию. Итог: 25 минут.
Polars + DuckDB (на компе):
Обработка пачками по 100 ГБ: 7 минут (и можно параллелить).
Однопроходная обработка всего 1 ТБ: 11 минут.
Почему так? Данные не врут, и они совпадают с последними исследованиями :
Скорость: На данных до 1-2 ТБ современные векторизованные движки (Polars, DuckDB) просто быстрее JVM-стека Spark из-за отсутствия накладных расходов на сериализацию и shuffle .
Память: Polars в ленивом режиме реально жрет на 60-70% меньше памяти, чем Spark на аналогичных операциях. Это доказано в тестах MDPI . Данные не хранятся в памяти, а текут через процесс (streaming).
Удобство: Не надо настраивать кластер. Просто pip install.
Но давайте без хайпа. Где правда?
✅ Polars + DuckDB идеальны, когда:
Ваши данные "помещаются" на один хороший сервер (до 5-10 ТБ).
Вы ненавидите возню с конфигами Spark.
У вас 80% ETL-задач — фильтрация, аггрегация, джойны (но не 100-столовые монстры).
❌ Spark все еще рулит, если:
У вас петабайты и тысячи ядер.
Нужна единая платформа с глобальным каталогом данных (Unity Catalog и т.п.).
Требуется сложный стриминг exactly-once, который уже обкатан годами .
Мой вывод: Для 90% дата-инженеров, работающих с "терабайтами", Spark — это оверкилл. Мы платим за сложность инфраструктуры там, где можно обойтись одним мощным инстансом и умным кодом.
Конец поста
Источник
Мое мнение: Вообще согласен. Но до реальности это может так и не дойти, либо дойдет очень и очень не скоро. Сколько кода уже написано и переписывать его на новые инструменты не целесообразно - это ведь деньги. И очень непонятно, как объяснить бизнесу, что надо сейчас АСТАНАВИТЬСЯ! и все переделывать под поларс и duckDB. Но с другой стороны запуск спарка, когда у тебя есть кластера - не проблема. Ну да.. крутим этими кластерами не ТБ, а даже меньше. А что если в какой-то момент надо будет крутить больше.. Будем срочно перекатываться?
Да и на запуск спарка я бы не сказал, что это проблема. Да, инициализация бывает долгая, пока спарк стартанет. Ну подождать 5 минут можно.. Хотя если ресурсы есть, то за 10 секунд все собирает.
Короче это холиварная тема. Согласен, что некоторые инструменты просто не нужны в компании, но кто даст время не пересборку всех кубер операторов, переписывание и переделку инфры?
В мелких компаниях я бы рассмотрел polars + duckDB точно.. Там еще и рядом starrocks же есть. Вообще всеми руками за!
👍26❤12🔥7
Roadmap обновляется быстрее, чем вы успеваете проходить!
Закинули свежие задачи по SQL и Python — всё с реальных собесов.
Плюс добавили песочницу для SQL прямо в браузере:
никаких установок, просто заходишь и решаешь.
Раздел: «Вопросы с собеседований → SQL задачи»
Получить Roadmap —> @bootcampych_bot
Закинули свежие задачи по SQL и Python — всё с реальных собесов.
Плюс добавили песочницу для SQL прямо в браузере:
никаких установок, просто заходишь и решаешь.
Раздел: «Вопросы с собеседований → SQL задачи»
Получить Roadmap —> @bootcampych_bot
🔥47👍12❤8
Крутой пример типичной задачи для Дата Инженера!
Есть двастула датасета формата XML. Один 60Гб, другой 400Мб. Надо взять последние 2 года из первого и сджойнить со вторым.
В чем сложности?
60 гигов в формате XML это просто один большой кусок файла. Он не разбит на партции, не имеет в комплекте готовую схему данных + внутри некоторые значения полей могут быть не совсем валидны (в поле год, может стоять не дата, а номер).
С файликом в 400Мб все ок, он без дубликатов и с хорошим качеством - ну это считайте словарик.
Я описал в roadmap этот пет проект, можете смело брать и тестировать, реально коммерческий пример сборки витрины данных.
Что уже есть внутри:
- Пример кода для сборки витрин на PySpark
- Пример чтения XML и сохранения в parquet
- Уже готовый датасет в формате parquet
➡️ еще раз, вот ссылка на пет проект - Проект №5 - Сборка витрины на Spark
——-
P.S. кстати, если хотите сказать спасибо roadmap, то вот ссылка
Есть два
В чем сложности?
60 гигов в формате XML это просто один большой кусок файла. Он не разбит на партции, не имеет в комплекте готовую схему данных + внутри некоторые значения полей могут быть не совсем валидны (в поле год, может стоять не дата, а номер).
С файликом в 400Мб все ок, он без дубликатов и с хорошим качеством - ну это считайте словарик.
Я описал в roadmap этот пет проект, можете смело брать и тестировать, реально коммерческий пример сборки витрины данных.
Что уже есть внутри:
- Пример кода для сборки витрин на PySpark
- Пример чтения XML и сохранения в parquet
- Уже готовый датасет в формате parquet
——-
P.S. кстати, если хотите сказать спасибо roadmap, то вот ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤10🔥5👏5
Media is too big
VIEW IN TELEGRAM
#BootCampDE — Январь-Февраль 2026
Меня зовут Александр. Я обучался на 4-м потоке буткемпа.
О буткемпе случайно узнал в январе 2026 года. В это время я искал новое место работы, так как попал под сокращение из-за урезания финансирования проекта со стороны заказчика.
Я работал разработчиком SQL более 10 лет и задумался: стоит ли мне дальше искать работу в этом же направлении или пройти обучение и получить более востребованную на рынке специальность.
Наткнувшись на сайт roadmappers.ru, я заинтересовался дата инженерией и посмотрел доступные на youtube видеоролики организаторов буткемпа. Идея пройти обучение в формате реального рабочего места мне показалась очень правильной, и я записался на курс.
Во время обучения мне очень понравилась подача материала в формате видеозвонков, постановка задача в жире, подробная документация в конфлюенсе и конечно же возможность самому решать реальные задачи на базе развернутой инфраструктуры рабочего места. Организаторы буткемпа, Володя и Женя, всегда помогали, если были проблемы. Практически 24 часа в сутках были на связи и очень здорово мотивировали в учебе и дальнейшем поиске работы.
В конце курса Володя с Женей помогли нам доработать и систематизировать резюме, чтобы они проходили фильтры ИИ и попадали в топ поиска для HR компаний. Как закономерный итог обучения я смог найти работу по специальности дата-инженера🏁.
Выражаю огромную благодарность за обучение, наставничество и помощь с трудоустройством!
Рекомендую буткемп всем, кто хочет реально войти в профессию.
🔥 Всем хороших офферов!
_____________________________
Александр — пример сильного подхода к обучению.
За 2 месяца он:
— глубоко погружался в темы
— задавал много вопросов
— проходил дополнительный материал
— не ограничивался базовой программой
Поздравляем с оффером! 🚀
Набор на май месяц в самом разгаре, уже забронирвано половина потока, так что поторопись записаться – @bootcampych_bot.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍5❤4👏4
Когда идём?
Я собрал прикольное приложение (как мне кажется).
Заходишь в приложение, отмечаешь с друзьями дни, когда свободен, и видишь, когда все могут.
Вот я хотел собрать друзей на картинг. И как же мне надоело у каждого спрашивать, в какой день он (она) может. Это какой-то ад. Все занятые бизнесмены, как и я. В понедельник не может — яхту покупает. В среду не может — Бентли забирает из салона.
В итоге я взял вайбкодинг и собрал мини-апп. Все заходят по ссылке-приглашению и выбирают день, когда свободны. Приложение само определяет пересечения и показывает общий день. Авторизация через Телеграм, но в будущем можно сделать через что угодно.
Через что сделал?
Вайбкодинг на Codex от OpenAI + искал вдохновение на ReplitAI.
Из приколюх: есть кнопка «Напомнить всем». Нажимаешь, и приложение всем присылает напоминалку о событии либо о том, что надо выбрать день.
Версия альфа, поэтому, вероятно, найдёте бэкдоры, баги или ошибки. Предлагаю нам потестировать! Можете и свои встречи создавать!
Вот, я создал встречу. Лимит на одну встречу максимум 15 человек. Заходите-пробуйте!
Уже набрали 15 человек)
Для всех, вот приложение
@kogda_idemBot
➡️ update: теперь можно еще и выбрать место. Подключил API Яндекс Карты
P.S. если найдете баги, ошибки или приложение упадет, пишите в лс. Разберемся.
Заходишь в приложение, отмечаешь с друзьями дни, когда свободен, и видишь, когда все могут.
Вот я хотел собрать друзей на картинг. И как же мне надоело у каждого спрашивать, в какой день он (она) может. Это какой-то ад. Все занятые бизнесмены, как и я. В понедельник не может — яхту покупает. В среду не может — Бентли забирает из салона.
В итоге я взял вайбкодинг и собрал мини-апп. Все заходят по ссылке-приглашению и выбирают день, когда свободны. Приложение само определяет пересечения и показывает общий день. Авторизация через Телеграм, но в будущем можно сделать через что угодно.
Через что сделал?
Вайбкодинг на Codex от OpenAI + искал вдохновение на ReplitAI.
Из приколюх: есть кнопка «Напомнить всем». Нажимаешь, и приложение всем присылает напоминалку о событии либо о том, что надо выбрать день.
Версия альфа, поэтому, вероятно, найдёте бэкдоры, баги или ошибки. Предлагаю нам потестировать! Можете и свои встречи создавать!
Вот, я создал встречу. Лимит на одну встречу максимум 15 человек. Заходите-пробуйте!
Уже набрали 15 человек)
Для всех, вот приложение
@kogda_idemBot
P.S. если найдете баги, ошибки или приложение упадет, пишите в лс. Разберемся.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32👍13👏6❤3
🚀 Data Engineer за 2 месяца
Не кликбейт. Мы реально сделали супер интенсив за 2 месяца в DE.
Это буквально копия вашей будущей работы.
Представьте, что вы приходите на новое место работы, и увольняющийся коллега передаёт вам дела. У него есть две недели, чтобы показать, что и как делать. Вы буквально впитываете всё как губка, потому что потом спрашивать будет не у кого.
Так вот именно эту идею мы и вложили в Bootcamp!
За короткое время вы погружаетесь в работу инженера данных, осваиваете современный стек и получаете навыки прохождения собеседований и составления резюме.
Мы реально вычеркнули большую часть бесполезной теории. Упор исключительно на практику.
Чтобы вы пришли на работу и сказали: "Мы это уже делали"
Что внутри буткемпа
Вы получаете доступ к инфраструктуре, максимально приближенной к продакшену:
• Postgres
• ClickHouse (распределённый, 2 шарда)
• GreenPlum (8 сегментов)
• Spark
• S3
• AirFlow
• Kafka
• DBT
• GitHub
• Jira
• Confluence
Как часто занятия?
• 3 раза в неделю (Живые лекции, на которых можно задать вопрос и сразу получить ответ)
• Вечером (после работы) в 20:00 по МСК
• Все лекции записываются и доступны навсегда
Поддержка и практика
• Чат с ответами почти 24/7
• Можно задать любой вопрос
• Можно попросить задачу сложнее
• Разбор ваших решений на созвонах
Подготовка к работе
• Mock собеседования
• Прожарка резюме
• Разбор реальных кейсов
После буткемпа все выпускники приглашаются в чат, где мы делимся ситуацией на рынке, вопросами с собесов, а также поддерживаем друг друга!
Кстати, мы добавили классную фишку — доступ к лекциям из новых потоков. Даже после окончания буткемпа вы остаетесь в обучении и можете следить за обновлениями.
А если не успеваете?
У нас есть InfraSharing. Это тот же самый буткемп, но без лекций. Просто готовая инфраструктура. Даже если не успеваете сделать все задачи в Bootcamp, можете продолжить в InfraSharing. Тем более для всех выпускников мы даем огромную скидку!
Ближайший старт потока — 1 мая
Переходите в наш бот @bootcampych_bot и жми Хочу на BootCamp
Не кликбейт. Мы реально сделали супер интенсив за 2 месяца в DE.
Это буквально копия вашей будущей работы.
Представьте, что вы приходите на новое место работы, и увольняющийся коллега передаёт вам дела. У него есть две недели, чтобы показать, что и как делать. Вы буквально впитываете всё как губка, потому что потом спрашивать будет не у кого.
Так вот именно эту идею мы и вложили в Bootcamp!
За короткое время вы погружаетесь в работу инженера данных, осваиваете современный стек и получаете навыки прохождения собеседований и составления резюме.
Мы реально вычеркнули большую часть бесполезной теории. Упор исключительно на практику.
Чтобы вы пришли на работу и сказали: "Мы это уже делали"
Что внутри буткемпа
Вы получаете доступ к инфраструктуре, максимально приближенной к продакшену:
• Postgres
• ClickHouse (распределённый, 2 шарда)
• GreenPlum (8 сегментов)
• Spark
• S3
• AirFlow
• Kafka
• DBT
• GitHub
• Jira
• Confluence
Как часто занятия?
• 3 раза в неделю (Живые лекции, на которых можно задать вопрос и сразу получить ответ)
• Вечером (после работы) в 20:00 по МСК
• Все лекции записываются и доступны навсегда
Поддержка и практика
• Чат с ответами почти 24/7
• Можно задать любой вопрос
• Можно попросить задачу сложнее
• Разбор ваших решений на созвонах
Подготовка к работе
• Mock собеседования
• Прожарка резюме
• Разбор реальных кейсов
После буткемпа все выпускники приглашаются в чат, где мы делимся ситуацией на рынке, вопросами с собесов, а также поддерживаем друг друга!
Кстати, мы добавили классную фишку — доступ к лекциям из новых потоков. Даже после окончания буткемпа вы остаетесь в обучении и можете следить за обновлениями.
А если не успеваете?
У нас есть InfraSharing. Это тот же самый буткемп, но без лекций. Просто готовая инфраструктура. Даже если не успеваете сделать все задачи в Bootcamp, можете продолжить в InfraSharing. Тем более для всех выпускников мы даем огромную скидку!
Ближайший старт потока — 1 мая
Переходите в наш бот @bootcampych_bot и жми Хочу на BootCamp
🔥12❤8👍5
ТРИНАААА!
Начал читать про Trino. У меня в голове были несостыковки, типа зачем еще один очередной инструмент в этом Дата Инжиниринге?
АСТАНАВИТЕСЬ!
Рассказываю на пальцах и только самое основное.
Вот есть Spark. С ним мы можем подключиться к PG, CH, S3, GP и другим хранилкам данных.
Пишем там
Короче говоря, каждый раз надо подключаться и читать отдельно каждую таблицу.
А я хочу просто написать ОДИН SQL запрос и сразу так:
Чтобы в самом запросе у меня уже указывались разные БД и мне не надо было ничего отдельно читать.
Так вот спарк так не умеет, А ТРИНО УМЕЕТ!
Фишка Трино — это куча коннекторов. Т.е. установили Трино и дальше просто читаем из разных источников. Ничего больше делать не надо. Буквально вы в Dbeaver пишете запрос и все работает. ИЗИ. Кстати к Kafka тоже можно подключиться, но имейте в виду, что в Кафку данные постоянно добавляются и с каждым новым запросом, данные могут меняться.
Короче говоря, супер для AD HOC аналитики!
Называется все это ФЕДЕРАТИВНЫЕ ЗАПРОСЫ
А что еще?
Когда в спарке мы в лоб читаем данные через JDBC, то на все создается одно подключение и 1 партиция. А спарк же распределенный, у нас много executors, на которые надо раскидать данные. И поэтому нужно дописывать еще кода, который читает определенный столбец, создает несколько jdbc подключений и раскидывает все по executors. Короче тут без
В трино же просто пишешь один SQL запрос и он сам параллельно читает и раскидывает на свои воркеры. Никаких танцев с бубном. Кстати, внутри Трино и Спарк реально похожи. Такие же координаторы и и воркеры наряду с драйвером и executor.
Какие еще фишки?
Можно создать view и перенести часть вычислений на уровне БД. Например пишем запрос на Trino, но вся нагрузка идет сначала в PG. Типа необязательно тянуть к себе в память. Ну и по факту кол-во фишек еще больше, но думаю и так достаточно инфы.
В чем минусы?
В трино Нет стриминга, MLlib, как в спарке. Также нельзя контролировать кол-во создаваемых файлов, как в спарке через coalesce и repartition. Там есть некоторые общие настройки, которые позволяют компактить, но все же это не совсем то, как это делает спарк во время записи здесь и сейчас.
Короче, Трино идеально подходит для ad hoc запросов. Возможно не всегда его стоит использовать для ETL, потому что нет такой гибкой настройки и контроля прямо, как в спарк. Хотя на мой взгляд, если данных меньше Тб, то почему бы не обойтись только им. Тем более на SQL умеет писать даже собака из соседнего подъезда. А на вашем спарк апи еще пойди найди человека..
P.S.Если есть замечания или еще чего-то знаете, делитесь.
Начал читать про Trino. У меня в голове были несостыковки, типа зачем еще один очередной инструмент в этом Дата Инжиниринге?
АСТАНАВИТЕСЬ!
Рассказываю на пальцах и только самое основное.
Вот есть Spark. С ним мы можем подключиться к PG, CH, S3, GP и другим хранилкам данных.
Пишем там
df_pg = spark.read.format("jdbc") Потом отдельно df_ch = spark.read.format("jdbc")Короче говоря, каждый раз надо подключаться и читать отдельно каждую таблицу.
А я хочу просто написать ОДИН SQL запрос и сразу так:
SELECT u.name, o.order_id
FROM postgres.public.users u
JOIN clickhouse.sales.orders o
ON u.id = o.user_id;
Чтобы в самом запросе у меня уже указывались разные БД и мне не надо было ничего отдельно читать.
Так вот спарк так не умеет, А ТРИНО УМЕЕТ!
Фишка Трино — это куча коннекторов. Т.е. установили Трино и дальше просто читаем из разных источников. Ничего больше делать не надо. Буквально вы в Dbeaver пишете запрос и все работает. ИЗИ. Кстати к Kafka тоже можно подключиться, но имейте в виду, что в Кафку данные постоянно добавляются и с каждым новым запросом, данные могут меняться.
Короче говоря, супер для AD HOC аналитики!
Называется все это ФЕДЕРАТИВНЫЕ ЗАПРОСЫ
А что еще?
Когда в спарке мы в лоб читаем данные через JDBC, то на все создается одно подключение и 1 партиция. А спарк же распределенный, у нас много executors, на которые надо раскидать данные. И поэтому нужно дописывать еще кода, который читает определенный столбец, создает несколько jdbc подключений и раскидывает все по executors. Короче тут без
бутылки водки не разберешьсяВ трино же просто пишешь один SQL запрос и он сам параллельно читает и раскидывает на свои воркеры. Никаких танцев с бубном. Кстати, внутри Трино и Спарк реально похожи. Такие же координаторы и и воркеры наряду с драйвером и executor.
Какие еще фишки?
Можно создать view и перенести часть вычислений на уровне БД. Например пишем запрос на Trino, но вся нагрузка идет сначала в PG. Типа необязательно тянуть к себе в память. Ну и по факту кол-во фишек еще больше, но думаю и так достаточно инфы.
В чем минусы?
В трино Нет стриминга, MLlib, как в спарке. Также нельзя контролировать кол-во создаваемых файлов, как в спарке через coalesce и repartition. Там есть некоторые общие настройки, которые позволяют компактить, но все же это не совсем то, как это делает спарк во время записи здесь и сейчас.
Короче, Трино идеально подходит для ad hoc запросов. Возможно не всегда его стоит использовать для ETL, потому что нет такой гибкой настройки и контроля прямо, как в спарк. Хотя на мой взгляд, если данных меньше Тб, то почему бы не обойтись только им. Тем более на SQL умеет писать даже собака из соседнего подъезда. А на вашем спарк апи еще пойди найди человека..
P.S.Если есть замечания или еще чего-то знаете, делитесь.
🔥15❤12👍11😁2