397 subscribers
226 photos
45 videos
11 files
305 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt

Буст канала тут - https://t.me/boost/data_engi
Download Telegram
😁4💩2
SQL и хранилищам данных, полезные ссылки по теме:

🟡PostgreSQL

🔘Домашняя страница базы данных

🔘Что такое PostgreSQL? (краткие сведения)

🔘Документация к PostgreSQL 14.5 на русском языке

🔘Курс молодого бойца PostgreSQL

🔘Подборка статей

🔘Язык SQL

🟢Архитектура хранилищ данных

🔘Хранилище данных: понятия

🔘Архитектура хранилищ данных: традиционная и облачная

🔘Что такое хранилище данных?

🔘Публикации, рассказывающие о хранилищах данных, подборка Habr

🔘Обзор гибких методологий проектирования DWH

🔘Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud

🔘Создание Data Lake и Warehouse на GCP

#sql #postgres #dwh #clickhouse #datalake
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Открыл для себя алмаз 💎 среди ресурсов для разработчиков - коллекция незаменимых шпаргалок! Настоящая находка для тех, кто стремится улучшить свою продуктивность и ускорить процесс написания качественного кода. ⭐️


🔜 DEV - шпаргалки для разрабов
🔜 SQL - шпаргалки для аналитиков


Эти шпаргалки - твой личный ментор, всегда под рукой. Используй их, чтобы с легкостью навигировать по сложным концепциям и кодам, сократив время на поиски ответов и повысив точность выполнения задач. 🎩


#разработчики #шпаргалки #GitHub #SQL #продуктивность
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5
👩‍💻 Чистый SQL-код

Ты можешь писать SQL так:

coalesce("Фамилия", '') || ' ' || coalesce("Имя", '') || ' ' || coalesce("Отчество", '')
Но лучшая версия тебя будет использовать функцию concat_ws:

concat_ws(' ', "Фамилия", "Имя", "Отчество")
#база #sql
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥9
SQLMesh

SQLMesh - это фреймворк нового поколения для преобразования и моделирования данных, обратно совместимый с dbt. Он отличается простотой использования, корректностью и эффективностью.

SQLMesh позволяет специалистам по работе с данными эффективно запускать и внедрять преобразования данных, написанные на SQL или Python.

Авторы обещают, что SQLMesh сделает твои проекты на базе dbt более эффективными, надёжными и удобными в обслуживании, и это больше, чем просто альтернатива dbt.

#sqlmesh #sql #dbt #db
6
🖼️ SQL генератор - Sqlcode 8b на базе Llama-3

Мощная языковая модель для генерации текста в SQL, которая находится на одном уровне с универсальными моделями.

🔜 Github
🔜 Weights
🔜 Demo

#sql #llm #postgres
Please open Telegram to view this post
VIEW IN TELEGRAM
4❤‍🔥2😁1
SQLGlot - это SQL-парсер, транспилятор, оптимизатор и движок без зависимостей. Его можно использовать для форматирования SQL или перевода между 21 различным диалектом, таким как DuckDB, Presto / Trino, Spark / Databricks, Snowflake и BigQuery. Он предназначен для чтения различных SQL-вводов и вывода синтаксически и семантически корректного SQL в целевых диалектах.

Это очень универсальный общий SQL-парсер с надёжным набором тестов. Он также достаточно производительный, несмотря на то, что написан исключительно на Python.

Ты можешь легко настраивать парсер, анализировать запросы, обходить деревья выражений и программно строить SQL.

Синтаксические ошибки подсвечиваются, а несовместимости диалектов могут выдавать предупреждения или рэйзить ошибки в зависимости от конфига. Однако SQLGlot не претендует на роль валидатора SQL, поэтому он может пропустить некоторые синтаксические ошибки.

Больше примеров по ссылке
Документация

#sql #parser #python
6❤‍🔥22
pg_cron - планировщик заданий на основе cron для PostgreSQL (10 и выше), который запускается внутри БД в качестве расширения. Он использует тот же синтаксис, что и обычный cron, но позволяет планировать команды PostgreSQL непосредственно из БД.

В pg_cron можно использовать "$" для указания последнего дня месяца.

Пример использования:

-- Vacuum every day at 3:00am (GMT)
SELECT cron.schedule('nightly-vacuum', '0 3 * * *', 'VACUUM');
schedule
----------
43

-- Stop scheduling jobs
SELECT cron.unschedule('nightly-vacuum' );
unschedule
------------
t

#cron #sql #postgres #postgresql
5
👆 Малоизвестные, но интересные ETL-инструменты


▶️ Astera Centerprise - готовое к использованию ETL-решение корпоративного уровня, которое предлагает возможности интеграции и преобразования необработанных данных любой сложности и размера в различных форматах: от сложных иерархических файлов и неструктурированных документов до отраслевых форматов, таких как EDI, и даже устаревших данных, таких как COBOL.

▶️ Talend - программная платформа с открытым исходным кодом, которая предлагает решения для интеграции данных и управления ими. Talend специализируется на интеграции больших данных. Этот инструмент предоставляет такие функции, как облачные технологии, большие данные, интеграция корпоративных приложений, качество данных и управление основными данными. Он также предоставляет единое хранилище для хранения и повторного использования метаданных.

▶️ Skyvia - веб-сервис для интеграции облачных данных и резервного копирования. Он предлагает инструменты ETL для интеграции cloud CRM с другими источниками данных и позволяет пользователям контролировать все свои бизнес-данные. Данные можно просматривать и обрабатывать с помощью SQL. Skyvia обеспечивает простую интеграцию данных без навыков программирования.

▶️ Pentaho - инструмент бизнес-аналитики, который предоставляет клиентам широкий спектр решений для бизнес-аналитики. Он способен создавать отчеты, анализировать данные, интегрировать данные, извлекать данные и т.д. Pentaho также предлагает полный набор функций BI, которые могут повысить производительность и эффективность бизнеса.

▶️ Hevo Data - платформа ETL, которая поддерживает интеграцию, перемещение и обработку данных. Она поддерживает широкий спектр источников данных и обеспечивает репликацию данных в режиме реального времени. Этот инструмент облегчает извлечение, преобразование и загрузку данных в указанные целевые пункты назначения.

#etl #de #sql #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
5
🖼️
PostgreSQL 16 изнутри

Разработчик СУБД Postgres Professional выпустил новую книгу «PostgreSQL 16 изнутри». Электронная версия находится в свободном доступе . Автор книги — Егор Рогов, директор по развитию образовательных программ Postgres Professional.

Первое издание этой книги, основанной на 14-й версии PostgreSQL, вышло в марте 2022 года и обновлено до версии 15. В связи с большим читательским интересом компания перевела книгу на английский язык. Позже она стала самым популярным тематическим изданием 2023 года по версии Postgres Weekly и была включена в список профессиональной литературы на официальном сайте сообщества PostgreSQL.

В текущем издании книги «PostgreSQL 16 изнутри» учтены замечания читателей, исправлены опечатки и отражены изменения, произошедшие в версии PostgreSQL 16. Postgres Professional также обновил локализованную документацию для PostgreSQL 16.

#db #sql #postgres #postgresql
Please open Telegram to view this post
VIEW IN TELEGRAM
10
11
😮 Turso представили Limbo — переписанный на Rust вариант SQLite, обещают +20% к скорости, векторный поиск, асинхронность и сборку в WebAssembly.

1️⃣ Почему интересно: Rust даёт безопасность и асинхронность, векторные индексы полезны для ML/AI, а WASM-версия запускается прямо в браузере.

2️⃣ Главные фишки:
🟢+20% производительности
🟢Векторные индексы для поиска
🟢Асинхронная обработка запросов
🟢Сборка в WebAssembly

3️⃣ Где пригодится: Локальные проекты (edge computing, микросервисы), задачи ML (embeddings), лёгкие веб-приложения без серверов.

4️⃣ Итог: Limbo — свежий взгляд на SQLite с упором на скорость, лёгкость и современные сценарии (ML, браузеры, edge).

#turso #limbo #sqlite #dev #de #sql
Please open Telegram to view this post
VIEW IN TELEGRAM
6😁3❤‍🔥11
🐝Hive против Spark🚀

Apache Hive и Apache Spark — мощные инструменты для работы с большими данными, но они по-разному выполняют распределённую обработку.

🔜 Hive: SQL-интерфейс для Hadoop

Плюсы:
✔️ Хорошо масштабируется для больших наборов данных (хранящихся в HDFS)
✔️ SQL-like язык (HiveQL) делает его удобным для пользователя
✔️ Отлично подходит для пакетной обработки

Минусы:
▶️ Высокая задержка запросов (использует MapReduce/Tez)
▶️ Медленнее по сравнению со Spark
▶️ Ограниченные возможности потоковой обработки в реальном времени

➡️ Spark: быстрая распределённая обработка

Плюсы:
✔️ Вычисления в памяти 🔜 высокая производительность
✔️ Поддержка обработки данных в реальном времени (структурированная потоковая передача)
✔️ Гибкость: работает с HDFS, S3, Cassandra, JDBC и другими

Минусы:
▶️ Требует больше оперативной памяти
▶️ Более сложное управление
▶️ Менее эффективен для пакетной обработки архивированных больших данных

💡 Выводы:
Используй Hive для сложных SQL-запросов и пакетной обработки.
Используйте Spark для аналитики в реальном времени и быстрой обработки данных.

#data #bigdata #hive #spark #sql
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5👏2😁1
😁17
😁13
📊 Продвинутый SQL: Моделирование и эффективный доступ к данным

Если ты сталкивался с требованиями «знания продвинутого SQL» в вакансиях, но не понимал, что именно под этим подразумевается, эта статья для тебя.

🐱 В ней рассматриваются:
- Оконные функции и CTEs
- Различные типы JOIN и MERGE INTO
- Оптимизация запросов: партиционирование, кластеризация, избегание data skew
- Моделирование данных: Dimension, Fact, Bridge, OBT и агрегированные таблицы

📖 Подробнее: https://www.startdataengineering.com/post/advanced-sql/

#DE #DataEngineering #SQL #BigData #ETL #Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥8
SQLZoo — живой онлайн-тренажёр с задачами от простых SELECT до продвинутых оконных функций. Если хочешь свободно «разговаривать» с базами данных, тебе это нужно и будет полезным изучить каждый интерактивный урок.

1️⃣ Почему именно SQLZoo?
Платформа комбинирует теорию и практику в одном окне. Ты сразу видишь результат запроса, исправляешь ошибки на месте и не тратишь время на настройку окружения.

2️⃣ Как учиться быстрее?
🟡 Проходи уроки подряд: Basics 🔜 Joins 🔜 Aggregates 🔜 Windows.
🟡 Фиксируй новые приёмы в конспект: GROUP BY, HAVING, WITH RECURSIVE.
🟡 Старайся решить каждое задание без подсказок, а затем сравни свой запрос с эталоном.

3️⃣ Что получишь на выходе?
За пару вечеров наберёшься практики, которой хватает, чтобы читать чужие SQL-скрипты без боли и писать свои, не заглядывая в подсказки.

Чтобы SQL больше не был тёмным лесом - залетай сюда ➡️ sqlzoo.net

#sql #de #postgres
Please open Telegram to view this post
VIEW IN TELEGRAM
4
DB Quacks

Бесплатный интерактивный курс по SQL и DuckDB, где вместо сухой теории ты вводишь запросы и сразу получаешь результат. Всё в стиле аркадной игры: удобно, весело и полезно.

Идеально для первых шагов в аналитике и работе с данными.

#sql #de #duckdb
❤‍🔥6👏21