Анализ данных (Data analysis)

Зачем аналитику нужно программирование на SQL?
#sql #mssqlserver

Читать

Зачем аналитику нужно программирование на SQL? – This is Data

Многие аналитики работающие с SQL, никогда не сталкивались с программированием на этом языке, однако, программные возможности в нем есть, хотя и скромные

2.8K views09:05

Анализ данных (Data analysis)

Immudb – самая быстрая в мире неизменная база данных, построенная на модели нулевого доверия

Immudb - это база данных со встроенной криптографической проверкой. Она отслеживает изменения в конфиденциальных данных, и целостность истории будет защищена клиентами без необходимости доверять самой базе. Она может работать как хранилище ключей и значений, так и/или как реляционная база данных (SQL).

#GitHub | #SQL #Data

@data_analysis_ml

4.8K views08:30

Анализ данных (Data analysis)

0:36

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

В больших проектах #SQL-запросы могут становиться сложными.

Документирование помогает прояснить функциональность каждого запроса для других членов команды.

С помощью #dbt вы можете легко документировать свои запросы с помощью команды 𝐝𝐛𝐭 𝐝𝐨𝐜𝐬 𝐠𝐞𝐧𝐞𝐫𝐚𝐭𝐞.

📌 Что такое dbt
📌 Больше примеров

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

7.4K views11:01

Анализ данных (Data analysis)

🖥 SQL-metadata

Если вы хотите извлечь определенные компоненты #SQL-запроса для последующей работы с нмим на #Python, используйте sql_metdata.

Извлекает имена столбцов и таблиц, используемых в запросе. Автоматически выполняет разрешение псевдонимов столбцов, разрешение псевдонимов подзапросов, а также разрешение псевдонимов таблиц.

Также предоставляет полезные функции для нормализации SQL-запросов.

pip install sql-metadata

▪Github
▪Docs

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

8.4K viewsedited 13:02

Анализ данных (Data analysis)

💡 Во время работы с таблицами в Spark возникают ситуации, когда для обработки данных набора встроенных функций оказывается недостаточно.

В этом случае можно выгрузить таблицу в Pandas DataFrame и обрабатывать данные на Python привычными функциями. Однако, есть способ сделать это быстрее – UDF-функции в Spark.

UDF (User Defined Functions) – это функции, которые не содержатся во встроенных модулях Spark и определяются самим пользователем. UDF позволяют расширить возможности обработки данных и могут содержать в себе комбинацию встроенных функций.

Использование UDFS в PySpark может помочь упростить выполнение сложных запросов #SQL, за счет запуска сложных операций в одном вызове функции.

В приведенном примере кода мы определяем UDF с именем modify_name, эта функция приводит все имена в нашей таблице к верхнему регистру.

📌 Подробнее о UDF

@data_analysis_ml

6.6K views16:03

Анализ данных (Data analysis)

🖥

dbt-core

Громоздкие #SQL запросы трудно читать, понимать и поддерживать.

С помощью dbt вы можете использовать функцию ref, чтобы разбить длинный SQL-запросы на более мелкие компоненты, делая их более читаемыми и удобными для обслуживания.


-- models/total_order_amount.sql
SELECT 
    order_id, 
    customer_id, 
    SUM(order_amount) AS total_amount
FROM
    raw_orders
GROUP BY order_id, customer_id

models/average_order_amount.sql:


-- models/average_order_amount.sql
SELECT 
    customer_id, 
    AVG(total_amount) AS avg_amount
FROM {{ ref('total_order_amount') }}
GROUP BY customer_id

▪ Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

5.2K viewsedited 09:20

About

Blog

Apps

Platform