Data Science. SQL hub – Telegram

Data Science. SQL hub

35.8K subscribers

922 photos

50 videos

37 files

981 links

По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo

Download Telegram

About

Blog

Apps

Platform

Data Science. SQL hub

35.8K subscribers

Data Science. SQL hub

Как переписать и оптимизировать ваши SQL-запросы к Pandas на пяти простых примерах

Аналитики данных, инженеры и учёные одинаково знакомы с SQL. Язык запросов по-прежнему широко используется для работы с реляционными базами данных любого типа.

Однако, в настоящее время, всё больше и больше, особенно для аналитиков данных, растут технические требования, и ожидается, что люди, по крайней мере, знают основы языка программирования. При работе с данными Python и Pandas являются обычным дополнением к списку требований в описании вакансий.

Хотя Pandas может быть новым для людей, знакомых с SQL, концепции выбора, фильтрации и агрегирования данных в SQL легко переносятся в Pandas. Давайте рассмотрим в этой статье некоторые распространённые SQL-запросы и способы их написания и оптимизации в Pandas.

Читать

@sqlhub

👍14❤3🔥2

3.95K views09:49

Data Science. SQL hub

🖥

Полезные инструменты для защиты от SQL и NoSQL инъекций

1.SuIP.biz
Обнаружение уязвимости для SQL-инъекций в режиме онлайн с помощью sup.biz и поддержка баз данных MySQL, Oracle, PostgreSQL, Microsoft SQL, IBM DB2, Firebird, Sybase.

SQLMap поможет протестировать сервис на все 6 методов инъекции.

2.Тест на уязвимость SQL-инъекции онлайн c Hacker Target
Еще один онлайн-инструмент Hacker Target на основе SQLMap для поиска уязвимости bind & error против GET-запроса HTTP.

3. Netsparker
Netsparker готов просканировать уровень веб-безопасности предприятий: он делает даже больше, чем просто тест на уязвимость SQL. Человек также может интегрировать приложения для автоматизации веб-безопасности.

Пользователь может проверить индекс уязвимости сайта, который прошел сканирование от Netsparker.

4. Vega
Vega – это сканер безопасности с открытым исходным кодом, который может быть установлен на Linux, OS X и Windows.

Vega написан на Java, он имеет графический интерфейс.

Не только SQLi: Vega можно использовать для тестирования на многие другие типы уязвимостей, такие как:

Инъекция XML/Shell/URL;
Directory listing;
Remote file includes;
XSS.
Vega выглядит многообещающим бесплатным сканером безопасности сети.

5. SQLMap
SQLMap – это один из популярных инструментов тестирования с открытым исходным кодом на выполнение SQL-инъекций в системе управления реляционными базами данных.

Sqlmap проводит перечисление пользователей, паролей, хэшей, баз данных и поддерживает полный дамп таблиц базы данных.

Если пользователь использует Kali Linux, то он может применить SQLMap, не устанавливая его дополнительно.

6.SQL Injection Scanner
Онлайн сканер для проведения пентестинга, который использует OWASP ZAP. Есть две версии – упрощенная (бесплатная) и полная (нужно зарегистрироваться).

7.Appspider
Appspider, разработанный Rapid7, — это динамическое решение для тестирования безопасности приложений на обход защиты и более чем 95 типов атак.

Уникальная функция Appspider под названием «vulnerability validator» позволяет разработчику воспроизвести уязвимость в режиме реального времени.

Это очень удобно, когда администратор исправил уязвимость и хочет повторно протестировать ресурс, чтобы точно убедиться, что риска для системы больше нет.

8. Acunetix
Acunetix – это готовый к работе сканер уязвимостей веб-приложений, которому доверяют более 4000 компаний по всему миру. Не только сканирование SQLi: инструмент способен найти более 6000 других уязвимостей.

Каждая находка классифицируется, и показываются потенциальные корректировки системы безопасности: поэтому пользователь всегда знает, что нужно сделать, чтобы исправить ситуацию к лучшему. Кроме того, человек может интегрироваться с системой CI/CD и SDLC, поэтому каждый риск безопасности идентифицируется и фиксируется до того, как приложение будет развернуто.

9. Wapiti
Wapiti – это сканер уязвимостей на основе Рython. Он поддерживает большое количество инструментов для обнаружения следующих атак:

Sql и XPath;
CRLS и XSS;
Shellshock;
File disclosure;
Server-side request forgery;
Command execution.
Он поддерживает конечную точку HTTP/HTTPS, несколько типов аутентификации, такие как Basic, Digest, NTLM и Kerberos. У пользователя есть возможность создавать отчеты о сканировании в формате HTML, XML, JSON и TXT.

10. Scant3r
Scant3r – это «легкий сканер», основанный на Python.

Он ищет возможность проведения атак XSS, SQLi, RCE, SSTI в заголовках и параметрах URL-адресов.

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤3🔥2

3.04K viewsedited 11:03

Data Science. SQL hub

🦆 DuckDb: эффективная OLAP-база данных

DuckDB набирает популярность, поскольку столбцово-векторный механизм этой базы данных позволяет выполнять аналитические типы запросов. Это аналитическая или OLAP-версия SQLite, широко распространенной встроенной СУБД.

Хотя DuckDB — это СУБД, ее установка проще по сравнению с Microsoft SQL Server и Postgres. Кроме того, для выполнения запроса не требуется никаких внешних зависимостей. Выполнить SQL-запрос можно с помощью DuckDb CLI.

Если вы предпочитаете интерфейс SQL, DuckDb может стать для вас лучшей альтернативой анализу данных непосредственно в CSV или Parquet-файлах. Продолжим с примерами кода и одновременно покажем, насколько просто работать с SQL в DuckDb.

В DuckDb есть функция read_csv_auto для вывода CSV-файла и загрузки этих данных в память. Во время выполнения было обнаружено, что нужно изменить SAMPLE_SIZE=-1, чтобы пропустить выборку, так как некоторые поля в наборе данных не были выведены правильно, а выборка по умолчанию составляет 1000 строк.

import duckdb
from repeat_helper import repeat_executor

con = duckdb.connect(database=':memory:')
con.execute("""CREATE TABLE parking_violations AS SELECT "Summons Number", "Vehicle Make", "Issue Date" FROM read_csv_auto('/Users/chengzhizhao/projects/pandas_alternatives/Parking_Violations_Issued_-_Fiscal_Year_2017.csv', delim=',', SAMPLE_SIZE=-1);""")
con.execute("""SELECT COUNT(1) FROM parking_violations""")
print(con.fetchall())

# ## Фильтрация по марке автомобиля (для BMW)
@repeat_executor(times=5)
def test_filter():
    con.execute("""
        SELECT * FROM parking_violations WHERE "Vehicle Make" = 'BMW'
        """)
    return con.fetchall()

# # ## Группировка по марке автомобиля и подсчет 
@repeat_executor(times=5)
def test_groupby():
    con.execute("""
        SELECT COUNT("Summons Number") FROM parking_violations GROUP BY "Vehicle Make"
        """)
    return con.fetchall()

# # # ## SELF join
@repeat_executor(times=5)
def test_self_join():
    con.execute("""
        SELECT a."Summons Number"
        FROM parking_violations a
        INNER JOIN parking_violations b on a."Summons Number" = b."Summons Number"
        """)
    return con.fetchall()

# ## оконная функция
@repeat_executor(times=5)
def test_window_function():
    con.execute("""
        SELECT *, ROW_NUMBER() OVER (PARTITION BY "Vehicle Make" ORDER BY "Issue Date")
        FROM parking_violations 
        """)
    return con.fetchall()
test_filter()

# Время медианы - 0.410 с
test_groupby()
# # Время медианы - 0.122 с
test_self_join()
# # Время медианы - 3.364 с
test_window_function()
# # Время медианы - 6.466 с

Тест фильтрации показал достижение паритета, а в остальных трех тестах производительность намного выше по сравнению с Pandas.

Чтобы не писать на Python, можно использовать DuckDb CLI с SQL-интерфейсом в командной строке или TAD.

https://duckdb.org/

@sqlhub

👍11❤3🔥2

3.13K views10:02

Data Science. SQL hub

Window_Functions_Cheat_Sheet_Ledger.pdf

🔥 Полезная шпаргалка по оконным функциям SQL

Сохраняйте себе, чтобы не потерять

@sqlhub

👍13❤4🔥3

4.32K views10:02

Data Science. SQL hub

💫 SQLite для работы

Рассказываю, почему SQLite отлично подойдет вам в повседневной работе. И неважно, разработчик вы, аналитик, тестировщик, админ или продакт-менеджер.

Для затравки несколько известных фактов:

▪SQLite — самая распространенная СУБД в мире, включена во все популярные ОС.
▪Работает без сервера.
▪Для разработчиков — встраивается прямо в приложение.
▪Для всех остальных — удобная консоль (REPL) одним файлом (sqlite3.exe на Windows, sqlite3 в Linux / macOS).

📌 Читать

@sqlhub

👍11❤5🔥2

3.98K views10:02

Data Science. SQL hub

💫 Как вместо id подставить значение sql

Чтобы вместо значения id вставить другое значение в SQL, вы можете использовать оператор UPDATE для обновления данных в таблице.

Допустим, у вас есть таблица my_table со столбцами id, name и age. Чтобы обновить значение name для строки с определенным значением id, используйте следующий запрос:

UPDATE my_table SET name = 'New Name' WHERE id = 1;

В этом запросе my_table - это название вашей таблицы, name - это название столбца, значение которого нужно обновить, New Name - это новое значение, которое вы хотите установить, а id = 1 - это условие, которое определяет, какая строка должна быть обновлена. Вместо 1 вы можете использовать любое значение, которое соответствует условию.

Также вы можете использовать оператор UPDATE для обновления нескольких столбцов в одной строке.

Например, чтобы обновить значения столбцов name и age для строки с определенным значением id, используйте следующий запрос:

UPDATE my_table SET name = 'New Name', age = 30 WHERE id = 1;

В результате выполнения этого запроса значения столбцов name и age будут обновлены для строки с id равным 1.

@sqlhub

👍16🔥3❤2

3.94K views10:46

Data Science. SQL hub

🖥

Улучшаем производительность SQLite

SQLite – это легковесная и удобная в использовании система управления базами данных. Но приложения, использующие SQLite, могут столкнуться с проблемами производительности, которые могут негативно отразиться на работе всего приложения.

Благодаря новому гайду от Google, разработчики получат ценные рекомендации по оптимизации работы с SQLite. Новейшие техники и советы помогут избежать возможных проблем с производительностью и ускорят работу приложения.

Хотя эти рекомендации сконцентрированы на Android-приложениях и примеры кода даны на Kotlin и Java, техники оптимизации производительности могут быть полезны для любого разработчика, работающего с SQLite.

📌 Читать

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥2❤1

3.8K views16:02

Data Science. SQL hub

📌Подключаем SQLAlchemy к существующей базой данных SQL Server в Python

Создание ORM-модели SQLAlchemy из существующей базы данных SQL Server.

📖Библиотеки

* SQLAlchemy
* pyodbc

Вы можете установить эти библиотеки с помощью команды pip в терминале.

pip install sqlalchemy

pip install pyodbc

Давайте писать!

Во-первых, нам нужно создать базовый класс для нашей модели. Создайте файл с именем base.py и добавьте в него следующий код:

from sqlalchemy.ext.declarative import declarative_base

Base = declarative_base()

Теперь нам нужно сопоставить существующую таблицу с нашим классом. В данном случае мы сопоставим таблицу с двумя колонками с нашей моделью. Таблица представляет собой базу клиентов с полями кода и именем. Для этого мы создадим файл customer.py и добавим в него следующий код:

import sqlalchemy as sa
from base import Base # Reference to the previously created class

class Customer(Base):
    __tablename__ = 'customer' # Name of the table in the database
    customerid = sa.Column('customerid',sa.String(20), primary_key=True)
    customername = sa.Column('customername',sa.String(20))

После того как мы создали базовый класс и класс отображения таблиц, пришло время создать модель. Для этого мы создадим отдельный файл dbmodel.py и импортируем класс таблиц клиентов, который мы только что создали, чтобы выполнять в нем запросы.

from sqlalchemy import create_engine, select
from sqlalchemy.orm import sessionmaker
from customer import Customer # Customer map class

class dbmodel(object):
    db_config = ''
    engine = object

    def __init__(self, conn_string) -> None:
        self.engine = create_engine(conn_string)

    # Function to get the name of a customer by id
    def get_customer_name_by_id(self, customer_id):
        Session = sessionmaker(bind=self.engine, future=True)
        session = Session()
        result = customer_id
        try:
            customer_row = session.execute(
                select(
                    Customer
                ).where(
                    Customer.customerid == customer_id
                )
            ).scalar_one_or_none()
            
            if customer_row is not None:
                result = customer_row.customername

            return result
        except Exception as ex:
            print(ex.args)

Обратите внимание, что в коде мы передаем строку подключения в качестве параметра. Эта строка подключения немного отличается от той, что нужна для SQLite, и мы определим ее в файле run.py, где мы соберем все вместе и запустим тест. Добавим в файл следующий код:

import sys
import dbmodel as db

def main(argv):
    user = 'youruser'
    password = 'yourpassword'
    server = 'yourhost'
    dbname = 'yourdbname'
    
    # SQL Server connection string
    connString = 'mssql+pyodbc://{0}:{1}@{2}/{3}?driver=SQL Server'.format(user, password, server, dbname)

    accountToGet = 'xxx'

    dbSQL = db.dbmodel(connString)
    customer_name = dbSQL.get_customer_name_by_id(accountToGet)
    print(customer_name)

if __name__ == '__main__':
    main(sys.argv[1:])

👍11❤1🔥1

3.28K views09:01

Data Science. SQL hub

🔥 Подборка каналов для Дата сайентиста

🖥

Machine learning

ai_ml – машинное обучение, ии, нейросети.
datasc - Data science в телеграм!
@bigdatai - Big Data

@machinelearning_ru – гайды по машинному обучению
@machinelearning_interview – подготовка к собеседованию мл.
@datascienceiot – бесплатные книги ds
@ArtificialIntelligencedl – ИИ

@machinee_learning – чат о машинном обучении
@datascienceml_jobs - вакансии ds, ml
@Machinelearning_Jobs - чат с вакансиями

#️⃣ c# c++
C# - погружение в C#
@csharp_cplus чат
С++ - обучающий канал по C++.
@csharp_1001_notes - инструменты C#

🖥

SQL базы данных

@sqlhub - Повышение эффективности кода с грамотным использованием бд.
@chat_sql - чат изучения бд.

👣

Golang
@Golang_google - восхитительный язык от Google, мощный и перспективный.
@golang_interview - вопросы и ответы с собеседований по Go. Для всех уровней разработчиков.
@golangtests - интересные тесты и задачи GO
@golangl - чат изучающих Go
@GolangJobsit - отборные вакансии и работа GO
@golang_jobsgo - чат для ищущих работу.
@golang_books - полезные книги Golang
@golang_speak - обсуждение языка Go
@golangnewss - новости go

🖥

Linux
linux - kali linux ос для хакинга
linux chat - чат linux для обучения и помощи.
@linux_read - бесплатные книги linux

🖥

Python

@pythonl - главный канал самого популярного языка программирования.
@pro_python_code – учим python с ментором.
@python_job_interview – подготовка к Python собеседованию.
@python_testit - проверочные тесты на python
@pythonlbooks - современные книги Python
@python_djangojobs - работа для Python программистов
@python_django_work - чат обсуждения вакансий

🖥

Javascript / front

@react_tg - - 40,14% разработчиков сайтов использовали React в 2022 году - это самая популярная библиотека для создания сайтов.
@javascript -канал для JS и FrontEnd разработчиков. Лучшие практики и примеры кода. Туториалы и фишки JS
@Js Tests - каверзные тесты JS
@hashdev - погружение в web разработку.
@javascriptjobjs - отборные вакансии и работа FrontEnd.
@jsspeak - чат поиска FrontEnd работы.

🖥

Java
@javatg - выучить Java с senior разработчиком на практике
@javachats - чат для ответов на вопросы по Java
@java_library - библиотека книг Java
@android_its - Android разработка
@java_quizes - тесты Java
@Java_workit - работа Java
@progersit - шпаргалки ит

👷‍♂️ IT работа

https://t.me/addlist/_zyy_jQ_QUsyM2Vi -ит каналы по яп с вакансиями

🤡It memes
@memes_prog - ит-мемы

⚙️ Rust
@rust_code - Rust избавлен от болевых точек, которые есть во многих современных яп
@rust_chats - чат rust

📓 Книги

https://t.me/addlist/HwywK4fErd8wYzQy - актуальные книги по всем яп

⭐️

Нейронные сети
@vistehno - chatgpt ведет блог, решает любые задачи и отвечает на любые ваши вопросы.
@aigen - сети для генерации картинок. видео, музыки и многого другого.
@neural – погружение в нейросети.

📢

English for coders

@english_forprogrammers - Английский для программистов

🖥

Devops
Devops - канал для DevOps специалистов.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤2🔥1

3.12K viewsedited 12:17

Data Science. SQL hub

🧑‍🏫 9 лучших курсов и сертификаций по Spark.

Apache Spark — фреймворк с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop.

1. NoSQL, Big Data, and Spark Foundations Specialization

Время прохождения – 4 месяца (если тратить 3 часа в неделю)
Кому стоит записаться?
Для новичков.

2. Distributed Computing with Spark SQL

Время прохождения – 13 часов
Кто должен записаться на курс?
Тем, кто уже имеет представление о SQL.

3. Apache Spark (TM) SQL for Data Analysts

Время прохождения – 13 часов
Кому стоит записаться на курс?
Тем, кто уже знаком с SQL.

4.Meta Spark Creator AR Certification Prep Specialization

Время прохождения – 3 месяца
Кому стоит записаться?
Тем, кто является новичком.

5. Data Analysis Using Pyspark

Время выполнения – 1,5 часа
Кому стоит записаться на курс?
Тем, кто уже знает программирование на Python.

6. Scalable Machine Learning on Big Data using Apache Spark

Время прохождения – 6 часов
Кому стоит записаться?
Тем, кто уже владеет Python, машинным обучением и базовыми знаниями SQL.

7. Big Data Analysis with Scala and Spark

Время прохождения – 27 часов
Кому стоит записаться?
Тем, у кого есть предыдущие знания программирования на любом языке.

8. Data Engineering with MS Azure Synapse Apache Spark Pools

Время прохождения – 7 часов
Кому стоит записаться на курс?
Тем, кто уже знает Python или SQL.

9. Building Machine Learning Pipelines in PySpark MLlib

Время выполнения – 1,5 часа
Кому стоит записаться?
Тем, кто знает Python и основы машинного обучения.

@sqlhub

👍14❤5🔥3

3.54K views14:17

Data Science. SQL hub

🔥 Краткий обзор 25 баз данных, которые актуальны в 2023 году.

Сейчас я познакомлю вас с 25 актуальными базами данных.

От классических фаворитов до передовых новичков,
приготовьтесь к дикой поездке по стране баз данных!

1. MySQL – The Classic

CREATE TABLE users (id INT AUTO_INCREMENT PRIMARY KEY, name VARCHAR(255));
INSERT INTO users (name) VALUES ('John Rush');
SELECT * FROM users;

MySQL – это надежный дедушка баз данных – он существует с самой зари времен и каким-то образом продолжает становиться все лучше.
Благодаря высокой производительности и совместимости почти со всеми языками программирования.

2. MongoDB – NoSQL Hipster Kid

// Connect to MongoDB and insert a document
const { MongoClient } = require("mongodb");
const uri = "mongodb://localhost:27017";
const client = new MongoClient(uri);
await client.connect();
const db = client.db("mydb");
await db.collection("users").insertOne({ name: "John Rush" });

MongoDB - это крутая NoSQL база, которую я часто использую в своих проектах.

3. PostgreSQL – The Sophisticated One

CREATE TABLE users (id SERIAL PRIMARY KEY, name VARCHAR(255));
INSERT INTO users (name) VALUES ('John Rush');
SELECT * FROM users;

PostgreSQL, возможно, представляет собой идеальное сочетание производительности, функциональности и элегантности.

4. Oracle – The Enterprise Behemoth

CREATE TABLE users (id NUMBER GENERATED BY DEFAULT ON NULL AS IDENTITY PRIMARY KEY, name VARCHAR2(255));
INSERT INTO users (name) VALUES ('John Rush');
SELECT * FROM users;

Oracle похож на популярного школьника, который получает одни пятерки, но при этом играет в каждой спортивной команде – он все делает хорошо!

5. Cassandra – Distributed Dynamo

from cassandra.cluster import Cluster

cluster = Cluster(["127.0.0.1"])
session = cluster.connect()

session.execute("""
    CREATE KEYSPACE mykeyspace 
    WITH replication={'class':'SimpleStrategy', 'replication_factor':1}
""")

session.set_keyspace("mykeyspace")
session.execute("""
    CREATE TABLE users (
        id UUID PRIMARY KEY,
        name text
    )
""")

Cassandra – это королева пчел распределенных баз данных – она обладает высокой масштабируемостью и отказоустойчивостью.

6. Redis – The Speedster

import redis

r = redis.Redis(host="localhost", port=6379)
r.set("name", "John Rush")
print(r.get("name"))

Redis – это тот единственный друг, который может бегать быстрее Усэйна Болта, жонглируя горящими бензопилами. Это хранилище данных in-memory отличается молниеносной скоростью и идеально подходит для кэширования или приложений реального времени.

7. MariaDB – MySQL’s Open-Source Sibling

CREATE TABLE users (id INT AUTO_INCREMENT PRIMARY KEY, name VARCHAR(255));
INSERT INTO users (name) VALUES ('John Rush');
SELECT * FROM users;

MariaDB имеет много общего с MySQL, но при этом делает упор на открытый исходный код и ориентированность на сообщество. Это как выбор между Pepsi и Coke – они обе утоляют жажду, просто зависит от того, какой вкус вы предпочитаете!

▪ Читать дальше

@sqlhub

👍14🔥4❤2

3.13K views12:49

Data Science. SQL hub

🖥

Pandas AI — это библиотека Python, которая использует генеративные модели ИИ для расширения возможностей панд. Он был создан в дополнение к библиотеке pandas, широко используемому инструменту для анализа и обработки данных.

В редакторе кода задаете любой запрос про данные на естественном языке и без написания кода получаете готовый ответ по вашим данным.

Установка:
pip install pandasai

Например, вы можете попросить PandasAI найти все строки в DataFrame, где значение столбца больше 5, и он вернет DataFrame, содержащий только эти строки:

import pandas as pd
from pandasai import PandasAI


df = pd.DataFrame({
    "country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"],
    "gdp": [19294482071552, 2891615567872, 2411255037952, 3435817336832, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
    "happiness_index": [6.94, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
})

# Instantiate a LLM
from pandasai.llm.openai import OpenAI
llm = OpenAI(api_token="YOUR_API_TOKEN")

pandas_ai = PandasAI(llm)
pandas_ai(df, prompt='Which are the 5 happiest countries?')

Вывод:

6            Canada
7         Australia
1    United Kingdom
3           Germany
0     United States
Name: country, dtype: object

Конечно, вы также можете попросить PandasAI выполнить более сложные запросы. Например, вы можете попросить PandasAI найти сумму ВВП двух самых несчастливых стран:

pandas_ai(df, prompt='What is the sum of the GDPs of the 2 unhappiest countries?')

Вывод:
19012600725504

Вы также можете попросить PandasAI нарисовать график:

pandas_ai(
    df,
    "Plot the histogram of countries showing for each the gdp, using different colors for each bar",
)

Вот еще один пример использования библиотеки Pandas AI в Google Colab.

▪ Github

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13🔥7❤3👎1

3.84K views10:11

Data Science. SQL hub

🔥 30 SQL-запросов, объяснённых через их эквиваленты Pandas

В мире, где с 1974 года доминирует SQL, в 2008 году появился Pandas, предлагающий привлекательные функции, такие как встроенная визуализация и гибкая обработка данных. Он быстро стал популярным инструментом для исследования данных, затмив собой SQL.

Но не обманывайте себя, SQL по-прежнему держит свои позиции. Это второй по востребованности и третий по скорости роста язык для Data science (см. здесь ). Таким образом, в то время как Pandas привлекает всеобщее внимание, SQL остаётся жизненно важным навыком для любого специалиста по данным.

Давайте узнаем, как легко выучить SQL, если вы уже знаете Pandas.

▪Читать

@sqlhub

👍19❤2🔥2

3.97K viewsedited 18:18

Data Science. SQL hub

📌 SQL: Медианные суммы заказов

Необходимо рассчитать медианное значение суммы заказов в разрезе года и месяца. Медиана должна быть рассчитана в 2 вариантах:

▪интерполированная медиана: в качестве медианы берется сумма, которая делит все заказы ровно в 50% пропорции, даже если фактически такого заказа на было.

▪действительная медиана: в качестве медианы берется реальная сумма заказа. Если заказов четное число, то берется ближайшая сумма заказа, меньшая интерполированной медианы.

Пример:

Дано: 1; 2
Интерполированная медиана: 1.5
Действительная медиана: 1

Важно: Одним заказом считаем строки из таблицы Orders в которых полностью совпадает поле ord_datetime.

Сортировка
Результат отсортируйте по возрастанию года-месяца.

Столбцы в результате
▪dt - год и месяц
▪interpolated_median - интерполированная медиана
▪real_median - действительная медиана

Важно: Обратите внимание, что название столбцов в вашем ответе должно в точности совпадать с условием.

Дополнительные условия
▪Столбец dt должен быть представлен в виде строки в формате YYYY-MM
▪Столбцы с медианами должны иметь тип numeric

Пишите свое решение в комментариях👇

@sqlhub

❤6👍3🔥1

3.82K views10:01

Data Science. SQL hub

Forwarded from YTsaurus Community Chat (RU)

🦖 Вебинар YTsaurus. DWH Яндекс Go: как мы готовим наши петабайты

Новый вебинар YTsaurus — об использовании платформы в реальных сервисах. В гостях — Яндекс Go, суперапп с разными сервисами внутри, который основан на data driven подходе. Владимир Верстов и Николай Гребенщиков из команды разработки Data Management Platform Яндекс Go расскажут, какие требования команда предъявляет к системам хранения и расскажет, как с этими требованиями справляется YTsaurus.

Ждём 28 июня в 18:30 Мск. Участие бесплатное, зарегистрироваться можно по ссылке.

Также запись вебинара будет доступна на YouTube.

❤1

3.4K views10:32

Data Science. SQL hub

🖥

Неожиданная находка, которая освобождает 20 GB неиспользованного индексного пространства.

Как освободить место без удаления индексов или данных
Раз в несколько месяцев мы получаем предупреждения от системы мониторинга базы данных о том, что свободное место скоро закончится. Обычно мы просто выделяем больше места и забываем об этом, однако в этот раз мы были на карантине и система была нагружена меньше, чем обычно. И тут мы подумали, что это хорошая возможность провести чистку.

Начнем с конца: в итоге нам удалось освободить более чем 70 GB не оптимизированного и неиспользуемого пространства без удаления индексов и данных.

Используя обычные приемы, такие как перестроение индексов и таблиц, мы очистили много пространства, но затем одна удивительная находка помогла нам освободить дополнительно примерно 20 GB неиспользуемых индексированных значений.

▪ Читать

#postgresql

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤4🔥3

3.61K views12:33

Data Science. SQL hub

🖥

Наглядный гайд с функциями от SQL до Pandas

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17🔥5❤2

3.88K views13:33

Data Science. SQL hub

🖥

Как выполнить запрос MySQL из командной строки

Вы можете легко выполнить запрос MySQL из командной строки, используя команду MySQL вместе с опцией -e.


mysql -h [хост] -u [имя пользователя] -p [пароль] [база данных] -e [SQL_запрос]

В приведенной выше команде необходимо указать имя пользователя, пароль, имя базы данных для соединения с базой данных MySQL. После опции -e необходимо указать SQL-запрос, который будет выполняться.

Вот простой пример выполнения SQL-запроса при подключении к локальной базе данных.

mysql -utest_user -ptest_password -hlocalhost db -e "SELECT * FROM table;".

Вы также можете опустить аргумент имени базы данных 'db', если вы ссылаетесь на нее в SQL-запросе.

mysql -utest_user -ptest_password -hlocalhost -e "SELECT * FROM db.table;"

Добавление точки с запятой в конце SQL-запроса необязательно. Но если вы хотите выполнить несколько SQL-запросов, вам необходимо разделить их с помощью точки с запятой, как показано в следующем примере.

mysql -utest_user -ptest_password -hlocalhost -e "SELECT * FROM db.table; SELECT * from db.table2;"

Вы также можете выполнять отдельные команды MySQL с опцией -e, если хотите.

mysql -utest_user -ptest_password -hlocalhost -e "SELECT * FROM db.table;"
mysql -utest_user -ptest_password -hlocalhost -e "SELECT * FROM db.table2;"

Вы также можете хранить свои SQL-запросы в файле и указать MySQL прочитать этот файл. Допустим, у вас есть файл queries.txt

nano queries.txt
со следующими запросами.

SELECT * FROM db.table;
SELECT * FROM db.table2;

Теперь, если вы хотите выполнить запросы в файле queries.txt, вы можете сделать это с помощью следующей команды. В этом случае MySQL будет читать входные данные из файла queries.txt.

mysql -utest_user -ptest_password -hlocalhost < queries.txt

Ключевым моментом, на который следует обратить внимание, является то, что вы должны указать ваш SQL-запрос в двойных кавычках. Если приведенный выше синтаксис команды вам не подходит, попробуйте заключить SQL-запрос в одинарные кавычки.

Также, если ваш SQL-запрос сам содержит двойные кавычки, то их нужно убрать, добавив перед ними обратную косую черту.

Результат вышеприведенного запроса будет выведен на консоль. Если вы хотите сохранить этот результат в другом файле, вам нужно будет использовать операторы перенаправления. Вот пример сохранения результата запроса MySQL в файл test.txt.

mysql -utest_user -ptest_password -hlocalhost -e "SELECT * FROM db.table;" > /home/user/test.txt

Одним из преимуществ выполнения запросов MySQL в командной строке является то, что вы можете передавать вывод другим командам Linux в соответствии с вашими требованиями. Вот простой пример, в котором мы передаем вывод запроса MySQL команде grep.

$ mysql -utest_user -ptest_password -hlocalhost -e "SELECT * FROM db.table;" | grep 'abc'

Заключение
В этом посте мы рассмотрели, как выполнять запросы MySQL из командной строки, сохранять их вывод в файлы и даже передавать их другим командам Linux для дальнейшей обработки. Вы можете эффективно использовать их в сценарии оболочки для автоматического получения данных, их обработки и принятия мер в зависимости от полученной информации.

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14🔥5❤1

3.14K views11:30

Data Science. SQL hub

🔍Где и как учить SQL бесплатно?

SQLZoo - это бесплатный онлайн ресурс, который предлагает интерактивные уроки и задания для изучения SQL. Уроки начинаются с простых запросов и постепенно усложняются по мере продвижения в обучении.

W3Schools SQL - известный онлайн-ресурс, предлагающий уроки и примеры для изучения SQL и других языков программирования. Здесь пользователи могут найти множество материалов, которые помогут им углубить свои знания и применить их на практике.

Codecademy SQL - интерактивный курс для изучения SQL с возможностью практического применения на практике.

SQLBolt - это ресурс, который помогает начинающим и опытным пользователям SQL с помощью бесплатных уроков и задач.

Udacity SQL - курс известного онлайн-образовательного ресурса, позволит вам освоить основы языка SQL и показать, как применять его для анализа данных

Khan Academy SQL - бесплатный курс SQL, предоставляющий уроки и задачи для изучения языка.

LearnSQL - платный ресурс для изучения SQL. Содержит большое количество уроков и практических заданий.

SQLCourse - представляет собой бесплатную платформу, где можно овладеть навыками SQL. Здесь предоставлены обучающие уроки, практические задания и тесты, позволяющие проверить свои знания.

SQL Tutorial - это русскоязычный бесплатный ресурс, предоставляющий возможность изучения SQL. Здесь можно найти уроки и задания, которые помогут вам применять полученные знания на практике.

SQL Zoo - бесплатный ресурс для изучения SQL, содержащий уроки и задания на основе базы данных AdventureWorks.

Mode Analytics SQL Tutorial - бесплатный курс, который предлагает обучение базовым и продвинутым навыкам работы с языком SQL.

SQL Exercises - это бесплатный онлайн-ресурс, который предлагает задачи и упражнения для изучения и практики SQL. Ресурс содержит множество заданий, которые помогут вам развить практические навыки работы с SQL.

SQL Fiddle – это интернет-сервис, который предоставляет возможность создавать, тестировать и отлаживать SQL-запросы совершенно бесплатно.

Learn SQL the Hard Way - книга для изучения SQL, содержащая уроки и задания для практической работы.

DataCamp SQL- курс SQL от DataCamp, который научит Вас основам языка SQL и его применению в анализе данных. Содержит уроки и практические задания на практике.

@sqlhub

👍22🔥4❤3

4.42K views15:42

Data Science. SQL hub

Жестовый язык, квази-эксперименты и коды на PySpark Pipeline: Х5 Tech проведет Data Science Meetup #2

На онлайн-митапе 5 июля выступят спикеры из X5 Tech, Яндекс Маркет и SberDevices, чтобы поделиться своим опытом и обсудить несколько тем:

➖ Как с помощью PySpark Pipeline писать читаемый, легко тестируемый и поддерживаемый код?
➖ Как оценить эффект без стандартных A/B-тестов с помощью квази-экспериментов методом Propensity Score?
➖ Какие есть проблемы и решения в распознавании жестового языка?

🔔5 июля в 18:00
Участие бесплатно, нужна регистрация

2.94K views09:02