Data Science. SQL hub
35.8K subscribers
922 photos
50 videos
37 files
981 links
По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo
Download Telegram
🔥 30 SQL-запросов, объяснённых через их эквиваленты Pandas

В мире, где с 1974 года доминирует SQL, в 2008 году появился Pandas, предлагающий привлекательные функции, такие как встроенная визуализация и гибкая обработка данных. Он быстро стал популярным инструментом для исследования данных, затмив собой SQL.

Но не обманывайте себя, SQL по-прежнему держит свои позиции. Это второй по востребованности и третий по скорости роста язык для Data science (см. здесь ). Таким образом, в то время как Pandas привлекает всеобщее внимание, SQL остаётся жизненно важным навыком для любого специалиста по данным.

Давайте узнаем, как легко выучить SQL, если вы уже знаете Pandas.

Читать

@sqlhub
👍192🔥2
📌 SQL: Медианные суммы заказов

Необходимо рассчитать медианное значение суммы заказов в разрезе года и месяца. Медиана должна быть рассчитана в 2 вариантах:


интерполированная медиана: в качестве медианы берется сумма, которая делит все заказы ровно в 50% пропорции, даже если фактически такого заказа на было.

действительная медиана: в качестве медианы берется реальная сумма заказа. Если заказов четное число, то берется ближайшая сумма заказа, меньшая интерполированной медианы.

Пример:

Дано: 1; 2
Интерполированная медиана: 1.5
Действительная медиана: 1


Важно: Одним заказом считаем строки из таблицы Orders в которых полностью совпадает поле ord_datetime.

Сортировка
Результат отсортируйте по возрастанию года-месяца.

Столбцы в результате
dt - год и месяц
interpolated_median - интерполированная медиана
real_median - действительная медиана

Важно: Обратите внимание, что название столбцов в вашем ответе должно в точности совпадать с условием.

Дополнительные условия
Столбец dt должен быть представлен в виде строки в формате YYYY-MM
Столбцы с медианами должны иметь тип numeric

Пишите свое решение в комментариях👇

@sqlhub
6👍3🔥1
🦖 Вебинар YTsaurus. DWH Яндекс Go: как мы готовим наши петабайты

Новый вебинар YTsaurus — об использовании платформы в реальных сервисах. В гостях — Яндекс Go, суперапп с разными сервисами внутри, который основан на data driven подходе. Владимир Верстов и Николай Гребенщиков из команды разработки Data Management Platform Яндекс Go расскажут, какие требования команда предъявляет к системам хранения и расскажет, как с этими требованиями справляется YTsaurus.

Ждём 28 июня в 18:30 Мск. Участие бесплатное, зарегистрироваться можно по ссылке.

Также запись вебинара будет доступна на YouTube.
1
🖥 Неожиданная находка, которая освобождает 20 GB неиспользованного индексного пространства.

Как освободить место без удаления индексов или данных
Раз в несколько месяцев мы получаем предупреждения от системы мониторинга базы данных о том, что свободное место скоро закончится. Обычно мы просто выделяем больше места и забываем об этом, однако в этот раз мы были на карантине и система была нагружена меньше, чем обычно. И тут мы подумали, что это хорошая возможность провести чистку.

Начнем с конца: в итоге нам удалось освободить более чем 70 GB не оптимизированного и неиспользуемого пространства без удаления индексов и данных.

Используя обычные приемы, такие как перестроение индексов и таблиц, мы очистили много пространства, но затем одна удивительная находка помогла нам освободить дополнительно примерно 20 GB неиспользуемых индексированных значений.

Читать

#postgresql

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🔥3
SQL_Pandas.pdf
515.4 KB
🖥 Наглядный гайд с функциями от SQL до Pandas


@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥52
🖥 Как выполнить запрос MySQL из командной строки

Вы можете легко выполнить запрос MySQL из командной строки, используя команду MySQL вместе с опцией -e.


mysql -h [хост] -u [имя пользователя] -p [пароль] [база данных] -e [SQL_запрос]


В приведенной выше команде необходимо указать имя пользователя, пароль, имя базы данных для соединения с базой данных MySQL. После опции -e необходимо указать SQL-запрос, который будет выполняться.

Вот простой пример выполнения SQL-запроса при подключении к локальной базе данных.


mysql -utest_user -ptest_password -hlocalhost db -e "SELECT * FROM table;".

Вы также можете опустить аргумент имени базы данных 'db', если вы ссылаетесь на нее в SQL-запросе.


mysql -utest_user -ptest_password -hlocalhost -e "SELECT * FROM db.table;"

Добавление точки с запятой в конце SQL-запроса необязательно. Но если вы хотите выполнить несколько SQL-запросов, вам необходимо разделить их с помощью точки с запятой, как показано в следующем примере.


mysql -utest_user -ptest_password -hlocalhost -e "SELECT * FROM db.table; SELECT * from db.table2;"

Вы также можете выполнять отдельные команды MySQL с опцией -e, если хотите.


mysql -utest_user -ptest_password -hlocalhost -e "SELECT * FROM db.table;"
mysql -utest_user -ptest_password -hlocalhost -e "SELECT * FROM db.table2;"


Вы также можете хранить свои SQL-запросы в файле и указать MySQL прочитать этот файл. Допустим, у вас есть файл queries.txt


nano queries.txt
со следующими запросами.


SELECT * FROM db.table;
SELECT * FROM db.table2;


Теперь, если вы хотите выполнить запросы в файле queries.txt, вы можете сделать это с помощью следующей команды. В этом случае MySQL будет читать входные данные из файла queries.txt.


mysql -utest_user -ptest_password -hlocalhost < queries.txt

Ключевым моментом, на который следует обратить внимание, является то, что вы должны указать ваш SQL-запрос в двойных кавычках. Если приведенный выше синтаксис команды вам не подходит, попробуйте заключить SQL-запрос в одинарные кавычки.

Также, если ваш SQL-запрос сам содержит двойные кавычки, то их нужно убрать, добавив перед ними обратную косую черту.

Результат вышеприведенного запроса будет выведен на консоль. Если вы хотите сохранить этот результат в другом файле, вам нужно будет использовать операторы перенаправления. Вот пример сохранения результата запроса MySQL в файл test.txt.


mysql -utest_user -ptest_password -hlocalhost -e "SELECT * FROM db.table;" > /home/user/test.txt

Одним из преимуществ выполнения запросов MySQL в командной строке является то, что вы можете передавать вывод другим командам Linux в соответствии с вашими требованиями. Вот простой пример, в котором мы передаем вывод запроса MySQL команде grep.


$ mysql -utest_user -ptest_password -hlocalhost -e "SELECT * FROM db.table;" | grep 'abc'

Заключение
В этом посте мы рассмотрели, как выполнять запросы MySQL из командной строки, сохранять их вывод в файлы и даже передавать их другим командам Linux для дальнейшей обработки. Вы можете эффективно использовать их в сценарии оболочки для автоматического получения данных, их обработки и принятия мер в зависимости от полученной информации.

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥51
🔍Где и как учить SQL бесплатно?

SQLZoo - это бесплатный онлайн ресурс, который предлагает интерактивные уроки и задания для изучения SQL. Уроки начинаются с простых запросов и постепенно усложняются по мере продвижения в обучении.

W3Schools SQL - известный онлайн-ресурс, предлагающий уроки и примеры для изучения SQL и других языков программирования. Здесь пользователи могут найти множество материалов, которые помогут им углубить свои знания и применить их на практике.

Codecademy SQL - интерактивный курс для изучения SQL с возможностью практического применения на практике.

SQLBolt - это ресурс, который помогает начинающим и опытным пользователям SQL с помощью бесплатных уроков и задач.

Udacity SQL - курс известного онлайн-образовательного ресурса, позволит вам освоить основы языка SQL и показать, как применять его для анализа данных

Khan Academy SQL - бесплатный курс SQL, предоставляющий уроки и задачи для изучения языка.

LearnSQL - платный ресурс для изучения SQL. Содержит большое количество уроков и практических заданий.

SQLCourse - представляет собой бесплатную платформу, где можно овладеть навыками SQL. Здесь предоставлены обучающие уроки, практические задания и тесты, позволяющие проверить свои знания.

SQL Tutorial - это русскоязычный бесплатный ресурс, предоставляющий возможность изучения SQL. Здесь можно найти уроки и задания, которые помогут вам применять полученные знания на практике.

SQL Zoo - бесплатный ресурс для изучения SQL, содержащий уроки и задания на основе базы данных AdventureWorks.

Mode Analytics SQL Tutorial - бесплатный курс, который предлагает обучение базовым и продвинутым навыкам работы с языком SQL.

SQL Exercises - это бесплатный онлайн-ресурс, который предлагает задачи и упражнения для изучения и практики SQL. Ресурс содержит множество заданий, которые помогут вам развить практические навыки работы с SQL.

SQL Fiddle – это интернет-сервис, который предоставляет возможность создавать, тестировать и отлаживать SQL-запросы совершенно бесплатно.

Learn SQL the Hard Way - книга для изучения SQL, содержащая уроки и задания для практической работы.

DataCamp SQL- курс SQL от DataCamp, который научит Вас основам языка SQL и его применению в анализе данных. Содержит уроки и практические задания на практике.

@sqlhub
👍22🔥43
Жестовый язык, квази-эксперименты и коды на PySpark Pipeline: Х5 Tech проведет Data Science Meetup #2

На онлайн-митапе 5 июля выступят спикеры из X5 Tech, Яндекс Маркет и SberDevices, чтобы поделиться своим опытом и обсудить несколько тем:

Как с помощью PySpark Pipeline писать читаемый, легко тестируемый и поддерживаемый код?
Как оценить эффект без стандартных A/B-тестов с помощью квази-экспериментов методом Propensity Score?
Какие есть проблемы и решения в распознавании жестового языка?

🔔5 июля в 18:00
Участие бесплатно, нужна регистрация
🔍 MySQL vs MongoDB

MySQL
Классическая реляционная база, известная практически каждому. Рассмотрим ее основные плюсы:
1. Проверенное временем решение. Действительно сложно с этим спорить. К тому же, современная MySQL — очень развитая и надежная СУБД, имеющая большое сообщество и множество примеров реализации.
2. Высокая совместимость. MySQL доступна на основных платформах: Linux, Mac, Windows, BSD, Solaris. Еще существуют библиотеки для Node.js, C++, Ruby, C#, Java, PHP, Perl, Python.
3. Окупаемость. Не секрет, что СУБД имеет открытый исходный код, который находится в свободном доступе.
4. Реплицируемость. Вы можете распределять БД между несколькими узлами, понижая нагрузку и повышая масштабируемость и доступность.
5. Шардинг. Если шардинг на многих SQL-базах и невозможен, то к MySQL это не относится.

MongoDB
Яркий представитель нереляционных БД, имеющий свои плюсы:
1. Динамическая схема. Позволяет более гибко работать со схемами данных без надобности в изменении самих данных.
2. Масштабируемость. MongoDB масштабируется горизонтально, поэтому вы сможете легко снизить нагрузку на серверы при наличии больших объемов данных.
3. Удобное управление. Отдельный администратор не нужен, а повышенное удобство применения позволяет использовать эту БД как разработчикам, так и системным администраторам.
4. Скорость. База отличается повышенной производительностью при выполнении простых запросов.
5. Гибкость. Вы можете добавлять поля либо колонки без какого-либо вреда для уже существующих данных и производительности СУБД.

Что же выбрать?
На эту тему можно написать отдельную статью, но мы ограничимся несколькими предложениями:
— MySQL — отличный выбор для любого проекта, если у нас предопределена структура и заданы схемы;

— MongoDB — прекрасный вариант для быстрорастущих проектов, не имеющих определенной схемы данных. И особенно она подходит, если вы никак не можете определить схему своей БД либо вам не годится ни одна из существующих схем из других СУБД.

@sqlhub
👍15🔥21
🖥 Магия оптимизации SQL запросов

Думаю, каждый хоть раз использовал команду explain или хотя бы слышал про нее. Эта команда демонстрирует план выполнения запроса, но как именно СУБД приходит к нему остается загадкой. Да и как вообще СУБД понимает, что выбранный запрос оптимален? Неужели она проверяет все возможные варианты?

В этой статье я постараюсь дать небольшое представление о том, как работают оптимизаторы запросов с теоретической точки зрения.

Начнем с того, что можно выделить два основных подхода к поиску наиболее эффективного варианта выполнения: эвристический и стоимостной.

📌 Читать

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥123👍3
🖥 5 факторов, которые влияют на выбор базы данных

При выборе баз данных для текущего проекта (или при замене тех, которые не отвечают вашим текущим потребностям) количество возможных вариантов очень велико. Это и хорошо, и плохо, ведь нужны какие-то критерии фильтрации.

Сегодня есть гораздо больше баз данных, чем когда-либо. В декабре 2012 года, когда DB-Engines.com впервые начал ранжировать базы данных, у него получился список из 73 систем (существенный рост по сравнению с самым первым списком из 18 систем). Спустя десять лет, на декабрь 2022 года в списке было уже почти четыреста систем. За последнее десятилетие произошёл настоящий кембрийский взрыв технологий баз данных.

Нужно ориентироваться в обширном пространстве вариантов: SQL, NoSQL, множество «многомодельных» баз данных, которые могут быть сочетанием SQL и NoSQL, или множественные модели данных NoSQL (сочетающие две или более опций: документы, ключи-значения, широкие столбцы, графы и так далее).

Кроме того, пользователи не должны путать популярность с применимостью для них. Хотя сетевой эффект имеет свои преимущества («Все пользуются X, поэтому не ошибусь, если выберу её»), он также может привести к групповому мышлению, торможению инноваций и конкуренции.

Читать статью

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🥰1
Два продвинутых SQL-метода, которые могут значительно улучшить ваши запросы

SQL — это основа для каждого специалиста по работе с данными. Неважно, являетесь ли вы аналитиком данных, специалистом по данным или инженером по обработке данных, вам необходимо иметь четкое представление о том, как писать чистые и эффективные SQL-запросы.

Это связано с тем, что за любым тщательным анализом данных или любой сложной моделью машинного обучения стоят базовые данные, и эти данные должны откуда-то поступать.

Cегодня мы рассмотрим две новые техники SQL, которые вы можете добавить в свой набор инструментов, чтобы вывести ваши запросы на новый уровень. Эти методы называются Обобщённое табличное выражение (CTE) и Оконные функции.

Читать

@sqlhub
👍183🔥2
🖥 Компактная таблица-шпаргалка по SQL.

📌 Шпаргалка

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍6🥰2
🕵‍♂Использование CROSS JOIN для задач поиска пересечений в исторических данных

🔵 CROSS JOIN (или полное соединение таблиц без условий) — декартова перемножение множеств. Говоря простым языком — для каждого варианта первого множества будет сопоставлены все варианты второго множества.

Правильное использование этого типа соединения может помочь в решении сложных задач, например, нахождении пересечений в исторических данных.

Структура таблиц представленных примеров в изображении 1.

📕 Допустим: клиент Сидоров Степан Павлович подал заявку на кредит. На некотором этапе рассмотрения потребовался анализ платежеспособности клиента андеррайтером.
Заявка автоматически распределилась на сотрудника Петрова Екатерина Павловна.

На первый взгляд ничего подозрительного нет — в ФИО людей совпадает только отчество, что является широко распространенной ситуацией.

❗️ Однако, при детальном анализе выясняется, что девичья фамилия андеррайтера и клиента совпадают (Сидорова / Сидоров) изображение 2.

В таком случае заявка клиента должна была распределиться на другого сотрудника, чтобы решение, вынесенное по заявке, было не предвзятым.

Для решения данной задачи можно использовать простой запрос с CROSS JOIN изображение 3.

➡️ Продолжение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18
📌 SQL SELECT TOP, LIMIT, ROWNUM

TOP

Инструкция SELECT TOP используется для указания количества возвращаемых записей.
Она полезна для больших таблиц с тысячами записей. Возврат большого количества записей может повлиять на производительность.

Не все базы данных поддерживают SELECT TOP. MySQL поддерживает предложение LIMIT для выбора ограниченного числа записей, в то время как Oracle использует ROWNUM.

Синтаксис SQL Server / MS Access:
SELECT TOP number|percent column_name(s)
FROM table_name
WHERE condition;


Синтаксис MySQL:
SELECT column_name(s)
FROM table_name
WHERE condition
LIMIT number;


Синтаксис Oracle:
SELECT column_name(s)
FROM table_name
WHERE ROWNUM <= number;


Примеры SQL TOP, LIMIT и ROWNUM

Следующая инструкция SQL выбирает первые три записи из таблицы "Customers":
SELECT TOP 3 * FROM Customers;

Следующий оператор SQL показывает эквивалентный пример использования предложения LIMIT:
SELECT * FROM Customers
LIMIT 3;


Следующая инструкция SQL показывает соответствующий пример использования параметра ROWNUM:
SELECT * FROM Customers
WHERE ROWNUM <= 3;


Пример SQL TOP PERCENT

Следующая инструкция SQL выбирает первые 50% записей из таблицы "Customers":
SELECT TOP 50 PERCENT * FROM Customers;

Добавить WHERE

Следующая инструкция SQL выбирает первые три записи из таблицы "Customers", где страна - "Germany":
SELECT TOP 3 * FROM Customers
WHERE Country='Germany';


Следующий оператор SQL показывает эквивалентный пример использования LIMIT:
SELECT * FROM Customers
WHERE Country='Germany'
LIMIT 3;


Следующая инструкция SQL показывает соответствующий пример использования параметра ROWNUM:
SELECT * FROM Customers
WHERE Country='Germany' AND ROWNUM <= 3;


@sqlhub
👍182🔥2
🏃Как ускорить базу данных при помощи шардирования

Шардирование было одним из первых механизмов, позволяющих распределять базы данных для повышения их производительности. Последние инновации превратили шардирование в один из лучших механизмов в своем роде.

🤔 Для чего требуется шардирование?

Традиционные базы данных порой не справляются с обработкой растущих объемов данных и нарастающего трафика запросов. Сегодня очень популярны концепции NoSQL и NewSQL – соответственно, на рынке баз данных появляется все больше продуктов, вдохновленных этими новыми концепциями. Но их одних недостаточно, чтобы решить все более серьезные проблемы с данными.

Шардирование – это прием, позволяющий разбивать данные на отдельные строки и столбцы, хранимые на отдельных инстансах серверов базы данных. Так удается распределить нагрузку, оказываемую трафиком. Каждая такая малая таблица называется «шард». Некоторые NoSQL-продукты шардируются, таковы, например, Apache HBase или MongoDB. Шардинговая архитектура встроена в NewSQL-системы.

👀Как шардировать базу данных?

Один из наилучших способов создания шардов таков: данные нужно разделять на множество небольших таблиц. Они также называются «сегментами» (partitions).

Вот две ключевые составляющие шардирования:

Шардинговый ключ: конкретное значение в столбце, указывающее, в каком шарде хранится данная строка.
Шардинговый алгоритм: алгоритм, согласно которому ваши данные распределяются в одном или нескольких шардах.

Шаг 1: Проанализировать сценарий запроса и распределение данных, чтобы найти шардинговый ключ и шардинговый алгоритм

Шаг 2: Миграция имеющихся данных

Шаг 3: Перебросить трафик на новый кластер

Более детально тут. 👈

@sqlhub
👍10🔥31
🧠 Основы SQL: работа с SELECT TOP

При работе с большими базами данных часто возникает необходимость ограничить количество результатов, возвращаемых запросом. Для этого в SQL существует запрос SELECT TOP.

👀3 примера, как можно использовать эту мощную функцию:

1. Выбор определенного количества записей

Простейшее использование SELECT TOP заключается в указании количества записей, которые необходимо вернуть.

-- Select the top 5 employees based on salary
SELECT TOP 5 *
FROM Employees
ORDER BY Salary DESC;


2. Выбор части записей

SELECT TOP может также возвращать определенный процент записей. Это может быть полезно, когда необходимо получить подмножество данных.
-- Select the top 10% employees based on salary
SELECT TOP 10 PERCENT *
FROM Employees
ORDER BY Salary DESC;


3. Использование SELECT TOP с TIES

В некоторых случаях требуется вернуть все записи, имеющие общее значение с последней записью в выборке TOP. SELECT TOP WITH TIES позволяет это сделать.
-- Select the top 5 employees based on salary, include ties
SELECT TOP 5 WITH TIES *
FROM Employees
ORDER BY Salary DESC;


Предложение SELECT TOP является универсальным инструментом SQL для ограничения и уточнения результатов запросов!

@sqlhub
👍124🔥3
🖥 Что нового в SQLAlchemy 2.0?

В начале 2023 года вышла SQLAlchemy 2.0 — библиотека на Python для работы с реляционными СУБД, которая работает с Object Relational Mapper (объектно-реляционным отображением). Основная задача SQLAlchemy — синхронизация объектов Python с данными в БД.

То есть с помощью SQLAlchemy можно описывать структуры БД и работать с их данными на объектно-ориентированном коде на Python без использования чистого SQL. Другая важная особенность SQLAlchemy — код для работы с базой данных будет одинаковым вне зависимости от БД, которую использует разработчик. Такой подход позволяет без проблем мигрировать с одной базой данных на другую.

Полный список нововведений в SQLAlchemy 2.0 можно посмотреть в официальной документации сервиса.

Читать

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥83👍2👎1
🤔 10 аргументов “за” и “против” SQL 

Вторая по обсуждаемости тема в среде специалистов по SQL: как произносить то, что большинство людей называют Sequel ([сиквел] вместо [эс кью эл]). Это удивительно, поскольку язык существует более 40 лет.

Но, пожалуй, самая обсуждаемая тема, связанная с SQL, — это вопрос о том, считается ли он языком программирования.

Почему SQL не является языком программирования

🟢 Создание и выполнение запросов, а не скриптов
🟢 Не изменяет состояние
🟢 Отсутствие циклирования
🟢 Репутация в отрасли

Почему SQL является языком программирования

🟣 Соответствие критерию Тьюринга
🟣 Переменные, условная логика, определения функций
🟣 Возможность создавать приложения (хотя это сложно)
🟣 Так считают в Google

Подробное разъяснение читай тут

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍3🔥1
⭐️ 100 датасетов для анализа данных на все случаи жизни.

Список
Зеркало

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍131🔥1