Data Science. SQL hub
36.1K subscribers
902 photos
46 videos
37 files
959 links
По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo
Download Telegram
🧠 HASH — открытая база данных с элементами ИИ, которая самостоятельно структурирует информацию и проверяет её достоверность. Проект объединяет данные из разных источников в реальном времени, предлагая удобные инструменты для работы с ними даже не-техническим пользователям.

HASH имеет автономных агентов, которые автоматически дополняют и очищают данные, а в будущем система превратится в полноценную рабочую среду с AI-интерфейсами. Для старта можно использовать облачную версию или развернуть локально.

🤖 GitHub

@sqlhub
2👍2🔥1
🔑 Oracle выпустила масштабные обновления безопасности для своих ключевых продуктов. В июльском патче устранено 309 уязвимостей разной степени критичности, затрагивающих популярные решения компании.

Наибольшую опасность представляли 9 уязвимостей в Java SE, позволяющих удалённое выполнение кода без аутентификации. Серьёзные проблемы обнаружены и в VirtualBox — три критические уязвимости дают возможность скомпрометировать гипервизор из гостевой системы. Обновления уже доступны для всех поддерживаемых версий затронутых продуктов.

🔗 Ссылка - *клик*

@sqlhub
3👍1🔥1
🎁 РАЗЫГРЫВАЕМ MacBook Air!

Разыгрываем шикарный 13-дюймовый MacBook Air! Отличная рабочая машинка!

Условия участия максимально простые:

🔸Подписаться на телеграм-канал: @sqlhub
🔸Подписаться на телеграм-канал: @ai_machinelearning_big_data
🔸Нажать кнопку "Участвовать" ниже.

ВСЁ! Вы участник! Бот выберет одного человека, которому мы подарим этот MacBook. Доставка по зоне СДЭК.

Итоги подведём 14 августа.

Всем удачи! Пусть победит самый приятный человек!

⚠️ Если бот подвис — не беспокойтесь, вас все равно зарегистрирует, просто выполните условия и нажмите «Участвую».
👍225👎3🔥3🎉1
🔥 Nhost — свежий взгляд на backend-разработку с открытым исходным кодом. Этот проект предлагает готовую облачную платформу или возможность самому развернуть альтернативу Firebase, но с GraphQL и PostgreSQL под капотом. Вместо NoSQL — привычный SQL, вместо REST — мощный GraphQL API на базе Hasura, а также встроенные аутентификация, хранилище и serverless-функции.

При этом Nhost не привязывает разработчика к конкретному фронтенд-фреймворку. Один и тот же SDK работает с React, Vue, Next.js и даже Flutter. Локальная разработка упрощена благодаря CLI, а для продакшна можно выбрать как managed-решение от создателей, так и развернуть всё на своих серверах через Docker.

🤖 GitHub

@sqlhub
6🔥4🥰3
📊 Argilla — инструмент для создания качественных датасетов под AI. Проект помогает разработчикам и экспертам совместно работать над разметкой данных для NLP, LLM и мультимодальных моделей.

Платформа предлагает удобный интерфейс для аннотирования с фильтрами, семантическим поиском и AI-подсказками. Argilla используют в Red Cross и других организациях для задач классификации, RAG и тонкой настройки моделей.

🖥 Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍4🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Продвинутый SQL-трюк: как найти строки, отличающиеся только одним символом

Иногда нужно найти пары строк, которые почти совпадают — например, из-за опечатки в одной букве. Такой кейс часто встречается при поиске дублей в именах, email или товарах.

С помощью функции levenshtein() из расширения pg_trgm в PostgreSQL, можно находить строки, отличающиеся ровно на 1 символ. Это удобно для очистки данных, поиска дублей и реализации "умного" поиска в интерфейсе.


-- Убедись, что pg_trgm расширение включено
CREATE EXTENSION IF NOT EXISTS pg_trgm;

-- Найдём строки из таблицы users, у которых name отличается на 1 символ
SELECT a.name AS name1, b.name AS name2
FROM users a
JOIN users b ON a.id < b.id
WHERE levenshtein(a.name, b.name) = 1;

-- Пример: найдёт пары вроде ('Anna', 'Anya') или ('John', 'Joan')


📌Больше видео

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥73👎1🥰1
Андрей Рыбинцев стал управляющим директором по ИИ в Авито — позицию ввели на уровне правления в рамках стратегии масштабного внедрения искусственного интеллекта.

Под его управлением будет команда из 900 специалистов, несколько департаментов, в том числе новый кластер AI Experience. Среди приоритетов: развитие ассистентов на базе генеративных моделей, масштабирование A-Vibe и A-Vision, агентский ИИ, интеграция технологий ИИ в максимальное количество сервисов платформы.

Рыбинцев работает в компании более 10 лет. Под его руководством развивались ключевые технологии: антифрод, автоматическая модерация, индикатор рыночной цены (IMV), собственные генеративные решения. По оценкам компании, GenAI может принести Авито более 21 млрд ₽ допвыручки к 2028 году.
👎123👍3🔥2👏2🤔2😁1
🦆 DuckDB vs 🐼 pandas: кто быстрее разберётся с «капризным» CSV?

📊 Сценарий
1. pandas read_csv("flight_data.csv") → весь файл свалился в одну колонку
2. DuckDB SELECT * FROM read_csv('flight_data.csv') → автоматически подхватил разделитель и выдал аккуратные столбцы

💡 Вывод
Если работаете с CSV с нестандартным delimiter’ом, попробуйте прочитать его через DuckDB: детектирует разделители сам и экономит ваше время на ручной настройке.

@sqlhub
👍106🔥4👎2🥰1🤔1
⚡️ Почему лучшие разработчики всегда на шаг впереди?

Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.

ИИ: t.me/ai_machinelearning_big_data
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Devops: t.me/DevOPSitsec
Базы данных: t.me/sqlhub
Мл собес t.me/machinelearning_interview
C++ t.me/cpluspluc
Docker: t.me/DevopsDocker
Хакинг: t.me/linuxkalii
МЛ: t.me/machinelearning_ru
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/java_library
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: https://t.me/gamedev
Физика: t.me/fizmat
SQL: t.me/databases_tg
Базы данных: t.me/sql_lib

Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🖥 Chatgpt для кода в тг: @Chatgpturbobot -

📕Ит-книги: https://t.me/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии t.me/addlist/_zyy_jQ_QUsyM2Vi

Подпишись, чтобы всегда знать, куда двигаться дальше!
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4👎3🥰1
⚡️ Replibyte — реалистичные данные для разработки без рисков. Инструмент для безопасного копирования продакшен-данных в тестовые окружения. Поддерживает PostgreSQL, MySQL и MongoDB, автоматически заменяя конфиденциальную информацию на правдоподобные фейковые значения.

Инструмент умеет работать с большими БД (10+ ГБ), сжимать и шифровать данные на лету, а также масштабировать данные до разумного размера. Всё в одном бинарном файле без серверных компонентов.

🤖 GitHub

@sqlhub
8👍8🔥4👎1😁1
📊 GridDB — гибридная СУБД для IoT с поддержкой SQL и NoSQL. Этот проект предлагает необычное сочетание: ключ-значение хранилище с возможностью SQL-запросов, что делает его удобным для промышленного IoT.

Инструмент имеет встроенную поддержка временных рядов и распределённую архитектуру, оптимизированную под высокую нагрузку сенсорных данных. Система работает на Linux и предоставляет клиентские библиотеки для Java, Python, Go и других языков. Установка возможна через RPM/DEB-пакеты или сборку из исходников. Для управления есть CLI и WebAPI.

🤖 GitHub

@sqlhub
7👍5🔥3👎1
💡 Полезный SQL-трюк: как получить первую строку в каждой группе — без подзапросов и оконных функций (если они недоступны)

Иногда нужно из каждой группы выбрать одну запись, например, самую раннюю по дате. Если у вас нет оконных функций (например, в старом MySQL), используйте трюк с GROUP BY и JOIN:


SELECT t1.*
FROM orders t1
JOIN (
SELECT customer_id, MIN(order_date) AS min_date
FROM orders
GROUP BY customer_id
) t2 ON t1.customer_id = t2.customer_id AND t1.order_date = t2.min_date;


Этот приём вытаскивает первую покупку каждого клиента без оконных функций.

@sqlhub
😁11👍87🔥3👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Продвинутый SQL-трюк: Как одним запросом вытащить только самую последнюю запись по каждой группе — и при этом сохранить все остальные поля

Если ты хочешь, например, получить последний заказ по каждому клиенту, но у тебя нет оконных функций или ты хочешь максимально производительный запрос — вот чистый, понятный способ.


-- Найдём последнюю покупку по каждому customer_id
SELECT o.*
FROM orders o
JOIN (
SELECT customer_id, MAX(order_date) AS max_date
FROM orders
GROUP BY customer_id
) latest
ON o.customer_id = latest.customer_id
AND o.order_date = latest.max_date;

-- Работает даже если в таблице десятки миллионов строк, индекс на order_date и customer_id ускорит запрос


@sqlhub
🔥23👍104🥰1
🔥 DbCls — мощный интерактивный клиент баз данных, который объединяет SQL-редактор с продвинутой визуализацией данных.

Поддерживает MySQL, PostgreSQL, ClickHouse и SQLite. Встроенный редактор с подсветкой синтаксиса, автодополнением и горячими клавишами для мгновенного выполнения запросов.

Результаты отображаются в интерактивных таблицах с возможностью форматирования и анализа. Идеальное решение для разработчиков и аналитиков данных, которым нужен быстрый и удобный доступ к базам данных

⚡️ Github

@sqlhub
🔥43👍3
🧪 uQLM — движок для SQL‑запросов к LLM, разработанный в CVS Health

Что если к языковой модели можно обращаться как к обычной базе данных?

💡 uQLM (Universal Query Language for Models) позволяет писать SQL‑подобные запросы, чтобы:

Обращаться к LLM как к таблице
Фильтровать, агрегировать и комбинировать ответы
Подключать собственные модели и источники данных
Использовать привычный синтаксис SQL без prompt-инженерии

📌 Пример запроса:

SELECT generate_response(prompt)
FROM gpt4
WHERE prompt LIKE '%explain%'
LIMIT 5;


uQLM работает как прослойка между пользователем и языковой моделью, облегчая интеграцию ИИ в аналитические пайплайны.

🔗 GitHub: https://github.com/cvs-health/uqlm

@sqlhub
4👍3🥰1
120 ключевых вопросов по SQL за 2025 год

Статья содержит 120 ключевых вопросов по SQL для собеседований, разделённых по темам и уровням сложности, с краткими пояснениями.

Основываясь на актуальных требованиях 2025 года, вопросы охватывают базу данных, оптимизацию, практические задачи и нюансы СУБД (MySQL, PostgreSQL, SQL Server).

🔜 Подробности
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍8🔥7
🖥 SQL-задача с подвохом: почему COUNT(*) считает не так, как ты думаешь?

🧠 Условие:

У тебя есть две таблицы:


users
---------
id | name
---|-----
1 | Alice
2 | Bob
3 | Charlie

orders
----------
id | user_id | total
----|---------|-------
1 | 1 | 100
2 | 1 | 200
3 | 2 | 300


Нужно вывести всех пользователей и количество их заказов, включая тех, у кого заказов нет вообще.

Ты пишешь:


SELECT u.id, u.name, COUNT(o.id) AS order_count
FROM users u
JOIN orders o ON u.id = o.user_id
GROUP BY u.id, u.name;


Результат:


1 | Alice | 2
2 | Bob | 1
А где Charlie? 😡


📌 Подвох: JOIN убирает строки без соответствий — Charlie не попадает в результат вообще.
Нужно использовать LEFT JOIN, чтобы сохранить всех пользователей.

Правильное решение:


SELECT u.id, u.name, COUNT(o.id) AS order_count
FROM users u
LEFT JOIN orders o ON u.id = o.user_id
GROUP BY u.id, u.name;


Теперь результат:


1 | Alice | 2
2 | Bob | 1
3 | Charlie | 0


💡 Вывод:
Хочешь сохранить всех из "левой" таблицы — используй LEFT JOIN.
А COUNT(о.id) не считает NULL — и это хорошо: ты получаешь реальное число заказов, а не просто 1 за NULL.

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍249🔥4👏1😁1
🖥 MongoDB выпускает MCP Server — теперь любой может стать дата-инженером

MongoDB представили открытый MCP сервер, который позволяет AI-инструментам вроде Claude, Cursor и GitHub Copilot напрямую общаться с вашей MongoDB-базой.

Теперь даже без знаний запросов можно просто написать:
• «Покажи самых активных пользователей»
• «Создай нового пользователя с правами только на чтение»
• «Как устроена коллекция orders?»

⚙️ MCP Server поддерживает:
• MongoDB Atlas
• Community Edition
• Enterprise Advanced

📌 Главное — не нужен SQL, не нужно знать синтаксис. Достаточно обычного языка.

💡 Под капотом: AI превращает ваши фразы в рабочие Mongo-запросы.
Открытый исходный код. Готово к продакшену.

📌 GitHub

#MongoDB #AItools #OpenSource #MCP

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍5🔥4👎2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥SQL ТРЮК: Как выбрать первые N строк в каждой группе

Вот полезный трюк: используем функцию роз намбер с патришн бай чтобы нумеровать строки внутри каждой группы, а потом фильтруем по номеру.

Ты получишь первые два события для каждого пользователя. Можно легко адаптировать под «топ‑пять товаров в каждой категории.

Этот трюк работает в большинстве современных СУБД, поддерживающих оконные функци


sql
WITH ranked AS (
SELECT
user_id,
event_time,
event_type,
ROW_NUMBER() OVER (
PARTITION BY user_id
ORDER BY event_time ASC
) AS rn
FROM user_events
)
SELECT *
FROM ranked
WHERE rn <= 2;


📌 Этот запрос выберет первые 2 события *по каждому пользователю*. Просто, чисто и кросс‑совместимо — работает в PostgreSQL, MySQL 8+, SQL Server и других.

https://www.youtube.com/shorts/X5CJn1eLW20

@sqlhub
👍16🔥6😁52
📊 Mathesar — необычный веб-интерфейс для PostgreSQL, который превращает работу с базами данных в процесс, напоминающий таблицы Excel. Проект разработан некоммерческой организацией и позволяет даже не-техническим специалистам редактировать данные, строить запросы через визуальный конструктор и управлять правами доступа через стандартные роли Postgres.

Вместо создания промежуточного слоя Mathesar работает напрямую с вашей БД, сохраняя все возможности PostgreSQL — от внешних ключей до сложных ограничений. Можно подключить как новую, так и существующую базу данных, а развертывание через Docker занимает минуты.

🤖 GitHub

@sqlhub
🔥63🥰1