Data Science. SQL hub

SQL и Python - это инструменты. Но чтобы строить реальные ML-системы и работать с данными на уровне топовых компаний, нужен фундамент. Поэтому рекомендация!

Школа анализа данных от Яндекса - двухлетняя бесплатная программа, которая даёт эту базу в ML, Data Science, Big Data, ИИ. Теория здесь всегда идет рядом с индустриальными задачами, а лекции ведут топовые IT-специалисты рынка.

Поступление — через конкурс: классический трек (3 этапа) или альтернативный для опытных специалистов. Формат обучения - офлайн, гибрид или онлайн.

Если хотите бустануть карьеру в Data Science — переходите по ссылке

👎6❤1👍1😁1🤬1

3.4K views07:53

⚡️ SQL-прием: EXISTS часто лучше, чем COUNT(*) > 0

Если тебе нужно просто проверить, есть ли строки, не заставляй базу считать их все.

Плохо:


SELECT COUNT(*) > 0
FROM orders
WHERE user_id = 42;

База может пройти по всем подходящим строкам, чтобы посчитать количество.

Лучше:


SELECT EXISTS (
    SELECT 1
    FROM orders
    WHERE user_id = 42
);

EXISTS останавливается сразу, как только нашел первую подходящую строку. Для больших таблиц это может быть заметно быстрее, особенно если есть индекс по условию:


CREATE INDEX idx_orders_user_id ON orders(user_id);

Если тебе нужен ответ “есть или нет”, используй EXISTS. COUNT(*) оставь для случаев, когда реально нужно точное количество строк.

#sql #postgresql #database #backend

👍10❤8🔥3

4.09K viewsedited 10:03

Data Science. SQL hub

Есть ли сейчас какой-то ИИ лучше Claude для программирования?

👎18❤7👍6🔥4

4.01K views12:50

Data Science. SQL hub

Argus — это универсальный инструмент на базе Python, предназначенный для упрощения процесса сбора и анализа информации.

Благодаря удобному интерфейсу и набору мощных модулей Argus позволяет эффективно и быстро исследовать сети, веб-приложения и конфигурации безопасности.

GitHub

GitHub - jasonxtn/Argus: The Ultimate Information Gathering Toolkit

The Ultimate Information Gathering Toolkit. Contribute to jasonxtn/Argus development by creating an account on GitHub.

👍6❤3🔥3

3.48K views09:02

Data Science. SQL hub

То чего мы все боимся: AI-агент в Cursor снёс продовую базу и все бэкапы за 9 секунд 💀

Основатель PocketOS рассказал, как агент на Claude Opus 4.6 проигнорировал прямые инструкции и решил «помочь» слишком активно.

Он нашёл проблему с учётными данными, самовольно решил её исправить и в итоге удалил рабочую базу вместе со всеми бэкапами. Последняя уцелевшая копия оказалась трёхмесячной давности.

Fгент потом фактически признал ошибку:

«Я не проверил, используется ли идентификатор в других средах. Я даже не прочитал документацию Railway. В моих системных инструкциях было явно сказано: “НИКОГДА не выполняй вредоносные и необратимые git-команды, если пользователь прямо не попросил об этом”. Удаление базы данных - самое разрушительное и необратимое действие, которое можно представить».

Вот тебе и «инструмент, который ускоряет разработку.

AI-агентам нельзя давать прямой доступ к production без жёстких ограничений, dry-run режима, read-only прав по умолчанию и ручного подтверждения для любых необратимых действий.

https://x.com/lifeof_jer/status/2048103471019434248?s=46

👍13❤7🔥7😁2

4.68K views14:01

Data Science. SQL hub

Вышел pg_textsearch v1.1.

pg_textsearch добавляет в Postgres нативный полнотекстовый поиск по ключевым словам с ранжированием BM25, оставляя поиск в той же системе, где уже лежат ваши данные.

В этом релизе главный фокус - стабильная работа под реальной нагрузкой:

- Concurrent inserts: убрали узкое место при записи в BM25-индекс, масштабирование выросло примерно с 4k TPS до 11k+ TPS при параллельной нагрузке
- Fast VACUUM: вместо полной пересборки используется очистка на основе bitset
- Subtransaction safety: корректное поведение при откате через SAVEPOINT
- Parallel build fix: устранены race condition при CREATE INDEX
- Memory limit GUC: добавлены ограничения по памяти, чтобы избежать OOM

Итог - выше производительность и меньше хрупкости по мере роста нагрузки.

Проект open-source под Postgres License, звёзды на GitHub приветствуются.

https://github.com/timescale/pg_textsearch/releases/tag/v1.1.0

❤10👍8🔥5

4.38K views13:23

Data Science. SQL hub

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

SQL можно учить не по скучным таблицам, а через игру в стиле «Матрицы»

Разработчик сделал тренажёр, где вы проходите уровни, находите терминалы и «взламываете» их SQL-запросами.

Каждое задание тренирует отдельный навык: выборки, фильтры, сортировку, JOIN, агрегации и работу с данными.

Формат простой: играешь, решаешь задачи и постепенно начинаешь думать как дата-аналитик.

Идеальный вариант на выходные, если давно хотели подтянуть SQL без унылой теории.

http://sqlprotocol.com/

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥18❤5👍5

4.48K views10:05

Data Science. SQL hub

📚 Из любой книги теперь можно сделать slash-команду для Claude

Не просто прочитать, подчеркнуть пару мыслей и забыть через неделю.

А вытащить из книги метод, правила, вопросы автора, типовые ошибки - и превратить всё это в Claude Skill, который можно запускать как инструмент.

Например, берёте The Mom Test.

Одна команда проверяет ваши вопросы для customer interview и находит наводящие.
Вторая команда переписывает их в формате Rob Fitzpatrick.

То есть книга перестаёт быть “полезной теорией” и становится рабочим агентом внутри Claude.

Главный фильтр простой: если метод книги можно описать пошагово - из него можно сделать Skill.

Работают книги с фреймворками, чек-листами, системами принятия решений, интервью, продаж, стратегии, письма, менеджмента, обучения.

Не работают мемуары, художественная литература и книги, где весь смысл держится на истории, а не на повторяемом методе.

Промпт для Claude:


Use the skill-creator to build a skill from [НАЗВАНИЕ КНИГИ] by [АВТОР].

The skill should activate when I ask Claude to [точная задача. Пример: проверить идею стартапа, спланировать неделю deep work, написать brand story].

Method from the book:
- Steps: [вставьте шаги метода]
- Rules the author repeats: [вставьте повторяющиеся правила]
- Mistakes to avoid: [вставьте ошибки, от которых автор предостерегает]
- Questions the author asks: [вставьте вопросы автора]

Do NOT use this skill for: [3-4 смежные, но неподходящие задачи. Пример: general writing, unrelated business advice, book summaries].

Interview me on anything missing before generating the SKILL.md. Then run an evaluation.

Продвинутый совет: для больших книг делайте не один Skill, а два.

/[book]-diagnose - задаёт вопросы и применяет фреймворк к вашей ситуации.

/[book]-apply - берёт шаги и шаблоны книги и производит готовый результат.

Так книга превращается не в конспект, а в рабочую операционную систему.

🔥7❤6👍5

3.05K views12:24

Data Science. SQL hub

🚀 Платформа Xata для облачного PostgreSQL

Xata — это облачная платформа с открытым исходным кодом для управления множеством экземпляров PostgreSQL на Kubernetes. Она предлагает функции быстрого ветвления, автоматического масштабирования и высокой доступности, что делает её идеальной для создания внутреннего PostgreSQL как услуги или тестовых сред.

🚀 Основные моменты:
- Быстрое ветвление с использованием Copy-on-Write.
- Автоматическое масштабирование и управление вычислительными ресурсами.
- Высокая доступность с автоматическим переключением на резервные экземпляры.
- REST API и CLI для управления.
- Подходит для создания тестовых и разработческих окружений.

📌 GitHub: https://github.com/xataio/xata

#go

👍6❤4

3.41K views10:04

Data Science. SQL hub

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

Я исправляю код, используя свой мозг вместо ИИ:

🔥18❤12👍6😁3👎1

3.18K views09:44

Data Science. SQL hub

Один человек. Один корабль ВМС. Один файл. Триллион баз данных.

В 2000 году разработчик Д. Ричард Хипп работал подрядчиком на эсминце ВМС США и устал от тяжеловесных баз данных, которым нужны серверы, установка и настройка.

Он просто взял и написал SQLite.

База данных в одном файле.
Без сервера.
Без установки.
Без конфигурации.

Прошло 25 лет, и теперь SQLite работает почти везде:

- iPhone
- Android
- macOS
- Windows
- Chrome
- Firefox
- Safari
- WhatsApp
- iMessage
- Skype
- автомобили Tesla
- коммерческие самолеты

Сегодня в мире активны триллионы SQLite-баз. Код используют компании стоимостью в сотни миллиардов и триллионы долларов.

А Хипп просто отдал SQLite в public domain.

Он до сих пор поддерживает проект с крошечной командой и обещает обновления минимум до 2050 года.

Большинство инженеров мечтают построить стартап.
Он построил инфраструктуру, которая незаметно живет почти в каждом устройстве на планете.

SQLite - один из самых недооцененных шедевров в истории софта.

❤32🔥15👍12

3.11K views08:08

Data Science. SQL hub

0:49

This media is not supported in your browser

VIEW IN TELEGRAM

Claude идет в финансы с готовыми агентами

Это уже финансовые ИИ-агенты, которые забирают куски работы у аналитиков, аудиторов и операционных команд.
Один агент собирает питч-дек.
Второй готовит бриф к встрече.
Третий читает earnings report и ловит рискованные формулировки. Четвёртый строит valuation model прямо в таблице. Пятый сверяет книги с банковскими выписками.

И самое интересное - это уже не просто чат с моделью. Агент подключается к Excel, PowerPoint, Word, Outlook и данным компании. То есть он не “советует”, а реально двигает рабочий процесс.

Сначала это выглядит как автоматизация рутины. Потом оказывается, что рутина занимала половину финансового отдела.

https://www.youtube.com/shorts/dhcoR03jtI0

🔥9👎6👍5❤4

2.76K views12:44

Data Science. SQL hub

🖥

Cовет по SQL-тестам: тестируйте не только результат запроса, а его инварианты.

Обычно SQL проверяют так:


SELECT * FROM orders WHERE status = 'paid';

И потом сравнивают: «вернулись нужные строки или нет».

Но в реальных системах чаще ломается не сам happy path, а скрытые свойства данных.

Например, для отчёта по заказам тест должен проверять не только конкретные строки, а правила:


-- сумма по пользователям должна совпадать с общей суммой
WITH by_user AS (
    SELECT user_id, SUM(amount) AS total
    FROM orders
    WHERE status = 'paid'
    GROUP BY user_id
),
overall AS (
    SELECT SUM(amount) AS total
    FROM orders
    WHERE status = 'paid'
)
SELECT
    (SELECT SUM(total) FROM by_user) = (SELECT total FROM overall) AS is_valid;

То есть вы тестируете не «мне вернулось 10 строк», а:

агрегаты не теряют деньги
join не размножает строки
фильтр не выкидывает валидные данные
NULL не ломает расчёты
сумма после группировки совпадает с суммой до группировки
каждый order попадает ровно в одну категорию
дедупликация не удаляет нужные записи

Особенно полезный приём - тест на размножение строк после JOIN:


WITH before_join AS (
    SELECT COUNT(*) AS cnt
    FROM orders
),
after_join AS (
    SELECT COUNT(*) AS cnt
    FROM orders o
    JOIN users u ON u.id = o.user_id
)
SELECT
    after_join.cnt <= before_join.cnt AS no_unexpected_multiplication
FROM before_join, after_join;

Если после JOIN строк стало больше без явной причины - у вас почти наверняка проблема с кардинальностью.

Хороший SQL-тест проверяет не только ответ, а свойства запроса, которые должны оставаться истинными при любых данных. Именно так ловятся баги, которые не видно на маленьком тестовом датасете.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11👍8❤6😁2

2.29K views14:47

Data Science. SQL hub

⚡️

Векторные базы данных хорошо ищут похожие куски текста, но плохо понимают связи между ними.

Обычный поиск работает так: есть вопрос - база находит top-k самых похожих фрагментов. Это удобно, если нужно вытащить один факт.

Но если ответ спрятан в нескольких местах, например в разных документах, сообщениях или частях отчёта, простого similarity search уже мало. Нужно понять, как связаны люди, события, компании, причины и последствия.

На этом и делает акцент FalkorDB GraphRAG-Bench. Самый большой отрыв у GraphRAG виден именно в сложных задачах: Complex Reasoning - 83.61 и Contextual Summarization - 85.08. То есть там, где нужно не просто найти похожий текст, а собрать смысл из нескольких связанных фрагментов.

Простой вывод: если у вас база знаний, длинные документы или корпоративные данные, одного Vector DB может быть недостаточно. GraphRAG помогает модели не просто искать, а идти по связям.

GraphRAG SDK полностью open-source: https://github.com/FalkorDB/GraphRAG-SDK

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍5🔥1

2.28K views11:00

Data Science. SQL hub

🖥

ИИ Агент за 9 секунд снёс продакшн-базу компании и стёр бэкапы.

Cursor на Claude Opus 4.6 нашёл API-токен в постороннем файле, воспользовался им и всё удалил.

Финальное сообщение агента: «я нарушил все принципы, которые мне были даны».

https://www.reddit.com/r/pcmasterrace/comments/1sxla79/claudepowered_ai_coding_agent_deletes_entire/?rdt=48142

Please open Telegram to view this post

VIEW IN TELEGRAM

😁28❤8👍5👏3🔥1

2.13K views08:34

About

Blog

Apps

Platform