Data Science. SQL hub
35.9K subscribers
1.1K photos
85 videos
37 files
1.12K links
По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo

#VRHSZ
Download Telegram
Argus — это универсальный инструмент на базе Python, предназначенный для упрощения процесса сбора и анализа информации.

Благодаря удобному интерфейсу и набору мощных модулей Argus позволяет эффективно и быстро исследовать сети, веб-приложения и конфигурации безопасности.
👍63🔥3
То чего мы все боимся: AI-агент в Cursor снёс продовую базу и все бэкапы за 9 секунд 💀

Основатель PocketOS рассказал, как агент на Claude Opus 4.6 проигнорировал прямые инструкции и решил «помочь» слишком активно.

Он нашёл проблему с учётными данными, самовольно решил её исправить и в итоге удалил рабочую базу вместе со всеми бэкапами. Последняя уцелевшая копия оказалась трёхмесячной давности.

Fгент потом фактически признал ошибку:

«Я не проверил, используется ли идентификатор в других средах. Я даже не прочитал документацию Railway. В моих системных инструкциях было явно сказано: “НИКОГДА не выполняй вредоносные и необратимые git-команды, если пользователь прямо не попросил об этом”. Удаление базы данных - самое разрушительное и необратимое действие, которое можно представить».


Вот тебе и «инструмент, который ускоряет разработку.

AI-агентам нельзя давать прямой доступ к production без жёстких ограничений, dry-run режима, read-only прав по умолчанию и ручного подтверждения для любых необратимых действий.

https://x.com/lifeof_jer/status/2048103471019434248?s=46
👍137🔥7😁2
Вышел pg_textsearch v1.1.

pg_textsearch добавляет в Postgres нативный полнотекстовый поиск по ключевым словам с ранжированием BM25, оставляя поиск в той же системе, где уже лежат ваши данные.

В этом релизе главный фокус - стабильная работа под реальной нагрузкой:

- Concurrent inserts: убрали узкое место при записи в BM25-индекс, масштабирование выросло примерно с 4k TPS до 11k+ TPS при параллельной нагрузке
- Fast VACUUM: вместо полной пересборки используется очистка на основе bitset
- Subtransaction safety: корректное поведение при откате через SAVEPOINT
- Parallel build fix: устранены race condition при CREATE INDEX
- Memory limit GUC: добавлены ограничения по памяти, чтобы избежать OOM

Итог - выше производительность и меньше хрупкости по мере роста нагрузки.

Проект open-source под Postgres License, звёзды на GitHub приветствуются.

https://github.com/timescale/pg_textsearch/releases/tag/v1.1.0
10👍8🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 SQL можно учить не по скучным таблицам, а через игру в стиле «Матрицы»

Разработчик сделал тренажёр, где вы проходите уровни, находите терминалы и «взламываете» их SQL-запросами.

Каждое задание тренирует отдельный навык: выборки, фильтры, сортировку, JOIN, агрегации и работу с данными.

Формат простой: играешь, решаешь задачи и постепенно начинаешь думать как дата-аналитик.

Идеальный вариант на выходные, если давно хотели подтянуть SQL без унылой теории.

http://sqlprotocol.com/
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥185👍5
📚 Из любой книги теперь можно сделать slash-команду для Claude

Не просто прочитать, подчеркнуть пару мыслей и забыть через неделю.

А вытащить из книги метод, правила, вопросы автора, типовые ошибки - и превратить всё это в Claude Skill, который можно запускать как инструмент.

Например, берёте The Mom Test.

Одна команда проверяет ваши вопросы для customer interview и находит наводящие.
Вторая команда переписывает их в формате Rob Fitzpatrick.

То есть книга перестаёт быть “полезной теорией” и становится рабочим агентом внутри Claude.

Главный фильтр простой: если метод книги можно описать пошагово - из него можно сделать Skill.

Работают книги с фреймворками, чек-листами, системами принятия решений, интервью, продаж, стратегии, письма, менеджмента, обучения.

Не работают мемуары, художественная литература и книги, где весь смысл держится на истории, а не на повторяемом методе.

Промпт для Claude:


Use the skill-creator to build a skill from [НАЗВАНИЕ КНИГИ] by [АВТОР].

The skill should activate when I ask Claude to [точная задача. Пример: проверить идею стартапа, спланировать неделю deep work, написать brand story].

Method from the book:
- Steps: [вставьте шаги метода]
- Rules the author repeats: [вставьте повторяющиеся правила]
- Mistakes to avoid: [вставьте ошибки, от которых автор предостерегает]
- Questions the author asks: [вставьте вопросы автора]

Do NOT use this skill for: [3-4 смежные, но неподходящие задачи. Пример: general writing, unrelated business advice, book summaries].

Interview me on anything missing before generating the SKILL.md. Then run an evaluation.


Продвинутый совет: для больших книг делайте не один Skill, а два.

/[book]-diagnose - задаёт вопросы и применяет фреймворк к вашей ситуации.

/[book]-apply - берёт шаги и шаблоны книги и производит готовый результат.

Так книга превращается не в конспект, а в рабочую операционную систему.
🔥76👍5
🚀 Платформа Xata для облачного PostgreSQL

Xata — это облачная платформа с открытым исходным кодом для управления множеством экземпляров PostgreSQL на Kubernetes. Она предлагает функции быстрого ветвления, автоматического масштабирования и высокой доступности, что делает её идеальной для создания внутреннего PostgreSQL как услуги или тестовых сред.

🚀 Основные моменты:
- Быстрое ветвление с использованием Copy-on-Write.
- Автоматическое масштабирование и управление вычислительными ресурсами.
- Высокая доступность с автоматическим переключением на резервные экземпляры.
- REST API и CLI для управления.
- Подходит для создания тестовых и разработческих окружений.

📌 GitHub: https://github.com/xataio/xata

#go
👍64
This media is not supported in your browser
VIEW IN TELEGRAM
Я исправляю код, используя свой мозг вместо ИИ:
🔥1812👍6😁3👎1
Один человек. Один корабль ВМС. Один файл. Триллион баз данных.

В 2000 году разработчик Д. Ричард Хипп работал подрядчиком на эсминце ВМС США и устал от тяжеловесных баз данных, которым нужны серверы, установка и настройка.

Он просто взял и написал SQLite.

База данных в одном файле.
Без сервера.
Без установки.
Без конфигурации.

Прошло 25 лет, и теперь SQLite работает почти везде:

- iPhone
- Android
- macOS
- Windows
- Chrome
- Firefox
- Safari
- WhatsApp
- iMessage
- Skype
- автомобили Tesla
- коммерческие самолеты

Сегодня в мире активны триллионы SQLite-баз. Код используют компании стоимостью в сотни миллиардов и триллионы долларов.

А Хипп просто отдал SQLite в public domain.

Он до сих пор поддерживает проект с крошечной командой и обещает обновления минимум до 2050 года.

Большинство инженеров мечтают построить стартап.
Он построил инфраструктуру, которая незаметно живет почти в каждом устройстве на планете.

SQLite - один из самых недооцененных шедевров в истории софта.
32🔥15👍12
This media is not supported in your browser
VIEW IN TELEGRAM
Claude идет в финансы с готовыми агентами

Это уже финансовые ИИ-агенты, которые забирают куски работы у аналитиков, аудиторов и операционных команд.
Один агент собирает питч-дек.
Второй готовит бриф к встрече.
Третий читает earnings report и ловит рискованные формулировки. Четвёртый строит valuation model прямо в таблице. Пятый сверяет книги с банковскими выписками.

И самое интересное - это уже не просто чат с моделью. Агент подключается к Excel, PowerPoint, Word, Outlook и данным компании. То есть он не “советует”, а реально двигает рабочий процесс.

Сначала это выглядит как автоматизация рутины. Потом оказывается, что рутина занимала половину финансового отдела.

https://www.youtube.com/shorts/dhcoR03jtI0
🔥9👎6👍54
🖥 Cовет по SQL-тестам: тестируйте не только результат запроса, а его инварианты.

Обычно SQL проверяют так:


SELECT * FROM orders WHERE status = 'paid';


И потом сравнивают: «вернулись нужные строки или нет».

Но в реальных системах чаще ломается не сам happy path, а скрытые свойства данных.

Например, для отчёта по заказам тест должен проверять не только конкретные строки, а правила:


-- сумма по пользователям должна совпадать с общей суммой
WITH by_user AS (
SELECT user_id, SUM(amount) AS total
FROM orders
WHERE status = 'paid'
GROUP BY user_id
),
overall AS (
SELECT SUM(amount) AS total
FROM orders
WHERE status = 'paid'
)
SELECT
(SELECT SUM(total) FROM by_user) = (SELECT total FROM overall) AS is_valid;


То есть вы тестируете не «мне вернулось 10 строк», а:

агрегаты не теряют деньги
join не размножает строки
фильтр не выкидывает валидные данные
NULL не ломает расчёты
сумма после группировки совпадает с суммой до группировки
каждый order попадает ровно в одну категорию
дедупликация не удаляет нужные записи

Особенно полезный приём - тест на размножение строк после JOIN:


WITH before_join AS (
SELECT COUNT(*) AS cnt
FROM orders
),
after_join AS (
SELECT COUNT(*) AS cnt
FROM orders o
JOIN users u ON u.id = o.user_id
)
SELECT
after_join.cnt <= before_join.cnt AS no_unexpected_multiplication
FROM before_join, after_join;


Если после JOIN строк стало больше без явной причины - у вас почти наверняка проблема с кардинальностью.

Хороший SQL-тест проверяет не только ответ, а свойства запроса, которые должны оставаться истинными при любых данных. Именно так ловятся баги, которые не видно на маленьком тестовом датасете.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍86😁2
⚡️ Векторные базы данных хорошо ищут похожие куски текста, но плохо понимают связи между ними.

Обычный поиск работает так: есть вопрос - база находит top-k самых похожих фрагментов. Это удобно, если нужно вытащить один факт.

Но если ответ спрятан в нескольких местах, например в разных документах, сообщениях или частях отчёта, простого similarity search уже мало. Нужно понять, как связаны люди, события, компании, причины и последствия.

На этом и делает акцент FalkorDB GraphRAG-Bench. Самый большой отрыв у GraphRAG виден именно в сложных задачах: Complex Reasoning - 83.61 и Contextual Summarization - 85.08. То есть там, где нужно не просто найти похожий текст, а собрать смысл из нескольких связанных фрагментов.

Простой вывод: если у вас база знаний, длинные документы или корпоративные данные, одного Vector DB может быть недостаточно. GraphRAG помогает модели не просто искать, а идти по связям.

GraphRAG SDK полностью open-source: https://github.com/FalkorDB/GraphRAG-SDK
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍5🔥1
🖥 ИИ Агент за 9 секунд снёс продакшн-базу компании и стёр бэкапы.

Cursor на Claude Opus 4.6 нашёл API-токен в постороннем файле, воспользовался им и всё удалил.

Финальное сообщение агента: «я нарушил все принципы, которые мне были даны».

https://www.reddit.com/r/pcmasterrace/comments/1sxla79/claudepowered_ai_coding_agent_deletes_entire/?rdt=48142
Please open Telegram to view this post
VIEW IN TELEGRAM
😁278👍5👏3🔥1