Data Science: SQL и Аналитика данных
28.1K subscribers
230 photos
45 videos
1 file
278 links
№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri
Download Telegram
Как ИИ помог организовать крупнейшую кибератаку 🔫

Вот вам и «цифровая эволюция». Anthropic зафиксировали первый случай массовой кибератаки, проведённой с помощью ИИ. Это не единичный случай, а целая кампания!

Давайте разберемся, что случилось. Преступники, по версии Anthropic, использовали модель Claude, которую обманули с помощью джейлбрейка. В итоге модель начала выполнять задачи, скрывая от себя истинную цель операции и думая, что работает для вполне легитимной фирмы кибербезопасности. Всё как по маслу: разведка инфраструктуры, написание эксплойтов, получение доступа, создание бэкдоров, кража данных — и даже создание подробной документации по всей атаке. Почти без участия человека.

Весь процесс был автоматизирован почти на 90%! Человек вмешивался только в самые критические моменты, когда нужно было принять решение. И самое интересное: аналитики заметили подозрительную активность, запустили расследование и вовремя поймали эту кибершпионскую операцию 🍴


Порог входа для проведения таких атак серьёзно снизился. Но то, что ИИ может использоваться как в атаке, так и для обороны, даёт надежду. Только если мы будем использовать ИИ для защиты и продолжать развивать механизмы безопасности, можно надеяться на стабильность в киберпространстве.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Что нового для разработчиков в Oracle AI Database 23.26.0

В свежем релизе появилось сразу несколько функций, которые упрощают аналитику, делают работу с API удобнее и улучшают интеграцию SQL с JavaScript.

➡️ Главное обновление

⏺️ Появилась SQL клауза QUALIFY. Теперь можно фильтровать результаты оконных функций напрямую, без вложенных подзапросов. Упрощает сложные аналитические выборки.

⏺️ Добавлена функция GRAPHQL(). Можно выполнять запросы к базе в синтаксисе GraphQL и получать JSON ответ. Полезно для API сервисов и современных приложений.

⏺️ В MLE JavaScript теперь поддерживаются SQL объекты и коллекции. Это позволяет возвращать и принимать пользовательские типы прямо из JS функций.

⏺️ Для PL SQL пакетов появилось ключевое слово RESETTABLE. Обновление пакета больше не вызывает ORA 04068, что делает деплой безопаснее.

➡️ Зачем это нужно

Обновление делает Oracle удобнее для разработчиков, особенно если вы строите API, используете аналитику, комбинируете SQL и JavaScript или разрабатываете приложения с AI и ML нагрузкой.

➡️ Читать подробнее по ссылке: www.geraldonit.com/

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 TensorTonic — LeetCode, но для машинного обучения

Что вас ждёт внутри:

— Практика ML-алгоритмов в формате LeetCode
— Воспроизведение современных ML-исследований на практике
— Подготовка к AI-собеседованиям по конкретным компаниям
— Свежие ML-блоги и разборы

Версия v1 уже доступна, проект активно развивается.

➡️ Ссылка на сайт

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 SQL большой гайд. Как правильно выбрать ORM

Эта статья - не про «как написать SELECT, а про настоящую инженерную работу: принципы нормализации, дизайн схем, практики оптимизации SQL, работа с транзакциями, и главное - как выбрать и использовать ORM так, чтобы он помогал, а не мешал.

Если тебе нужен инструмент, который выдержит рост проекта и не взорвётся через год, здесь ты найдёшь системный подход, проверенные шаблоны и практические примеры, которым уже доверяют зрелые инженерные команды.

Готовы? Тогда начинаем строить архитектуру, которую не стыдно масштабировать.

➡️ https://uproger.com/sql-bolshoj-gajd-kak-pravilno-vybrat-orm/

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Расширенный планировщик задач для PostgreSQL

pg_timetable - это мощный планировщик задач для PostgreSQL, который предлагает гибкие возможности для автоматизации выполнения SQL-команд и системных программ. Он полностью управляется из базы данных и поддерживает сложные сценарии планирования, включая цепочки задач и автоматическое повторение пропущенных заданий.

Основные моменты:

⏺️ Полностью управляемая конфигурация через базу данных
⏺️ Поддержка YAML для удобного определения цепочек задач
⏺️ Возможность передачи параметров и автоматического повторения задач
⏺️ Встроенные задачи, такие как отправка email и импорт файлов
⏺️ Расширенные возможности планирования по типу cron

➡️ GitHub: https://github.com/cybertec-postgresql/pg_timetable


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ SQLite-Vec — крошечная и портативная vectorDB на базе SQLite

SQLite-Vec — это сверхлёгкая и очень быстрая векторная база данных, встроенная прямо в SQLite. Идеальный вариант для on-device RAG, edge-приложений и локальных AI-сценариев без тяжёлой инфраструктуры.

Почему это интересно:
⏺️ Работает поверх обычного SQLite
⏺️Минимальный оверхед и высокая скорость
⏺️Отлично подходит для локального поиска по эмбеддингам

Ключевые возможности:
⏺️ Matryoshka embedding slicing — работа с усечёнными эмбеддингами
⏺️ До 32x экономии места за счёт бинарной квантизации
⏺️ Поддержка метрик L2, cosine и Hamming distance
⏺️ SQL-запросы для vector search без отдельной vectorDB

По сути, это vector search без Kubernetes, без сервисов и без боли — просто SQLite с суперспособностями.

Отличный выбор для:
⏺️ локальных RAG-агентов
⏺️ десктопных AI-приложений
⏺️ embedded-систем
⏺️ офлайн-поиска по знаниям

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Оптимизация запросов с индексами

Индексы могут значительно ускорить выполнение ваших запросов в SQL, особенно на больших таблицах. Убедитесь, что вы создали индексы на колонках, которые часто используются в условиях WHERE и JOIN.

CREATE INDEX idx_customer_lastname ON customers(last_name);

SELECT * FROM customers
WHERE last_name = 'Smith'
ORDER BY first_name;

SELECT COUNT(*) FROM orders
WHERE customer_id IN (SELECT id FROM customers WHERE last_name = 'Smith');


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Microsoft запустила VibeVoice Realtime на Hugging Face - лёгкую стриминговую text-to-speech модель, которая начинает озвучивать текст примерно за 300 миллисекунд.

Идеально для живых данных и разговоров с LLM.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️Распределенная база данных FoundationDB

FoundationDB — это распределенная база данных, оптимизированная для обработки больших объемов структурированных данных. Она использует упорядоченное хранилище ключ-значение и поддерживает ACID-транзакции, обеспечивая высокую производительность как для чтения, так и для записи.

Основные моменты:

⏺️ Поддержка ACID-транзакций для надежности данных.
⏺️ Высокая производительность для рабочих нагрузок с частыми записями.
⏺️ Гибкая архитектура для масштабирования на кластерах серверов.
⏺️ API для взаимодействия на различных языках программирования.

➡️ GitHub: https://github.com/apple/foundationdb

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Полезная шпаргалка по консольным командам Git

В Git полно команд, и если ты часто их забываешь, эта шпаргалка специально для тебя. В репозитории можно быстро почитать об основных командах и концепциях, а затем одним вальяжным нажатием на Ctrl+C скопировать их.

Приятный бонус — всё написано на русском. Так что сохраняем!

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Новый продвинутый планировщик заданий для PostgreSQL - лучше, чем cron

Если устал от cron и временных триггеров, обрати внимание на pg_timetable:

⏺️ Сильный: гибкий, надёжный, с богатым функционалом
⏺️ Легко настраивается, понятен и прозрачен

Позволяет:
⏺️ запускать SQL-задачи по расписанию
⏺️ отслеживать их статус и history
⏺️ обеспечивать graceful restart и защиту от сбоев

Идеален для рабочих баз, сложной логики задач и критичных приложений.

➡️ Репозиторий: https://github.com/cybertec-postgresql/pg_timetable

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 GophrQL - GraphQL toolkit for Go

Что это:

GophrQL — это простая и мощная библиотека на Go, которая помогает строить GraphQL API быстро и с минимальной болью. Она стремится быть легковесной, понятной и удобной для разработчиков, работающих с Go + GraphQL.

Основные фишки:

⏺️ Чистый Go-фэйс для описания схемы и резолверов
⏺️ Минимум магии и зависимостей
⏺️ Явная интеграция с Go-типами
⏺️ Хорошо подходит для микросервисов и сервисов с высокими требованиями к производительности

Почему это полезно:

Если вы пишете API на Go и хотите GraphQL без тяжеловесных фреймворков, GophrQL даёт:

⏺️ строгую типизацию
⏺️ контроль над схемой
⏺️ простую и понятную структуру кода
⏺️ меньше boilerplate-кода по сравнению с другими Go GraphQL решениями

Кому подойдёт:
⏺️ Go-разработчикам, которым нужен GraphQL API
⏺️ Командам, ищущим лёгкую альтернативу тяжёлым GraphQL-фреймворкам
⏺️ Проектам, где важна производительность и явное управление схемой

🔗 Репозиторий: github.com/maxpert/gophrql

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ OpenAI не привыкла сидеть сложа руки, когда в новостях горят другие

И вот, в последний момент, на фоне бурных обсуждений Google, они подкинули свой козырь — общие чаты в ChatGPT ⌨️

Как это работает? Всё довольно просто. Приглашаете в чат кого угодно, общаетесь, а если надо — подключаете модельку для обсуждения каких-то вопросов. Сразу скажу, выглядит довольно удобно для рабочих проектов, где нужно быстро обсудить детали. Но, если честно, этот функционал всё-таки немного ситуативный. Пока что его открыли только для всех платных пользователей.


Кажется, OpenAI решила не отставать, когда все глаза прикованы к достижениям Google. А как вы думаете, такие фишки изменят рынок? Или это всё-таки не так важно.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 XiYan-SQL - инструмент для интерактивной работы с SQL, основанный на LLM

XiYan-SQL - это open-source решение, позволяющее генерировать, анализировать и выполнять SQL-запросы с использованием больших языковых моделей. Инструмент ориентирован на ускорение исследования данных и автоматизацию рутинных операций, связанных с запросами к базе.

Ключевые возможности:

⏺️ Генерация SQL из естественного языка -пользователь формулирует задачу обычными словами, а система преобразует её в корректный SQL-запрос.
⏺️ Интерактивная работа с базой данных - запросы можно оперативно уточнять, редактировать и выполнять, получая быстрый цикл обратной связи.
⏺️ Поддержка нескольких СУБД - PostgreSQL, MySQL, SQLite и другие.
⏺️ 🛠 Минимальная конфигурация - подходит для анализа данных, прототипирования и облегчения доступа к базе без сложной инфраструктуры.

Преимущества использования:
- Существенно снижает трудоёмкость написания сложных SQL-запросов.
- Упрощает работу аналитикам и разработчикам, которым важно быстро получать корректные результаты.
- Может выступать в роли интерактивного помощника для изучения структуры базы и построения отчётов.

➡️ Репозиторий: github.com/XGenerationLab/XiYan-SQL

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
👋Роботы выходят на сцену: поп-шоу будущего уже началось

На концерте в Чэнду Ван Лихун представил номер с танцующими роботами. Мини-гуманоиды синхронно повторяли хореографию артистов и завершили выступление сальто, вызвав восторг публики.

Точность движений обеспечили ИИ, motion capture и системы балансировки. Подготовка заняла более трёх месяцев, стоимость одного робота — около $13,5 тыс. На шоу отреагировал Илон Маск: «Потрясающе!». В сети же спорят — это прорыв или угроза профессии танцоров.

Как вам?
❤️ — ОЧЕНЬ КРУТО!
🗿 — НИФИГА СЕБЕ


🚩 Куй клиента, пока горячо!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Postgresus 2.0 - новая версия self-hosted инструмента для резервного копирования и мониторинга PostgreSQL баз данных, написанный на Go

Возможности:

⏺️ создание бекапов по расписанию для PostgreSQL 12-18;
⏺️ хранение бекапов локально, в S3, CloudFlare R2, NAS или Google Drive;
⏺️ health check базы данных раз в минуту;
⏺️ уведомления в Telegram, Slack, MS Teams, Discord, по почте и в кастомизируемый вебхук, если бекап сломался или база недоступна;
⏺️ разделение баз на проекты с контролем доступа и аудит логами (для DBA и DevOps команд);
⏺️ улучшенная защита: шифрование резервных копий и read-only пользователь для их создания;
⏺️ запуск через скрипт, Docker, Docker Compose и Kubernetes Helm

Запуск через Docker:

docker run -d \
--name postgresus \
-p 4005:4005 \
-v ./postgresus-data:/postgresus-data \
--restart unless-stopped \
rostislavdugin/postgresus:latest


➡️ Ссылка на GitHub

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Cursor 2.1: новый релиз, который упрощает жизнь разработчикам

Вышел новый релиз Cursor 2.1. В этот раз обновлений сразу несколько, и все они значительно улучшают работу с кодом. Давайте рассмотрим нововведения.

Теперь в Cursor есть суперудобная функция «Find Issues», которая позволяет находить и исправлять баги буквально одной кнопкой. Агент проводит ревью вашего кода и моментально показывает все найденные проблемы в боковой панели. Не надо больше искать по строкам и угадать, где что-то пошло не так. Бонус: в течение этой недели вы можете потестировать эту фичу бесплатно!

Греет сердце старый добрый grep, но с улучшениями 🍌
Не знаю, как вы, а я обожаю старый добрый grep, который позволяет быстро найти нужный фрагмент в коде. Так вот, теперь в Cursor это ещё и векторный поиск. А если вы всё-таки за традиции, то grep вынесли отдельно. Работает почти мгновенно и ищет по всей кодовой базе, включая точные совпадения и регулярки. Для тех, кто привык к скорости и точности — просто мастхэв.

Режим планирования тоже не остался без внимания. Теперь, когда вы утверждаете план действий, агент будет задавать уточняющие вопросы. Простой и удобный интерактивный режим позволяет отвечать прямо на месте.


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
📱 Как GPT меняет бизнес? Узнай изнутри.

На канале Owner 1win — опыт основателя топового проекта, который использует нейросети, ИИ и собственные IT-разработки, чтобы масштабировать 1win и выходить за рамки индустрии.

Здесь ты найдешь:

👉 Как GPT помогает автоматизировать процессы
👉 Инсайды о внедрении ИИ в гемблинг
👉 Личный опыт создания digital-платформ
👉 Апдейты и кейсы по 1win и другим проектам

🔗 Owner 1win — про технологии, которые работают.
Подпишись и будь в курсе, как ИИ делает бизнес умнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Gemini 3 Pro: новый лидер в решении сложных математических задач

Не так давно Gemini 3 Pro стал настоящим фаворитом среди ИИ в области сложной математики. Система удивила даже самых требовательных специалистов. На бенчмарке FrontierMath, который включает в себя задачи самой высокой сложности, эта модель показала феноменальные результаты 😐

Для начала, давайте разберёмся, что такое FrontierMath. Это набор задач, подготовленных профессиональными математиками, охватывающий широкий спектр тем — от теории чисел до алгебраической геометрии. Некоторые из этих задач могут занять у человека недели работы, а уровень сложности варьируется от бакалавриата до уровня исследовательской работы.

Gemini 3 Pro, к слову, набрал 37,6% по общим результатам, значительно обогнав остальных соперников: Gemini 2.5 Deep Think с 29% и GPT-5 Thinking с 26,6%. На самом сложном уровне Tier 4, где ставятся задачи из мира научных исследований, Gemini 3 Pro также оказался вне конкуренции, решив девять задач. Для сравнения, GPT-5.1 Thinking и GPT-5 Pro справились только с шестью.

Что это значит?

Мы привыкли к тому, что ИИ пока уступает человеку в таких областях, как математика, но, похоже, это скоро изменится. Например, люди в среднем показывают около 30% правильных решений в таких задачах, а при совместной работе и нескольких попытках результат может подниматься до 50%. Если учесть, что ИИ сейчас добился 19% на самых сложных задачах (это ещё без дополнительных попыток), можно говорить о серьёзном прогрессе.


На фоне того, что эти технологии становятся доступными для широких масс, можно ожидать настоящую революцию в области научных исследований и образования. Переплюнет ли ИИ человека в математике?

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
👀 Навязчивый контроль

#юмор

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM