Data Science: SQL и Аналитика данных
28.1K subscribers
230 photos
45 videos
1 file
278 links
№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Как Яну Лекуну удалось предсказать будущее ИИ

Картинка, как из старых фильмов: Яну Лекуну — 32 года,перед камерой и показывает миру свою сверточную нейросеть, которая распознает цифры, написанные разным почерком.

Для 1988 года это был настоящий прорыв. Свёрточные нейросети, которые сейчас мы воспринимаем как нечто обычное, только начинали свой путь. Сегодня эти системы могут распознавать лица на фотографиях, анализировать контекст изображений и даже генерировать новые изображения на основе текста. Но тогда? Тогда это было как сделать машину времени из старого компьютера.


Сегодня нейросети, подобные тем, что разработал Лекун, используются повсеместно. За этими технологиями стоят десятки лет работы, исследований и попыток сделать невозможное возможным. Лекун, предсказавший этот тренд, теперь возглавляет одно из самых крупных подразделений, и, наверное, вряд ли тогда он думал, что будет играть такую важную роль в будущем ИИ.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
1K
➡️ 3 вида шардирования баз данных:

⏺️ Range-based — разбивает данные по диапазонам значений ключа
⏺️ Hash-based — выбирает шарду с помощью хеш-функции
⏺️ Tenant-based — каждому клиенту (тенанту) выделяется своя отдельная база

Пояснения:

Range-based sharding делит данные по диапазонам ключа (например: ID 1–1 000 — первая шарда, 1 001–2 000 — вторая).

Hash-based sharding использует хеш от ключа, чтобы определить, в какую шарду поместить или откуда прочитать запись. Это даёт более равномерное распределение.

Tenant-based sharding выделяет каждому клиенту собственную базу данных, что упрощает изоляцию, миграции и управление данными.

Просто, понятно и работает во всех масштабах.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 SQL разбор ошибок

Одна из самых частых ошибок в SQL - вытаскивать слишком много строк без явных условий фильтрации. Люди часто пишут запросы без WHERE, забывают ограничивать выборку и получают огромные таблицы, перегруженные джоины и медленные отчёты.

Особенно опасно - JOIN без условий: это создаёт декартово произведение и может положить базу.

Всегда задавай точные условия, проверяй ключи соединений и ограничивай выборку, если смотришь данные руками.
Подписывайся, больше фишек каждый день !

SELECT *
FROM users
JOIN orders
-- Ошибка: отсутствует ON, создаётся декартово произведение
LIMIT 100;

-- Правильно:
SELECT u.id, o.id
FROM users u
JOIN orders o ON o.user_id = u.id
LIMIT 100;


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🎭 В гайдах по промптингу часто советуют задавать ИИ экспертную роль, от лица которой он будет отвечать. На днях вышло исследование о том, как указание роли влияет на выдачу нейросети.

Исследователи из Уортонской школы бизнеса проверили эффективность такого промптинга на нескольких моделях от OpenAI и Google (правда, в экспериментах не тестировали флагманские модели текущего поколения вроде GPT-5.1 и Gemini 3 Pro). Почти во всех случаях фактическая точность никак не менялась от указания роли эксперта. Единственное исключение — Gemini 2.0 Flash. Она действительно стала отвечать лучше с ролью эксперта в промпте.

Но оказалось, что выбор роли работает в обратную сторону: если дать нейросети указание говорить от лица ребёнка, то ответ стабильно будет менее точным.

Значит ли это, что указывать роль в промпте бесполезно? Авторы отмечают, что роль в промпте всё-таки может приносить пользу, помогая ИИ понять, с какого угла лучше смотреть на проблему и какой ответ хочет видеть пользователь.

Подписывайтесь 👉 @techno_yandex
Как ИИ помог организовать крупнейшую кибератаку 🔫

Вот вам и «цифровая эволюция». Anthropic зафиксировали первый случай массовой кибератаки, проведённой с помощью ИИ. Это не единичный случай, а целая кампания!

Давайте разберемся, что случилось. Преступники, по версии Anthropic, использовали модель Claude, которую обманули с помощью джейлбрейка. В итоге модель начала выполнять задачи, скрывая от себя истинную цель операции и думая, что работает для вполне легитимной фирмы кибербезопасности. Всё как по маслу: разведка инфраструктуры, написание эксплойтов, получение доступа, создание бэкдоров, кража данных — и даже создание подробной документации по всей атаке. Почти без участия человека.

Весь процесс был автоматизирован почти на 90%! Человек вмешивался только в самые критические моменты, когда нужно было принять решение. И самое интересное: аналитики заметили подозрительную активность, запустили расследование и вовремя поймали эту кибершпионскую операцию 🍴


Порог входа для проведения таких атак серьёзно снизился. Но то, что ИИ может использоваться как в атаке, так и для обороны, даёт надежду. Только если мы будем использовать ИИ для защиты и продолжать развивать механизмы безопасности, можно надеяться на стабильность в киберпространстве.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Что нового для разработчиков в Oracle AI Database 23.26.0

В свежем релизе появилось сразу несколько функций, которые упрощают аналитику, делают работу с API удобнее и улучшают интеграцию SQL с JavaScript.

➡️ Главное обновление

⏺️ Появилась SQL клауза QUALIFY. Теперь можно фильтровать результаты оконных функций напрямую, без вложенных подзапросов. Упрощает сложные аналитические выборки.

⏺️ Добавлена функция GRAPHQL(). Можно выполнять запросы к базе в синтаксисе GraphQL и получать JSON ответ. Полезно для API сервисов и современных приложений.

⏺️ В MLE JavaScript теперь поддерживаются SQL объекты и коллекции. Это позволяет возвращать и принимать пользовательские типы прямо из JS функций.

⏺️ Для PL SQL пакетов появилось ключевое слово RESETTABLE. Обновление пакета больше не вызывает ORA 04068, что делает деплой безопаснее.

➡️ Зачем это нужно

Обновление делает Oracle удобнее для разработчиков, особенно если вы строите API, используете аналитику, комбинируете SQL и JavaScript или разрабатываете приложения с AI и ML нагрузкой.

➡️ Читать подробнее по ссылке: www.geraldonit.com/

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 TensorTonic — LeetCode, но для машинного обучения

Что вас ждёт внутри:

— Практика ML-алгоритмов в формате LeetCode
— Воспроизведение современных ML-исследований на практике
— Подготовка к AI-собеседованиям по конкретным компаниям
— Свежие ML-блоги и разборы

Версия v1 уже доступна, проект активно развивается.

➡️ Ссылка на сайт

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 SQL большой гайд. Как правильно выбрать ORM

Эта статья - не про «как написать SELECT, а про настоящую инженерную работу: принципы нормализации, дизайн схем, практики оптимизации SQL, работа с транзакциями, и главное - как выбрать и использовать ORM так, чтобы он помогал, а не мешал.

Если тебе нужен инструмент, который выдержит рост проекта и не взорвётся через год, здесь ты найдёшь системный подход, проверенные шаблоны и практические примеры, которым уже доверяют зрелые инженерные команды.

Готовы? Тогда начинаем строить архитектуру, которую не стыдно масштабировать.

➡️ https://uproger.com/sql-bolshoj-gajd-kak-pravilno-vybrat-orm/

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Расширенный планировщик задач для PostgreSQL

pg_timetable - это мощный планировщик задач для PostgreSQL, который предлагает гибкие возможности для автоматизации выполнения SQL-команд и системных программ. Он полностью управляется из базы данных и поддерживает сложные сценарии планирования, включая цепочки задач и автоматическое повторение пропущенных заданий.

Основные моменты:

⏺️ Полностью управляемая конфигурация через базу данных
⏺️ Поддержка YAML для удобного определения цепочек задач
⏺️ Возможность передачи параметров и автоматического повторения задач
⏺️ Встроенные задачи, такие как отправка email и импорт файлов
⏺️ Расширенные возможности планирования по типу cron

➡️ GitHub: https://github.com/cybertec-postgresql/pg_timetable


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ SQLite-Vec — крошечная и портативная vectorDB на базе SQLite

SQLite-Vec — это сверхлёгкая и очень быстрая векторная база данных, встроенная прямо в SQLite. Идеальный вариант для on-device RAG, edge-приложений и локальных AI-сценариев без тяжёлой инфраструктуры.

Почему это интересно:
⏺️ Работает поверх обычного SQLite
⏺️Минимальный оверхед и высокая скорость
⏺️Отлично подходит для локального поиска по эмбеддингам

Ключевые возможности:
⏺️ Matryoshka embedding slicing — работа с усечёнными эмбеддингами
⏺️ До 32x экономии места за счёт бинарной квантизации
⏺️ Поддержка метрик L2, cosine и Hamming distance
⏺️ SQL-запросы для vector search без отдельной vectorDB

По сути, это vector search без Kubernetes, без сервисов и без боли — просто SQLite с суперспособностями.

Отличный выбор для:
⏺️ локальных RAG-агентов
⏺️ десктопных AI-приложений
⏺️ embedded-систем
⏺️ офлайн-поиска по знаниям

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Оптимизация запросов с индексами

Индексы могут значительно ускорить выполнение ваших запросов в SQL, особенно на больших таблицах. Убедитесь, что вы создали индексы на колонках, которые часто используются в условиях WHERE и JOIN.

CREATE INDEX idx_customer_lastname ON customers(last_name);

SELECT * FROM customers
WHERE last_name = 'Smith'
ORDER BY first_name;

SELECT COUNT(*) FROM orders
WHERE customer_id IN (SELECT id FROM customers WHERE last_name = 'Smith');


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Microsoft запустила VibeVoice Realtime на Hugging Face - лёгкую стриминговую text-to-speech модель, которая начинает озвучивать текст примерно за 300 миллисекунд.

Идеально для живых данных и разговоров с LLM.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️Распределенная база данных FoundationDB

FoundationDB — это распределенная база данных, оптимизированная для обработки больших объемов структурированных данных. Она использует упорядоченное хранилище ключ-значение и поддерживает ACID-транзакции, обеспечивая высокую производительность как для чтения, так и для записи.

Основные моменты:

⏺️ Поддержка ACID-транзакций для надежности данных.
⏺️ Высокая производительность для рабочих нагрузок с частыми записями.
⏺️ Гибкая архитектура для масштабирования на кластерах серверов.
⏺️ API для взаимодействия на различных языках программирования.

➡️ GitHub: https://github.com/apple/foundationdb

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Полезная шпаргалка по консольным командам Git

В Git полно команд, и если ты часто их забываешь, эта шпаргалка специально для тебя. В репозитории можно быстро почитать об основных командах и концепциях, а затем одним вальяжным нажатием на Ctrl+C скопировать их.

Приятный бонус — всё написано на русском. Так что сохраняем!

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Новый продвинутый планировщик заданий для PostgreSQL - лучше, чем cron

Если устал от cron и временных триггеров, обрати внимание на pg_timetable:

⏺️ Сильный: гибкий, надёжный, с богатым функционалом
⏺️ Легко настраивается, понятен и прозрачен

Позволяет:
⏺️ запускать SQL-задачи по расписанию
⏺️ отслеживать их статус и history
⏺️ обеспечивать graceful restart и защиту от сбоев

Идеален для рабочих баз, сложной логики задач и критичных приложений.

➡️ Репозиторий: https://github.com/cybertec-postgresql/pg_timetable

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 GophrQL - GraphQL toolkit for Go

Что это:

GophrQL — это простая и мощная библиотека на Go, которая помогает строить GraphQL API быстро и с минимальной болью. Она стремится быть легковесной, понятной и удобной для разработчиков, работающих с Go + GraphQL.

Основные фишки:

⏺️ Чистый Go-фэйс для описания схемы и резолверов
⏺️ Минимум магии и зависимостей
⏺️ Явная интеграция с Go-типами
⏺️ Хорошо подходит для микросервисов и сервисов с высокими требованиями к производительности

Почему это полезно:

Если вы пишете API на Go и хотите GraphQL без тяжеловесных фреймворков, GophrQL даёт:

⏺️ строгую типизацию
⏺️ контроль над схемой
⏺️ простую и понятную структуру кода
⏺️ меньше boilerplate-кода по сравнению с другими Go GraphQL решениями

Кому подойдёт:
⏺️ Go-разработчикам, которым нужен GraphQL API
⏺️ Командам, ищущим лёгкую альтернативу тяжёлым GraphQL-фреймворкам
⏺️ Проектам, где важна производительность и явное управление схемой

🔗 Репозиторий: github.com/maxpert/gophrql

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ OpenAI не привыкла сидеть сложа руки, когда в новостях горят другие

И вот, в последний момент, на фоне бурных обсуждений Google, они подкинули свой козырь — общие чаты в ChatGPT ⌨️

Как это работает? Всё довольно просто. Приглашаете в чат кого угодно, общаетесь, а если надо — подключаете модельку для обсуждения каких-то вопросов. Сразу скажу, выглядит довольно удобно для рабочих проектов, где нужно быстро обсудить детали. Но, если честно, этот функционал всё-таки немного ситуативный. Пока что его открыли только для всех платных пользователей.


Кажется, OpenAI решила не отставать, когда все глаза прикованы к достижениям Google. А как вы думаете, такие фишки изменят рынок? Или это всё-таки не так важно.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 XiYan-SQL - инструмент для интерактивной работы с SQL, основанный на LLM

XiYan-SQL - это open-source решение, позволяющее генерировать, анализировать и выполнять SQL-запросы с использованием больших языковых моделей. Инструмент ориентирован на ускорение исследования данных и автоматизацию рутинных операций, связанных с запросами к базе.

Ключевые возможности:

⏺️ Генерация SQL из естественного языка -пользователь формулирует задачу обычными словами, а система преобразует её в корректный SQL-запрос.
⏺️ Интерактивная работа с базой данных - запросы можно оперативно уточнять, редактировать и выполнять, получая быстрый цикл обратной связи.
⏺️ Поддержка нескольких СУБД - PostgreSQL, MySQL, SQLite и другие.
⏺️ 🛠 Минимальная конфигурация - подходит для анализа данных, прототипирования и облегчения доступа к базе без сложной инфраструктуры.

Преимущества использования:
- Существенно снижает трудоёмкость написания сложных SQL-запросов.
- Упрощает работу аналитикам и разработчикам, которым важно быстро получать корректные результаты.
- Может выступать в роли интерактивного помощника для изучения структуры базы и построения отчётов.

➡️ Репозиторий: github.com/XGenerationLab/XiYan-SQL

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
👋Роботы выходят на сцену: поп-шоу будущего уже началось

На концерте в Чэнду Ван Лихун представил номер с танцующими роботами. Мини-гуманоиды синхронно повторяли хореографию артистов и завершили выступление сальто, вызвав восторг публики.

Точность движений обеспечили ИИ, motion capture и системы балансировки. Подготовка заняла более трёх месяцев, стоимость одного робота — около $13,5 тыс. На шоу отреагировал Илон Маск: «Потрясающе!». В сети же спорят — это прорыв или угроза профессии танцоров.

Как вам?
❤️ — ОЧЕНЬ КРУТО!
🗿 — НИФИГА СЕБЕ


🚩 Куй клиента, пока горячо!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Postgresus 2.0 - новая версия self-hosted инструмента для резервного копирования и мониторинга PostgreSQL баз данных, написанный на Go

Возможности:

⏺️ создание бекапов по расписанию для PostgreSQL 12-18;
⏺️ хранение бекапов локально, в S3, CloudFlare R2, NAS или Google Drive;
⏺️ health check базы данных раз в минуту;
⏺️ уведомления в Telegram, Slack, MS Teams, Discord, по почте и в кастомизируемый вебхук, если бекап сломался или база недоступна;
⏺️ разделение баз на проекты с контролем доступа и аудит логами (для DBA и DevOps команд);
⏺️ улучшенная защита: шифрование резервных копий и read-only пользователь для их создания;
⏺️ запуск через скрипт, Docker, Docker Compose и Kubernetes Helm

Запуск через Docker:

docker run -d \
--name postgresus \
-p 4005:4005 \
-v ./postgresus-data:/postgresus-data \
--restart unless-stopped \
rostislavdugin/postgresus:latest


➡️ Ссылка на GitHub

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM