Data Science: SQL и Аналитика данных – Telegram

Data Science: SQL и Аналитика данных

@pizdatascience

40K subscribers

244 photos

54 videos

1 file

299 links

№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri

Download Telegram

About

Blog

Apps

Platform

Data Science: SQL и Аналитика данных

40K subscribers

Data Science: SQL и Аналитика данных

🔥

Google протестировали LLM на реальных научных вопросах по сверхпроводимости.

Исследователи собрали 67 сложных вопросов, которые обычно обсуждают физики в области высокотемпературной сверхпроводимости, и дали их шести моделям:

⏺️ GPT-4o
⏺️ Claude 3.5
⏺️ Gemini Advanced 1.5
⏺️ Perplexity
⏺️ NotebookLM
⏺️ специальной RAG-системе

Каждый ответ оценивали 12 международных экспертов по нескольким критериям:

⏺️полнота ответа
⏺️объективность
⏺️точность
⏺️наличие научных источников
⏺️ ясность объяснения

Интересный результат:

модели с закрытой, тщательно подобранной научной базой отвечали точнее, чем модели с доступом ко всему интернету.

В закрытой базе использовали:

• 15 ключевых обзорных статей
• около 3300 научных ссылок
• ~1700 отобранных источников по экспериментам и теории.

Главный вывод исследования:

LLM могут быть полезны как “виртуальный научный ассистент”, который помогает исследователю быстро разобраться в сложной области и увидеть разные научные точки зрения.

Но качество сильно зависит от контролируемых источников знаний, а не просто от доступа к интернету.

https://research.google/blog/testing-llms-on-superconductivity-research-questions/

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

4.77K views07:43

Data Science: SQL и Аналитика данных

➡️

MongoDB Memory Leak Exploit (CVE-2025-14847)

Прототип эксплойта для уязвимости в MongoDB, позволяющий неаутентифицированным злоумышленникам утекать конфиденциальную память сервера. Уязвимость связана с некорректной обработкой длины данных при декомпрессии, что приводит к утечке неинициализированной памяти.

Основные моменты:

⏺️ Позволяет утекать данные из памяти MongoDB.
⏺️ Использует уязвимость zlib для создания поддельных BSON документов.
⏺️ Может раскрывать внутренние логи и конфигурацию MongoDB.
⏺️ Включает Docker Compose для тестирования уязвимости.

➡️ GitHub: https://github.com/joe-desimone/mongobleed

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

4.97K views12:27

Data Science: SQL и Аналитика данных

🔥

Топ-10 open-source AI-моделей на февраль 2026.

Открытые модели больше не «облегчённая версия».

Сегодня многие из них уже конкурируют с коммерческими решениями и подходят для реальных продуктов, агентов и локального запуска.

Вот модели, на которые стоит обратить внимание:

1️⃣

GLM-5 — автономная разработка и создание приложений
https://github.com/THUDM/GLM-5

2️⃣

MiniMax M2.5 — мощная модель для кодинга (80%+ на SWE-bench)
https://github.com/MiniMax-AI

3️⃣

Kimi K2.5 — мультимодальность, код и продвинутое reasoning
https://github.com/MoonshotAI

4️⃣

DeepSeek V3.2 — эффективная sparse-архитектура, конкурент GPT-уровня
https://github.com/deepseek-ai

5️⃣

Qwen 3 — сильная логика и отличная поддержка множества языков
https://github.com/QwenLM

6️⃣

MiMo V2 Flash — высокая эффективность и низкая стоимость инференса
https://github.com/MiMo-AI

7️⃣

Mistral Large 3 — большой контекст и удобная коммерческая лицензия
https://github.com/mistralai

8️⃣

LongCat Flash Chat — для сверхдлинных диалогов и памяти контекста
https://github.com/LongCatAI

9️⃣

Gemma 3 — открытая модель от Google с хорошим качеством диалогов
https://github.com/google/gemma

1️⃣

0️⃣

INTELLECT-3 — полностью открытый стек обучения модели
https://github.com/IntellectAI

Почему это важно:

⏺️ open-weights ≈ уровень топ-моделей
⏺️ можно запускать локально
⏺️ полный контроль над данными
⏺️ база для своих AI-агентов и продуктов
⏺️ экономия на API при масштабировании

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

4.43K views11:26

Data Science: SQL и Аналитика данных

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

Большие таблицы в SQL - сначала план, потом запрос

Самый полезный апгрейд, который реально экономит часы: не "оптимизировать запрос на глаз", а заставить базу самой показать, что она делает.

На больших таблицах скорость почти всегда решают 3 вещи: правильный индекс, правильная форма запроса и правильный JOIN-порядок.

➡️ Железное правило: прежде чем трогать код, запускают EXPLAIN ANALYZE и смотрят две красные зоны - Seq Scan на большой таблице и огромные строки после JOIN. Если видишь Seq Scan - значит фильтр не поддержан индексом или условие написано так, что индекс не используется. Если после JOIN получаются миллионы строк - значит нужно сначала отфильтровать и/или агрегировать, а потом соединять.

Самый мощный прием для больших таблиц: сначала выбрать маленький набор ключей (CTE или подзапрос), и только потом JOIN к тяжелой таблице. Это резко уменьшает работу базы, потому что она перестает "перемножать" всё со всем.


ПЛОХО: тяжелый JOIN сразу, база тащит миллионы строк
SELECT u.id, COUNT(e.*) AS events_30d
FROM users u
JOIN events e ON e.user_id = u.id
WHERE e.created_at >= NOW() - INTERVAL '30 days'
  AND u.country = 'TH'
GROUP BY u.id;

-- ХОРОШО: сначала сузить пользователей до маленького набора, потом JOIN
WITH target_users AS (
  SELECT id
  FROM users
  WHERE country = 'TH'
)
SELECT tu.id, COUNT(*) AS events_30d
FROM target_users tu
JOIN events e ON e.user_id = tu.id
WHERE e.created_at >= NOW() - INTERVAL '30 days'
GROUP BY tu.id;

-- Индексы, которые реально помогают этому паттерну
CREATE INDEX IF NOT EXISTS idx_users_country_id ON users (country, id);
CREATE INDEX IF NOT EXISTS idx_events_user_time ON events (user_id, created_at);

-- Всегда проверяй, что база использует индекс, а не Seq Scan
EXPLAIN (ANALYZE, BUFFERS)
WITH target_users AS (
  SELECT id FROM users WHERE country = 'TH'
)
SELECT tu.id, COUNT(*)
FROM target_users tu
JOIN events e ON e.user_id = tu.id
WHERE e.created_at >= NOW() - INTERVAL '30 days'
GROUP BY tu.id;

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

6.42K viewsedited 10:24

Data Science: SQL и Аналитика данных

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

UI-TARS-desktop — открытое приложение-агент с GUI, которое превращает ваш компьютер в **интерактивного AI-ассистента** с визуальным восприятием и управлением интерфейсом.

Что это и зачем:

⏺️

AI-агент, который видит и кликает
Проект основан на модели UI-TARS (User Interface — Task Automation & Reasoning System). Агент реально *видит экран*, распознаёт элементы интерфейса и может управлять мышью, клавиатурой и браузером по простым естественным командам.

➡️

Контроль компьютера на естественном языке
Вместо интеграций через API вы пишете команды, а модель сама ищет кнопки, поля ввода и прочие UI-элементы, затем *выполняет действия*. Это работает с приложениями, браузером и элементами рабочего стола.

➡️

Open-source и кросс-платформа
Проект распространяется под Apache-лицензией, есть релизы, активная история версий и документация для запуска на Windows и macOS. :

➡️

Цели проекта
UI-TARS-desktop — это не просто демонстрация: это полноценный мультимодальный AI-агентный стек, который можно использовать для автоматизации повседневных задач без ручного вмешательства.

Страница репозитория: github.com/bytedance/UI-TARS-desktop

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

5.88K views06:52

Data Science: SQL и Аналитика данных

➡️

Хорошая это новость или грустная, судите сами: ARC Invest посчитали, что к концу 2020-х суммарный объем текста, сгенерированного ИИ, превзойдет объем текста, который человечество накопило за последние 500 лет

Другими словами, ИИ понадобиться всего 5-10 лет, чтобы нагнать и перегнать человечество в плане количества написанного текста.

Оказалось, кстати, что 2025 стал первым годом, когда ИИ сгенерировал больше текста, чем люди. Подсчеты, конечно, очень приблизительные, – но все же.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

5.29K views10:00

Data Science: SQL и Аналитика данных

This media is not supported in your browser

VIEW IN TELEGRAM

➡️

Microsoft Critique: deep research на стероидах, где одна модель генерирует, а вторая её критикует

Microsoft выкатили Critique. Это инструмент для deep research, который одновременно запускает несколько моделей на один запрос.

Работает так: первая модель берёт на себя генерацию, вторая выступает рецензентом и вычищает ошибки и неточности до того, как вы увидите финальный ответ. Какие именно модели работали над ответом, видно в шапке.

По бенчмарку DRACO показывают SOTA, других замеров пока нет. Так что насколько это реально лучше обычного deep research, вопрос открытый.

Отдельно интересен режим Council для обычных запросов. Ваш промпт прогоняется через несколько моделей параллельно, и вы видите все варианты сразу. Плюс краткая выжимка: где модели согласны, а где разошлись во мнениях.

На широкую аудиторию пока не раскатили, можно подать заявку на ранний доступ. Будет ли это в обычной подписке за $20, неизвестно. Хотя, если честно, мультимодельный пайплайн с критиком можно собрать самому за вечер через API. И точно выйдет дешевле.

techcommunity.microsoft.com/blog/microsoft365copilotblog/introducing-multi-model-intelligence-in-researcher/4506011

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

4.96K views05:58

Data Science: SQL и Аналитика данных

This media is not supported in your browser

VIEW IN TELEGRAM

Claude можно превратить из «чат-бота» в полноценного агента, если правильно организовать проект.

Вся магия - в структуре папки:

your-project/
├── CLAUDE.md              → инструкции для команды (сохраняется в репозитории)
├── CLAUDE.local.md        → личные настройки (игнорируется git)

├── .claude/               → центр управления
│   ├── settings.json          → права доступа и конфигурация (в репозитории)
│   ├── settings.local.json    → локальные настройки

│   ├── commands/              → кастомные slash-команды
│   │   ├── review.md          → /project:review
│   │   ├── fix-issue.md       → /project:fix-issue
│   │   └── deploy.md          → /project:deploy

│   ├── rules/                 → модульные инструкции
│   │   ├── code-style.md
│   │   ├── testing.md
│   │   └── api-conventions.md

│   ├── skills/                → авто-запускаемые workflow
│   │   ├── security-review/
│   │   │   └── SKILL.md
│   │   └── deploy/
│   │       └── SKILL.md

│   └── agents/                → субагенты (роли)
│       ├── code-reviewer.md
│       └── security-auditor.md

Фактически ты собираешь мини-систему из агентов внутри репозитория.

https://www.youtube.com/shorts/ej5qiDJ0Ibo

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

4.64K viewsedited 05:40

Data Science: SQL и Аналитика данных

⚡️Чем занимается аналитик и как получить оффер в 2026 году?

Переживаете, что рынок труда нестабилен? Хотите ворваться в аналитику, но не знаете как гарантировать себе трудоустройство?
Все эти переживания уходят, если вы уверены в правильности своих действий, уверены в своих компетенциях, резюме и портфолио.

Приглашаем на бесплатный вебинар, где Андрон Алексанян - эксперт в области аналитики и CEO школы аналитики Simulative — в прямом эфире разберет все важные аспекты в работе аналитика, а также расскажет как получить оффер быстрее других. Кстати на вебинаре разберут и то как стать аналитиком в 30/40/50 и более лет.

На вебинаре будет:
🟠Разберем полный роадмап: что учить, в каком порядке, до какого уровня;
🟠Структура хорошего портфолио с примерами;
🟠Что говорят реальные наниматели - какие у них сейчас требования:

— Покажем реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание;
— Обсудим какие отклики работают, а какие сразу отправляют в корзину;
— Изнанка найма: инсайдерский взгляд на процессы отбора

🟠 Практические техники для новичков: разберём, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях.

💬 Зарегистрируйтесь и получите урок по основам Excel бесплатно!

😶Зарегистрироваться на бесплатный вебинар

Please open Telegram to view this post

VIEW IN TELEGRAM

4.64K views08:15

Data Science: SQL и Аналитика данных

This media is not supported in your browser

VIEW IN TELEGRAM

➡️

EXISTS РАБОТАЕТ БЫСТРЕЕ COUNT

SQL-совет: перестаньте считать всё через COUNT(*)

Многие пишут так:

SELECT COUNT(*)
FROM orders
WHERE user_id = 123;

Чтобы проверить — есть ли записи.

Проблема:
COUNT(*) считает все строки, даже если нужна просто проверка существования.
На больших таблицах это лишняя нагрузка и медленный запрос.

Правильнее использовать EXISTS.

Почему это лучше:
- База останавливается на первой найденной строке
- Меньше чтения данных
- Быстрее на больших таблицах
- Использует индексы эффективнее

Пример:


-- Плохо
SELECT COUNT(*)
FROM orders
WHERE user_id = 123;

-- Хорошо
SELECT EXISTS (
    SELECT 1
    FROM orders
    WHERE user_id = 123
);

-- Или в условии
SELECT *
FROM users u
WHERE EXISTS (
    SELECT 1
    FROM orders o
    WHERE o.user_id = u.id
);

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

4.45K views04:54

Data Science: SQL и Аналитика данных

Создатель Linux
➡️ обычный стол, минимум техники, ничего лишнего.

Обычный «тех-бро»
➡️ три монитора, RGB, мощный ПК, студийный свет, полный сетап.

Иногда разница между «легендой» и «тех-инфлюенсером» - не в железе, а в том, что у тебя в голове.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

4.28K views07:09

Data Science: SQL и Аналитика данных

⚡️Чем занимается аналитик и как получить оффер в 2026 году?

Переживаете, что рынок труда нестабилен? Хотите ворваться в аналитику, но не знаете как гарантировать себе трудоустройство?
Все эти переживания уходят, если вы уверены в правильности своих действий, уверены в своих компетенциях, резюме и портфолио.

Приглашаем на бесплатный вебинар, где Андрон Алексанян - эксперт в области аналитики и CEO школы аналитики Simulative — в прямом эфире разберет все важные аспекты в работе аналитика, а также расскажет как получить оффер быстрее других. Кстати на вебинаре разберут и то как стать аналитиком в 30/40/50 и более лет.

На вебинаре будет:
🟠Разберем полный роадмап: что учить, в каком порядке, до какого уровня;
🟠Структура хорошего портфолио с примерами;
🟠Что говорят реальные наниматели - какие у них сейчас требования:

— Покажем реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание;
— Обсудим какие отклики работают, а какие сразу отправляют в корзину;
— Изнанка найма: инсайдерский взгляд на процессы отбора

🟠 Практические техники для новичков: разберём, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях.

💬 Зарегистрируйтесь и получите урок по основам Excel бесплатно!

😶Зарегистрироваться на бесплатный вебинар

Please open Telegram to view this post

VIEW IN TELEGRAM

4.54K views11:03

Data Science: SQL и Аналитика данных

This media is not supported in your browser

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

Самый хайпующий проект в интернете прямо сейчас – Pretext

Инженер из Midjourney выложил в опенсорс алгоритм, который позволяет делать верстку без CSS. То есть он сам считает layout текста, без DOM и без браузерного reflow.

Звучит странно, потому что мы привыкли, что за это отвечает браузер. Но браузер делает это тяжело, через каскад стилей, зависимости между элементами и пересчеты при каждом изменении. Если текст часто меняется, вся система начинает тормозить. Pretext убирает этот слой и сводит задачу к прямой математике.

Собственно, это дает кратный выигрыш по скорости – до 500х.

Зачем это все нужно?

Сейчас появляется все больше интерфейсов, где текст и структура не заданы заранее, а формируются динамически. В частности – это история про агентов.

Когда агент собирает UI под задачу пользователя, интерфейс не фиксирован, он постоянно меняется, иногда буквально на каждом шаге. И каждый такой апдейт через браузерный reflow – это лишняя задержка и непредсказуемость.

С Pretext это занимает гораздо меньше времени + полностью контролируемо со стороны кода. Когда интерфейс генерирует не человек, а система, удобнее работать с прямыми алгоритмами, а не с тяжелым браузерным пайплайном.

Ну и, конечно, выглядит это очень красиво. За счет скорости обработки выдумать поверх Pretext можно что угодно (примеры прикладываем). И все же в первую очередь проект интересен именно тем, как изящно он ложится на новые сценарии.

➡️

github.com/chenglou/pretext

Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

4.59K views08:19