Data Science: SQL и Аналитика данных
28.1K subscribers
230 photos
45 videos
1 file
278 links
№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri
Download Telegram
💵 Россиянка ЗАРАБАТЫВАЕТ реальные деньги на ИИ-модели — фото и видео с ней она размещает в соцсетях, где к ней приходят с рекламой товаров от НАСТОЯЩИХ брендов

Девушка устраивает своей ИИ-красотке съёмки прямо у себя дома: сначала она записывает себя на видео, а уже потом обрабатывает видос с помощью нейронки

Как сделать также? Вот гайд:
😀 Сначала вам нужно создать свою ИИ-модель — её внешность, фигура и прочие элементы;
😀 Для этого заходим в Nano Banana, Seedream или другую ИИ, и закидываем нейронке описание вашего персонажа, либо же просто кидаем фото понравившихся девушек из интернета и просим объединить всё в одной фотке. Создаём несколько вариантов в разных ракурсах;
😀 Снимаем себя на видео, как вы выполняете какое-то действие, ЛИБО просто качаете чужой видос с танцем или липсингом;
😀 Объединяем созданное фото ИИ-модели и видос в нейронке Kling 2.6 — с помощью функции Motion Control. Также можно использовать другие ИИ-сервисы: Seedream, Pykaso, Higgsfield;
😀 Если вам нужно ФОТО, а не видео, то всё намного проще: также фоткаем себя или качаем чье-то красивое фото из соцсетей, идём в Nano Banana, Seedream, Pykaso, Higgsfield или другую ИИ, и в промтах просим заменить лицо. Также можно попросить изменить ракурс, одежду, фон и т.д.
😀 Грузим полученный результат во все соцсети — в каокй-нибудь да стрельнет, если оформить всё правильно и стабильно выпускать контент.


Обычному покупателю всё равно, как это сделано — в 2026-м большинство не отличит ИИ-модель от реальной 🤫

Делаем также и становимся миллионерами, сидя на диване!

💻  Новости Технологий и AI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
👀 LuxTTS - очень быстрый и компактный TTS с клонированием голоса

Модель со ставкой на скорость + реализм, при этом она остается лёгкой и доступной по ресурсам.

Главные фишки:

⏺️ ⚡️ До 150× realtime при генерации речи
⏺️ 🎙 Хорошая передача эмоций и естественности
⏺️ 🧬 Качественное voice cloning
⏺️ 💾 Влезает примерно в 1 ГБ VRAM
⏺️ 🖥 Работает и на CPU - 2–6× realtime

Подходит для:

⏺️ голосовых ассистентов
⏺️ озвучки приложений
⏺️ быстрых прототипов без тяжёлой инфраструктуры

🔥LuxTTS работает как мульти-язычная TTS-модель, и русский входит в список языков.

➡️ Repo: https://github.com/ysharma3501/LuxTTS
➡️ Модель: https://huggingface.co/YatharthS/LuxTTS

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Полтора миллиарда Трамповских денег

New York Times в своём интерактивном лендинге обвинили Трампа в коррупции — заявив, что благодаря использованию своего президентского статуса он и его семья заработали как минимум 1,4 млрд долларов.

Семья Трампа получает выплаты от иностранных правительств и американских компаний — формально за обычный бизнес — например, строительство или аренду прав для съёмок фильма — однако во многих из сделок прослеживается коррупционная составляющая

Один из примеров: администрация согласилась снизить угрожавшие Вьетнаму пошлины примерно через месяц после того, как компания Trump Organization заложила фундамент гольф-комплекса стоимостью 1,5 миллиарда долларов недалеко от Ханоя. Вьетнамские чиновники пренебрегли собственными законами, чтобы ускорить реализацию проекта.


В центре проекта — анимированная визуализация из падающих купюр, каждая из которых показывает средний доход одного домохозяйства в США.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 gh-ost - инструмент для миграций схемы MySQL без даунтайма.

Если тебе надо сделать ALTER TABLE на большой продовой таблице и не положить сервис - gh-ost это прям must-have.

Большинство online-schema-change тулов используют триггеры и создают лишнюю нагрузку.
А gh-ost идёт по другому пути:

⏺️ Triggerless - вообще без триггеров
⏺️ Читает изменения через binlog stream и асинхронно применяет их к “ghost table”
⏺️ Даёт полный контроль над процессом миграции:

- пауза/резюм
- throttle (снижение нагрузки)
- аудит и статус
- безопасный cut-over

Как это работает (по-простому):

1) создаётся “ghost table” с новой схемой
2) данные копируются постепенно
3) параллельно изменения ловятся из binlog
4) в конце таблицы меняются местами почти мгновенно

Идеально для:

⏺️ таблиц на десятки миллионов строк
⏺️ production-систем
⏺️ миграций без блокировок

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Миграции без боли: как обновлять БД безопасно и без простоя

Сохраняй себе: в реальных проектах миграции - это не “ALTER TABLE и поехали”, а зона риска.

Один неверный шаг = даунтайм, блокировки и откат вручную.

Правильный принцип:
делай миграции так, чтобы приложение могло пережить оба состояния схемы - до и после изменения.

Рабочая стратегия (2 шага)

1️⃣ Сначала добавляй новое, не ломая старое

⏺️ добавляй новые колонки/таблицы
⏺️ не удаляй и не переименовывай сразу
⏺️ не делай NOT NULL без дефолта

2️⃣ Потом переключай код

⏺️ сначала раскатываешь схему
⏺️ потом деплоишь код, который пишет/читает новое
⏺️ и только после этого убираешь старое

Это называется “expand → migrate → contract” и это стандарт продакшн-миграций.

Фишки, которые спасают на проде

⏺️ всегда делай миграцию идемпотентной (IF EXISTS / IF NOT EXISTS)
⏺️ не держи транзакцию долго
⏺️ избегай тяжёлых ALTER на больших таблицах
⏺️ проверяй количество строк, прежде чем апдейтить
⏺️ делай бэкап/дамп перед большим изменением


-- safe-migration.sql

-- 1) EXPAND: добавляем новое, не ломая старое
ALTER TABLE users
ADD COLUMN IF NOT EXISTS email_verified BOOLEAN DEFAULT FALSE;

CREATE INDEX IF NOT EXISTS idx_users_email
ON users(email);

-- 2) MIGRATE: переносим данные маленькими шагами (пример)
-- (в реальности делается батчами на больших таблицах)
UPDATE users
SET email_verified = TRUE
WHERE email IS NOT NULL AND email <> '';

-- 3) CONTRACT: удаляем старое только после деплоя кода
-- (делать отдельной миграцией!)
-- ALTER TABLE users DROP COLUMN old_email_flag;


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 ИИ для SQL: пусть он объяснит «почему запрос тормозит»

Профессиональный лайфхак:


не проси ИИ «оптимизировать запрос» вслепую.
Вместо этого — давай ему EXPLAIN / EXPLAIN ANALYZE и структуру таблиц.

ИИ отлично умеет:

⏺️ разбирать план выполнения
⏺️ находить узкие места (Seq Scan, лишние JOIN, сортировки)
⏺️ предлагать индексы и переписывание запроса по факту, а не наугад

Алгоритм простой:

1️⃣ запускаешь EXPLAIN ANALYZE
2️⃣ прикладываешь схему таблиц
3️⃣ спрашиваешь: *где bottleneck и что бы ты поменял?*

Так ты получаешь не магию, а обоснованные рекомендации с пониманием, зачем они нужны.


пример «правильного» запроса к ИИ с реальными данными

-- запрос
SELECT *
FROM orders o
JOIN customers c ON c.id = o.customer_id
WHERE o.created_at > NOW() - INTERVAL '30 days'
AND c.country = 'US'
ORDER BY o.created_at DESC
LIMIT 100;

-- план выполнения
EXPLAIN ANALYZE
SELECT ...
-- (сюда вставь полный план: Seq Scan / Index Scan / сортировки и т.п.)

-- схема таблиц (важно!)
\d orders
\d customers

-- вопрос ИИ:
"Разбери план выполнения.
Где узкие места?
Нужны ли индексы и какие именно?
Можно ли переписать запрос быстрее, не меняя логику?"



🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Важно знать: избегай SELECT * для оптимизации запросов!

Использование SELECT * может привести к излишней загрузке данных и снижению производительности. Вместо этого, укажите только необходимые столбцы для выборки. Это не только упростит обработку данных, но и позволит использовать индексы более эффективно.


-- Вместо этого:
SELECT * FROM orders WHERE customer_id = 123;
-- Используйте явный выбор столбцов:
SELECT order_id, order_date, total_amount
FROM orders
WHERE customer_id = 123;
-- Дополнительно можно добавить индексы если это необходимо:
CREATE INDEX idx_customer_id ON orders(customer_id);


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
❤️ ML-митап от команды MAGNIT TECH

Эксперты из ML/AI Хаба «Магнита» зовут на митап, чтобы поделиться реальным опытом применения машинного обучения в бизнес-процессах.

19.02 | Москва | Офлайн + онлайн

🎯 Обсудим, что остается "под капотом" ML-решений в крупнейшем ретейле. Без лишних формальностей: в программе диджей и нетворкинг-сессия с экспертами 👇

Сбор гостей с 18:00
DJ • Welcome
🟪Магнит и AI: как мы строим ML и куда движемся (Алексей Четыркин, MAGNIT TECH, Chief of AI/ML)
🟪Доступность товара: от фильтрующих деревьев до CUSUM и GEE-тестов (Ян Пиле, MAGNIT TECH, Head of OSA)
🟪Опять AI, да сколько можно? Только практические кейсы без воды (Александр Толмачев, ex-Ozon, CDO и председатель комитета данных)
🟪Нетворкинг с ML-лидами и инженерами
DJ • F&B • Good vibes

Модератор: Максим Покусенко, MAGNIT TECH, Head of ML (Logistics & R&D)

Занимайте место: офлайн — в московском офисе MAGNIT TECH (м. Белорусская), или получите ссылку на онлайн трансляцию после регистрации.

🟥Участие бесплатное, количество мест офлайн ограничено. До встречи 19 февраля! 🟥
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Каждый тензор в движении: Illustrated Transformer 3D

Погрузитесь в LLaMA как никогда раньше:

⏺️ Каждый тензор и операция — в движении
⏺️ Кликайте на любой компонент и смотрите точные строки кода, которые его запускают

Новый способ учить и изучать LLM.

➡️ Попробовать можно по ссылке.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ 7 шаблонов для построения Multi-Agent систем

Если вы работаете с LLM-агентами — сохраните эту шпаргалку.

👏 Эти паттерны — фундамент для создания масштабируемых и надёжных multi-agent систем.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 OpenAI поглотили OpenClaw (🦞) и переманили к себе создателя проекта

Питер Штейнберг возглавит в OpenAI разработку следующего поколения агентов. Сэм Альтман назвал его «гением с множеством потрясающих идей» и сказал, что очень скоро эти идеи будут лежать в основе продуктов компании.

Что касается OpenClaw: проект не закрывается и остается опенсорсным. OpenAI обязываются поддерживать и развивать его. Стратегически для компании это имеет смысл, так что в этом в случае в обещания можно верить.

Кстати, сейчас OpenClaw – самый быстрорастущий репозиторий на GitHub в истории в смысле набора звезд. На пике у них было 34к звезд за два дня, и всего за 60 дней после запуска репа выросла с ~9к до почти 200к. Для сравнения, Kubernetes шел к 100K звезд около трех лет.

У Anthropic были все шансы купить OpenClaw первыми (особенно учитывая исходное название проекта ClawdBot), но они только закидали автора претензиями по поводу торгового знака. OpenAI в этот раз думали быстрее и успели отхватить самый лакомый кусочек, – с чем мы их и поздравляем.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
👋 Восстания машин можно не бояться, достаточно уехать на север

Что думаем?
❤️ — НЕ, НУ ОН СТАРАЛСЯ
🗿 — ЖАЛЬ ЭТОГО ДОБРЯКА


🚩 Куй клиента, пока горячо!
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ SQL: ЛОВУШКА ДУБЛЕЙ И ДАТ

Иногда самая коварная задача - найти “покупали 3 дня подряд”. Профи часто делают self-join на даты, но он ломается на дубликатах, таймзонах и нескольких покупках в день.

Подвох: нужно считать не покупки, а уникальные дни, и правильно собрать последовательности без дыр. Решение выглядит просто, но без оконных функций легко ошибиться.

-- Задача:
-- Найти пользователей, которые совершали покупку 3 календарных дня подряд (минимум).
-- Условия:
-- 1) В один день может быть много покупок - считаем день один раз.
-- 2) Нужны именно подряд идущие дни без пропусков.
-- 3) Вернуть user_id и начало/конец самой длинной серии.


WITH days AS (
SELECT DISTINCT
user_id,
DATE(created_at) AS d
FROM orders
),
grp AS (
SELECT
user_id,
d,
-- трюк: для подряд идущих дат разность (дата - номер) постоянна
DATEADD(day, -ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY d), d) AS g
FROM days
),
streaks AS (
SELECT
user_id,
MIN(d) AS streak_start,
MAX(d) AS streak_end,
COUNT(*) AS streak_len
FROM grp
GROUP BY user_id, g
)
SELECT user_id, streak_start, streak_end, streak_len
FROM streaks
WHERE streak_len >= 3
ORDER BY streak_len DESC;


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 The Epstein Network

Нашли визуализацию связей людей в файлах Эпштейна: можно изучить 25 тысяч документов и посмотреть, кто с кем вместе упоминался.

В график, очевидно, не вошла последняя пачка из миллионов файлов — однако залипнуть все равно интересно. И есть ещё исходный код на гитхабе!

➡️ https://epstein-doc-explorer-1.onrender.com/

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Qwen3-Max-Thinking: внезапно очень сильный игрок на фронтире

Вышла Qwen3-Max-Thinking и мимо неё реально сложно пройти. По метрикам выглядит бодро: HLE 30.2 — примерно уровень Claude Opus 4.5, а с test-time scaling ещё выше; SWE Verified 75.3 — чуть ниже опуса, где-то рядом с Gemini 3 Pro; IMO 83.9 — вообще бьёт Gemini 3 Pro. Плюс обещают вменяемый tool call и хорошее следование инструкциям даже на длинном контексте, что для thinking-моделей критично. Весов, правда, нет (модель гигантская), но поиграться можно в чате. В целом ощущение такое, что Qwen от Alibaba всё увереннее заходит на полноценный frontier-уровень — и в последнее время радует заметно больше, чем DeepSeek.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Вышел MySQL 8.4.8 (LTS) - что нового

Доступен релиз MySQL 8.4.8 - это ветка Long-Term Support, то есть лучший выбор для продакшена: стабильность, долгий цикл поддержки и предсказуемые обновления.

Ключевые улучшения:

➡️ InnoDB Redo Logging
⏺️ сообщения об ошибках стали информативнее
⏺️ теперь показывают текущий LSN и детали по redo log capacity
⏺️ проще диагностировать проблемы с redo log и производительностью

➡️ OpenSSL обновили до 3.0.18

⏺️ важное обновление для безопасности и совместимости

➡️Исправления багов и стабильность

⏺️ закрыли race conditions в InnoDB
⏺️ починили проблемы с очисткой binary logs (binlog purging)
⏺️ в целом релиз направлен на надёжность и производительность

Если ты сидишь на MySQL в проде - LTS 8.4.x выглядит как правильный путь обновления.

https://dev.mysql.com/downloads/mysql/

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🎁 Мы дарим PlayStation 5, Apple Watch и Iphone 17 Pro Max

Друзья, мы дарим вам возможность выиграть один из трёх призов. Станьте счастливым обладателем 🏅IPhone 17, 🥈PlayStation 5 или 🥉Apple Watch — всего лишь в несколько кликов.

Условия очень простые:

• подписаться на @JarvisNew
• подписаться на @pizdatascience
• подписаться на нас в MAX
• нажать кнопку «Участвовать»

Итоги конкурса подведёт бот 1 апреля в 19:00, он сам выберет победителей.

⚠️ Доставка приза за наш счет!
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Timescale выпустил pg-aiguide: практический гайд по ИИ в PostgreSQL

Timescale опубликовал открытый репозиторий pg-aiguide - это собрание лучших практик, примеров и шаблонов по работе с ИИ поверх PostgreSQL (в том числе TimescaleDB).

Что внутри:

⏺️ примеры интеграции LLM и AI-функций с БД
⏺️ готовые SQL-рецепты и расширения
⏺️ семантический поиск и анализ данных
⏺️ шаблоны, которые можно сразу использовать в проде

Это не теория, а набор готовых подходов для реальных проектов.

➡️ https://github.com/timescale/pg-aiguide

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM