SQL и Анализ данных
12.7K subscribers
690 photos
71 videos
4 files
705 links
Базы данных и всё, что с ними связано!

Сотрудничество: @haarrp

РКН № 6766085482
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
LuxTTS - очень быстрый и компактный TTS с клонированием голоса

Модель со ставкой на скорость + реализм, при этом она остается лёгкой и доступной по ресурсам.

Главные фишки:

- До 150× realtime при генерации речи
- 🎙️ Хорошая передача эмоций и естественности
- 🧬 Качественное voice cloning
- 💾 Влезает примерно в 1 ГБ VRAM
- 🖥️ Работает и на CPU - 2–6× realtime

Подходит для:
- голосовых ассистентов
- озвучки приложений
- быстрых прототипов без тяжёлой инфраструктуры

- LuxTTS работает как мульти-язычная TTS-модель, и русский входит в список языков.

Repo: https://github.com/ysharma3501/LuxTTS
Модель: https://huggingface.co/YatharthS/LuxTTS
4👍2🔥1
Forwarded from Machinelearning
📌 Банхаммер Anthropic: как потерять доступ к API, заставив Claude писать инструкции для Claude.

Любопытный кейс португальского разработчика Хуго Даниэля, который решил поиграть в жесткую автоматизацию с Сlaude Сode. и проиграл

Хуго был активным пользователем Сlaude, тратил 220 евро в месяц и однажды решил настроить генерацию шаблонных файлов для новых проектов двумя агентами. Схема была примерно такая:

🟢Claude A (в одном окне): отвечает за обновление файла CLAUDE.md. Это файл с контекстом и инструкциями, как вести себя модели в конкретном проекте.

🟢Claude B (в другом окне): пытается выполнять задачи внутри этого проекта, используя инструкции из CLAUDE.md.

🟠Loop: когда Claude B косячил, Хуго копировал ошибку, скармливал ее Claude A и говорил: "Поправь инструкции, чтобы этот дурак больше так не делал".

В какой-то момент Claude A, видимо, устал от тупости коллеги и начал генерировать инструкции капсом, чтобы жестко задать поведение - файл наполнился директивами, которые выглядели как System Prompts.

🟡На этом этапе Хуго и получил бан от Anthropic.

Гипотеза бана в том, что сработали эвристики защиты от Prompt Injection. Система безопасности Anthropic увидела, что пользователь генерирует и скармливает модели текст, который структурно и лексически выглядит как системные инструкции. Вобщем, для алгоритмов безопасности это выглядит как попытка джейлбрейка.

Ожидаемо, саппорт хранил молчание: ни через систему апелляции (она, кстати на Google Forms), ни письма в поддержку не дали результатов. Через насколько дней пришел только молчаливый возврат средств за подписку. Так что причины блокировки так и остались гипотезой.

🟡Автор справедливо замечает: хорошо, что это был не Google.

Если бы подобный эксперимент проводился у "Корпорации Добра" - сработал бы их вездесущий триггер на "злонамеренную активность", и человек мог бы потерять Gmail, Google Photos, документы и получить кирпич вместо Android-смартфона.

История Хуго - хорошее напоминание о том, что модерация в ИИ сейчас - это черный ящик.

Если вы занимаетесь авто-генерацией промптов, которые выглядят как системные инструкции (то, что называют meta-prompting и scaffolding) - вы ходите по минному полю.




@ai_machinelearning_big_data

#AI #ML #Story #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥73
Аналитик данных: от базовой теории к практике

На старте изучения аналитики данных легко растеряться: не всегда понятно, с чего начать, а что можно освоить позже. А без практики мотивация к обучению и вовсе может быстро угаснуть.

Бесплатный демокурс от karpovꓸcourses помогает сделать первые реальные шаги: вы познакомитесь с Python, SQL: переменными и запросами, попробуете решать задачи, которые решают начинающие аналитики в компаниях, и получите ясное представление о профессии.

Автор курса — Анатолий Карпов, бывший ведущий аналитик Mailꓸru Group и VK, самый читаемый эксперт в аналитике, по исследованию NEWHR. Его курсы прошли уже более 290 000 студентов.

Получите доступ к демокурсу: https://clc.to/erid_2W5zFHoLeXi

Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFHoLeXi
🔥4
Интеллектуальное импортозамещение СУБД: миграция с MS SQL и Oracle без переписывания кода

В условиях новых технологических реалий перед CIO, IT-директорами и руководителями проектов стоит критически важная задача - обеспечить плавный переход на отечественные решения без остановки бизнес-процессов и роста бюджетов.

Digital Q.DataBase от Диасофт предлагает принципиально иной подход: миграция с западных СУБД без необходимости переписывания сотен тысяч строк кода.

Программа вебинара:
📊 Стратегия импортозамещения СУБД: новые критерии выбора.
🔧 Архитектура Digital Q.DataBase: технические возможности и преимущества.
⚙️ Технология "Полиглот" в действии: механизмы поддержки T-SQL и PL/SQL, минимизация доработок при миграции.
Практический опыт внедрения: анализ реальных проектов: от пилота до промышленной эксплуатации. Метрики, сроки, результаты.

Дата и время: 3 февраля, 14:00 (МСК)

Регистрация по ссылке
Реклама. ООО "ДИАСОФТ ЭКОСИСТЕМА". ИНН 9715403607.
💊2
🧠 Ситуация

У тебя есть старая таблица пользователей:

users_old
---------
id
full_name -- "Ivan Petrov"
email
created_at


Новая схема БД требует нормализации:

users
------
id
first_name
last_name
email
created_at

profiles
--------
user_id
display_name -- оригинальное полное имя

⚠️ Проблема

В full_name данные грязные:

full_name
Ivan Petrov
Maria
John Smith Jr.
Anna-Marie Watson
Dmitry Ivanov
NULL
"" (пустая строка)

Требования миграции:

• Разбить имя на first_name и last_name

• Если фамилии нет → last_name = NULL

• Лишние пробелы убрать

• Суффиксы типа Jr. считать частью фамилии

• Пустые и NULL имена → first_name = 'Unknown'

• Оригинал имени сохранить в profiles.display_name

Миграция должна работать одним SQL-скриптом без Python

🎯 Задача

• Напиши SQL-миграцию, которая:

• Переносит данные из users_old в users

• Создаёт записи в profiles

• Чистит имя

• Работает корректно со всеми кейсами

💣 Усложнение (вот где ловушка)

• Таблица 10 млн строк, нельзя:

• Делать UPDATE по одной строке

• Использовать курсоры

• Только set-based SQL.

💡 Ожидаемое решение (PostgreSQL)
INSERT INTO users (id, first_name, last_name, email, created_at)
SELECT
id,

-- first_name
CASE
WHEN TRIM(full_name) IS NULL OR TRIM(full_name) = '' THEN 'Unknown'
ELSE split_part(TRIM(regexp_replace(full_name, '\s+', ' ', 'g')), ' ', 1)
END,

-- last_name
CASE
WHEN TRIM(full_name) IS NULL OR TRIM(full_name) = '' THEN NULL
WHEN array_length(string_to_array(TRIM(regexp_replace(full_name, '\s+', ' ', 'g')), ' '), 1) = 1
THEN NULL
ELSE substring(
TRIM(regexp_replace(full_name, '\s+', ' ', 'g'))
FROM position(' ' IN TRIM(regexp_replace(full_name, '\s+', ' ', 'g'))) + 1
)
END,

email,
created_at
FROM users_old;


INSERT INTO profiles (user_id, display_name)
SELECT
id,
NULLIF(TRIM(full_name), '')
FROM users_old;


Задача проверяет:
• работу со строками
• regexp_replace
• split_part
• edge cases
• производительность (set-based)
• реальную миграцию, а не учебный select
👍6🔥21
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Важно знать: избегай SELECT * для оптимизации запросов!

Использование SELECT * может привести к излишней загрузке данных и снижению производительности. Вместо этого, укажите только необходимые столбцы для выборки. Это не только упростит обработку данных, но и позволит использовать индексы более эффективно.


-- Вместо этого:
SELECT * FROM orders WHERE customer_id = 123;
-- Используйте явный выбор столбцов:
SELECT order_id, order_date, total_amount
FROM orders
WHERE customer_id = 123;
-- Дополнительно можно добавить индексы если это необходимо:
CREATE INDEX idx_customer_id ON orders(customer_id);
👍12😁42🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Как убрать дубликаты в SQL с использованием временной таблицы.

Чтобы убрать все дубликаты данных в таблице, важно использовать временную таблицу для сохранения уникальных записей, а затем обновить оригинальную таблицу. Это поможет избежать потенциальных проблем при работе с большим объемом данных и обеспечит целостность.


-- Создание временной таблицы с уникальными записями
CREATE TABLE temp_unique AS
SELECT DISTINCT *
FROM your_table;
-- Удаление всех записей из оригинальной таблицы
DELETE FROM your_table;
-- Вставка уникальных данных обратно в оригинальную таблицу
INSERT INTO your_table
SELECT *
FROM temp_unique;
-- Удаление временной таблицы
DROP TABLE temp_unique;
9👍3🔥1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 SQL: ЛОВУШКА ДУБЛЕЙ И ДАТ

Иногда самая коварная задача - найти “покупали 3 дня подряд”. Профи часто делают self-join на даты, но он ломается на дубликатах, таймзонах и нескольких покупках в день.

Подвох: нужно считать не покупки, а уникальные дни, и правильно собрать последовательности без дыр. Решение выглядит просто, но без оконных функций легко ошибиться.

-- Задача:
-- Найти пользователей, которые совершали покупку 3 календарных дня подряд (минимум).
-- Условия:
-- 1) В один день может быть много покупок - считаем день один раз.
-- 2) Нужны именно подряд идущие дни без пропусков.
-- 3) Вернуть user_id и начало/конец самой длинной серии.


WITH days AS (
SELECT DISTINCT
user_id,
DATE(created_at) AS d
FROM orders
),
grp AS (
SELECT
user_id,
d,
-- трюк: для подряд идущих дат разность (дата - номер) постоянна
DATEADD(day, -ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY d), d) AS g
FROM days
),
streaks AS (
SELECT
user_id,
MIN(d) AS streak_start,
MAX(d) AS streak_end,
COUNT(*) AS streak_len
FROM grp
GROUP BY user_id, g
)
SELECT user_id, streak_start, streak_end, streak_len
FROM streaks
WHERE streak_len >= 3
ORDER BY streak_len DESC;
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9😍2
Google переименовал ZetaSQL в GoogleSQL

Компания Google объявила о переименовании SQL-анализатора ZetaSQL в GoogleSQL. Проект развивает инструментарий для разбора и анализа грамматики, семантики, типов, модели данных и функций для языка SQL и диалекта GoogleSQL. Диалект GoogleSQL примечателен возможностью объединения запросов при помощи неименованных каналов (pipe) и применяется в различных продуктах и сервисах Google, среди которых BigQuery, Spanner, F1, BigTable, Dremel и Procella. Код проекта написан на языке С++ и распространяется под лицензией Apache 2.0.

https://opennet.ru/64735/
👍31🔥1
🖥 Большинство “парсеров” умирают через 2 дня.
Ты научишься делать те, которые живут в проде.

Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:

• не падают от мелких правок на сайте
• собирают данные в разы быстрее
• обновляют всё сами по расписанию
• обходят ограничения и баны
• выглядят как сервис, а не хаос из файлов

Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться.

В итоге ты сможешь:

• забирать данные для своих проектов
• автоматизировать чужую рутину
• делать инструменты для аналитики
• брать коммерческие заказы на сбор данных

Это навык, который напрямую превращается в деньги.
Не “знаю Python”, а умею добывать данные из интернета профессионально.

🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1🔥1😁1
Какой из перечисленных типов индексов в PostgreSQL подходит для геопространственных данных?
Anonymous Quiz
10%
B-tree
8%
Hash
51%
GiST
11%
GIN
5%
BRIN
15%
SP-GiST
12👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Как не убить базу большими таблицами в SQL - фильтруй и агрегируй как можно раньше

Главная ошибка при работе с большими таблицами - делать SELECT * и потом надеяться, что "оно как-нибудь".

На больших объёмах это превращается в долгие запросы, высокую нагрузку и таймауты.

Правильный подход другой: всегда сначала сузь выборку, отрежь лишние строки по времени или по ключу, выбери только нужные колонки и агрегируй как можно раньше.

Практическое правило: если запрос возвращает миллионы строк - ты почти наверняка решаешь задачу неправильно. В 90% случаев тебе нужна витрина: GROUP BY, window-функции, или отдельная агрегированная таблица. А чтобы база не страдала, добавляй индексы под фильтры и под JOIN-ключи, и проверяй план выполнения через EXPLAIN.



ПЛОХО: тащим весь объём и только потом думаем
SELECT *
FROM events
WHERE created_at >= NOW() - INTERVAL '90 days';

-- ХОРОШО: сразу сужаем, берем нужные колонки, считаем агрегаты
SELECT
user_id,
COUNT(*) AS events_7d,
MAX(created_at) AS last_event_at
FROM events
WHERE created_at >= NOW() - INTERVAL '7 days'
GROUP BY user_id;

-- Индекс под фильтр по времени + join по user_id (частый паттерн)
CREATE INDEX IF NOT EXISTS idx_events_created_user
ON events (created_at, user_id);

-- Проверяй план, чтобы не было Seq Scan на миллионах строк
EXPLAIN (ANALYZE, BUFFERS)
SELECT user_id, COUNT(*)
FROM events
WHERE created_at >= NOW() - INTERVAL '7 days'
GROUP BY user_id;
Please open Telegram to view this post
VIEW IN TELEGRAM
👍85🔥4
💨 Тормозят SQL-запросы и дашборды? Освободите своё время и нервы!

Устали каждый раз пить кофе, пока выполняется запрос? Раздражает, когда дашборд висит на последнем проценте загрузки? Пора это прекратить!

Приглашаем вас на практический вебинар «Аналитика без тормозов» 11 февраля в 19:00.
Мы разберем, как радикально ускорить вашу работу.

На вебинаре вы:
🔸 Узнаете об эффективных подходах — от тактических SQL-приёмов до стратегических архитектурных решений.
🔸 Разберёте конкретные методы, применимые к любой СУБД, и тонкие нюансы оптимизации.
🔸 Получите готовый набор фишек для ускорения запросов и витрин уже на следующий день.


Проведет вебинар Георгий Семенов, руководитель команды Analytics Engineering в Яндексе. Его опыт (VK, Wildberries, ЦУМ, ВТБ) и 14 лет в управлении IT-проектами — это концентрат практических знаний без воды.

Все участники получат в подарок практический урок из курса SQL Pro про оптимизацию запросов — навсегда.

Ускорьте свою аналитику одним кликом: simulative.ru/web-sql-speedup
Как MySQL обрабатывает запрос с использованием GROUP BY и столбцами, не входящими в агрегатные функции и не перечисленными в GROUP BY?
Anonymous Quiz
45%
Возвращает ошибку синтаксиса
12%
Возвращает произвольное значение из группы для таких столбцов
15%
Автоматически добавляет все столбцы в GROUP BY
27%
Игнорирует такие столбцы в результате
🤯9😁1
🔥 Полезная подборка каналов только код, практика и самые передовые инструменты, которые используют разработчики прямо сейчас.👇

🖥 ИИ: t.me/ai_machinelearning_big_data

🖥 Python: t.me/pythonl

🖥 Linux: t.me/linuxacademiya

🖥 C++ t.me/cpluspluc

🖥 Docker: t.me/DevopsDocker

🖥 Хакинг: t.me/linuxkalii

🖥 Devops: t.me/DevOPSitsec

👣 Golang: t.me/Golang_google

🖥 Аналитика: t.me/data_analysis_ml

🖥 Javascript: t.me/javascriptv

🖥 C#: t.me/csharp_ci

🖥 Java: t.me/javatg

🖥 Базы данных: t.me/sqlhub

👣 Rust: t.me/rust_code

🤖 Технологии: t.me/vistehno

💰 Экономика и инвестиции в ИИ t.me/financeStable

💼 Актуальные вакансии: t.me/addlist/_zyy_jQ_QUsyM2Vi

🖥 Chatgpt бот в тг: t.me/Chatgpturbobot

📚 Бесплатные ит-книги: https://t.me/addlist/HwywK4fErd8wYzQy

🖥Подборка по Golang: https://t.me/addlist/MUtJEeJSxeY2YTFi

⚡️ Лучшие ИИ ресурсы: https://t.me/addlist/2Ls-snqEeytkMDgy

Самое лучшее в этом: ты учишься даже тогда, когда “нет времени, просто потому что читаешь правильную ленту.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍1
Какой тип индекса MySQL лучше всего подходит для геопространственных данных?
Anonymous Quiz
29%
BTREE
20%
HASH
42%
SPATIAL
8%
FULLTEXT
👍2
🖥 Хотите освоить SQL и PostgreSQL без курсов и подписок? Есть мощный бесплатный репозиторий, который проведёт вас от нуля до уверенного уровня всего за пару месяцев.

Это полноценный учебник + практика в одном месте.

Что внутри:

- База без воды
SELECT, WHERE, ORDER BY, LIMIT, условия и логика запросов

- Продвинутые темы
агрегатные функции, GROUP BY, HAVING, подзапросы, JOIN’ы

- Много практики
упражнения и задачи, чтобы довести работу с БД до автоматизма

- Подробные объяснения
материал подойдёт даже тем, кто никогда не работал с базами данных

Почему это полезно:

SQL — один из самых универсальных навыков в IT.
Он нужен разработчикам, аналитикам, data-инженерам и всем, кто работает с данными.

Этот репозиторий даёт именно то, что нужно для реальной работы:
- понимание, как устроены запросы
- уверенную работу с данными
- базу для перехода к аналитике или backend-разработке

GitHub: https://github.com/dwyl/learn-postgresql
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
🖥 Новый курс на Stepik - PostgreSQL для разработчиков: от основ к созданию API

Здесь на пальцах объясняют не только как писать SQL-запросы, а строить настоящие backend-сервисы с базой данных как у профи.

В этом курсе ты шаг за шагом создашь REST API на FastAPI + PostgreSQL:
от установки среды и первых таблиц - до масштабируемого приложения с безопасностью и CRUD-операциями.

🔹 На практике разберете:
• SQL-запросы, фильтры, агрегаты и подзапросы
• Связи между таблицами и нормализацию БД
• Взаимодействие Python и PostgreSQL
• Реализацию REST API и подключение базы
• Оптимизацию и разбор реальных задач с собеседований

После курса у вас будет свой работающий API-проект и реальные навыки работы с PostgreSQL в продакшене.

🎁 Торопись пока действует скидка в честь нвого года!

🚀 Прокачаю свои знания: https://stepik.org/course/255542/
Please open Telegram to view this post
VIEW IN TELEGRAM
5🥱2👍1🔥1
Какой тип индекса в MySQL лучше всего подходит для ускорения поиска по диапазону значений?
Anonymous Quiz
48%
BTREE
31%
HASH
9%
FULLTEXT
12%
SPATIAL
sql-basics-cheat-sheet-a4.pdf
120.5 KB
📇 Структурированная SQL шпаргалка

Выборка одиночных и множественных значений;
Объединение и группировка;
Фильтрация данных;
Алиасы и джоины.

#sql #doc #cheatsheet
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1😁1