Data Science: SQL и Аналитика данных
28.1K subscribers
230 photos
45 videos
1 file
278 links
№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri
Download Telegram
Т—Ж в одной картинке показал, как выглядит взросление: за 6 лет фрукты в покупках молодых людей взлетают с 9 на 5 место, а снеки улетают с 4 на 6.

Что ещё покупают в супермаркетах в 17—23 года? Конечно — энергетики. В целом доля чеков с ними составляет 15%, а у мужчин достигает 19.

Батоны и пирожки можно найти в 18% чеков, заморозку (пельмени, котлеты и прочие полуфабрикаты) — в 9,3%, «дошик» — в 3,4%.

Кстати, по данным Т—Банка, в среднем молодые люди тратят 354 ₽ за один поход в продуктовый. Пойду брать у своих студентов уроки финансовой грамотности — кажется, они в этом шарят 🫤

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Знание Excel остаётся самым востребованным навыком в Силиконовой долине: из 12 млн вакансий он упоминался в 531 тысяче объявлений. Чтобы вы понимали, Python и SQL вместе встречаются 127 тысяч раз, а машинное обучение — лишь 31 тысячу.

💻  Новости Технологий и AI
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Pytest совет: экономим время на тестах с большими данными

Если в тестах используется тяжёлый датасет, важно правильно выбрать scope для фикстуры.

⏺️ По умолчанию (scope="function") данные будут загружаться заново для каждого теста. Это тратит ресурсы и замедляет выполнение.

🔄 С scope="session" датасет загружается один раз и переиспользуется во всех тестах. Это ускоряет процесс и снижает нагрузку.

Используйте session scope для больших и неизменяемых данных, чтобы тесты работали быстрее и стабильнее.

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
💫Олимпиада для будущих бизнесменов!
Хочешь испытать себя в мире бизнеса и предпринимательства?🤝

☝️Участвуй во Всероссийской олимпиаде по предпринимательству! ✔️
🏆Здесь ты сможешь развить свои лидерские качества, получить ценные знания и завести полезные знакомства🤩

🪧Регистрируйся по ссылке прямо сейчас, введи код мероприятия ОЛИМП26 и начни путь к успеху!
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Вайб-кодинг против вайб-инжиниринга

Все мы уже поняли, что такое «вайб-кодинг» — это человек генерирует код с помощью нейросетей, иногда даже не особо вникая, что они ему там пишут. Код работает, и ладно. Быстро, просто, но результат может быть непредсказуем.

Но ведь есть и альтернативный подход — не сваливать на нейросеть всю работу, а использовать ее как помощника. При этом человек все еще руководит процессом и отвечает за качество работы. Получается быстрее, чем все делать руками, уже не так просто, зато за результат не стыдно. Это уже не вайб-кодинг — но что тогда?

Есть вариант называть это «вайб-инжиниринг».

В чем суть?

⏺️Чтобы от ИИ получать реальную пользу (а не только едва жизнеспособный код), надо хорошо разбираться, как он работает, понимать его ограничения и выстраивать процесс.
⏺️Под «выстраиванием» процесса мы понимаем использование старых добрых практик, которые применяются в нормальной, «безвайбовой» разработке. Составление грамотного плана работы и документации, настройка автоматических тестов, вдумчивое тестирование вручную, код-ревью — это все помогает не только людям, но и ИИ.
⏺️Вайб-инженеру также важно реально оценивать возможности ИИ: что ему можно доверить, а что лучше сделать самому, как корректно поставить задачу и проверить качество выполнения. Человек в каком-то смысле занимает роль лида или менеджера, контролирующего своего ИИ-подчиненного.

В общем, слагаемые те же, что при вайб-кодинге, — есть человек, ИИ и какая-то работа, которую этим двоим надо выполнить. Но подход и конечный результат совсем другие.

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Что выведет код?

1️⃣12.0

2️⃣ 48.0

3️⃣ 42.6

4️⃣ 48

➡️ Правильный ответ: 48.0

#проверь_себя #тесты #sqltest
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥OpenAI представила ChatGPT Atlas

Вы никогда не думали, как было бы удобно, если бы кто-то за вас покидал покупки в корзину в онлайн-магазине, а перед этим еще сравнил, чем отличаются два на первый взгляд идентичных товара? Прочитал длинную статью и пересказал содержание? Придумал остроумный ответ в дискуссии в соцсети?

В общем, взял на себя эту сложную, нудную задачу сидения в интернете?

➡️ Что ж, если вы пользуетесь Mac’ом (остальным придется подождать), то теперь можете обзавестись таким помощником. OpenAI представила браузер ChatGPT Atlas, с прикрученным к нему ИИ-ассистентом. На картинке выше вы можете увидеть пример задачи для него — выбрать товары для похода на пляж с семьей.

Пользователь может ограничить доступ ИИ к отдельным сайтам, попросить сделать саммари написанного на экране или «покопаться» в истории браузера и найти там ссылку, которую посещал ранее.

Владельцам платных подписок доступен еще и агентский режим, в котором ИИ может совершать какие-то действия на сайте. Например, не только придумать остроумный ответ, но и отправить его, а потом еще наставить оппоненту дизлайков

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Удобный инструмент для миграции схем PostgreSQL

pgschema — это CLI утилита, которая упрощает процесс миграции схем в PostgreSQL, используя декларативный подход, похожий на Terraform. Она позволяет создавать, редактировать и применять изменения к схемам, обеспечивая контроль над миграциями без необходимости в дополнительных таблицах.

Основные моменты:

⏺️ Декларативное управление схемами PostgreSQL
⏺️ Поддержка всех основных объектов и версий PostgreSQL
⏺️ Генерация плана миграции с предварительным просмотром изменений
⏺️ Прямое взаимодействие с файлами схем и базой данных без временных БД

➡️ GitHub: https://github.com/pgschema/pgschema

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ dbt 101: что нужно знать на старте и лучшие практики

dbt — отличный тул для трансформации данных и заслуженный стандарт индустрии. Мы его часто используем, потому что он сильно упрощает работу на проектах со сложной аналитикой и множеством SQL-скриптов.

Кое-что из своего опыта собрали в новой статье. Это не инструкция, как настроить dbt и начать работу, а вводный материал, где мы решили поделиться, а что это вообще такое: зачем нужно, какие функции выполняет, какие задачи решает.

Ну и заодно добавили парочку лучших практик, которые хорошо показывают себя на проектах. Кстати, один реальный проект тоже чуть-чуть показали.

Подробнее в статье: клик

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Открытая альтернатива Firebase — на стероидах PostgreSQL

Платформа, которая даёт всё, чтобы собрать современное веб-, мобильное или AI-приложение — без проприетарных SDK и боли.

Что внутри:

⏺️Хостинг Postgres с realtime-синхронизацией
⏺️Автогенерация REST и GraphQL API
⏺️Аутентификация и авторизация через JWT
⏺️Edge-функции и серверные триггеры
⏺️Хранилище файлов с поддержкой S3
⏺️AI-инструменты: векторные индексы, эмбеддинги, семантический поиск
⏺️Всё open source и доступно для self-host.

По сути это Firebase-опыт, но построенный на «взрослых» open-source технологиях:
PostgreSQL, Elixir, GoTrue, PostgREST, pg_graphql.

Платформа, где можно запустить идею, вырастить продукт и не упереться в чьи-то закрытые лимиты.
#Postgres #OpenSource #Backend #AI #GraphQL #Realtime #FirebaseAlternative

https://github.com/supabase/supabase

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Вышел pgbalancer 1.0 - интеллектуальный балансировщик нагрузки для PostgreSQL

Представлен первый стабильный релиз pgbalancer 1.0 — балансировщика нагрузки для PostgreSQL, построенного на основе pgpool-II с существенными доработками.

Проект позиционируется как решение с элементами адаптивной маршрутизации запросов, управляемое через REST API и поддерживающее MQTT для потоковой передачи событий в реальном времени.

Ключевые особенности:

⏺️ Управление пулом соединений и распределение нагрузки между репликами PostgreSQL;
⏺️ Поддержка HTTP/REST для конфигурации и мониторинга;
⏺️ Интеграция с MQTT для стриминга метрик и событий;
⏺️ Реализация на языке C с сохранением производительности оригинального pgpool-II;
⏺️ Распространяется под открытой лицензией PostgreSQL.

https://www.pgelephant.com/pgbalancer


🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Распределение Коши — самое «упрямое» в статистике

У него настолько тяжёлые хвосты, что среднее и дисперсия не определены вовсе.

Да-да, никакого среднего значения у него нет — математика просто отказывается сходиться.

Почему это интересно:

🔄 В машинном обучении его используют для моделирования шума и выбросов — там, где обычная гауссовская модель ломается.
🔄 В реальной жизни встречается в физике (резонансные явления) и финансах — когда нужно описать экстремальные события.

➡️ Распределение Коши — напоминание, что не всё поддаётся усреднению. Иногда хаос — это и есть закон.

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Инструмент для мониторинга активности PostgreSQL

Следит за запросами, блокировками, использованием памяти и CPU - помогает мгновенно понять, что происходит с базой в реальном времени.

➡️ Устанавливается одной командой:

sudo apt install pg-activity

Работает как локально, так и по сети.
Если запускать от postgres или root, открывается полная статистика - системные процессы, временные файлы и всё, что нужно для анализа нагрузки.

https://github.com/dalibo/pg_activity

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Нейросети делают жизнь разработчиков невыносимой?

Короче, собрали топов из Surf, Магнита, Сбера и Атола и спросили в лоб:
“ИИ реально ускоряет разработку или просто заставляет нас писать код за ИИ?”

На повестке:
— Через полгода 90% кода пишет нейронка — а ты чем занят?
— Можно ли поручить ИИ проектирование?
— Джуны — всё, отработанный материал?
— Когда спагетти-код станет нормой?

⚔️ Ответы без маркетинга и ванили.
Смотри тут https://youtu.be/LdoJPvtXzaw
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Лучший способ понять, как работают ML-модели

Используйте Drawdata, чтобы нарисовать 2D-датасет прямо в Jupyter. С его помощью можно интерактивно выбирать данные через виджет и обновлять модель по мере того, как данные добавляются

Полностью интерактивно

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Kimi K2 Thinking: Новая open source-модель для сложных рассуждений и агентных задач

Вышла новая модель Kimi K2 Thinking, и, если вы увлекаетесь ИИ, то это прямо то, что стоит отметить. Эта модель — очередной шаг к масштабированию вычислений и задач, связанных с логикой, кодом и агентами. Способность выполнять до 300 последовательных действий — это прямо рекорд. И, что важнее, она не просто выполняет задачи, но и задает новые стандарты в том, как мы можем использовать ИИ в решении сложных проблем.

Во-первых, Kimi K2 Thinking может делать цепочки рассуждений, искать, писать код и вообще — выполнять задачи, которые раньше считались сложными для ИИ. За счет увеличения количества «токенов размышления» и улучшения числа шагов при вызове инструментов модель буквально может «думать» дольше и точнее, обеспечивая более глубокое понимание контекста.

На практике эта модель превзошла ожидания. Вот несколько крутых достижений:

— Humanity’s Last Exam (HLE): Бенчмарк, который оценивает логическое мышление на экспертном уровне по 100+ дисциплинам. K2 Thinking набрала 44,9% — отличный результат для задачи, где каждое слово на счету.

— SWE-Multilingual и SWE-Bench Verified: Рейтинг по задачам на кодинг и разработку ПО. Тут K2 Thinking показала 61,1% и 71,3% соответственно, что намекает на хорошие перспективы для работы с кодом на разных языках программирования.

— Terminal-Bench: И снова — 47,1% в задачах, связанных с командной строкой и терминалом. Модель находит решение и там.

— BrowseComp: Самый интересный момент! На бенчмарке по поиску и навигации в интернете K2 Thinking набрала 60,2%, что в два раза больше, чем средний человеческий результат (29,2%). Модель умеет эффективно искать, анализировать и работать с интернет-данными, что делает её уникальной для работы в динамичных, насыщенных информацией средах.

Основная фишка — Kimi K2 Thinking может создавать сложные интерактивные приложения с нуля. Например, она генерирует код для популярных библиотек визуализации, и результат просто впечатляющий. Конечно, для повседневной работы разработчиков такие примеры пока не идеально подходят, но качество и уровень проделанной работы на данный момент — на высоте.


Если вы работаете в ИТ-сфере, наверняка будете следить за этим релизом. Особенно интересно, как модель будет справляться с более сложными и динамичными задачами, выходящими за пределы лабораторных тестов.

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 От пикселей к смыслам: как заставить ИИ «понимать» картинки

Представьте, что вы показываете картинку ИИ. Что он видит? Столько пикселей, что в голове начинается путаница. Все это неплохо работает для распознавания изображений, но вот для более глубокого анализа и работы с контекстом, так себе. И вот тут на сцену выходит SVG — код, который ИИ мог бы использовать, чтобы не просто «увидеть» изображение, а реально понять, что на нем изображено. Этот код более структурирован, компактен и, самое главное, его можно проверять, что важно при анализе данных. Но как же научить ИИ работать с этим кодом?

Чтобы решить эту задачу, ученые придумали бенчмарк под названием VCode. Это своего рода экзамен для ИИ, где задача не просто скопировать изображение в SVG, а именно перенести символьную структуру — объекты, их взаимосвязи и порядок, в котором они расположены. Структура становится важнее самих пикселей.

Кроме того, для оценки был предложен метод CodeVQA, где после генерации SVG-кода ИИ должен ответить на вопросы по изображению, проверяя, насколько хорошо он понял смысл картинки. И если ответ совпал с оригиналом, значит, задача выполнена.

Чтобы улучшить результат, ученые используют агента VCoder. Он комбинирует два подхода:

• Размышление с ревизией — модель генерирует SVG-код, затем сравнивает его с оригиналом и исправляет ошибки.
• Действие с визуальными инструментами — ИИ использует различные детекторы объектов, OCR и сегментаторы, чтобы точно понять, где что находится на картинке, и перевести это в символику.

Каждый из этих инструментов даёт свой вклад: детекторы объектов помогают точнее определить местоположение объектов, сегментаторы сохраняют геометрическую структуру, а OCR — текстовую информацию.

Так, как же получилось? Увы, пока что модели все ещё не идеально генерируют SVG-код, особенно в плане сохранения символики сцены. Прототипы, такие как GPT-5, пока показывают слабые результаты по сравнению с оригинальными изображениями. Но есть надежда. Использование агентов, таких как Claude-4-Opus, показало улучшения в разных областях, особенно в MM-Vet и CV-Bench.

Интересно, что длина SVG-кода тоже имеет значение. Чем он короче, тем менее он информативен, и ИИ теряет смысловые связи. В общем, если код короткий, значит, ИИ не переносит все объекты и их отношения должным образом.


Переход от пикселей к SVG-коду — это шаг вперед для того, чтобы ИИ не просто «видел» картинку, а по-настоящему понимал её. Этот код можно проверять, модифицировать и использовать для более глубоких выводов.

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Google представил Nested Learning: Новый взгляд на обучение моделей

Google снова зажгли искру в мире ИИ. После того, как они в 2017 году потрясли нас с Transformer, в этот раз они решили предложить нечто совсем необычное — новую парадигму обучения, называемую Nested Learning (NL). Давайте разберемся, что это такое и зачем нам это нужно.

Идея Nested Learning проста в своей сути: вместо того чтобы воспринимать нейросеть как одну гигантскую оптимизационную задачу, Google предлагает разделить обучение на несколько вложенных задач, каждая из которых обновляется в своем темпе. Представьте себе нейросеть как многоуровневую конструкцию, где каждый уровень отвечает за свою область знаний и обновляется по-своему. Это как если бы мозг, вместо того чтобы решать всё сразу, выделял отдельные области для быстрого запоминания чего-то нового и более медленного для основополагающих знаний.

Зачем это всё? В первую очередь, это шаг к решению одной из самых больших проблем нейросетей — катастрофического забывания. Это когда модель, обучаясь на новых данных, забывает всё, что узнала ранее. Столкнулись с этим? Это большая беда для ИИ, который должен учиться и развиваться без постоянной необходимости в переобучении 🗣

Разделение на оптимизационные задачи: Модель теперь представляется как набор задач, каждая из которых работает с собственным потоком информации и обновляется с разной частотой. Например, одни компоненты модели могут часто адаптироваться под новый контекст, а другие — сохранять базовые знания для более долгосрочной памяти.

Обучаемый оптимизатор: Чтобы модель не «заблудилась» в том, какие задачи нужно обновить, авторы предлагают сделать оптимизатор обучаемым. То есть тот алгоритм, который обычно отвечает за обновление весов, теперь сам становится нейросетью. Весь этот процесс называется Deep Optimizers — оптимизатор, который учится связывать правильные изменения весов с соответствующими градиентами.

Память как спектр: Чтобы обобщить идею, Google просто расширяет старую концепцию краткосрочной и долгосрочной памяти на спектр памяти с множеством уровней, каждый из которых отвечает за определённую задачу.

Что получилось в итоге?

Google использовали свой старый проект TITAN, в котором уже были элементы долгосрочной и краткосрочной памяти, и адаптировали его под новую парадигму. Результат — новая модель HOPE. В каком-то смысле она стала первой самосовершенствующейся нейросетью, которая может не только обучаться, но и модифицировать себя в процессе работы. По сравнению с традиционными трансформерами, HOPE показала лучшие результаты в задачах, требующих рассуждений и долгосрочной памяти, а также более низкую перплексию.


Давайте подведем итог. Nested Learning — это попытка создать нейросети, которые смогут учиться и эволюционировать непрерывно, без потери старых знаний. Для тех, кто мечтает о AGI (искусственном общем интеллекте), это пожалуй интересный шаг.

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Продвинутый SQL-совет: используйте partial indexes как «селективный ускоритель», но не только для WHERE — ещё и для JOIN-ов.

Большинство разработчиков делают частичные индексы так:
CREATE INDEX idx_active_users ON users(id) WHERE active = true;


Но фишка в том, что partial index может радикально ускорить запросы, где фильтр стоит не в WHERE, а «прячется» в JOIN-условии. Оптимизатор всё равно понимает условие и использует индекс.

Например, у вас есть таблица logs, где 95% строк — архив, и только 5% актуальные. Запрос делает join:


SELECT u.id, l.event
FROM users u
JOIN logs l ON l.user_id = u.id AND l.is_archived = false;



Если делать обычный индекс, он будет огромный. Но partial index:


CREATE INDEX idx_logs_active ON logs(user_id)
WHERE is_archived = false;



🔥 Теперь:

- индекс в 20–30 раз меньше
- cache hit rate выше
- планы меняются с seq scan на index scan
- JOIN начинает работать почти как в in-memory базе

Прикольно, что работает даже если в SELECT самого условия нет — главное, чтобы оно было в ON.

Это отличный способ ускорять «холодные» большие таблицы, где часто обращаются только к маленькому активному сегменту.

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Antares SQL Client

Современный, быстрый и ориентированный на продуктивность SQL-клиент с акцентом на пользовательский опыт (UX).

Текущие ключевые функции:

⏺️ Подключение к нескольким базам данных одновременно.
⏺️ Управление базами данных (добавление/редактирование/удаление).
⏺️ Полное управление таблицами, включая индексы и внешние ключи.
⏺️ Управление представлениями, триггерами, хранимыми процедурами, функциями и планировщиками (добавление/редактирование/удаление).
⏺️ Современная и удобная система вкладок; держите открытыми все необходимые вкладки в вашем рабочем пространстве.
⏺️ Заполнение тестовых данных в таблицах для генерации большого объема данных.
⏺️ Подсказки и автозаполнение запросов.
⏺️ История запросов: поиск по последним 1000 запросам.
⏺️ Сохранение запросов, заметок или задач.
⏺️ Поддержка SSH-туннелей.
⏺️ Режим ручного выполнения транзакций.
⏺️ Импорт и экспорт дампов баз данных.
⏺️ Настраиваемые горячие клавиши.
⏺️ Темная и светлая тема.
⏺️ Темы редактора.

➡️ https://github.com/antares-sql/antares

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 PYTHON: ХИТРЫЙ ТРЮК С SQL

Если вы работаете с большими таблицами в SQL через Python, и не хотите тянуть всё в память, используйте ленивую подгрузку данных с генерацией чанков. Это особенно полезно, если вы делаете агрегации, фильтрации или сохраняете результат в файл — можно обрабатывать данные частями, не загружая весь датасет сразу.

Удобно, быстро и экономит память. Работает даже с миллионами строк.


import pandas as pd
from sqlalchemy import create_engine

# подключение к базе данных (пример для PostgreSQL)
engine = create_engine("postgresql://user:password@localhost:5432/dbname")

# читаем по 10000 строк за раз
chunk_iter = pd.read_sql("SELECT * FROM big_table", engine, chunksize=10000)

# обработка: сохраняем отфильтрованные строки в файл
with open("filtered_output.csv", "w", encoding="utf-8") as f:
for i, chunk in enumerate(chunk_iter):
filtered = chunk[chunk["amount"] > 1000]
filtered.to_csv(f, index=False, header=(i == 0))


➡️ https://www.youtube.com/shorts/y5orXDD2mdU

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM