Data Science: SQL и Аналитика данных – Telegram

Data Science: SQL и Аналитика данных

@pizdatascience

28.1K subscribers

230 photos

45 videos

1 file

278 links

№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri

Download Telegram

About

Blog

Apps

Platform

Data Science: SQL и Аналитика данных

28.1K subscribers

Data Science: SQL и Аналитика данных

➡️

Догадаетесь, что на этих картинках?

А это работы участников первого российского конкурса датавиза Data Kids. ❤️

Напоминаем, что он уже в самом разгаре: участники смотрят обучающие вебинары и присылают свои работы. Но присоединиться все еще можно и даже нужно: мало того, что это полезно и весело, так еще и бесплатно. В общем, ноль минусов, сплошные плюсы и даже шанс выиграть какой-нибудь крутой приз.

🔜

Регистрируйтесь на сайте конкурса.

А если нет детей или не хотите участвовать, то просто заходите посмотреть на галерею работ.

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

6.22K views13:23

Data Science: SQL и Аналитика данных

Т—Ж в одной картинке показал, как выглядит взросление: за 6 лет фрукты в покупках молодых людей взлетают с 9 на 5 место, а снеки улетают с 4 на 6.

Что ещё покупают в супермаркетах в 17—23 года? Конечно — энергетики. В целом доля чеков с ними составляет 15%, а у мужчин достигает 19.

Батоны и пирожки можно найти в 18% чеков, заморозку (пельмени, котлеты и прочие полуфабрикаты) — в 9,3%, «дошик» — в 3,4%.

Кстати, по данным Т—Банка, в среднем молодые люди тратят 354 ₽ за один поход в продуктовый. Пойду брать у своих студентов уроки финансовой грамотности — кажется, они в этом шарят 🫤

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.04K views07:31

Data Science: SQL и Аналитика данных

Forwarded from Джарвис Ньюс | Нейросети

Знание Excel остаётся самым востребованным навыком в Силиконовой долине: из 12 млн вакансий он упоминался в 531 тысяче объявлений. Чтобы вы понимали, Python и SQL вместе встречаются 127 тысяч раз, а машинное обучение — лишь 31 тысячу.

💻 Новости Технологий и AI

Please open Telegram to view this post

VIEW IN TELEGRAM

5.82K views14:04

Data Science: SQL и Аналитика данных

➡️ Pytest совет: экономим время на тестах с большими данными

Если в тестах используется тяжёлый датасет, важно правильно выбрать scope для фикстуры.

⏺️ По умолчанию (scope="function") данные будут загружаться заново для каждого теста. Это тратит ресурсы и замедляет выполнение.

🔄 С scope="session" датасет загружается один раз и переиспользуется во всех тестах. Это ускоряет процесс и снижает нагрузку.

Используйте session scope для больших и неизменяемых данных, чтобы тесты работали быстрее и стабильнее.

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.87K views03:57

Data Science: SQL и Аналитика данных

💫

Олимпиада для будущих бизнесменов!
Хочешь испытать себя в мире бизнеса и предпринимательства?🤝

☝️Участвуй во Всероссийской олимпиаде по предпринимательству! ✔️
🏆Здесь ты сможешь развить свои лидерские качества, получить ценные знания и завести полезные знакомства🤩

🪧Регистрируйся по ссылке прямо сейчас, введи код мероприятия ОЛИМП26 и начни путь к успеху!

Please open Telegram to view this post

VIEW IN TELEGRAM

5.84K views17:25

Data Science: SQL и Аналитика данных

➡️

Вайб-кодинг против вайб-инжиниринга

Все мы уже поняли, что такое «вайб-кодинг» — это человек генерирует код с помощью нейросетей, иногда даже не особо вникая, что они ему там пишут. Код работает, и ладно. Быстро, просто, но результат может быть непредсказуем.

Но ведь есть и альтернативный подход — не сваливать на нейросеть всю работу, а использовать ее как помощника. При этом человек все еще руководит процессом и отвечает за качество работы. Получается быстрее, чем все делать руками, уже не так просто, зато за результат не стыдно. Это уже не вайб-кодинг — но что тогда?

Есть вариант называть это «вайб-инжиниринг».

В чем суть?

⏺️Чтобы от ИИ получать реальную пользу (а не только едва жизнеспособный код), надо хорошо разбираться, как он работает, понимать его ограничения и выстраивать процесс.
⏺️Под «выстраиванием» процесса мы понимаем использование старых добрых практик, которые применяются в нормальной, «безвайбовой» разработке. Составление грамотного плана работы и документации, настройка автоматических тестов, вдумчивое тестирование вручную, код-ревью — это все помогает не только людям, но и ИИ.
⏺️Вайб-инженеру также важно реально оценивать возможности ИИ: что ему можно доверить, а что лучше сделать самому, как корректно поставить задачу и проверить качество выполнения. Человек в каком-то смысле занимает роль лида или менеджера, контролирующего своего ИИ-подчиненного.

В общем, слагаемые те же, что при вайб-кодинге, — есть человек, ИИ и какая-то работа, которую этим двоим надо выполнить. Но подход и конечный результат совсем другие.

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.14K views07:41

Data Science: SQL и Аналитика данных

👀

Что выведет код?

1️⃣12.0

2️⃣ 48.0

3️⃣ 42.6

4️⃣ 48

➡️ Правильный ответ: 48.0

#проверь_себя #тесты #sqltest

Please open Telegram to view this post

VIEW IN TELEGRAM

6.14K views16:24

Data Science: SQL и Аналитика данных

🔥

OpenAI представила ChatGPT Atlas

Вы никогда не думали, как было бы удобно, если бы кто-то за вас покидал покупки в корзину в онлайн-магазине, а перед этим еще сравнил, чем отличаются два на первый взгляд идентичных товара? Прочитал длинную статью и пересказал содержание? Придумал остроумный ответ в дискуссии в соцсети?

В общем, взял на себя эту сложную, нудную задачу сидения в интернете?

➡️ Что ж, если вы пользуетесь Mac’ом (остальным придется подождать), то теперь можете обзавестись таким помощником. OpenAI представила браузер ChatGPT Atlas, с прикрученным к нему ИИ-ассистентом. На картинке выше вы можете увидеть пример задачи для него — выбрать товары для похода на пляж с семьей.

Пользователь может ограничить доступ ИИ к отдельным сайтам, попросить сделать саммари написанного на экране или «покопаться» в истории браузера и найти там ссылку, которую посещал ранее.

Владельцам платных подписок доступен еще и агентский режим, в котором ИИ может совершать какие-то действия на сайте. Например, не только придумать остроумный ответ, но и отправить его, а потом еще наставить оппоненту дизлайков

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.44K views09:54

Data Science: SQL и Аналитика данных

🔥Удобный инструмент для миграции схем PostgreSQL

pgschema — это CLI утилита, которая упрощает процесс миграции схем в PostgreSQL, используя декларативный подход, похожий на Terraform. Она позволяет создавать, редактировать и применять изменения к схемам, обеспечивая контроль над миграциями без необходимости в дополнительных таблицах.

Основные моменты:

⏺️ Декларативное управление схемами PostgreSQL
⏺️ Поддержка всех основных объектов и версий PostgreSQL
⏺️ Генерация плана миграции с предварительным просмотром изменений
⏺️ Прямое взаимодействие с файлами схем и базой данных без временных БД

➡️ GitHub: https://github.com/pgschema/pgschema

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.49K views15:49

Data Science: SQL и Аналитика данных

➡️

dbt 101: что нужно знать на старте и лучшие практики

dbt — отличный тул для трансформации данных и заслуженный стандарт индустрии. Мы его часто используем, потому что он сильно упрощает работу на проектах со сложной аналитикой и множеством SQL-скриптов.

Кое-что из своего опыта собрали в новой статье. Это не инструкция, как настроить dbt и начать работу, а вводный материал, где мы решили поделиться, а что это вообще такое: зачем нужно, какие функции выполняет, какие задачи решает.

Ну и заодно добавили парочку лучших практик, которые хорошо показывают себя на проектах. Кстати, один реальный проект тоже чуть-чуть показали.

Подробнее в статье: клик

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.61K views06:59

Data Science: SQL и Аналитика данных

🔥Открытая альтернатива Firebase — на стероидах PostgreSQL

Платформа, которая даёт всё, чтобы собрать современное веб-, мобильное или AI-приложение — без проприетарных SDK и боли.

Что внутри:

⏺️

Хостинг Postgres с realtime-синхронизацией

⏺️

Автогенерация REST и GraphQL API

⏺️

Аутентификация и авторизация через JWT

⏺️

Edge-функции и серверные триггеры

⏺️

Хранилище файлов с поддержкой S3

⏺️

AI-инструменты: векторные индексы, эмбеддинги, семантический поиск
⏺️Всё open source и доступно для self-host.

По сути это Firebase-опыт, но построенный на «взрослых» open-source технологиях:
PostgreSQL, Elixir, GoTrue, PostgREST, pg_graphql.

Платформа, где можно запустить идею, вырастить продукт и не упереться в чьи-то закрытые лимиты.
#Postgres #OpenSource #Backend #AI #GraphQL #Realtime #FirebaseAlternative

https://github.com/supabase/supabase

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.47K views06:42

Data Science: SQL и Аналитика данных

🔥

Вышел pgbalancer 1.0 - интеллектуальный балансировщик нагрузки для PostgreSQL

Представлен первый стабильный релиз pgbalancer 1.0 — балансировщика нагрузки для PostgreSQL, построенного на основе pgpool-II с существенными доработками.

Проект позиционируется как решение с элементами адаптивной маршрутизации запросов, управляемое через REST API и поддерживающее MQTT для потоковой передачи событий в реальном времени.

Ключевые особенности:

⏺️ Управление пулом соединений и распределение нагрузки между репликами PostgreSQL;
⏺️ Поддержка HTTP/REST для конфигурации и мониторинга;
⏺️ Интеграция с MQTT для стриминга метрик и событий;
⏺️ Реализация на языке C с сохранением производительности оригинального pgpool-II;
⏺️ Распространяется под открытой лицензией PostgreSQL.

https://www.pgelephant.com/pgbalancer

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.35K views11:28

Data Science: SQL и Аналитика данных

🔥 Распределение Коши — самое «упрямое» в статистике

У него настолько тяжёлые хвосты, что среднее и дисперсия не определены вовсе.

Да-да, никакого среднего значения у него нет — математика просто отказывается сходиться.

Почему это интересно:

🔄 В машинном обучении его используют для моделирования шума и выбросов — там, где обычная гауссовская модель ломается.
🔄 В реальной жизни встречается в физике (резонансные явления) и финансах — когда нужно описать экстремальные события.

➡️ Распределение Коши — напоминание, что не всё поддаётся усреднению. Иногда хаос — это и есть закон.

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.3K views06:02

Data Science: SQL и Аналитика данных

🔥Инструмент для мониторинга активности PostgreSQL

Следит за запросами, блокировками, использованием памяти и CPU - помогает мгновенно понять, что происходит с базой в реальном времени.

➡️ Устанавливается одной командой:

sudo apt install pg-activity

Работает как локально, так и по сети.
Если запускать от postgres или root, открывается полная статистика - системные процессы, временные файлы и всё, что нужно для анализа нагрузки.

https://github.com/dalibo/pg_activity

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.23K views05:14

Data Science: SQL и Аналитика данных

👀 Нейросети делают жизнь разработчиков невыносимой?

Короче, собрали топов из Surf, Магнита, Сбера и Атола и спросили в лоб:
“ИИ реально ускоряет разработку или просто заставляет нас писать код за ИИ?”

На повестке:
— Через полгода 90% кода пишет нейронка — а ты чем занят?
— Можно ли поручить ИИ проектирование?
— Джуны — всё, отработанный материал?
— Когда спагетти-код станет нормой?

⚔️ Ответы без маркетинга и ванили.
Смотри тут → https://youtu.be/LdoJPvtXzaw

5.3K views14:51

Data Science: SQL и Аналитика данных

This media is not supported in your browser

VIEW IN TELEGRAM

➡️

Лучший способ понять, как работают ML-модели

Используйте Drawdata, чтобы нарисовать 2D-датасет прямо в Jupyter. С его помощью можно интерактивно выбирать данные через виджет и обновлять модель по мере того, как данные добавляются

Полностью интерактивно

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.25K views05:44

Data Science: SQL и Аналитика данных

➡️

Kimi K2 Thinking: Новая open source-модель для сложных рассуждений и агентных задач

Вышла новая модель Kimi K2 Thinking, и, если вы увлекаетесь ИИ, то это прямо то, что стоит отметить. Эта модель — очередной шаг к масштабированию вычислений и задач, связанных с логикой, кодом и агентами. Способность выполнять до 300 последовательных действий — это прямо рекорд. И, что важнее, она не просто выполняет задачи, но и задает новые стандарты в том, как мы можем использовать ИИ в решении сложных проблем.

Во-первых, Kimi K2 Thinking может делать цепочки рассуждений, искать, писать код и вообще — выполнять задачи, которые раньше считались сложными для ИИ. За счет увеличения количества «токенов размышления» и улучшения числа шагов при вызове инструментов модель буквально может «думать» дольше и точнее, обеспечивая более глубокое понимание контекста.

На практике эта модель превзошла ожидания. Вот несколько крутых достижений:

— Humanity’s Last Exam (HLE): Бенчмарк, который оценивает логическое мышление на экспертном уровне по 100+ дисциплинам. K2 Thinking набрала 44,9% — отличный результат для задачи, где каждое слово на счету.

— SWE-Multilingual и SWE-Bench Verified: Рейтинг по задачам на кодинг и разработку ПО. Тут K2 Thinking показала 61,1% и 71,3% соответственно, что намекает на хорошие перспективы для работы с кодом на разных языках программирования.

— Terminal-Bench: И снова — 47,1% в задачах, связанных с командной строкой и терминалом. Модель находит решение и там.

— BrowseComp: Самый интересный момент! На бенчмарке по поиску и навигации в интернете K2 Thinking набрала 60,2%, что в два раза больше, чем средний человеческий результат (29,2%). Модель умеет эффективно искать, анализировать и работать с интернет-данными, что делает её уникальной для работы в динамичных, насыщенных информацией средах.

Основная фишка — Kimi K2 Thinking может создавать сложные интерактивные приложения с нуля. Например, она генерирует код для популярных библиотек визуализации, и результат просто впечатляющий. Конечно, для повседневной работы разработчиков такие примеры пока не идеально подходят, но качество и уровень проделанной работы на данный момент — на высоте.

Если вы работаете в ИТ-сфере, наверняка будете следить за этим релизом. Особенно интересно, как модель будет справляться с более сложными и динамичными задачами, выходящими за пределы лабораторных тестов.

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.14K views07:49

Data Science: SQL и Аналитика данных

🔥

От пикселей к смыслам: как заставить ИИ «понимать» картинки

Представьте, что вы показываете картинку ИИ. Что он видит? Столько пикселей, что в голове начинается путаница. Все это неплохо работает для распознавания изображений, но вот для более глубокого анализа и работы с контекстом, так себе. И вот тут на сцену выходит SVG — код, который ИИ мог бы использовать, чтобы не просто «увидеть» изображение, а реально понять, что на нем изображено. Этот код более структурирован, компактен и, самое главное, его можно проверять, что важно при анализе данных. Но как же научить ИИ работать с этим кодом?

Чтобы решить эту задачу, ученые придумали бенчмарк под названием VCode. Это своего рода экзамен для ИИ, где задача не просто скопировать изображение в SVG, а именно перенести символьную структуру — объекты, их взаимосвязи и порядок, в котором они расположены. Структура становится важнее самих пикселей.

Кроме того, для оценки был предложен метод CodeVQA, где после генерации SVG-кода ИИ должен ответить на вопросы по изображению, проверяя, насколько хорошо он понял смысл картинки. И если ответ совпал с оригиналом, значит, задача выполнена.

Чтобы улучшить результат, ученые используют агента VCoder. Он комбинирует два подхода:

• Размышление с ревизией — модель генерирует SVG-код, затем сравнивает его с оригиналом и исправляет ошибки.
• Действие с визуальными инструментами — ИИ использует различные детекторы объектов, OCR и сегментаторы, чтобы точно понять, где что находится на картинке, и перевести это в символику.

Каждый из этих инструментов даёт свой вклад: детекторы объектов помогают точнее определить местоположение объектов, сегментаторы сохраняют геометрическую структуру, а OCR — текстовую информацию.

Так, как же получилось? Увы, пока что модели все ещё не идеально генерируют SVG-код, особенно в плане сохранения символики сцены. Прототипы, такие как GPT-5, пока показывают слабые результаты по сравнению с оригинальными изображениями. Но есть надежда. Использование агентов, таких как Claude-4-Opus, показало улучшения в разных областях, особенно в MM-Vet и CV-Bench.

Интересно, что длина SVG-кода тоже имеет значение. Чем он короче, тем менее он информативен, и ИИ теряет смысловые связи. В общем, если код короткий, значит, ИИ не переносит все объекты и их отношения должным образом.

Переход от пикселей к SVG-коду — это шаг вперед для того, чтобы ИИ не просто «видел» картинку, а по-настоящему понимал её. Этот код можно проверять, модифицировать и использовать для более глубоких выводов.

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.15K views08:31