Data Science: SQL и Аналитика данных
28.2K subscribers
233 photos
46 videos
1 file
282 links
№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri
Download Telegram
🔥Амбассадоры Tableau 2025

Tableau регулярно обновляет список своих амбассадоров— людей, которые делают большой вклад в сообщество, делятся своими знаниями и навыками и вообще всячески популяризуют этот тул. В 2025 году звания удостоились 386 человек из 48 стран.

➡️ Список можно увидеть на сайте, но намного интереснее — потыкать в кнопки на дашборде. Он позволяет отфильтровать людей по странам, городам и специализациям.

⏺️Пишут, что в этом году получился самый разнообразный состав амбассадоров с точки зрения географии, и это нагляднее видно на другом дашборде. Он не такой удобный, как первый, зато с картой.

В списке, кстати, вы наверняка заметите какие-нибудь знакомые лица. Возможно, на кого-то из них вы даже подписаны.

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Зачем нужен Delta Lake, если есть Parquet

Обычный Parquet хранит только одно состояние таблицы.
Если вы сохранили отфильтрованный DataFrame, то старые данные исчезли навсегда.

Отката (rollback) нет → потеряли 10 000 строк, осталось только 3 500.

Delta Lake работает иначе:

⏺️ каждый раз создаётся новая версия данных
⏺️ можно вернуться к любой версии в прошлом
⏺️ данные всегда под контролем и без потерь

Пример:

⏺️Parquet → фильтр → оригинал стёрт
⏺️Delta Lake → версия 0 (10 000 строк) + версия 1 (3 500 строк) → всегда можно вернуться к версии 0

Итог: с Delta Lake данные становятся версионируемыми и надёжными.

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Нужен один «топ-элемент» на группу без оконных функций и лишних джойнов?

В PostgreSQL есть недооценённый приём: DISTINCT ON. Он берёт первую строку в каждой группе по указанным полям, какую именно, ты задаёшь через ORDER BY.

Так за один проход можно выбрать, например, последний заказ клиента, самую дорогую позицию в категории или актуальную запись по состоянию. Важно: в ORDER BY сначала идут поля из DISTINCT ON, а следом — критерий «топа» (например, created_at DESC).

Для скорости добавь составной индекс в том же порядке (ключи группировки → поле сортировки).


-- Возьмём по 1 строке на группу (g1, g2), выбирая «лучшую» по metric DESC
SELECT DISTINCT ON (g1, g2) *
FROM some_table
ORDER BY g1, g2, metric DESC;

-- Пример: последний заказ каждого пользователя
SELECT DISTINCT ON (o.user_id)
o.user_id, o.id AS order_id, o.created_at, o.total
FROM orders o
ORDER BY o.user_id, o.created_at DESC;

-- Рекомендуемый индекс для скорости (соответствует ORDER BY)
CREATE INDEX ON orders (user_id, created_at DESC);

-- Ещё пример: самая дорогая товарная позиция в категории
SELECT DISTINCT ON (p.category_id)
p.category_id, p.id, p.price
FROM products p
ORDER BY p.category_id, p.price DESC;

-- Индекс под этот запрос
CREATE INDEX ON products (category_id, price DESC);


🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Как люди используют ChatGPT

OpenAI выпустили большое исследование, где рассказали, как люди используют их модели. Что показалось интересным мне:

⏺️Модель — не инструмент, модель — друг. В июне 2024 года сообщений, очевидно связанных с работой, было 47%, а к июню 2025 их доля снизилась до 27%! Касается это как новых пользователей, так и тех, кто пользуется нейронкой уже давно.

⏺️Три самых частых темы: советы «как что-то сделать», запрос фактов и работа с текстом.

⏺️Запросы всё больше про «попросить совета», а не «сделай за меня». Количество сообщений в категории Asking растёт, а Doing — падает. То есть люди всё чаще обсуждают и советуются с моделью, а не просто поручают ей задачу.

⏺️Самый высокий уровень удовлетворённости — в личных разговорах. Пользователи чаще всего довольны, когда обсуждают свои мысли и эмоции, а не решают технические задачи. В таких диалогах соотношение положительных реакций к отрицательным превышает 7 к 1 — для сравнения, в технических темах оно около 2 к 1.

⏺️В начале ChatGPT был почти полностью «мужским клубом» (80 % имён — мужские). Однако сейчас — баланс, женских имён 52%.

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Пошаговый план: как стать аналитиком данных в 2025

Хотите попасть в аналитику, но теряетесь в море информации и не понимаете, какие навыки действительно важны? Боитесь, что без опыта вас не возьмут на работу? И да, ещё один популярный вопрос — а что, если мне 30/40/50+ лет?

Андрон Алексанян — эксперт по аналитике с 8 летним опытом и по совместительству CEO Simulative — покажет рабочие схемы и четкий план, как устроиться в аналитику быстрее, даже если у вас нет опыта.

Что будет на вебинаре?
🟠 Разберем полный роадмап: что учить, в каком порядке, до какого уровня;
🟠 Лайфхаки трудоустройства:
— Покажем реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание;
— Обсудим какие отклики работают, а какие сразу отправляют в корзину;
— Изнанка найма: инсайдерский взгляд на процессы отбора
🟠 Практические техники для новичков: разберём, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях.


🕗 Важно досмотреть вебинар до конца, чтобы получить бонус от нас, который поможет бустануть карьеру.

😶Зарегистрироваться на бесплатный вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ no-code база данных, которая сама превращает SQL в Airtable-стиль интерфейс

Что умеет:

⏺️ Подключается к MySQL, Postgres, SQLite, MSSQL и сразу показывает данные в виде удобных таблиц
⏺️ Делает представления: таблицы, календари, канбан, формы, Гантт
⏺️ Генерирует готовые REST и GraphQL API прямо поверх базы
⏺️ Делится видами: публично или под паролем, поддерживает загрузку файлов и картинок
⏺️ Настраивает роли и доступ до уровня отдельного столбца

Плюс интеграции со Slack, Discord, мессенджерами, почтой и десятками сервисов.

По сути — Airtable, но напрямую поверх твоей базы.

➡️ Затестить можно по этой ссылке: CLICK

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Прими участие в Хакатоне от ИТ-холдинга Т1 в Новосибирске и поборись за призовой фонд 800 000 рублей!

Когда: 23–26 октября
Формат: онлайн + финал на площадке

Участвуй, если ты:
🔹обучаешься на технической или ИТ-специальности;
🔹развиваешься в направлении разработки, аналитики, CV, ML или DevOps;
🔹сможешь быть в Новосибирске 26 октября.

Выбери свой кейс:

✴️Цифровой дресс-код: фон, который выделяет вас. Создай локальный ML-модуль сегментации видео и генератор персонализированных фонов.

✴️CodeMetrics: метрики, которые помогают расти. Разработай систему автооценки эффективности команд через анализ Git-метрик.


Почему стоит участвовать:
🔘Кейс в портфолио и полезная обратная связь от менторов Т1;
🔘Шанс проявить себя, чтобы начать карьеру в одной из крупнейших ИТ-компаний;
🔘Реальный опыт командной работы;
🔘Мерч и атмосфера сильного комьюнити — в Т1 более 5 000 джунов из 580+ вузов России и Беларуси.

Регистрация открыта!
➡️ Успей до 21 октября по ссылке.

erid: 2Vtzqwmd32u
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Догадаетесь, что на этих картинках?

А это работы участников первого российского конкурса датавиза Data Kids. ❤️

Напоминаем, что он уже в самом разгаре: участники смотрят обучающие вебинары и присылают свои работы. Но присоединиться все еще можно и даже нужно: мало того, что это полезно и весело, так еще и бесплатно. В общем, ноль минусов, сплошные плюсы и даже шанс выиграть какой-нибудь крутой приз.

🔜 Регистрируйтесь на сайте конкурса.

А если нет детей или не хотите участвовать, то просто заходите посмотреть на галерею работ.

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Т—Ж в одной картинке показал, как выглядит взросление: за 6 лет фрукты в покупках молодых людей взлетают с 9 на 5 место, а снеки улетают с 4 на 6.

Что ещё покупают в супермаркетах в 17—23 года? Конечно — энергетики. В целом доля чеков с ними составляет 15%, а у мужчин достигает 19.

Батоны и пирожки можно найти в 18% чеков, заморозку (пельмени, котлеты и прочие полуфабрикаты) — в 9,3%, «дошик» — в 3,4%.

Кстати, по данным Т—Банка, в среднем молодые люди тратят 354 ₽ за один поход в продуктовый. Пойду брать у своих студентов уроки финансовой грамотности — кажется, они в этом шарят 🫤

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Знание Excel остаётся самым востребованным навыком в Силиконовой долине: из 12 млн вакансий он упоминался в 531 тысяче объявлений. Чтобы вы понимали, Python и SQL вместе встречаются 127 тысяч раз, а машинное обучение — лишь 31 тысячу.

💻  Новости Технологий и AI
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Pytest совет: экономим время на тестах с большими данными

Если в тестах используется тяжёлый датасет, важно правильно выбрать scope для фикстуры.

⏺️ По умолчанию (scope="function") данные будут загружаться заново для каждого теста. Это тратит ресурсы и замедляет выполнение.

🔄 С scope="session" датасет загружается один раз и переиспользуется во всех тестах. Это ускоряет процесс и снижает нагрузку.

Используйте session scope для больших и неизменяемых данных, чтобы тесты работали быстрее и стабильнее.

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
💫Олимпиада для будущих бизнесменов!
Хочешь испытать себя в мире бизнеса и предпринимательства?🤝

☝️Участвуй во Всероссийской олимпиаде по предпринимательству! ✔️
🏆Здесь ты сможешь развить свои лидерские качества, получить ценные знания и завести полезные знакомства🤩

🪧Регистрируйся по ссылке прямо сейчас, введи код мероприятия ОЛИМП26 и начни путь к успеху!
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Вайб-кодинг против вайб-инжиниринга

Все мы уже поняли, что такое «вайб-кодинг» — это человек генерирует код с помощью нейросетей, иногда даже не особо вникая, что они ему там пишут. Код работает, и ладно. Быстро, просто, но результат может быть непредсказуем.

Но ведь есть и альтернативный подход — не сваливать на нейросеть всю работу, а использовать ее как помощника. При этом человек все еще руководит процессом и отвечает за качество работы. Получается быстрее, чем все делать руками, уже не так просто, зато за результат не стыдно. Это уже не вайб-кодинг — но что тогда?

Есть вариант называть это «вайб-инжиниринг».

В чем суть?

⏺️Чтобы от ИИ получать реальную пользу (а не только едва жизнеспособный код), надо хорошо разбираться, как он работает, понимать его ограничения и выстраивать процесс.
⏺️Под «выстраиванием» процесса мы понимаем использование старых добрых практик, которые применяются в нормальной, «безвайбовой» разработке. Составление грамотного плана работы и документации, настройка автоматических тестов, вдумчивое тестирование вручную, код-ревью — это все помогает не только людям, но и ИИ.
⏺️Вайб-инженеру также важно реально оценивать возможности ИИ: что ему можно доверить, а что лучше сделать самому, как корректно поставить задачу и проверить качество выполнения. Человек в каком-то смысле занимает роль лида или менеджера, контролирующего своего ИИ-подчиненного.

В общем, слагаемые те же, что при вайб-кодинге, — есть человек, ИИ и какая-то работа, которую этим двоим надо выполнить. Но подход и конечный результат совсем другие.

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Что выведет код?

1️⃣12.0

2️⃣ 48.0

3️⃣ 42.6

4️⃣ 48

➡️ Правильный ответ: 48.0

#проверь_себя #тесты #sqltest
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥OpenAI представила ChatGPT Atlas

Вы никогда не думали, как было бы удобно, если бы кто-то за вас покидал покупки в корзину в онлайн-магазине, а перед этим еще сравнил, чем отличаются два на первый взгляд идентичных товара? Прочитал длинную статью и пересказал содержание? Придумал остроумный ответ в дискуссии в соцсети?

В общем, взял на себя эту сложную, нудную задачу сидения в интернете?

➡️ Что ж, если вы пользуетесь Mac’ом (остальным придется подождать), то теперь можете обзавестись таким помощником. OpenAI представила браузер ChatGPT Atlas, с прикрученным к нему ИИ-ассистентом. На картинке выше вы можете увидеть пример задачи для него — выбрать товары для похода на пляж с семьей.

Пользователь может ограничить доступ ИИ к отдельным сайтам, попросить сделать саммари написанного на экране или «покопаться» в истории браузера и найти там ссылку, которую посещал ранее.

Владельцам платных подписок доступен еще и агентский режим, в котором ИИ может совершать какие-то действия на сайте. Например, не только придумать остроумный ответ, но и отправить его, а потом еще наставить оппоненту дизлайков

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Удобный инструмент для миграции схем PostgreSQL

pgschema — это CLI утилита, которая упрощает процесс миграции схем в PostgreSQL, используя декларативный подход, похожий на Terraform. Она позволяет создавать, редактировать и применять изменения к схемам, обеспечивая контроль над миграциями без необходимости в дополнительных таблицах.

Основные моменты:

⏺️ Декларативное управление схемами PostgreSQL
⏺️ Поддержка всех основных объектов и версий PostgreSQL
⏺️ Генерация плана миграции с предварительным просмотром изменений
⏺️ Прямое взаимодействие с файлами схем и базой данных без временных БД

➡️ GitHub: https://github.com/pgschema/pgschema

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ dbt 101: что нужно знать на старте и лучшие практики

dbt — отличный тул для трансформации данных и заслуженный стандарт индустрии. Мы его часто используем, потому что он сильно упрощает работу на проектах со сложной аналитикой и множеством SQL-скриптов.

Кое-что из своего опыта собрали в новой статье. Это не инструкция, как настроить dbt и начать работу, а вводный материал, где мы решили поделиться, а что это вообще такое: зачем нужно, какие функции выполняет, какие задачи решает.

Ну и заодно добавили парочку лучших практик, которые хорошо показывают себя на проектах. Кстати, один реальный проект тоже чуть-чуть показали.

Подробнее в статье: клик

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Открытая альтернатива Firebase — на стероидах PostgreSQL

Платформа, которая даёт всё, чтобы собрать современное веб-, мобильное или AI-приложение — без проприетарных SDK и боли.

Что внутри:

⏺️Хостинг Postgres с realtime-синхронизацией
⏺️Автогенерация REST и GraphQL API
⏺️Аутентификация и авторизация через JWT
⏺️Edge-функции и серверные триггеры
⏺️Хранилище файлов с поддержкой S3
⏺️AI-инструменты: векторные индексы, эмбеддинги, семантический поиск
⏺️Всё open source и доступно для self-host.

По сути это Firebase-опыт, но построенный на «взрослых» open-source технологиях:
PostgreSQL, Elixir, GoTrue, PostgREST, pg_graphql.

Платформа, где можно запустить идею, вырастить продукт и не упереться в чьи-то закрытые лимиты.
#Postgres #OpenSource #Backend #AI #GraphQL #Realtime #FirebaseAlternative

https://github.com/supabase/supabase

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM