Data Science: SQL и Аналитика данных
28.1K subscribers
230 photos
45 videos
1 file
278 links
№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri
Download Telegram
🔥 Google анонсировала DS-STAR: ИИ-агент для автоматизации дата-анализа

Google снова удивляет мир технологий — на этот раз они представили DS-STAR, экспериментального ИИ-агента, который может выполнить полный цикл анализа данных, начиная от чтения файлов и заканчивая написанием кода. В тестах этот агент продемонстрировал отличные результаты, превзойдя своих «собратьев» в мире ИИ. Но что за зверь такой — этот DS-STAR?

Вместо того чтобы просто генерировать код, как это делают традиционные ИИ-системы, DS-STAR идет дальше и берет на себя ответственность за весь процесс. Агент анализирует данные (будь то таблицы, JSON-файлы или текст), строит план действий, пишет Python-код, запускает его, а потом проверяет, насколько полученный результат соответствует поставленной задаче. Интересно, что после проверки встроенный «судья» на базе LLM заставляет систему пересматривать свои шаги, пока результат не будет точным и полным.

Результаты: не просто код, а качественная аналитика 🐹

Согласно исследованиям Google, DS-STAR значительно улучшил показатели на различных тестах. Например, точность на DABStep увеличилась с 41% до 45,2%, на KramaBench — с 39,8% до 44,7%, а на DA-Code — с 37% до 38,5%. Это уже не просто генерация кода, а возможность делать более качественные и содержательные выводы, что, согласитесь, впечатляет.


В экосистеме Google уже есть схожие разработки — например, Data Science Agent в Colab. Кто знает, может, скоро мы увидим элементы DS-STAR в инструментах для аналитиков и инженеров, а затем и в других продуктах компании.

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Курс, который прокачает твои AI-скиллы в BigQuery

Этот курс учит работать с Gemini прямо внутри BigQuery и закрывает полный набор практических навыков:

⏺️ генерация и отладка SQL-запросов с помощью Gemini
⏺️ анализ тональности текста
⏺️ автоматические суммари и выделение ключевых слов
⏺️ генерация эмбеддингов
⏺️ построение RAG-пайплайна
⏺️ мультимодальный векторный поиск

Если хочешь уверенно использовать AI-инструменты в аналитике и продуктах — этот курс даёт полный набор необходимых умений.

➡️ https://www.skills.google/paths/1803/course_templates/1232

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ SQLModel — это библиотека для взаимодействия с базами данных SQL из кода Python с использованием объектов Python.

Она интуитивно понятна, проста в использовании, обладает высокой совместимостью и надёжностью.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Сделай сам: БД ключ-значение своими руками

База данных нужна, чтобы было куда удобно и компактно сложить данные, а потом — чтобы было где быстро и легко их найти.

Звучит логично, но на практике добиться удобства, компактности, быстроты и легкости не так уж и просто.

⏺️Как вносить новые данные в файл?
⏺️Как изменять или удалять старые?
⏺️Как сэкономить место на диске и не дать базе разрастись до неразумных размеров?
⏺️Как ускорить поиск, особенно когда количество записей растет?

Как только находите ответ на один вопрос, тут же появляются новые. Это хорошо видно на примере статьи про создание БД с нуля: автор начинает с простого файлика с ключами и значениями и, постепенно дорабатывая его, доходит до создания LSM-дерева с индексами и сегментацией. И все это с интерактивным визуалом для наглядности.

Отличный материал для тех, кто хочет начать с азов, узнать, какие задачи встают перед создателями БД и как их можно решить.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Как отличаются дни мужчин и женщин

Нейтан Яу продолжает выуживать интересные инсайты из данных большого опросника American Time Use Survey.

Любопытно, что почти всё делают больше в течение дня — женщины. Уход за собой, уборка дома, уход за членами семьи, звонки по телефону, покупки.

У мужчин лидирует работа, спорт и... общение с другими людьми. Судя по всему, с другими мужчинами👀

➡️ https://flowingdata.com/2025/11/04/spend-days-men-women-2024/

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Как нейросетей учат ставить диагнозы в виртуальной клинике

Задумывались ли вы когда-нибудь, как ИИ может быть полезен в медицине, особенно в постановке диагнозов? Это целая система, которая должна не только интерпретировать симптомы, но и планировать, какие тесты нужны для подтверждения гипотезы. И вот, в этом направлении Google и другие исследователи сделали большой шаг вперёд.

Давайте разберемся, как это работает. В медицине задача диагностики — это не просто моментальное суждение, а пошаговое принятие решений. Нужно собрать информацию, сделать тесты и сделать выводы. И вот тут традиционные модели ИИ могут забуксовать, потому что они часто не умеют планировать, какие шаги важны на каждом этапе. К счастью, теперь есть решения, которые могут не только диагностировать, но и эффективно управлять процессом тестирования. Одним из таких проектов стал DiagGym, где ИИ не только диагностирует, но и решает, что и когда тестировать.

Виртуальная клиника — модель для диагностики


DiagGym — это, по сути, имитация клиники. В ней виртуальные агенты выбирают, какие тесты провести, и получают награду не только за правильный диагноз, но и за оптимизацию процесса тестирования. Это настоящий симулятор, где агент учится не просто диагностировать, но и выбирать правильные шаги, чтобы не тратить время и ресурсы на лишние тесты. Такой подход делает ИИ гораздо более умным и гибким в своей работе.

Для этого используется метод обучения с подкреплением (RL), где агент учится на каждом шаге, выбирая, какие тесты делать, и когда завершить процесс. Чем быстрее он ставит диагноз с меньшими затратами, тем выше его награда. ИИ не просто учит нейросети правильным ответам, он учит её стратегическому планированию, как настоящий врач!

Внутри этой виртуальной клиники обучается агент, который на каждом шаге решает, какой тест заказать. И что интересно — этот агент показывает хорошие результаты. Например, в задаче с аппендицитом агент правильно выбирает тесты, такие как общий анализ крови и КТ, чтобы подтвердить диагноз. Это важно, потому что в реальной жизни важны не только точные ответы, но и способность выбрать правильный путь для диагностики.

Однако не всё так идеально. В одном из случаев агент диагностирует внематочную беременность, но не предпринимает нужных шагов для неотложного лечения. Это показывает, что несмотря на точность диагностики, ИИ ещё не может полностью заменить врача.


Когда такие ИИ действительно смогут заменить врача? В медицине важен не только правильный диагноз, но и способность действовать в экстренных ситуациях.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
На AI Journey презентовали крупнейший open-source проект в Европе: Сбер открыл доступ к своим флагманским моделям - GigaChat Ultra-Preview и Lightning, а также новое поколение открытых моделей GigaAM-v3 для распознавания речи, все модели генерации изображений и видео новой линейки Kandinsky 5.0 — Video Pro, Video Lite и Image Lite.

GigaChat Ultra-Preview, новая MoE-модель, 702 миллиарда параметров, собранная под русский язык и натренированная полностью с нуля. Читайте подробный пост от команды.

Впервые в России обучена MoE-модель такого масштаба полностью с нуля — без зависимости от зарубежных весов. Обучение с нуля, да и ещё на таком масштабе, — это вызов, который приняли немногие команды в мире.

Флагманская модель Kandinsky Video Pro сравнялась с Veo 3 по визуальному качеству и обогнала Wan 2.2-A14B. Читайте подробный пост от команды.

Код и веса всех моделей теперь доступны всем пользователям по лицензии MIT, в том числе для использования в коммерческих целях.
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ SQL СОВЕТ

Ловите тяжёлые запросы на ранней стадии через контролируемые анти-джоины.
Когда нужно узнать, какие записи *не имеют* соответствий в другой таблице, разработчики часто используют LEFT JOIN .

Гораздо быстрее использовать NOT EXISTS — он позволяет планировщику остановиться сразу, как только найдено первое совпадение, и эффективно задействует индексы.

select u.user_id
from users u
where not exists (
select 1
from logins l
where l.user_id = u.user_id
and l.created_at >= now() - interval '7 days'
);


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️Ozon Profit теперь позволяет делать краудсорсинг данных с выездом на место

Платформа позволяет компаниям заказывать обработку данных в онлайне, назначая исполнителей. Принцип простой: если нужно разметить фото, проанализировать отзывы, проверить цены в магазине, подбирается подходящий исполнитель — платформа связывает их и помогает оперативно решить задачу.

Теперь добавили крутую фичу — выездные задания. Допустим, вы тренируете модель распознавания вывесок. Если раньше данных не хватало, то теперь можно заказать сбор изображений из любого города России.

За последний год объем онлайн-задач, которые берет платформа, вырос в 5 раз. Сервисом пользуются маркетплейсы, финтех-компании и стартапы для разметки данных под свои ML-модели.

Удобное решение, когда нужно быстро собрать или обработать данные.

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Выпрямитель графиков — незаменимый гаджет для аналитика

Описание товара гласит, что «выпрямитель исправляет некорректные графики, вводя пространственную осведомленность в неэвклидовы координаты». Купили бы? Всего-то 173 доллара, между прочим.

Это один из товаров сайта anycrap, который «воплощает нереальные вещи в жизнь». Просто вводите любое слово в поисковую строку, и он выдает вам страницу продукта с картинкой, описанием и ценой, сгенерированных ИИ.

В бесконечном ИИ-каталоге можно найти что угодно: от абсурдных гаджетов вроде «генератора пердежа» до квантового мусора. Ну, или вообще всего его угодно, что пожелаете. Как-то так мог бы выглядеть маркетплейс из «Рика и Морти» — тем более, что плюмбус там тоже есть.

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Как правильно оптимизировать SQL в бэкенде, чтобы запросы работали быстрее, снижали задержки и не создавали узких мест в системе.

➡️ Некачественно написанный SQL приводит к высоким задержкам, росту нагрузки на CPU и проблемам в нагруженных сервисах.

Основные принципы оптимизации:

1️⃣Анализ планов выполнения
Он подчёркивает необходимость использовать EXPLAIN / EXPLAIN ANALYZE, чтобы увидеть, как база реально исполняет запрос: где происходят полные сканирования таблиц, плохие джоины или отсутствуют индексы.

2️⃣Индексация
Он рекомендует ставить индексы на часто используемые поля и ключи, применять составные индексы, но избегать чрезмерной индексации, чтобы не замедлять записи.

3️⃣Отказ от SELECT *
Он настаивает на выборе только нужных столбцов — это снижает трафик и ускоряет выполнение.

4️⃣Оптимизация джоинов
Нужно правильно выбирать тип JOIN, индексировать поля, участвующие в соединениях, и избегать слишком глубоких джоин-цепочек.

5️⃣Грамотные WHERE-фильтры
Фильтровать данные как можно раньше, использовать индексируемые колонки и избегать функций в WHERE, которые «ломают» индексы.

6️⃣Ограничение числа строк
Использовать LIMIT / OFFSET и постраничный вывод, а не отдавать пользователю огромные выборки.

7️⃣Избежание проблемы N+1
Фетчить связанные данные заранее через JOIN или батч-запросы.

8️⃣Кэширование
Он предлагает кэшировать частые запросы с помощью Redis или Memcached, чтобы уменьшить нагрузку на базу.

9️⃣Нормализация и денормализация
Нормализация уменьшает дублирование, денормализация ускоряет чтение — важно выбирать подход под задачу.

1️⃣0️⃣Оптимизация вставок и обновлений
Использовать bulk insert, проверять необходимость обновлений.

1️⃣1️⃣Партиционирование таблиц
Он предлагает разбивать большие таблицы по дате или региону, что особенно полезно для логов и аналитики.

Эти рекомендации помогают backend-разработчикам строить более быстрые, масштабируемые и надёжные системы.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 SQL Никогда НЕ ДЕЛАЙ ТАК

НИКОГДА НЕ ЛОМАЙ ИНДЕКСЫ ФУНКЦИЯМИ: не оборачивай индексируемые поля в функции внутри WHERE.

Как только ты пишешь LOWER(), CAST(), COALESCE() или любые вычисления по колонке — индекс перестаёт работать, и запрос падает в полное сканирование таблицы.

Это одна из самых тихих причин, почему запросы внезапно превращаются в тормоза.

Вместо этого приводи значения заранее или используй функциональные индексы.

Плохо: индекс по email НЕ используется  
SELECT *
FROM users
WHERE LOWER(email) = 'user@example.com';

-- Хорошо: нормализуем значение заранее
SELECT *
FROM users
WHERE email = 'user@example.com';

-- Или создаём функциональный индекс (PostgreSQL)
CREATE INDEX idx_users_email_lower ON users (LOWER(email));


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Салют, Гига! — пространство для AI-инженеров

10 декабря разработчики GigaChat и Kandinsky расскажут и покажут, что сделали за этот год.

В программе — доклады, постеры, живые демонстрации и воркшопы от команд, которые каждый день обучают модели, собирают датасеты, запускают инференс и поддерживают продакшен-сервисы.

Это хорошая возможность пообщаться с командами, которые создавали открытые модели GigaChat 3 Ultra Preview & Lightning и Kandinsky 5.0. Вы сможете посмотреть на их пайплайны обучения и понять, как применять модели в своих задачах — от pet-проектов до промышленной разработки.

Участие бесплатное, но нужна регистрация.

Ждем всех на «Салют, Гига», кому интересен AI в open source!
🔥 Вышли новые релизы для тех, кто использует PostgreSQL в окружениях с несколькими СУБД.

IvorySQL 5.0
Свежий релиз проекта, который развивает редакцию PostgreSQL с целью обеспечить максимальную совместимость с Oracle.

Ключевые особенности:

⏺️ работает как почти полная замена стандартного PostgreSQL
⏺️ добавлена настройка compatible_db, включающая режим совместимости с Oracle
⏺️ подходит для приложений, изначально написанных под Oracle
⏺️ код на C
⏺️ лицензия Apache 2.0

IvorySQL позиционируется как прозрачный переходный слой между экосистемами PostgreSQL и Oracle.

➡️ Узнать подробнее: клик

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🔥 Внезапно: по мнению Яна Лекуна LLM-модели — это не «пузырь»

На его взгляд, здесь нет инвестиционного пузыря: LLM уже сейчас находят практическое применение и будут ещё долго приносить пользу.

Пузырь – это не сами LLM, а вера в то, что одни только они смогут достичь уровня человеческого интеллекта, то есть AGI. Дальнейший прогресс требует прорывов, а не просто большего объема данных и вычислений.

«Мы упускаем что-то важное»

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
‼️ WhatsApp* сливает ВСЕ ВАШИ ДАННЫЕ из обычных сообщений — обычные юзеры случайно открыли правду, которая шокирует до мурашек

Объясняем подробнее:
Парень просто хотел выгрузить свою переписку с другом со своего старенького iPhone 12 Pro Max, но решил чекнуть метаданные;

Оказалось, что каждое его сообщение хранит GPS-координаты пользователя — они остаются в метаданных после отправки и геолокацию отправителя можно получить даже спустя годы после переписки;

Сохраняются и координаты съёмки каждой фотки и видео — они тоже остаются в метаданных;

Можно посмотреть историю всех групп в приложении, в которых состоял человек: кто создал, когда зашёл, когда вышел;

Видны все сохранённые пароли из синхронизированных аккаунтов через Keychain — конкретный сайт, логин и пароль.


‼️ Всё это удалось вытащить лишь из сообщений в мессенджере взлома устройства и прочих вещей

Пока Цукерберг молчит, но история набрала в соцсетях уже 4 миллионов просмотров 😱

* — принадлежит Meta, которая признана экстремистской и запрещена в России

💻  Новости Технологий и AI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Orange Data Mining — визуальная аналитика без кода

Orange — это интерактивный инструмент для анализа и визуализации данных, который одинаково удобен и для новичков, и для экспертов.
Главная идея — демократизировать data science: никаких формул, кода и сложных алгоритмов — всё работает через наглядные блок-схемы (workflow).

Что можно делать:
⏺️ Загружать и исследовать данные
⏺️ Визуализировать зависимости
⏺️ Применять машинное обучение
⏺️ Строить интерактивные отчёты

➡️ Orange отлично подходит для обучения, быстрой проверки гипотез и прототипирования ML-моделей.

Установка (несколько способов)

Через Conda (рекомендуется):
conda config --add channels conda-forge
conda config --set channel_priority strict
conda create python=3.12 --yes --name orange3
conda activate orange3
conda install orange3


Через pip:
pip install orange3


После установки:
orange-canvas


или
python3 -m Orange.canvas


📱 GitHub

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Как Яну Лекуну удалось предсказать будущее ИИ

Картинка, как из старых фильмов: Яну Лекуну — 32 года,перед камерой и показывает миру свою сверточную нейросеть, которая распознает цифры, написанные разным почерком.

Для 1988 года это был настоящий прорыв. Свёрточные нейросети, которые сейчас мы воспринимаем как нечто обычное, только начинали свой путь. Сегодня эти системы могут распознавать лица на фотографиях, анализировать контекст изображений и даже генерировать новые изображения на основе текста. Но тогда? Тогда это было как сделать машину времени из старого компьютера.


Сегодня нейросети, подобные тем, что разработал Лекун, используются повсеместно. За этими технологиями стоят десятки лет работы, исследований и попыток сделать невозможное возможным. Лекун, предсказавший этот тренд, теперь возглавляет одно из самых крупных подразделений, и, наверное, вряд ли тогда он думал, что будет играть такую важную роль в будущем ИИ.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
1K