Data Science: SQL и Аналитика данных
28.1K subscribers
230 photos
45 videos
1 file
278 links
№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri
Download Telegram
➡️ Как нейросетей учат ставить диагнозы в виртуальной клинике

Задумывались ли вы когда-нибудь, как ИИ может быть полезен в медицине, особенно в постановке диагнозов? Это целая система, которая должна не только интерпретировать симптомы, но и планировать, какие тесты нужны для подтверждения гипотезы. И вот, в этом направлении Google и другие исследователи сделали большой шаг вперёд.

Давайте разберемся, как это работает. В медицине задача диагностики — это не просто моментальное суждение, а пошаговое принятие решений. Нужно собрать информацию, сделать тесты и сделать выводы. И вот тут традиционные модели ИИ могут забуксовать, потому что они часто не умеют планировать, какие шаги важны на каждом этапе. К счастью, теперь есть решения, которые могут не только диагностировать, но и эффективно управлять процессом тестирования. Одним из таких проектов стал DiagGym, где ИИ не только диагностирует, но и решает, что и когда тестировать.

Виртуальная клиника — модель для диагностики


DiagGym — это, по сути, имитация клиники. В ней виртуальные агенты выбирают, какие тесты провести, и получают награду не только за правильный диагноз, но и за оптимизацию процесса тестирования. Это настоящий симулятор, где агент учится не просто диагностировать, но и выбирать правильные шаги, чтобы не тратить время и ресурсы на лишние тесты. Такой подход делает ИИ гораздо более умным и гибким в своей работе.

Для этого используется метод обучения с подкреплением (RL), где агент учится на каждом шаге, выбирая, какие тесты делать, и когда завершить процесс. Чем быстрее он ставит диагноз с меньшими затратами, тем выше его награда. ИИ не просто учит нейросети правильным ответам, он учит её стратегическому планированию, как настоящий врач!

Внутри этой виртуальной клиники обучается агент, который на каждом шаге решает, какой тест заказать. И что интересно — этот агент показывает хорошие результаты. Например, в задаче с аппендицитом агент правильно выбирает тесты, такие как общий анализ крови и КТ, чтобы подтвердить диагноз. Это важно, потому что в реальной жизни важны не только точные ответы, но и способность выбрать правильный путь для диагностики.

Однако не всё так идеально. В одном из случаев агент диагностирует внематочную беременность, но не предпринимает нужных шагов для неотложного лечения. Это показывает, что несмотря на точность диагностики, ИИ ещё не может полностью заменить врача.


Когда такие ИИ действительно смогут заменить врача? В медицине важен не только правильный диагноз, но и способность действовать в экстренных ситуациях.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
На AI Journey презентовали крупнейший open-source проект в Европе: Сбер открыл доступ к своим флагманским моделям - GigaChat Ultra-Preview и Lightning, а также новое поколение открытых моделей GigaAM-v3 для распознавания речи, все модели генерации изображений и видео новой линейки Kandinsky 5.0 — Video Pro, Video Lite и Image Lite.

GigaChat Ultra-Preview, новая MoE-модель, 702 миллиарда параметров, собранная под русский язык и натренированная полностью с нуля. Читайте подробный пост от команды.

Впервые в России обучена MoE-модель такого масштаба полностью с нуля — без зависимости от зарубежных весов. Обучение с нуля, да и ещё на таком масштабе, — это вызов, который приняли немногие команды в мире.

Флагманская модель Kandinsky Video Pro сравнялась с Veo 3 по визуальному качеству и обогнала Wan 2.2-A14B. Читайте подробный пост от команды.

Код и веса всех моделей теперь доступны всем пользователям по лицензии MIT, в том числе для использования в коммерческих целях.
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ SQL СОВЕТ

Ловите тяжёлые запросы на ранней стадии через контролируемые анти-джоины.
Когда нужно узнать, какие записи *не имеют* соответствий в другой таблице, разработчики часто используют LEFT JOIN .

Гораздо быстрее использовать NOT EXISTS — он позволяет планировщику остановиться сразу, как только найдено первое совпадение, и эффективно задействует индексы.

select u.user_id
from users u
where not exists (
select 1
from logins l
where l.user_id = u.user_id
and l.created_at >= now() - interval '7 days'
);


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️Ozon Profit теперь позволяет делать краудсорсинг данных с выездом на место

Платформа позволяет компаниям заказывать обработку данных в онлайне, назначая исполнителей. Принцип простой: если нужно разметить фото, проанализировать отзывы, проверить цены в магазине, подбирается подходящий исполнитель — платформа связывает их и помогает оперативно решить задачу.

Теперь добавили крутую фичу — выездные задания. Допустим, вы тренируете модель распознавания вывесок. Если раньше данных не хватало, то теперь можно заказать сбор изображений из любого города России.

За последний год объем онлайн-задач, которые берет платформа, вырос в 5 раз. Сервисом пользуются маркетплейсы, финтех-компании и стартапы для разметки данных под свои ML-модели.

Удобное решение, когда нужно быстро собрать или обработать данные.

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Выпрямитель графиков — незаменимый гаджет для аналитика

Описание товара гласит, что «выпрямитель исправляет некорректные графики, вводя пространственную осведомленность в неэвклидовы координаты». Купили бы? Всего-то 173 доллара, между прочим.

Это один из товаров сайта anycrap, который «воплощает нереальные вещи в жизнь». Просто вводите любое слово в поисковую строку, и он выдает вам страницу продукта с картинкой, описанием и ценой, сгенерированных ИИ.

В бесконечном ИИ-каталоге можно найти что угодно: от абсурдных гаджетов вроде «генератора пердежа» до квантового мусора. Ну, или вообще всего его угодно, что пожелаете. Как-то так мог бы выглядеть маркетплейс из «Рика и Морти» — тем более, что плюмбус там тоже есть.

🫡 Всё про Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Как правильно оптимизировать SQL в бэкенде, чтобы запросы работали быстрее, снижали задержки и не создавали узких мест в системе.

➡️ Некачественно написанный SQL приводит к высоким задержкам, росту нагрузки на CPU и проблемам в нагруженных сервисах.

Основные принципы оптимизации:

1️⃣Анализ планов выполнения
Он подчёркивает необходимость использовать EXPLAIN / EXPLAIN ANALYZE, чтобы увидеть, как база реально исполняет запрос: где происходят полные сканирования таблиц, плохие джоины или отсутствуют индексы.

2️⃣Индексация
Он рекомендует ставить индексы на часто используемые поля и ключи, применять составные индексы, но избегать чрезмерной индексации, чтобы не замедлять записи.

3️⃣Отказ от SELECT *
Он настаивает на выборе только нужных столбцов — это снижает трафик и ускоряет выполнение.

4️⃣Оптимизация джоинов
Нужно правильно выбирать тип JOIN, индексировать поля, участвующие в соединениях, и избегать слишком глубоких джоин-цепочек.

5️⃣Грамотные WHERE-фильтры
Фильтровать данные как можно раньше, использовать индексируемые колонки и избегать функций в WHERE, которые «ломают» индексы.

6️⃣Ограничение числа строк
Использовать LIMIT / OFFSET и постраничный вывод, а не отдавать пользователю огромные выборки.

7️⃣Избежание проблемы N+1
Фетчить связанные данные заранее через JOIN или батч-запросы.

8️⃣Кэширование
Он предлагает кэшировать частые запросы с помощью Redis или Memcached, чтобы уменьшить нагрузку на базу.

9️⃣Нормализация и денормализация
Нормализация уменьшает дублирование, денормализация ускоряет чтение — важно выбирать подход под задачу.

1️⃣0️⃣Оптимизация вставок и обновлений
Использовать bulk insert, проверять необходимость обновлений.

1️⃣1️⃣Партиционирование таблиц
Он предлагает разбивать большие таблицы по дате или региону, что особенно полезно для логов и аналитики.

Эти рекомендации помогают backend-разработчикам строить более быстрые, масштабируемые и надёжные системы.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 SQL Никогда НЕ ДЕЛАЙ ТАК

НИКОГДА НЕ ЛОМАЙ ИНДЕКСЫ ФУНКЦИЯМИ: не оборачивай индексируемые поля в функции внутри WHERE.

Как только ты пишешь LOWER(), CAST(), COALESCE() или любые вычисления по колонке — индекс перестаёт работать, и запрос падает в полное сканирование таблицы.

Это одна из самых тихих причин, почему запросы внезапно превращаются в тормоза.

Вместо этого приводи значения заранее или используй функциональные индексы.

Плохо: индекс по email НЕ используется  
SELECT *
FROM users
WHERE LOWER(email) = 'user@example.com';

-- Хорошо: нормализуем значение заранее
SELECT *
FROM users
WHERE email = 'user@example.com';

-- Или создаём функциональный индекс (PostgreSQL)
CREATE INDEX idx_users_email_lower ON users (LOWER(email));


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Салют, Гига! — пространство для AI-инженеров

10 декабря разработчики GigaChat и Kandinsky расскажут и покажут, что сделали за этот год.

В программе — доклады, постеры, живые демонстрации и воркшопы от команд, которые каждый день обучают модели, собирают датасеты, запускают инференс и поддерживают продакшен-сервисы.

Это хорошая возможность пообщаться с командами, которые создавали открытые модели GigaChat 3 Ultra Preview & Lightning и Kandinsky 5.0. Вы сможете посмотреть на их пайплайны обучения и понять, как применять модели в своих задачах — от pet-проектов до промышленной разработки.

Участие бесплатное, но нужна регистрация.

Ждем всех на «Салют, Гига», кому интересен AI в open source!
🔥 Вышли новые релизы для тех, кто использует PostgreSQL в окружениях с несколькими СУБД.

IvorySQL 5.0
Свежий релиз проекта, который развивает редакцию PostgreSQL с целью обеспечить максимальную совместимость с Oracle.

Ключевые особенности:

⏺️ работает как почти полная замена стандартного PostgreSQL
⏺️ добавлена настройка compatible_db, включающая режим совместимости с Oracle
⏺️ подходит для приложений, изначально написанных под Oracle
⏺️ код на C
⏺️ лицензия Apache 2.0

IvorySQL позиционируется как прозрачный переходный слой между экосистемами PostgreSQL и Oracle.

➡️ Узнать подробнее: клик

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🔥 Внезапно: по мнению Яна Лекуна LLM-модели — это не «пузырь»

На его взгляд, здесь нет инвестиционного пузыря: LLM уже сейчас находят практическое применение и будут ещё долго приносить пользу.

Пузырь – это не сами LLM, а вера в то, что одни только они смогут достичь уровня человеческого интеллекта, то есть AGI. Дальнейший прогресс требует прорывов, а не просто большего объема данных и вычислений.

«Мы упускаем что-то важное»

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
‼️ WhatsApp* сливает ВСЕ ВАШИ ДАННЫЕ из обычных сообщений — обычные юзеры случайно открыли правду, которая шокирует до мурашек

Объясняем подробнее:
Парень просто хотел выгрузить свою переписку с другом со своего старенького iPhone 12 Pro Max, но решил чекнуть метаданные;

Оказалось, что каждое его сообщение хранит GPS-координаты пользователя — они остаются в метаданных после отправки и геолокацию отправителя можно получить даже спустя годы после переписки;

Сохраняются и координаты съёмки каждой фотки и видео — они тоже остаются в метаданных;

Можно посмотреть историю всех групп в приложении, в которых состоял человек: кто создал, когда зашёл, когда вышел;

Видны все сохранённые пароли из синхронизированных аккаунтов через Keychain — конкретный сайт, логин и пароль.


‼️ Всё это удалось вытащить лишь из сообщений в мессенджере взлома устройства и прочих вещей

Пока Цукерберг молчит, но история набрала в соцсетях уже 4 миллионов просмотров 😱

* — принадлежит Meta, которая признана экстремистской и запрещена в России

💻  Новости Технологий и AI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Orange Data Mining — визуальная аналитика без кода

Orange — это интерактивный инструмент для анализа и визуализации данных, который одинаково удобен и для новичков, и для экспертов.
Главная идея — демократизировать data science: никаких формул, кода и сложных алгоритмов — всё работает через наглядные блок-схемы (workflow).

Что можно делать:
⏺️ Загружать и исследовать данные
⏺️ Визуализировать зависимости
⏺️ Применять машинное обучение
⏺️ Строить интерактивные отчёты

➡️ Orange отлично подходит для обучения, быстрой проверки гипотез и прототипирования ML-моделей.

Установка (несколько способов)

Через Conda (рекомендуется):
conda config --add channels conda-forge
conda config --set channel_priority strict
conda create python=3.12 --yes --name orange3
conda activate orange3
conda install orange3


Через pip:
pip install orange3


После установки:
orange-canvas


или
python3 -m Orange.canvas


📱 GitHub

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Как Яну Лекуну удалось предсказать будущее ИИ

Картинка, как из старых фильмов: Яну Лекуну — 32 года,перед камерой и показывает миру свою сверточную нейросеть, которая распознает цифры, написанные разным почерком.

Для 1988 года это был настоящий прорыв. Свёрточные нейросети, которые сейчас мы воспринимаем как нечто обычное, только начинали свой путь. Сегодня эти системы могут распознавать лица на фотографиях, анализировать контекст изображений и даже генерировать новые изображения на основе текста. Но тогда? Тогда это было как сделать машину времени из старого компьютера.


Сегодня нейросети, подобные тем, что разработал Лекун, используются повсеместно. За этими технологиями стоят десятки лет работы, исследований и попыток сделать невозможное возможным. Лекун, предсказавший этот тренд, теперь возглавляет одно из самых крупных подразделений, и, наверное, вряд ли тогда он думал, что будет играть такую важную роль в будущем ИИ.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
1K
➡️ 3 вида шардирования баз данных:

⏺️ Range-based — разбивает данные по диапазонам значений ключа
⏺️ Hash-based — выбирает шарду с помощью хеш-функции
⏺️ Tenant-based — каждому клиенту (тенанту) выделяется своя отдельная база

Пояснения:

Range-based sharding делит данные по диапазонам ключа (например: ID 1–1 000 — первая шарда, 1 001–2 000 — вторая).

Hash-based sharding использует хеш от ключа, чтобы определить, в какую шарду поместить или откуда прочитать запись. Это даёт более равномерное распределение.

Tenant-based sharding выделяет каждому клиенту собственную базу данных, что упрощает изоляцию, миграции и управление данными.

Просто, понятно и работает во всех масштабах.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 SQL разбор ошибок

Одна из самых частых ошибок в SQL - вытаскивать слишком много строк без явных условий фильтрации. Люди часто пишут запросы без WHERE, забывают ограничивать выборку и получают огромные таблицы, перегруженные джоины и медленные отчёты.

Особенно опасно - JOIN без условий: это создаёт декартово произведение и может положить базу.

Всегда задавай точные условия, проверяй ключи соединений и ограничивай выборку, если смотришь данные руками.
Подписывайся, больше фишек каждый день !

SELECT *
FROM users
JOIN orders
-- Ошибка: отсутствует ON, создаётся декартово произведение
LIMIT 100;

-- Правильно:
SELECT u.id, o.id
FROM users u
JOIN orders o ON o.user_id = u.id
LIMIT 100;


🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🎭 В гайдах по промптингу часто советуют задавать ИИ экспертную роль, от лица которой он будет отвечать. На днях вышло исследование о том, как указание роли влияет на выдачу нейросети.

Исследователи из Уортонской школы бизнеса проверили эффективность такого промптинга на нескольких моделях от OpenAI и Google (правда, в экспериментах не тестировали флагманские модели текущего поколения вроде GPT-5.1 и Gemini 3 Pro). Почти во всех случаях фактическая точность никак не менялась от указания роли эксперта. Единственное исключение — Gemini 2.0 Flash. Она действительно стала отвечать лучше с ролью эксперта в промпте.

Но оказалось, что выбор роли работает в обратную сторону: если дать нейросети указание говорить от лица ребёнка, то ответ стабильно будет менее точным.

Значит ли это, что указывать роль в промпте бесполезно? Авторы отмечают, что роль в промпте всё-таки может приносить пользу, помогая ИИ понять, с какого угла лучше смотреть на проблему и какой ответ хочет видеть пользователь.

Подписывайтесь 👉 @techno_yandex
Как ИИ помог организовать крупнейшую кибератаку 🔫

Вот вам и «цифровая эволюция». Anthropic зафиксировали первый случай массовой кибератаки, проведённой с помощью ИИ. Это не единичный случай, а целая кампания!

Давайте разберемся, что случилось. Преступники, по версии Anthropic, использовали модель Claude, которую обманули с помощью джейлбрейка. В итоге модель начала выполнять задачи, скрывая от себя истинную цель операции и думая, что работает для вполне легитимной фирмы кибербезопасности. Всё как по маслу: разведка инфраструктуры, написание эксплойтов, получение доступа, создание бэкдоров, кража данных — и даже создание подробной документации по всей атаке. Почти без участия человека.

Весь процесс был автоматизирован почти на 90%! Человек вмешивался только в самые критические моменты, когда нужно было принять решение. И самое интересное: аналитики заметили подозрительную активность, запустили расследование и вовремя поймали эту кибершпионскую операцию 🍴


Порог входа для проведения таких атак серьёзно снизился. Но то, что ИИ может использоваться как в атаке, так и для обороны, даёт надежду. Только если мы будем использовать ИИ для защиты и продолжать развивать механизмы безопасности, можно надеяться на стабильность в киберпространстве.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Что нового для разработчиков в Oracle AI Database 23.26.0

В свежем релизе появилось сразу несколько функций, которые упрощают аналитику, делают работу с API удобнее и улучшают интеграцию SQL с JavaScript.

➡️ Главное обновление

⏺️ Появилась SQL клауза QUALIFY. Теперь можно фильтровать результаты оконных функций напрямую, без вложенных подзапросов. Упрощает сложные аналитические выборки.

⏺️ Добавлена функция GRAPHQL(). Можно выполнять запросы к базе в синтаксисе GraphQL и получать JSON ответ. Полезно для API сервисов и современных приложений.

⏺️ В MLE JavaScript теперь поддерживаются SQL объекты и коллекции. Это позволяет возвращать и принимать пользовательские типы прямо из JS функций.

⏺️ Для PL SQL пакетов появилось ключевое слово RESETTABLE. Обновление пакета больше не вызывает ORA 04068, что делает деплой безопаснее.

➡️ Зачем это нужно

Обновление делает Oracle удобнее для разработчиков, особенно если вы строите API, используете аналитику, комбинируете SQL и JavaScript или разрабатываете приложения с AI и ML нагрузкой.

➡️ Читать подробнее по ссылке: www.geraldonit.com/

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM