Data Science: SQL и Аналитика данных – Telegram

Data Science: SQL и Аналитика данных

@pizdatascience

28.1K subscribers

230 photos

45 videos

1 file

278 links

№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri

Download Telegram

About

Blog

Apps

Platform

Data Science: SQL и Аналитика данных

28.1K subscribers

Data Science: SQL и Аналитика данных

🔥

OpenAI представила ChatGPT Atlas

Вы никогда не думали, как было бы удобно, если бы кто-то за вас покидал покупки в корзину в онлайн-магазине, а перед этим еще сравнил, чем отличаются два на первый взгляд идентичных товара? Прочитал длинную статью и пересказал содержание? Придумал остроумный ответ в дискуссии в соцсети?

В общем, взял на себя эту сложную, нудную задачу сидения в интернете?

➡️ Что ж, если вы пользуетесь Mac’ом (остальным придется подождать), то теперь можете обзавестись таким помощником. OpenAI представила браузер ChatGPT Atlas, с прикрученным к нему ИИ-ассистентом. На картинке выше вы можете увидеть пример задачи для него — выбрать товары для похода на пляж с семьей.

Пользователь может ограничить доступ ИИ к отдельным сайтам, попросить сделать саммари написанного на экране или «покопаться» в истории браузера и найти там ссылку, которую посещал ранее.

Владельцам платных подписок доступен еще и агентский режим, в котором ИИ может совершать какие-то действия на сайте. Например, не только придумать остроумный ответ, но и отправить его, а потом еще наставить оппоненту дизлайков

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.44K views09:54

Data Science: SQL и Аналитика данных

🔥Удобный инструмент для миграции схем PostgreSQL

pgschema — это CLI утилита, которая упрощает процесс миграции схем в PostgreSQL, используя декларативный подход, похожий на Terraform. Она позволяет создавать, редактировать и применять изменения к схемам, обеспечивая контроль над миграциями без необходимости в дополнительных таблицах.

Основные моменты:

⏺️ Декларативное управление схемами PostgreSQL
⏺️ Поддержка всех основных объектов и версий PostgreSQL
⏺️ Генерация плана миграции с предварительным просмотром изменений
⏺️ Прямое взаимодействие с файлами схем и базой данных без временных БД

➡️ GitHub: https://github.com/pgschema/pgschema

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.49K views15:49

Data Science: SQL и Аналитика данных

➡️

dbt 101: что нужно знать на старте и лучшие практики

dbt — отличный тул для трансформации данных и заслуженный стандарт индустрии. Мы его часто используем, потому что он сильно упрощает работу на проектах со сложной аналитикой и множеством SQL-скриптов.

Кое-что из своего опыта собрали в новой статье. Это не инструкция, как настроить dbt и начать работу, а вводный материал, где мы решили поделиться, а что это вообще такое: зачем нужно, какие функции выполняет, какие задачи решает.

Ну и заодно добавили парочку лучших практик, которые хорошо показывают себя на проектах. Кстати, один реальный проект тоже чуть-чуть показали.

Подробнее в статье: клик

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.61K views06:59

Data Science: SQL и Аналитика данных

🔥Открытая альтернатива Firebase — на стероидах PostgreSQL

Платформа, которая даёт всё, чтобы собрать современное веб-, мобильное или AI-приложение — без проприетарных SDK и боли.

Что внутри:

⏺️

Хостинг Postgres с realtime-синхронизацией

⏺️

Автогенерация REST и GraphQL API

⏺️

Аутентификация и авторизация через JWT

⏺️

Edge-функции и серверные триггеры

⏺️

Хранилище файлов с поддержкой S3

⏺️

AI-инструменты: векторные индексы, эмбеддинги, семантический поиск
⏺️Всё open source и доступно для self-host.

По сути это Firebase-опыт, но построенный на «взрослых» open-source технологиях:
PostgreSQL, Elixir, GoTrue, PostgREST, pg_graphql.

Платформа, где можно запустить идею, вырастить продукт и не упереться в чьи-то закрытые лимиты.
#Postgres #OpenSource #Backend #AI #GraphQL #Realtime #FirebaseAlternative

https://github.com/supabase/supabase

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.47K views06:42

Data Science: SQL и Аналитика данных

🔥

Вышел pgbalancer 1.0 - интеллектуальный балансировщик нагрузки для PostgreSQL

Представлен первый стабильный релиз pgbalancer 1.0 — балансировщика нагрузки для PostgreSQL, построенного на основе pgpool-II с существенными доработками.

Проект позиционируется как решение с элементами адаптивной маршрутизации запросов, управляемое через REST API и поддерживающее MQTT для потоковой передачи событий в реальном времени.

Ключевые особенности:

⏺️ Управление пулом соединений и распределение нагрузки между репликами PostgreSQL;
⏺️ Поддержка HTTP/REST для конфигурации и мониторинга;
⏺️ Интеграция с MQTT для стриминга метрик и событий;
⏺️ Реализация на языке C с сохранением производительности оригинального pgpool-II;
⏺️ Распространяется под открытой лицензией PostgreSQL.

https://www.pgelephant.com/pgbalancer

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.35K views11:28

Data Science: SQL и Аналитика данных

🔥 Распределение Коши — самое «упрямое» в статистике

У него настолько тяжёлые хвосты, что среднее и дисперсия не определены вовсе.

Да-да, никакого среднего значения у него нет — математика просто отказывается сходиться.

Почему это интересно:

🔄 В машинном обучении его используют для моделирования шума и выбросов — там, где обычная гауссовская модель ломается.
🔄 В реальной жизни встречается в физике (резонансные явления) и финансах — когда нужно описать экстремальные события.

➡️ Распределение Коши — напоминание, что не всё поддаётся усреднению. Иногда хаос — это и есть закон.

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.3K views06:02

Data Science: SQL и Аналитика данных

🔥Инструмент для мониторинга активности PostgreSQL

Следит за запросами, блокировками, использованием памяти и CPU - помогает мгновенно понять, что происходит с базой в реальном времени.

➡️ Устанавливается одной командой:

sudo apt install pg-activity

Работает как локально, так и по сети.
Если запускать от postgres или root, открывается полная статистика - системные процессы, временные файлы и всё, что нужно для анализа нагрузки.

https://github.com/dalibo/pg_activity

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.23K views05:14

Data Science: SQL и Аналитика данных

👀 Нейросети делают жизнь разработчиков невыносимой?

Короче, собрали топов из Surf, Магнита, Сбера и Атола и спросили в лоб:
“ИИ реально ускоряет разработку или просто заставляет нас писать код за ИИ?”

На повестке:
— Через полгода 90% кода пишет нейронка — а ты чем занят?
— Можно ли поручить ИИ проектирование?
— Джуны — всё, отработанный материал?
— Когда спагетти-код станет нормой?

⚔️ Ответы без маркетинга и ванили.
Смотри тут → https://youtu.be/LdoJPvtXzaw

5.3K views14:51

Data Science: SQL и Аналитика данных

This media is not supported in your browser

VIEW IN TELEGRAM

➡️

Лучший способ понять, как работают ML-модели

Используйте Drawdata, чтобы нарисовать 2D-датасет прямо в Jupyter. С его помощью можно интерактивно выбирать данные через виджет и обновлять модель по мере того, как данные добавляются

Полностью интерактивно

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.25K views05:44

Data Science: SQL и Аналитика данных

➡️

Kimi K2 Thinking: Новая open source-модель для сложных рассуждений и агентных задач

Вышла новая модель Kimi K2 Thinking, и, если вы увлекаетесь ИИ, то это прямо то, что стоит отметить. Эта модель — очередной шаг к масштабированию вычислений и задач, связанных с логикой, кодом и агентами. Способность выполнять до 300 последовательных действий — это прямо рекорд. И, что важнее, она не просто выполняет задачи, но и задает новые стандарты в том, как мы можем использовать ИИ в решении сложных проблем.

Во-первых, Kimi K2 Thinking может делать цепочки рассуждений, искать, писать код и вообще — выполнять задачи, которые раньше считались сложными для ИИ. За счет увеличения количества «токенов размышления» и улучшения числа шагов при вызове инструментов модель буквально может «думать» дольше и точнее, обеспечивая более глубокое понимание контекста.

На практике эта модель превзошла ожидания. Вот несколько крутых достижений:

— Humanity’s Last Exam (HLE): Бенчмарк, который оценивает логическое мышление на экспертном уровне по 100+ дисциплинам. K2 Thinking набрала 44,9% — отличный результат для задачи, где каждое слово на счету.

— SWE-Multilingual и SWE-Bench Verified: Рейтинг по задачам на кодинг и разработку ПО. Тут K2 Thinking показала 61,1% и 71,3% соответственно, что намекает на хорошие перспективы для работы с кодом на разных языках программирования.

— Terminal-Bench: И снова — 47,1% в задачах, связанных с командной строкой и терминалом. Модель находит решение и там.

— BrowseComp: Самый интересный момент! На бенчмарке по поиску и навигации в интернете K2 Thinking набрала 60,2%, что в два раза больше, чем средний человеческий результат (29,2%). Модель умеет эффективно искать, анализировать и работать с интернет-данными, что делает её уникальной для работы в динамичных, насыщенных информацией средах.

Основная фишка — Kimi K2 Thinking может создавать сложные интерактивные приложения с нуля. Например, она генерирует код для популярных библиотек визуализации, и результат просто впечатляющий. Конечно, для повседневной работы разработчиков такие примеры пока не идеально подходят, но качество и уровень проделанной работы на данный момент — на высоте.

Если вы работаете в ИТ-сфере, наверняка будете следить за этим релизом. Особенно интересно, как модель будет справляться с более сложными и динамичными задачами, выходящими за пределы лабораторных тестов.

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.14K views07:49

Data Science: SQL и Аналитика данных

🔥

От пикселей к смыслам: как заставить ИИ «понимать» картинки

Представьте, что вы показываете картинку ИИ. Что он видит? Столько пикселей, что в голове начинается путаница. Все это неплохо работает для распознавания изображений, но вот для более глубокого анализа и работы с контекстом, так себе. И вот тут на сцену выходит SVG — код, который ИИ мог бы использовать, чтобы не просто «увидеть» изображение, а реально понять, что на нем изображено. Этот код более структурирован, компактен и, самое главное, его можно проверять, что важно при анализе данных. Но как же научить ИИ работать с этим кодом?

Чтобы решить эту задачу, ученые придумали бенчмарк под названием VCode. Это своего рода экзамен для ИИ, где задача не просто скопировать изображение в SVG, а именно перенести символьную структуру — объекты, их взаимосвязи и порядок, в котором они расположены. Структура становится важнее самих пикселей.

Кроме того, для оценки был предложен метод CodeVQA, где после генерации SVG-кода ИИ должен ответить на вопросы по изображению, проверяя, насколько хорошо он понял смысл картинки. И если ответ совпал с оригиналом, значит, задача выполнена.

Чтобы улучшить результат, ученые используют агента VCoder. Он комбинирует два подхода:

• Размышление с ревизией — модель генерирует SVG-код, затем сравнивает его с оригиналом и исправляет ошибки.
• Действие с визуальными инструментами — ИИ использует различные детекторы объектов, OCR и сегментаторы, чтобы точно понять, где что находится на картинке, и перевести это в символику.

Каждый из этих инструментов даёт свой вклад: детекторы объектов помогают точнее определить местоположение объектов, сегментаторы сохраняют геометрическую структуру, а OCR — текстовую информацию.

Так, как же получилось? Увы, пока что модели все ещё не идеально генерируют SVG-код, особенно в плане сохранения символики сцены. Прототипы, такие как GPT-5, пока показывают слабые результаты по сравнению с оригинальными изображениями. Но есть надежда. Использование агентов, таких как Claude-4-Opus, показало улучшения в разных областях, особенно в MM-Vet и CV-Bench.

Интересно, что длина SVG-кода тоже имеет значение. Чем он короче, тем менее он информативен, и ИИ теряет смысловые связи. В общем, если код короткий, значит, ИИ не переносит все объекты и их отношения должным образом.

Переход от пикселей к SVG-коду — это шаг вперед для того, чтобы ИИ не просто «видел» картинку, а по-настоящему понимал её. Этот код можно проверять, модифицировать и использовать для более глубоких выводов.

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.15K views08:31

Data Science: SQL и Аналитика данных

➡️

Google представил Nested Learning: Новый взгляд на обучение моделей

Google снова зажгли искру в мире ИИ. После того, как они в 2017 году потрясли нас с Transformer, в этот раз они решили предложить нечто совсем необычное — новую парадигму обучения, называемую Nested Learning (NL). Давайте разберемся, что это такое и зачем нам это нужно.

Идея Nested Learning проста в своей сути: вместо того чтобы воспринимать нейросеть как одну гигантскую оптимизационную задачу, Google предлагает разделить обучение на несколько вложенных задач, каждая из которых обновляется в своем темпе. Представьте себе нейросеть как многоуровневую конструкцию, где каждый уровень отвечает за свою область знаний и обновляется по-своему. Это как если бы мозг, вместо того чтобы решать всё сразу, выделял отдельные области для быстрого запоминания чего-то нового и более медленного для основополагающих знаний.

Зачем это всё? В первую очередь, это шаг к решению одной из самых больших проблем нейросетей — катастрофического забывания. Это когда модель, обучаясь на новых данных, забывает всё, что узнала ранее. Столкнулись с этим? Это большая беда для ИИ, который должен учиться и развиваться без постоянной необходимости в переобучении 🗣

Разделение на оптимизационные задачи: Модель теперь представляется как набор задач, каждая из которых работает с собственным потоком информации и обновляется с разной частотой. Например, одни компоненты модели могут часто адаптироваться под новый контекст, а другие — сохранять базовые знания для более долгосрочной памяти.

Обучаемый оптимизатор: Чтобы модель не «заблудилась» в том, какие задачи нужно обновить, авторы предлагают сделать оптимизатор обучаемым. То есть тот алгоритм, который обычно отвечает за обновление весов, теперь сам становится нейросетью. Весь этот процесс называется Deep Optimizers — оптимизатор, который учится связывать правильные изменения весов с соответствующими градиентами.

Память как спектр: Чтобы обобщить идею, Google просто расширяет старую концепцию краткосрочной и долгосрочной памяти на спектр памяти с множеством уровней, каждый из которых отвечает за определённую задачу.

Что получилось в итоге?

Google использовали свой старый проект TITAN, в котором уже были элементы долгосрочной и краткосрочной памяти, и адаптировали его под новую парадигму. Результат — новая модель HOPE. В каком-то смысле она стала первой самосовершенствующейся нейросетью, которая может не только обучаться, но и модифицировать себя в процессе работы. По сравнению с традиционными трансформерами, HOPE показала лучшие результаты в задачах, требующих рассуждений и долгосрочной памяти, а также более низкую перплексию.

Давайте подведем итог. Nested Learning — это попытка создать нейросети, которые смогут учиться и эволюционировать непрерывно, без потери старых знаний. Для тех, кто мечтает о AGI (искусственном общем интеллекте), это пожалуй интересный шаг.

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

4.87K views13:47

Data Science: SQL и Аналитика данных

➡️ Продвинутый SQL-совет: используйте partial indexes как «селективный ускоритель», но не только для WHERE — ещё и для JOIN-ов.

Большинство разработчиков делают частичные индексы так:

CREATE INDEX idx_active_users ON users(id) WHERE active = true;

Но фишка в том, что partial index может радикально ускорить запросы, где фильтр стоит не в WHERE, а «прячется» в JOIN-условии. Оптимизатор всё равно понимает условие и использует индекс.

Например, у вас есть таблица logs, где 95% строк — архив, и только 5% актуальные. Запрос делает join:

SELECT u.id, l.event
FROM users u
JOIN logs l ON l.user_id = u.id AND l.is_archived = false;

Если делать обычный индекс, он будет огромный. Но partial index:

CREATE INDEX idx_logs_active ON logs(user_id)
WHERE is_archived = false;

🔥 Теперь:

- индекс в 20–30 раз меньше
- cache hit rate выше
- планы меняются с seq scan на index scan
- JOIN начинает работать почти как в in-memory базе

Прикольно, что работает даже если в SELECT самого условия нет — главное, чтобы оно было в ON.

Это отличный способ ускорять «холодные» большие таблицы, где часто обращаются только к маленькому активному сегменту.

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

4.96K viewsedited 05:37

Data Science: SQL и Аналитика данных

🔥

Antares SQL Client

Современный, быстрый и ориентированный на продуктивность SQL-клиент с акцентом на пользовательский опыт (UX).

Текущие ключевые функции:

⏺️ Подключение к нескольким базам данных одновременно.
⏺️ Управление базами данных (добавление/редактирование/удаление).
⏺️ Полное управление таблицами, включая индексы и внешние ключи.
⏺️ Управление представлениями, триггерами, хранимыми процедурами, функциями и планировщиками (добавление/редактирование/удаление).
⏺️ Современная и удобная система вкладок; держите открытыми все необходимые вкладки в вашем рабочем пространстве.
⏺️ Заполнение тестовых данных в таблицах для генерации большого объема данных.
⏺️ Подсказки и автозаполнение запросов.
⏺️ История запросов: поиск по последним 1000 запросам.
⏺️ Сохранение запросов, заметок или задач.
⏺️ Поддержка SSH-туннелей.
⏺️ Режим ручного выполнения транзакций.
⏺️ Импорт и экспорт дампов баз данных.
⏺️ Настраиваемые горячие клавиши.
⏺️ Темная и светлая тема.
⏺️ Темы редактора.

➡️

https://github.com/antares-sql/antares

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.29K views07:23

Data Science: SQL и Аналитика данных

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 PYTHON: ХИТРЫЙ ТРЮК С SQL

Если вы работаете с большими таблицами в SQL через Python, и не хотите тянуть всё в память, используйте ленивую подгрузку данных с генерацией чанков. Это особенно полезно, если вы делаете агрегации, фильтрации или сохраняете результат в файл — можно обрабатывать данные частями, не загружая весь датасет сразу.

Удобно, быстро и экономит память. Работает даже с миллионами строк.


import pandas as pd
from sqlalchemy import create_engine

# подключение к базе данных (пример для PostgreSQL)
engine = create_engine("postgresql://user:password@localhost:5432/dbname")

# читаем по 10000 строк за раз
chunk_iter = pd.read_sql("SELECT * FROM big_table", engine, chunksize=10000)

# обработка: сохраняем отфильтрованные строки в файл
with open("filtered_output.csv", "w", encoding="utf-8") as f:
    for i, chunk in enumerate(chunk_iter):
        filtered = chunk[chunk["amount"] > 1000]
        filtered.to_csv(f, index=False, header=(i == 0))

➡️

https://www.youtube.com/shorts/y5orXDD2mdU

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.29K viewsedited 06:44

Data Science: SQL и Аналитика данных

🔥

Google анонсировала DS-STAR: ИИ-агент для автоматизации дата-анализа

Google снова удивляет мир технологий — на этот раз они представили DS-STAR, экспериментального ИИ-агента, который может выполнить полный цикл анализа данных, начиная от чтения файлов и заканчивая написанием кода. В тестах этот агент продемонстрировал отличные результаты, превзойдя своих «собратьев» в мире ИИ. Но что за зверь такой — этот DS-STAR?

Вместо того чтобы просто генерировать код, как это делают традиционные ИИ-системы, DS-STAR идет дальше и берет на себя ответственность за весь процесс. Агент анализирует данные (будь то таблицы, JSON-файлы или текст), строит план действий, пишет Python-код, запускает его, а потом проверяет, насколько полученный результат соответствует поставленной задаче. Интересно, что после проверки встроенный «судья» на базе LLM заставляет систему пересматривать свои шаги, пока результат не будет точным и полным.

Результаты: не просто код, а качественная аналитика 🐹

Согласно исследованиям Google, DS-STAR значительно улучшил показатели на различных тестах. Например, точность на DABStep увеличилась с 41% до 45,2%, на KramaBench — с 39,8% до 44,7%, а на DA-Code — с 37% до 38,5%. Это уже не просто генерация кода, а возможность делать более качественные и содержательные выводы, что, согласитесь, впечатляет.

В экосистеме Google уже есть схожие разработки — например, Data Science Agent в Colab. Кто знает, может, скоро мы увидим элементы DS-STAR в инструментах для аналитиков и инженеров, а затем и в других продуктах компании.

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

3.72K views08:17

Data Science: SQL и Аналитика данных

🔥

Курс, который прокачает твои AI-скиллы в BigQuery

Этот курс учит работать с Gemini прямо внутри BigQuery и закрывает полный набор практических навыков:

⏺️ генерация и отладка SQL-запросов с помощью Gemini
⏺️ анализ тональности текста
⏺️ автоматические суммари и выделение ключевых слов
⏺️ генерация эмбеддингов
⏺️ построение RAG-пайплайна
⏺️ мультимодальный векторный поиск

Если хочешь уверенно использовать AI-инструменты в аналитике и продуктах — этот курс даёт полный набор необходимых умений.

➡️

https://www.skills.google/paths/1803/course_templates/1232

🫡 Всё про Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

3.96K views05:21

Data Science: SQL и Аналитика данных

➡️

SQLModel — это библиотека для взаимодействия с базами данных SQL из кода Python с использованием объектов Python.

Она интуитивно понятна, проста в использовании, обладает высокой совместимостью и надёжностью.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

4.18K views09:32

Data Science: SQL и Аналитика данных

➡️

Сделай сам: БД ключ-значение своими руками

База данных нужна, чтобы было куда удобно и компактно сложить данные, а потом — чтобы было где быстро и легко их найти.

Звучит логично, но на практике добиться удобства, компактности, быстроты и легкости не так уж и просто.
⏺️Как вносить новые данные в файл?
⏺️Как изменять или удалять старые?
⏺️Как сэкономить место на диске и не дать базе разрастись до неразумных размеров?
⏺️Как ускорить поиск, особенно когда количество записей растет?

Как только находите ответ на один вопрос, тут же появляются новые. Это хорошо видно на примере статьи про создание БД с нуля: автор начинает с простого файлика с ключами и значениями и, постепенно дорабатывая его, доходит до создания LSM-дерева с индексами и сегментацией. И все это с интерактивным визуалом для наглядности.

Отличный материал для тех, кто хочет начать с азов, узнать, какие задачи встают перед создателями БД и как их можно решить.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

4.09K viewsedited 05:42

Data Science: SQL и Аналитика данных

🔥

Как отличаются дни мужчин и женщин

Нейтан Яу продолжает выуживать интересные инсайты из данных большого опросника American Time Use Survey.

Любопытно, что почти всё делают больше в течение дня — женщины. Уход за собой, уборка дома, уход за членами семьи, звонки по телефону, покупки.

У мужчин лидирует работа, спорт и... общение с другими людьми. Судя по всему, с другими мужчинами👀

➡️

https://flowingdata.com/2025/11/04/spend-days-men-women-2024/

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

3.93K views15:02

Data Science: SQL и Аналитика данных

➡️

Как нейросетей учат ставить диагнозы в виртуальной клинике

Задумывались ли вы когда-нибудь, как ИИ может быть полезен в медицине, особенно в постановке диагнозов? Это целая система, которая должна не только интерпретировать симптомы, но и планировать, какие тесты нужны для подтверждения гипотезы. И вот, в этом направлении Google и другие исследователи сделали большой шаг вперёд.

Давайте разберемся, как это работает. В медицине задача диагностики — это не просто моментальное суждение, а пошаговое принятие решений. Нужно собрать информацию, сделать тесты и сделать выводы. И вот тут традиционные модели ИИ могут забуксовать, потому что они часто не умеют планировать, какие шаги важны на каждом этапе. К счастью, теперь есть решения, которые могут не только диагностировать, но и эффективно управлять процессом тестирования. Одним из таких проектов стал DiagGym, где ИИ не только диагностирует, но и решает, что и когда тестировать.

Виртуальная клиника — модель для диагностики

DiagGym — это, по сути, имитация клиники. В ней виртуальные агенты выбирают, какие тесты провести, и получают награду не только за правильный диагноз, но и за оптимизацию процесса тестирования. Это настоящий симулятор, где агент учится не просто диагностировать, но и выбирать правильные шаги, чтобы не тратить время и ресурсы на лишние тесты. Такой подход делает ИИ гораздо более умным и гибким в своей работе.

Для этого используется метод обучения с подкреплением (RL), где агент учится на каждом шаге, выбирая, какие тесты делать, и когда завершить процесс. Чем быстрее он ставит диагноз с меньшими затратами, тем выше его награда. ИИ не просто учит нейросети правильным ответам, он учит её стратегическому планированию, как настоящий врач!

Внутри этой виртуальной клиники обучается агент, который на каждом шаге решает, какой тест заказать. И что интересно — этот агент показывает хорошие результаты. Например, в задаче с аппендицитом агент правильно выбирает тесты, такие как общий анализ крови и КТ, чтобы подтвердить диагноз. Это важно, потому что в реальной жизни важны не только точные ответы, но и способность выбрать правильный путь для диагностики.

Однако не всё так идеально. В одном из случаев агент диагностирует внематочную беременность, но не предпринимает нужных шагов для неотложного лечения. Это показывает, что несмотря на точность диагностики, ИИ ещё не может полностью заменить врача.

Когда такие ИИ действительно смогут заменить врача? В медицине важен не только правильный диагноз, но и способность действовать в экстренных ситуациях.

🫡 Всё про Data Science

🇷🇺 Читайте нас в MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

4.01K views12:00