Forwarded from Data Secrets
Microsoft показали систему медицинского ИИ, которая ставит диагнозы в 4 раза лучше врачей. Разбираемся с нюансами.
Их механизм MAI-DxO имитирует работу команды из 5 врачей: доктор Гипотеза, доктор Отборщик, доктор Челленджер (играет роль критика), доктор Стюард (управляет расходами) и доктор Чеклист (итоговый контроль). Они «обсуждают» между собой, как стоит себя вести и вместе принимают решения.
На вход системе приходит минимальная информация (типа «Мужчина, 25, боли в груди»), как будто человек только что реально пришел в неотложку. Но, в то же время, есть база знаний, которая содержит дополнительную информацию.
Базой управляет отдельный агент. Доктора могут запросить анализы, задавать доп.вопросы про пациента или поставить диагноз. Если доктора принимают решения запросить какую-то инфу у агента хранителя – он ее выдаст, но то, чего они не спрашивали, никогда просто так не расскажет. А еще каждый тест стоит денег (по расценкам больниц США) – поэтому нам и нужен доктор Стюард.
Проверяли систему на наборе реальных кейсов из клинической практики. Живые врачи на этом бенчмарке выбили примерно 20%, а MAI-DxO – аж 85%. При этом живые врачи тратят на анализы даже больше: у них средняя «стоимость» постановки диагноза – 2963$, а у ИИ – 2397.
Впечатляет. Но есть и некоторые НО. Во-первых, в датасете не было ни одного здорового пациента, а врачи сталкиваются с такими постоянно. Плюс, тестировались в основном редкие заболевания. Встает вопрос об ошибке выжившего.
Во-вторых, кроме денег, никак не учитывается время ожидания анализов, осложнения от ненужных тестов и прочее.
В-третьих, врачам, решавшим бенчмарк, было запрещено гуглить, использовать базы медицинских данных и консультироваться с коллегами. На самом деле доктора так не работают.
В общем, это все круто, конечно, но не забываем, что пока что ИИ может выступать только помощником для реальных специалистов. Продолжаем обращаться к врачам 🚑
microsoft.ai/new/the-path-to-medical-superintelligence/
Их механизм MAI-DxO имитирует работу команды из 5 врачей: доктор Гипотеза, доктор Отборщик, доктор Челленджер (играет роль критика), доктор Стюард (управляет расходами) и доктор Чеклист (итоговый контроль). Они «обсуждают» между собой, как стоит себя вести и вместе принимают решения.
На вход системе приходит минимальная информация (типа «Мужчина, 25, боли в груди»), как будто человек только что реально пришел в неотложку. Но, в то же время, есть база знаний, которая содержит дополнительную информацию.
Базой управляет отдельный агент. Доктора могут запросить анализы, задавать доп.вопросы про пациента или поставить диагноз. Если доктора принимают решения запросить какую-то инфу у агента хранителя – он ее выдаст, но то, чего они не спрашивали, никогда просто так не расскажет. А еще каждый тест стоит денег (по расценкам больниц США) – поэтому нам и нужен доктор Стюард.
Проверяли систему на наборе реальных кейсов из клинической практики. Живые врачи на этом бенчмарке выбили примерно 20%, а MAI-DxO – аж 85%. При этом живые врачи тратят на анализы даже больше: у них средняя «стоимость» постановки диагноза – 2963$, а у ИИ – 2397.
Впечатляет. Но есть и некоторые НО. Во-первых, в датасете не было ни одного здорового пациента, а врачи сталкиваются с такими постоянно. Плюс, тестировались в основном редкие заболевания. Встает вопрос об ошибке выжившего.
Во-вторых, кроме денег, никак не учитывается время ожидания анализов, осложнения от ненужных тестов и прочее.
В-третьих, врачам, решавшим бенчмарк, было запрещено гуглить, использовать базы медицинских данных и консультироваться с коллегами. На самом деле доктора так не работают.
В общем, это все круто, конечно, но не забываем, что пока что ИИ может выступать только помощником для реальных специалистов. Продолжаем обращаться к врачам 🚑
microsoft.ai/new/the-path-to-medical-superintelligence/
Media is too big
VIEW IN TELEGRAM
#ЛабораторияИИ #AILAB #Эксперименты
Навайбкодил башню
Пошел немного по другому пути и попробовал генерировать генератор башни, вот результат
Навайбкодил башню
Пошел немного по другому пути и попробовал генерировать генератор башни, вот результат
Forwarded from Data Secrets
Большая новость: Microsoft опенсорснули расширение Copilot Chat для VSCode
Это полноценная реализация чат-ассистента для кодинга, включая имплементацию агентских способностей, управление контекстом и телеметрией и системные промпты.
Делают это Microsoft, чтобы их утилита была непосредственно интегрирована в сам VSCode. Для сравнения, популярный Cursor является всего лишь форком VSCode, а не полноценной интеграцией.
Важно: пока это просто чат-расширение. Copilot для inline помощи пока остается закрытым, но его обещают открыть до конца лета.
Весь код и документация тут. Лицензия MIT
Это полноценная реализация чат-ассистента для кодинга, включая имплементацию агентских способностей, управление контекстом и телеметрией и системные промпты.
Делают это Microsoft, чтобы их утилита была непосредственно интегрирована в сам VSCode. Для сравнения, популярный Cursor является всего лишь форком VSCode, а не полноценной интеграцией.
Важно: пока это просто чат-расширение. Copilot для inline помощи пока остается закрытым, но его обещают открыть до конца лета.
Весь код и документация тут. Лицензия MIT
Forwarded from gonzo-обзоры ML статей
Не про архитектуры и статьи, но тоже важно для контекста.
Пока мы тут сидим, Цукерберг вовсю собирает свою Superintelligence Labs, переманивая людей из ведущих компаний. Даже интересно, какая в итоге будет новая Лама.
https://www.theinformation.com/articles/zuckerbergs-new-ai-team-good
Пока мы тут сидим, Цукерберг вовсю собирает свою Superintelligence Labs, переманивая людей из ведущих компаний. Даже интересно, какая в итоге будет новая Лама.
https://www.theinformation.com/articles/zuckerbergs-new-ai-team-good
Forwarded from Machinelearning
FlexTok - метод токенизации изображений, который преобразует 2D-изображения в упорядоченные 1D-последовательности переменной длины.
Его цель - сократить объем данных, необходимых для обучения генеративных моделей, и при этом оставить достаточную информацию для качественной реконструкции и генерации.
В отличие от традиционных подходов, где число токенов фиксировано и зависит только от размера изображения, FlexTok подстраивается под сложность контента: простейшая сцена может кодироваться несколькими токенами, а сложная - десятками и сотнями .
FlexTok, это по сути, пайплайн из 3 компонентов: ViT‑энкодер, квантование регистров и маскирование внимания:
ViT‑энкодер с набором «регистровых» токенов читает латентные представления VAE‑GAN и конденсирует их в 1D-последовательность до 256 регистров .
Затем, с помощью FSQ‑квантования, каждый регистр дискретизируется в код из заранее определенного словаря размером ~64 000.
На этом этапе применяется "nested dropout": во время обучения случайно обрезаются последние токены, чтобы модель научилась упорядочивать информацию от грубых форм к деталям.
Параллельно применяется авторегрессионная маска внимания: каждый токен в цепочке видит только те, что были до него, и не знает о тех, что идут после. Это заставляет модель генерировать изображения шаг за шагом, от первого токена к последнему, и упрощает ей задачу прогнозирования следующих элементов.
Декодер в FlexTok - это модель rectified flow, которая на вход берет укороченные токены и слегка зашумленные латенты VAE и учится предсказывать тот шум, который нужно убрать, чтобы вернуть исходное представление.
Чтобы обучение шло быстрее и давало более точные результаты, добавляют REPA‑Loss: он сравнивает промежуточные признаки с векторами из DINOv2‑L. Благодаря этому даже при очень жесткой компрессии (от 1 до 256 токенов), FlexTok успешно восстанавливает детали изображения.
FlexTok легко встраивается в текстово‑ориентированные модели и может улучшить соответствие изображения описанию, даже если число токенов меняется. К тому же его адаптивная токенизация применима не только к картинкам, но и к аудио или видео.
@ai_machinelearning_big_data
#AI #ML #Tokenizer #Flextok #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#unrealneural
VideoCAD: набор данных записей экрана моделей OnShape, создаваемых в пользовательском интерфейсе для обучения «агентов браузера» для САПР.
Похоже, в следующем году будет битва между «просто использовать существующие пользовательские интерфейсы для людей» и «создать собственные LLM-коннекторы».
https://arxiv.org/abs/2505.24838
VideoCAD: набор данных записей экрана моделей OnShape, создаваемых в пользовательском интерфейсе для обучения «агентов браузера» для САПР.
Похоже, в следующем году будет битва между «просто использовать существующие пользовательские интерфейсы для людей» и «создать собственные LLM-коннекторы».
https://arxiv.org/abs/2505.24838
Forwarded from Платформа R2. Новости
Не пропустите наш вебинар «Цифровой помощник для архитектора: как R2.ОПР трансформирует работу на этапе объемно-планировочных решений»
3 июля 2025 г.
13:00 (МСК)
Трансляция в Telegram-канале Платформа R2. Новости (ссылка)
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Neural Parametric Gaussians для реконструкции монокулярных нежестких объектов
Новый двухэтапный подход для реконструкции 3д объектов из видео, решая проблему ограниченного качества новых видов при значительном отличии от обучающих данных. На первом этапе создается грубая нейронная модель деформации с низкоранговой декомпозицией, обеспечивающая временную согласованность, а на втором этапе оптимизируются трехмерные гауссовы функции в локальных объемах для высококачественной фотореалистичной реконструкции. NPG демонстрирует превосходство над существующими методами, особенно в сложных сценариях с минимальными многоракурсными данными, благодаря сильной регуляризации и эффективному моделированию деформаций. Ограничения метода связаны с высокой сложностью задачи, включая влияние статичной камеры или сложных движений, что может приводить к деформациям шаблона.
https://arxiv.org/html/2312.01196v2
Neural Parametric Gaussians для реконструкции монокулярных нежестких объектов
Новый двухэтапный подход для реконструкции 3д объектов из видео, решая проблему ограниченного качества новых видов при значительном отличии от обучающих данных. На первом этапе создается грубая нейронная модель деформации с низкоранговой декомпозицией, обеспечивающая временную согласованность, а на втором этапе оптимизируются трехмерные гауссовы функции в локальных объемах для высококачественной фотореалистичной реконструкции. NPG демонстрирует превосходство над существующими методами, особенно в сложных сценариях с минимальными многоракурсными данными, благодаря сильной регуляризации и эффективному моделированию деформаций. Ограничения метода связаны с высокой сложностью задачи, включая влияние статичной камеры или сложных движений, что может приводить к деформациям шаблона.
https://arxiv.org/html/2312.01196v2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Veo3 Quality и Veo3 Fast
Промпт: A hyper-realistic cityscape rapidly folds upwards from the horizon like a book closing, skyscrapers twisting mid-air, cars still moving on vertical roads, clouds bending with the curvature — all in one continuous, breathtaking shot
Fast строит домик, а Quality лучше слушается промпта и действительно закрывает книжку, как испрошено.
Quality делал во Flow
Ну за Inception!
@cgevent
Промпт: A hyper-realistic cityscape rapidly folds upwards from the horizon like a book closing, skyscrapers twisting mid-air, cars still moving on vertical roads, clouds bending with the curvature — all in one continuous, breathtaking shot
Fast строит домик, а Quality лучше слушается промпта и действительно закрывает книжку, как испрошено.
Quality делал во Flow
Ну за Inception!
@cgevent
#unrealneural
Vecformer - transformer, использующий линии для задачи распознавания примитивов на векторных чертежах.
https://arxiv.org/abs/2505.23395
Vecformer - transformer, использующий линии для задачи распознавания примитивов на векторных чертежах.
https://arxiv.org/abs/2505.23395
Media is too big
VIEW IN TELEGRAM
#unrealneural
Создание концепции мастер плана без 3д от STF Labs
Заставляет задуматься и пофантазировать о рабочем пайплайне без 3д моделирования 🙃
Создание концепции мастер плана без 3д от STF Labs
Заставляет задуматься и пофантазировать о рабочем пайплайне без 3д моделирования 🙃
Forwarded from ИИ и роботы в стройке
Media is too big
VIEW IN TELEGRAM
Репозиторий с набором инструментов для автоматизации проверки параметров в файлах Revit или IFC — локально, без плагинов и лицензий Autodesk
Подходит для подсчета количества, анализа данных и последующей обработки без необходимости приобретения дорогостоящих лицензий.
Основное про инструменты:
⚫️ Преобразуют файлы форматов .rvt, .dwg, .ifc, .dgn в структурированные данные Excel и 3D-геометрию (DAE) с помощью автоматизации рабочих процессов через n8n.
⚫️ Экспортируют из Revit данные в трех режимах: основные геометрические формы и свойства, материалы и параметры или полностью все данные модели со взаимосвязями.
⚫️ Есть повторный импорт в Revit. Он позволяет загружать обновленные данные из Excel обратно в проект, синхронизировать параметры элементов и автоматизировать процесс обновления модели.
⚫️ Расширяются через Python и ИИ, совместимы с n8n и аналитическими инструментами. Данные представлены в универсальном для автоматизации BIM-процессов формате.
Репозиторий на Гитхабе.
Подходит для подсчета количества, анализа данных и последующей обработки без необходимости приобретения дорогостоящих лицензий.
Основное про инструменты:
Репозиторий на Гитхабе.
Please open Telegram to view this post
VIEW IN TELEGRAM
#unrealneural
Исследователи NVIDIA утверждают, что малые языковые модели (SLM) — это будущее агентного ИИ.
Более того, они предлагают метод преобразования существующих систем агентов с использования LLM на SLM, который может работать на практике.
https://arxiv.org/abs/2506.02153
Исследователи NVIDIA утверждают, что малые языковые модели (SLM) — это будущее агентного ИИ.
Более того, они предлагают метод преобразования существующих систем агентов с использования LLM на SLM, который может работать на практике.
https://arxiv.org/abs/2506.02153
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
📓🦙 NotebookLlama —Практически полный функционал NotebookLM — в опенсорсе.
Особенности:
✔️ Создаёт базу знаний из документов — с точным разбором через LlamaCloud
✔️ Автоматически пишет резюме и строит mind map-графы
✔️ Позволяет генерировать подкасты (работает на базе ElevenLabs)
✔️ Позволяет вести чат с агентом по документам
✔️ Метрики и аналитика через opentelemetry
🛠 Всё в открытом репо — можешь форкать, кастомизировать, заменять компоненты под себя.
Установка:
▪GitHub: https://github.com/run-llama/notebookllama
▪Попробовать в LlamaCloud: https://cloud.llamaindex.ai
@ai_machinelearning_big_data
#AI #ML #LLM #opensource #NotebookLM
Особенности:
🛠 Всё в открытом репо — можешь форкать, кастомизировать, заменять компоненты под себя.
Установка:
git clone https://github.com/run-llama/notebookllama
▪GitHub: https://github.com/run-llama/notebookllama
▪Попробовать в LlamaCloud: https://cloud.llamaindex.ai
@ai_machinelearning_big_data
#AI #ML #LLM #opensource #NotebookLM
Please open Telegram to view this post
VIEW IN TELEGRAM