AI LAB | Лаборатория ИИ
1.37K subscribers
453 photos
352 videos
22 files
746 links
Лаборатория ИИ
Эксперименты и интересные материалы на тему ИИ в архитектурном проектировании и не только.

Вопросы сотрудничества и соучастия
@j_fede

По другим вопросам 24/7
@unrealartur
Download Telegram
Forwarded from Data Secrets
Microsoft показали систему медицинского ИИ, которая ставит диагнозы в 4 раза лучше врачей. Разбираемся с нюансами.

Их механизм MAI-DxO имитирует работу команды из 5 врачей: доктор Гипотеза, доктор Отборщик, доктор Челленджер (играет роль критика), доктор Стюард (управляет расходами) и доктор Чеклист (итоговый контроль). Они «обсуждают» между собой, как стоит себя вести и вместе принимают решения.

На вход системе приходит минимальная информация (типа «Мужчина, 25, боли в груди»), как будто человек только что реально пришел в неотложку. Но, в то же время, есть база знаний, которая содержит дополнительную информацию.

Базой управляет отдельный агент. Доктора могут запросить анализы, задавать доп.вопросы про пациента или поставить диагноз. Если доктора принимают решения запросить какую-то инфу у агента хранителя – он ее выдаст, но то, чего они не спрашивали, никогда просто так не расскажет. А еще каждый тест стоит денег (по расценкам больниц США) – поэтому нам и нужен доктор Стюард.

Проверяли систему на наборе реальных кейсов из клинической практики. Живые врачи на этом бенчмарке выбили примерно 20%, а MAI-DxO – аж 85%. При этом живые врачи тратят на анализы даже больше: у них средняя «стоимость» постановки диагноза – 2963$, а у ИИ – 2397.

Впечатляет. Но есть и некоторые НО. Во-первых, в датасете не было ни одного здорового пациента, а врачи сталкиваются с такими постоянно. Плюс, тестировались в основном редкие заболевания. Встает вопрос об ошибке выжившего.

Во-вторых, кроме денег, никак не учитывается время ожидания анализов, осложнения от ненужных тестов и прочее.

В-третьих, врачам, решавшим бенчмарк, было запрещено гуглить, использовать базы медицинских данных и консультироваться с коллегами. На самом деле доктора так не работают.

В общем, это все круто, конечно, но не забываем, что пока что ИИ может выступать только помощником для реальных специалистов. Продолжаем обращаться к врачам 🚑

microsoft.ai/new/the-path-to-medical-superintelligence/
Media is too big
VIEW IN TELEGRAM
#ЛабораторияИИ #AILAB #Эксперименты
Навайбкодил башню

Пошел немного по другому пути и попробовал генерировать генератор башни, вот результат
Forwarded from Data Secrets
Большая новость: Microsoft опенсорснули расширение Copilot Chat для VSCode

Это полноценная реализация чат-ассистента для кодинга, включая имплементацию агентских способностей, управление контекстом и телеметрией и системные промпты.

Делают это Microsoft, чтобы их утилита была непосредственно интегрирована в сам VSCode. Для сравнения, популярный Cursor является всего лишь форком VSCode, а не полноценной интеграцией.

Важно: пока это просто чат-расширение. Copilot для inline помощи пока остается закрытым, но его обещают открыть до конца лета.

Весь код и документация тут. Лицензия MIT
Не про архитектуры и статьи, но тоже важно для контекста.

Пока мы тут сидим, Цукерберг вовсю собирает свою Superintelligence Labs, переманивая людей из ведущих компаний. Даже интересно, какая в итоге будет новая Лама.

https://www.theinformation.com/articles/zuckerbergs-new-ai-team-good
Forwarded from Machinelearning
🌟 FlexTok: адаптивная 1D-токенизация изображений от Apple.

FlexTok - метод токенизации изображений, который преобразует 2D-изображения в упорядоченные 1D-последовательности переменной длины.

Его цель - сократить объем данных, необходимых для обучения генеративных моделей, и при этом оставить достаточную информацию для качественной реконструкции и генерации.

В отличие от традиционных подходов, где число токенов фиксировано и зависит только от размера изображения, FlexTok подстраивается под сложность контента: простейшая сцена может кодироваться несколькими токенами, а сложная - десятками и сотнями .

FlexTok, это по сути, пайплайн из 3 компонентов: ViT‑энкодер, квантование регистров и маскирование внимания:

ViT‑энкодер с набором «регистровых» токенов читает латентные представления VAE‑GAN и конденсирует их в 1D-последовательность до 256 регистров .

Затем, с помощью FSQ‑квантования, каждый регистр дискретизируется в код из заранее определенного словаря размером ~64 000.
На этом этапе применяется "nested dropout": во время обучения случайно обрезаются последние токены, чтобы модель научилась упорядочивать информацию от грубых форм к деталям.

Параллельно применяется авторегрессионная маска внимания: каждый токен в цепочке видит только те, что были до него, и не знает о тех, что идут после. Это заставляет модель генерировать изображения шаг за шагом, от первого токена к последнему, и упрощает ей задачу прогнозирования следующих элементов.

Декодер в FlexTok - это модель rectified flow, которая на вход берет укороченные токены и слегка зашумленные латенты VAE и учится предсказывать тот шум, который нужно убрать, чтобы вернуть исходное представление.

Чтобы обучение шло быстрее и давало более точные результаты, добавляют REPA‑Loss: он сравнивает промежуточные признаки с векторами из DINOv2‑L. Благодаря этому даже при очень жесткой компрессии (от 1 до 256 токенов), FlexTok успешно восстанавливает детали изображения.

FlexTok легко встраивается в текстово‑ориентированные модели и может улучшить соответствие изображения описанию, даже если число токенов меняется. К тому же его адаптивная токенизация применима не только к картинкам, но и к аудио или видео.

▶️Набор токенизаторов:

🟢Flextok_d12_d12_in1k - 12\12 слоев энкодер-декодер, датасет IN1K;
🟢Flextok_d18_d18_in1k - 18\18 слоев энкодер-декодер, датасет IN1K;
🟢Flextok_d18_d28_in1k - 18\28 слоев энкодер-декодер, датасет IN1K;
🟢Flextok_d18_d28_dfm - 18\28 слоев энкодер-декодер, датасет DFN.

▶️ VAE:

🟠Flextok_vae_c4 - 4 каналов латента, коэффициент понижающей дискретизации 8;
🟠Flextok_vae_c8 - 8 каналов латента, коэффициент понижающей дискретизации 8;
🟠Flextok_vae_c16 - 16 каналов латента, коэффициент понижающей дискретизации 8.


🟡Страница проекта
🟡Набор на HF
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Tokenizer #Flextok #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#unrealneural
VideoCAD: набор данных записей экрана моделей OnShape, создаваемых в пользовательском интерфейсе для обучения «агентов браузера» для САПР.

Похоже, в следующем году будет битва между «просто использовать существующие пользовательские интерфейсы для людей» и «создать собственные LLM-коннекторы».
https://arxiv.org/abs/2505.24838
🔔 Напоминание о вебинаре!

Не пропустите наш вебинар «Цифровой помощник для архитектора: как R2.ОПР трансформирует работу на этапе объемно-планировочных решений»

📌 Дата
3 июля 2025 г.

Время
13:00 (МСК)

📍Формат
Трансляция в Telegram-канале Платформа R2. Новости (ссылка)

🔊 Спикеры
🤩 Виктор Лунев, руководитель проекта R2.ОПР
🤩 Дмитрий Девятко, руководитель группы автоматизации архитектурного проектирования

📝 На вебинаре разберём

🤩Знакомство с R2.ОПР
🤩Демонстрация пилотного проекта

👍 До встречи!
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Neural Parametric Gaussians для реконструкции монокулярных нежестких объектов

Новый двухэтапный подход для реконструкции 3д объектов из видео, решая проблему ограниченного качества новых видов при значительном отличии от обучающих данных. На первом этапе создается грубая нейронная модель деформации с низкоранговой декомпозицией, обеспечивающая временную согласованность, а на втором этапе оптимизируются трехмерные гауссовы функции в локальных объемах для высококачественной фотореалистичной реконструкции. NPG демонстрирует превосходство над существующими методами, особенно в сложных сценариях с минимальными многоракурсными данными, благодаря сильной регуляризации и эффективному моделированию деформаций. Ограничения метода связаны с высокой сложностью задачи, включая влияние статичной камеры или сложных движений, что может приводить к деформациям шаблона.

https://arxiv.org/html/2312.01196v2
#unrealneural
"Нейродегенеративный" психоз
Когда что-то пошло не так 🙃
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Veo3 Quality и Veo3 Fast

Промпт: A hyper-realistic cityscape rapidly folds upwards from the horizon like a book closing, skyscrapers twisting mid-air, cars still moving on vertical roads, clouds bending with the curvature — all in one continuous, breathtaking shot

Fast строит домик, а Quality лучше слушается промпта и действительно закрывает книжку, как испрошено.

Quality делал во Flow

Ну за Inception!

@cgevent
#unrealneural
Vecformer - transformer, использующий линии для задачи распознавания примитивов на векторных чертежах.

https://arxiv.org/abs/2505.23395
Media is too big
VIEW IN TELEGRAM
#unrealneural
Создание концепции мастер плана без 3д от STF Labs

Заставляет задуматься и пофантазировать о рабочем пайплайне без 3д моделирования 🙃
Media is too big
VIEW IN TELEGRAM
Репозиторий с набором инструментов для автоматизации проверки параметров в файлах Revit или IFC — локально, без плагинов и лицензий Autodesk

Подходит для подсчета количества, анализа данных и последующей обработки без необходимости приобретения дорогостоящих лицензий.

Основное про инструменты:
⚫️Преобразуют файлы форматов .rvt, .dwg, .ifc, .dgn в структурированные данные Excel и 3D-геометрию (DAE) с помощью автоматизации рабочих процессов через n8n.
⚫️Экспортируют из Revit данные в трех режимах: основные геометрические формы и свойства, материалы и параметры или полностью все данные модели со взаимосвязями.
⚫️Есть повторный импорт в Revit. Он позволяет загружать обновленные данные из Excel обратно в проект, синхронизировать параметры элементов и автоматизировать процесс обновления модели.
⚫️Расширяются через Python и ИИ, совместимы с n8n и аналитическими инструментами. Данные представлены в универсальном для автоматизации BIM-процессов формате.

Репозиторий на Гитхабе.
Please open Telegram to view this post
VIEW IN TELEGRAM
#unrealneural
Исследователи NVIDIA утверждают, что малые языковые модели (SLM) — это будущее агентного ИИ.

Более того, они предлагают метод преобразования существующих систем агентов с использования LLM на SLM, который может работать на практике.

https://arxiv.org/abs/2506.02153
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
📓🦙 NotebookLlama —Практически полный функционал NotebookLM — в опенсорсе.

Особенности:
✔️ Создаёт базу знаний из документов — с точным разбором через LlamaCloud
✔️ Автоматически пишет резюме и строит mind map-графы
✔️ Позволяет генерировать подкасты (работает на базе ElevenLabs)
✔️ Позволяет вести чат с агентом по документам
✔️ Метрики и аналитика через opentelemetry

🛠 Всё в открытом репо — можешь форкать, кастомизировать, заменять компоненты под себя.

Установка:


git clone https://github.com/run-llama/notebookllama


GitHub: https://github.com/run-llama/notebookllama
Попробовать в LlamaCloud: https://cloud.llamaindex.ai

@ai_machinelearning_big_data


#AI #ML #LLM #opensource #NotebookLM
Please open Telegram to view this post
VIEW IN TELEGRAM