AI LAB | Лаборатория ИИ
1.62K subscribers
534 photos
403 videos
23 files
823 links
Лаборатория ИИ
Эксперименты и интересные материалы на тему ИИ в архитектурном проектировании и не только.

По всем вопросам 24/7
@unrealartur

Вопросы сотрудничества и соучастия
@j_fede
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural #вкопилкуэрудита

Diffusion Tree Sampling (DTS) вводит новый подход к управлению выводом в диффузионных моделях, переформулируя процесс как оптимизацию с учетом вознаграждения, вдохновленную поиском по дереву Монте-Карло.

DTS обеспечивает асимптотически точные выборки из целевого распределения при бесконечных развертываниях. Его жадная версия, DTS⋆, реализует глобальный поиск выборок с высоким вознаграждением.

В задачах условной генерации на MNIST и CIFAR-10 DTS достигает FID, сравнимого с лучшими базовыми моделями, при 10-кратной экономии вычислений. В задачах преобразования текста в изображение и завершения языка DTS эффективно находит образцы с высоким вознаграждением, сокращая объем вычислений в 5 раз.
5👍4
Недавно в канале Data Secrets вышел прикольный пост про «секретный проект DeepMind» о решении проблемы тысячелетия, связанной с уравнением Навье-Стокса. Формулировку, правда, написали не совсем верную (про поиск аналитического решения, которого нет). Упоминался и прекрасный AlphaEvolve.

Простыми словами, до сих пор неизвестно, существует ли решение уравнения Навье-Стокса и являются ли они гладкими.
Небольшое расследование выявило, что скорее всего коллеги пытаются эту гипотезу опровергнуть, предъявив пример, когда в замкнутой системе (например, в цилиндре) из «спокойного» течения разовьется сингулярное течение. А здесь как раз идеально подходят эволюционные алгоритмы, так как нужно просто простроить пример такой функции.
Если посмотреть, кто упомянут, и посмотреть работы, то это становится абсолютно ясным. Одним из активных участников исследования является Теренс Тао, филдсовский лауреат, один из самых крутых математиков не только современности, но и за всю историю. У него есть, например, такая работа (и таких довольно много), где ясно, что они давно думают как раз над контпримером, и эволюционный перебор с помощью LLM им точно должен с этим помочь.

Небольшой спойлер: мы тоже работаем в этом направлении по эволюции программ с помощью LLM, stay tuned!
👍543
#пытаюсьпонять #unrealneural #вкопилкуэрудита
Изменится ли человеческий мозг в будущем и нейропластичность

Биологически мозг человека почти не отличается от мозга людей 10 000 лет назад, но нейропластичность позволила адаптироваться к новым условиям. Например, постоянное использование смартфонов и интернета привело к изменениям в когнитивных процессах: сократилось среднее время концентрации внимания (с 12 секунд в 2000 году до 8 секунд к 2020-м, согласно исследованиям), а способность к многозадачности усилилась. Также цифровая среда изменила способы запоминания: люди чаще полагаются на внешние источники информации (эффект "цифровой амнезии"). Образование и улучшение питания за последние столетия увеличили средний IQ на 10–20 пунктов (эффект Флинна), хотя этот рост замедлился в некоторых странах. Технологии, такие как нейроинтерфейсы, пока находятся на ранних стадиях, но эксперименты (например, Neuralink) уже показывают потенциал для усиления когнитивных функций.

Давление среды вероятно не сильно будет влиять и менять состояние человеческого мозга.Однако нейроинтерфейсы могут очень сильно повлиять, так как возникает новый уровень взаимодействия с окружающей средой, возможно возникновение нового типа восприятия, что в свою очередь может очень сильно диформировать состояние и адаптацию нервной системы.

Цифровизация и виртуальная реальность уже формируют новые нейронные связи.
🤔6👍43👨‍💻1
This media is not supported in your browser
VIEW IN TELEGRAM
#AILAB #ЛабораторияИИ #эксперименты
Навайбкодил башню 🤷🏻‍♂️
53👍3🔥3
#unrealneural
LLaVA-Scissor

Tongyi Lab от Alibaba только что выпустила LLaVA-Scissor на Hugging Face. Стратегия сжатия токенов без обучения для видео LLM, использующая семантически связанные компоненты для всестороннего семантического покрытия.

И что это нам дает?

1. Мультимодальные модели, способные обрабатывать текст, изображения и видео, являются важным направлением развития ИИ. LLaVA-Scissor решает одну из ключевых проблем таких моделей — высокую вычислительную стоимость обработки видеоданных.
2. Благодаря снижению вычислительных затрат, подход делает мультимодальные модели более доступными для использования в реальных приложениях.
https://huggingface.co/papers/2506.21862
👍2🔥1
Полезное исследование на стыке LLM и BIM о применении ИИ для полуавтоматической проверки моделей в Revit на соответствие строительным нормам

⚫️Цель: разработать LLM-ориентированный подход, который преобразует строительные нормы в исполняемые Python-скрипты и интегрируется с Revit для полуавтоматической проверки соответствия в BIM.

Что предложили авторы:
🔵Вместо ручного написания скриптов для Revit пользователь формулирует запрос на естественном языке.
🔵LLM переводит этот запрос в Python-код для Dynamo/Revit API, который выполняет проверку.

Сравнили разные LLM (GPT-4, Claude 3, Gemini 1.5, Llama 3).
🔵Тестировали, какие модели лучше справляются с интерпретацией строительных норм, генерацией работоспособного кода, обработкой геометрии BIM-моделей.
🔵Лучшие результаты у GPT-4 и Claude 3 (по качеству интерпретации и работоспособности сгенерированных скриптов), хуже — у открытых моделей типа Llama.

Кейсы и экспериментальная проверка
Авторы тестировали свой метод на двух проектах — жилом доме (ИЖС) и офисном здании. Для каждого проекта определили набор типовых строительных правил (например, минимальные размеры помещений, требования к материалам, расположению объектов) и сформировали запросы к LLM для генерации проверочных скриптов.

[Тоже как и многие😁] обнаружили ключевую проблему
🔵LLM часто ошибаются в логике проверок, если требования в нормах сформулированы нечётко.
🔵Например, фраза «коридоры должны быть достаточно широкими для эвакуации» требует уточнения — иначе ИИ генерирует некорректный код.

Из относительно нового, но входящего в практику
🔵Авторы переложили часть работы по автоматизации проверок на ИИ — то есть ИИ пишет скрипты.
🔵Показали, какие типы проверок работают хорошо (простые параметрические правила), а какие — плохо (сложная геометрия, субъективные требования).
🔵 Ну и еще раз показали, что ИИ не заменит пока инженера, но ускорит рутину.

Подробнее — на arxiv.org в статье Large Language Model-Driven Code Compliance Checking in Building Information Modeling
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍53
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
Ну все, это вайб-кодинг на максималках: Cursor теперь доступен с телефона и в вебе

Прямо со смартфона можно будет добавлять параллельные таски, редактировать код, создавать PR, управлять задачами и так далее. Все изменения, естественно, сохранятся в вашем проекте и потом можно будет продолжить работать с того же места уже с компьютера.

Наконец-то будет чем заняться в метро 🧑‍💻

www.cursor.com/agents
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥43
#unrealneural
AB-MCTS: Когда ИИ работают вместе, они решают сложные задачи лучше

Команда Sakana AI представила новый алгоритм AB-MCTS, который позволяет разным передовым моделям (например, Gemini, DeepSeek, o4-mini) «объединять силы» и находить решения, недоступные для каждой по отдельности.

— Модели предлагают разные варианты ответов, используя свои сильные стороны.
— Алгоритм адаптивно выбирает лучшие идеи, как команда экспертов.
— Результат — более точные и надежные решения

Итог:
- Коллективный интеллект для ИИ: разные модели = разные взгляды = меньше ошибок.
- Гибкость: можно подключать новые модели без переобучения.
- Будущее: ИИ-команды вместо одиночных "умников" 😃

https://sakana.ai/ab-mcts
3👍32
Forwarded from Data Secrets
Microsoft показали систему медицинского ИИ, которая ставит диагнозы в 4 раза лучше врачей. Разбираемся с нюансами.

Их механизм MAI-DxO имитирует работу команды из 5 врачей: доктор Гипотеза, доктор Отборщик, доктор Челленджер (играет роль критика), доктор Стюард (управляет расходами) и доктор Чеклист (итоговый контроль). Они «обсуждают» между собой, как стоит себя вести и вместе принимают решения.

На вход системе приходит минимальная информация (типа «Мужчина, 25, боли в груди»), как будто человек только что реально пришел в неотложку. Но, в то же время, есть база знаний, которая содержит дополнительную информацию.

Базой управляет отдельный агент. Доктора могут запросить анализы, задавать доп.вопросы про пациента или поставить диагноз. Если доктора принимают решения запросить какую-то инфу у агента хранителя – он ее выдаст, но то, чего они не спрашивали, никогда просто так не расскажет. А еще каждый тест стоит денег (по расценкам больниц США) – поэтому нам и нужен доктор Стюард.

Проверяли систему на наборе реальных кейсов из клинической практики. Живые врачи на этом бенчмарке выбили примерно 20%, а MAI-DxO – аж 85%. При этом живые врачи тратят на анализы даже больше: у них средняя «стоимость» постановки диагноза – 2963$, а у ИИ – 2397.

Впечатляет. Но есть и некоторые НО. Во-первых, в датасете не было ни одного здорового пациента, а врачи сталкиваются с такими постоянно. Плюс, тестировались в основном редкие заболевания. Встает вопрос об ошибке выжившего.

Во-вторых, кроме денег, никак не учитывается время ожидания анализов, осложнения от ненужных тестов и прочее.

В-третьих, врачам, решавшим бенчмарк, было запрещено гуглить, использовать базы медицинских данных и консультироваться с коллегами. На самом деле доктора так не работают.

В общем, это все круто, конечно, но не забываем, что пока что ИИ может выступать только помощником для реальных специалистов. Продолжаем обращаться к врачам 🚑

microsoft.ai/new/the-path-to-medical-superintelligence/
👍43
Media is too big
VIEW IN TELEGRAM
#ЛабораторияИИ #AILAB #Эксперименты
Навайбкодил башню

Пошел немного по другому пути и попробовал генерировать генератор башни, вот результат
🔥73👏2
Forwarded from Data Secrets
Большая новость: Microsoft опенсорснули расширение Copilot Chat для VSCode

Это полноценная реализация чат-ассистента для кодинга, включая имплементацию агентских способностей, управление контекстом и телеметрией и системные промпты.

Делают это Microsoft, чтобы их утилита была непосредственно интегрирована в сам VSCode. Для сравнения, популярный Cursor является всего лишь форком VSCode, а не полноценной интеграцией.

Важно: пока это просто чат-расширение. Copilot для inline помощи пока остается закрытым, но его обещают открыть до конца лета.

Весь код и документация тут. Лицензия MIT
🔥4👍3
Не про архитектуры и статьи, но тоже важно для контекста.

Пока мы тут сидим, Цукерберг вовсю собирает свою Superintelligence Labs, переманивая людей из ведущих компаний. Даже интересно, какая в итоге будет новая Лама.

https://www.theinformation.com/articles/zuckerbergs-new-ai-team-good
🤔6🤯1
Forwarded from Machinelearning
🌟 FlexTok: адаптивная 1D-токенизация изображений от Apple.

FlexTok - метод токенизации изображений, который преобразует 2D-изображения в упорядоченные 1D-последовательности переменной длины.

Его цель - сократить объем данных, необходимых для обучения генеративных моделей, и при этом оставить достаточную информацию для качественной реконструкции и генерации.

В отличие от традиционных подходов, где число токенов фиксировано и зависит только от размера изображения, FlexTok подстраивается под сложность контента: простейшая сцена может кодироваться несколькими токенами, а сложная - десятками и сотнями .

FlexTok, это по сути, пайплайн из 3 компонентов: ViT‑энкодер, квантование регистров и маскирование внимания:

ViT‑энкодер с набором «регистровых» токенов читает латентные представления VAE‑GAN и конденсирует их в 1D-последовательность до 256 регистров .

Затем, с помощью FSQ‑квантования, каждый регистр дискретизируется в код из заранее определенного словаря размером ~64 000.
На этом этапе применяется "nested dropout": во время обучения случайно обрезаются последние токены, чтобы модель научилась упорядочивать информацию от грубых форм к деталям.

Параллельно применяется авторегрессионная маска внимания: каждый токен в цепочке видит только те, что были до него, и не знает о тех, что идут после. Это заставляет модель генерировать изображения шаг за шагом, от первого токена к последнему, и упрощает ей задачу прогнозирования следующих элементов.

Декодер в FlexTok - это модель rectified flow, которая на вход берет укороченные токены и слегка зашумленные латенты VAE и учится предсказывать тот шум, который нужно убрать, чтобы вернуть исходное представление.

Чтобы обучение шло быстрее и давало более точные результаты, добавляют REPA‑Loss: он сравнивает промежуточные признаки с векторами из DINOv2‑L. Благодаря этому даже при очень жесткой компрессии (от 1 до 256 токенов), FlexTok успешно восстанавливает детали изображения.

FlexTok легко встраивается в текстово‑ориентированные модели и может улучшить соответствие изображения описанию, даже если число токенов меняется. К тому же его адаптивная токенизация применима не только к картинкам, но и к аудио или видео.

▶️Набор токенизаторов:

🟢Flextok_d12_d12_in1k - 12\12 слоев энкодер-декодер, датасет IN1K;
🟢Flextok_d18_d18_in1k - 18\18 слоев энкодер-декодер, датасет IN1K;
🟢Flextok_d18_d28_in1k - 18\28 слоев энкодер-декодер, датасет IN1K;
🟢Flextok_d18_d28_dfm - 18\28 слоев энкодер-декодер, датасет DFN.

▶️ VAE:

🟠Flextok_vae_c4 - 4 каналов латента, коэффициент понижающей дискретизации 8;
🟠Flextok_vae_c8 - 8 каналов латента, коэффициент понижающей дискретизации 8;
🟠Flextok_vae_c16 - 16 каналов латента, коэффициент понижающей дискретизации 8.


🟡Страница проекта
🟡Набор на HF
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Tokenizer #Flextok #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43
#unrealneural
VideoCAD: набор данных записей экрана моделей OnShape, создаваемых в пользовательском интерфейсе для обучения «агентов браузера» для САПР.

Похоже, в следующем году будет битва между «просто использовать существующие пользовательские интерфейсы для людей» и «создать собственные LLM-коннекторы».
https://arxiv.org/abs/2505.24838
👍43
🔔 Напоминание о вебинаре!

Не пропустите наш вебинар «Цифровой помощник для архитектора: как R2.ОПР трансформирует работу на этапе объемно-планировочных решений»

📌 Дата
3 июля 2025 г.

Время
13:00 (МСК)

📍Формат
Трансляция в Telegram-канале Платформа R2. Новости (ссылка)

🔊 Спикеры
🤩 Виктор Лунев, руководитель проекта R2.ОПР
🤩 Дмитрий Девятко, руководитель группы автоматизации архитектурного проектирования

📝 На вебинаре разберём

🤩Знакомство с R2.ОПР
🤩Демонстрация пилотного проекта

👍 До встречи!
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2