AI LAB | Лаборатория ИИ
1.49K subscribers
501 photos
391 videos
23 files
802 links
Лаборатория ИИ
Эксперименты и интересные материалы на тему ИИ в архитектурном проектировании и не только.

По всем вопросам 24/7
@unrealartur

Вопросы сотрудничества и соучастия
@j_fede
Download Telegram
Forwarded from Machinelearning
🌟 FlexTok: адаптивная 1D-токенизация изображений от Apple.

FlexTok - метод токенизации изображений, который преобразует 2D-изображения в упорядоченные 1D-последовательности переменной длины.

Его цель - сократить объем данных, необходимых для обучения генеративных моделей, и при этом оставить достаточную информацию для качественной реконструкции и генерации.

В отличие от традиционных подходов, где число токенов фиксировано и зависит только от размера изображения, FlexTok подстраивается под сложность контента: простейшая сцена может кодироваться несколькими токенами, а сложная - десятками и сотнями .

FlexTok, это по сути, пайплайн из 3 компонентов: ViT‑энкодер, квантование регистров и маскирование внимания:

ViT‑энкодер с набором «регистровых» токенов читает латентные представления VAE‑GAN и конденсирует их в 1D-последовательность до 256 регистров .

Затем, с помощью FSQ‑квантования, каждый регистр дискретизируется в код из заранее определенного словаря размером ~64 000.
На этом этапе применяется "nested dropout": во время обучения случайно обрезаются последние токены, чтобы модель научилась упорядочивать информацию от грубых форм к деталям.

Параллельно применяется авторегрессионная маска внимания: каждый токен в цепочке видит только те, что были до него, и не знает о тех, что идут после. Это заставляет модель генерировать изображения шаг за шагом, от первого токена к последнему, и упрощает ей задачу прогнозирования следующих элементов.

Декодер в FlexTok - это модель rectified flow, которая на вход берет укороченные токены и слегка зашумленные латенты VAE и учится предсказывать тот шум, который нужно убрать, чтобы вернуть исходное представление.

Чтобы обучение шло быстрее и давало более точные результаты, добавляют REPA‑Loss: он сравнивает промежуточные признаки с векторами из DINOv2‑L. Благодаря этому даже при очень жесткой компрессии (от 1 до 256 токенов), FlexTok успешно восстанавливает детали изображения.

FlexTok легко встраивается в текстово‑ориентированные модели и может улучшить соответствие изображения описанию, даже если число токенов меняется. К тому же его адаптивная токенизация применима не только к картинкам, но и к аудио или видео.

▶️Набор токенизаторов:

🟢Flextok_d12_d12_in1k - 12\12 слоев энкодер-декодер, датасет IN1K;
🟢Flextok_d18_d18_in1k - 18\18 слоев энкодер-декодер, датасет IN1K;
🟢Flextok_d18_d28_in1k - 18\28 слоев энкодер-декодер, датасет IN1K;
🟢Flextok_d18_d28_dfm - 18\28 слоев энкодер-декодер, датасет DFN.

▶️ VAE:

🟠Flextok_vae_c4 - 4 каналов латента, коэффициент понижающей дискретизации 8;
🟠Flextok_vae_c8 - 8 каналов латента, коэффициент понижающей дискретизации 8;
🟠Flextok_vae_c16 - 16 каналов латента, коэффициент понижающей дискретизации 8.


🟡Страница проекта
🟡Набор на HF
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Tokenizer #Flextok #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43
#unrealneural
VideoCAD: набор данных записей экрана моделей OnShape, создаваемых в пользовательском интерфейсе для обучения «агентов браузера» для САПР.

Похоже, в следующем году будет битва между «просто использовать существующие пользовательские интерфейсы для людей» и «создать собственные LLM-коннекторы».
https://arxiv.org/abs/2505.24838
👍43
🔔 Напоминание о вебинаре!

Не пропустите наш вебинар «Цифровой помощник для архитектора: как R2.ОПР трансформирует работу на этапе объемно-планировочных решений»

📌 Дата
3 июля 2025 г.

Время
13:00 (МСК)

📍Формат
Трансляция в Telegram-канале Платформа R2. Новости (ссылка)

🔊 Спикеры
🤩 Виктор Лунев, руководитель проекта R2.ОПР
🤩 Дмитрий Девятко, руководитель группы автоматизации архитектурного проектирования

📝 На вебинаре разберём

🤩Знакомство с R2.ОПР
🤩Демонстрация пилотного проекта

👍 До встречи!
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Neural Parametric Gaussians для реконструкции монокулярных нежестких объектов

Новый двухэтапный подход для реконструкции 3д объектов из видео, решая проблему ограниченного качества новых видов при значительном отличии от обучающих данных. На первом этапе создается грубая нейронная модель деформации с низкоранговой декомпозицией, обеспечивающая временную согласованность, а на втором этапе оптимизируются трехмерные гауссовы функции в локальных объемах для высококачественной фотореалистичной реконструкции. NPG демонстрирует превосходство над существующими методами, особенно в сложных сценариях с минимальными многоракурсными данными, благодаря сильной регуляризации и эффективному моделированию деформаций. Ограничения метода связаны с высокой сложностью задачи, включая влияние статичной камеры или сложных движений, что может приводить к деформациям шаблона.

https://arxiv.org/html/2312.01196v2
👍3🔥1
#unrealneural
"Нейродегенеративный" психоз
Когда что-то пошло не так 🙃
😁93🔥2🤯1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Veo3 Quality и Veo3 Fast

Промпт: A hyper-realistic cityscape rapidly folds upwards from the horizon like a book closing, skyscrapers twisting mid-air, cars still moving on vertical roads, clouds bending with the curvature — all in one continuous, breathtaking shot

Fast строит домик, а Quality лучше слушается промпта и действительно закрывает книжку, как испрошено.

Quality делал во Flow

Ну за Inception!

@cgevent
5👍42🤔1
#unrealneural
Vecformer - transformer, использующий линии для задачи распознавания примитивов на векторных чертежах.

https://arxiv.org/abs/2505.23395
👍63
Media is too big
VIEW IN TELEGRAM
#unrealneural
Создание концепции мастер плана без 3д от STF Labs

Заставляет задуматься и пофантазировать о рабочем пайплайне без 3д моделирования 🙃
83🔥3
Media is too big
VIEW IN TELEGRAM
Репозиторий с набором инструментов для автоматизации проверки параметров в файлах Revit или IFC — локально, без плагинов и лицензий Autodesk

Подходит для подсчета количества, анализа данных и последующей обработки без необходимости приобретения дорогостоящих лицензий.

Основное про инструменты:
⚫️Преобразуют файлы форматов .rvt, .dwg, .ifc, .dgn в структурированные данные Excel и 3D-геометрию (DAE) с помощью автоматизации рабочих процессов через n8n.
⚫️Экспортируют из Revit данные в трех режимах: основные геометрические формы и свойства, материалы и параметры или полностью все данные модели со взаимосвязями.
⚫️Есть повторный импорт в Revit. Он позволяет загружать обновленные данные из Excel обратно в проект, синхронизировать параметры элементов и автоматизировать процесс обновления модели.
⚫️Расширяются через Python и ИИ, совместимы с n8n и аналитическими инструментами. Данные представлены в универсальном для автоматизации BIM-процессов формате.

Репозиторий на Гитхабе.
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍54
#unrealneural
Исследователи NVIDIA утверждают, что малые языковые модели (SLM) — это будущее агентного ИИ.

Более того, они предлагают метод преобразования существующих систем агентов с использования LLM на SLM, который может работать на практике.

https://arxiv.org/abs/2506.02153
5👍32
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
📓🦙 NotebookLlama —Практически полный функционал NotebookLM — в опенсорсе.

Особенности:
✔️ Создаёт базу знаний из документов — с точным разбором через LlamaCloud
✔️ Автоматически пишет резюме и строит mind map-графы
✔️ Позволяет генерировать подкасты (работает на базе ElevenLabs)
✔️ Позволяет вести чат с агентом по документам
✔️ Метрики и аналитика через opentelemetry

🛠 Всё в открытом репо — можешь форкать, кастомизировать, заменять компоненты под себя.

Установка:


git clone https://github.com/run-llama/notebookllama


GitHub: https://github.com/run-llama/notebookllama
Попробовать в LlamaCloud: https://cloud.llamaindex.ai

@ai_machinelearning_big_data


#AI #ML #LLM #opensource #NotebookLM
Please open Telegram to view this post
VIEW IN TELEGRAM
174👍4
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Sim Studio - это конструктор рабочих процессов агентов ИИ с открытым исходным кодом.
Интерфейс Sim Studio - способ быстрого создания и развертывания LLM, которые подключаются к любимым инструментам.

https://github.com/simstudioai/sim
👍831
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
ИИ Ретоп! Наконец то!

Хуньяньский бахнул новый 3д-генератор.

Его зовут Hunyuan3D-PolyGen.

Это точно не оперсорсная версия 2.1, и скорее всего апгрейд версии 2.5(которая без кода).

Судя по видео, Ретоп выглядит достаточно убойно, но я бы не доверял видосам.

Пишут, что сделали свою авторегрессионную модель для ретопа и теперь хошь в игры, хошь в кино.

Ибо теперь также 10 000+ полигонов на модель и повышенная точность генерации.

Умеет выводить в квады - такое мы любим.

Го тестировать:

https://3d.hunyuan.tencent.com/

@cgevent
👍743
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural

Fact Checker

Находит ошибки и исправляет факты в созданных ИИ блогах и статьях.

Полностью бесплатно и с открытым исходным кодом.

https://demo.exa.ai/hallucination-detector
🔥7👍32
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Dynamic Neural Point Clouds

В статье представлен новый метод синтеза новых видов динамических сцен из монокулярного видео, например, снятого на смартфон, с использованием динамического нейронного облака точек (DNPC). Интеграция априорных данных, таких как оценка глубины и сегментация объектов, позволяет устранить неоднозначности движения и глубины, ускоряя оптимизацию и повышая качество изображения. Метод демонстрирует высокое качество на тестовых последовательностях, быструю оптимизацию и поддержку интерактивных приложений в реальном времени.

https://moritzkappel.github.io/projects/dnpc/index.html
👍83🔥3
#unrealneural #пытаюсьпонять
Lost in Latent Space

В статье исследуют использование латентных диффузионных моделей для быстрой и точной эмуляции динамических систем, показывая их устойчивость к сжатию до 1000x и превосходство над негенеративными методами за счет разнообразия предсказаний. Высокая вычислительная стоимость диффузионных моделей ограничивает их применение, поэтому авторы предлагают генерацию в латентном пространстве автоэнкодера, как в обработке изображений и видео. Эмуляция в латентном пространстве сохраняет точность, компенсирует неопределенность и требует тщательного выбора архитектур и оптимизаторов. Автоэнкодеры, используемые для сжатия данных в латентное пространство, позволяют эффективно представлять сложные системы, минимизируя вычислительные затраты, что особенно востребовано в задачах обработки изображений для генерации и реконструкции визуальных данных.

https://huggingface.co/papers/2507.02608
5👍41