Forwarded from Machinelearning
FlexTok - метод токенизации изображений, который преобразует 2D-изображения в упорядоченные 1D-последовательности переменной длины.
Его цель - сократить объем данных, необходимых для обучения генеративных моделей, и при этом оставить достаточную информацию для качественной реконструкции и генерации.
В отличие от традиционных подходов, где число токенов фиксировано и зависит только от размера изображения, FlexTok подстраивается под сложность контента: простейшая сцена может кодироваться несколькими токенами, а сложная - десятками и сотнями .
FlexTok, это по сути, пайплайн из 3 компонентов: ViT‑энкодер, квантование регистров и маскирование внимания:
ViT‑энкодер с набором «регистровых» токенов читает латентные представления VAE‑GAN и конденсирует их в 1D-последовательность до 256 регистров .
Затем, с помощью FSQ‑квантования, каждый регистр дискретизируется в код из заранее определенного словаря размером ~64 000.
На этом этапе применяется "nested dropout": во время обучения случайно обрезаются последние токены, чтобы модель научилась упорядочивать информацию от грубых форм к деталям.
Параллельно применяется авторегрессионная маска внимания: каждый токен в цепочке видит только те, что были до него, и не знает о тех, что идут после. Это заставляет модель генерировать изображения шаг за шагом, от первого токена к последнему, и упрощает ей задачу прогнозирования следующих элементов.
Декодер в FlexTok - это модель rectified flow, которая на вход берет укороченные токены и слегка зашумленные латенты VAE и учится предсказывать тот шум, который нужно убрать, чтобы вернуть исходное представление.
Чтобы обучение шло быстрее и давало более точные результаты, добавляют REPA‑Loss: он сравнивает промежуточные признаки с векторами из DINOv2‑L. Благодаря этому даже при очень жесткой компрессии (от 1 до 256 токенов), FlexTok успешно восстанавливает детали изображения.
FlexTok легко встраивается в текстово‑ориентированные модели и может улучшить соответствие изображения описанию, даже если число токенов меняется. К тому же его адаптивная токенизация применима не только к картинкам, но и к аудио или видео.
@ai_machinelearning_big_data
#AI #ML #Tokenizer #Flextok #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4⚡3
#unrealneural
VideoCAD: набор данных записей экрана моделей OnShape, создаваемых в пользовательском интерфейсе для обучения «агентов браузера» для САПР.
Похоже, в следующем году будет битва между «просто использовать существующие пользовательские интерфейсы для людей» и «создать собственные LLM-коннекторы».
https://arxiv.org/abs/2505.24838
VideoCAD: набор данных записей экрана моделей OnShape, создаваемых в пользовательском интерфейсе для обучения «агентов браузера» для САПР.
Похоже, в следующем году будет битва между «просто использовать существующие пользовательские интерфейсы для людей» и «создать собственные LLM-коннекторы».
https://arxiv.org/abs/2505.24838
👍4⚡3
Forwarded from Платформа R2. Новости
Не пропустите наш вебинар «Цифровой помощник для архитектора: как R2.ОПР трансформирует работу на этапе объемно-планировочных решений»
3 июля 2025 г.
13:00 (МСК)
Трансляция в Telegram-канале Платформа R2. Новости (ссылка)
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Neural Parametric Gaussians для реконструкции монокулярных нежестких объектов
Новый двухэтапный подход для реконструкции 3д объектов из видео, решая проблему ограниченного качества новых видов при значительном отличии от обучающих данных. На первом этапе создается грубая нейронная модель деформации с низкоранговой декомпозицией, обеспечивающая временную согласованность, а на втором этапе оптимизируются трехмерные гауссовы функции в локальных объемах для высококачественной фотореалистичной реконструкции. NPG демонстрирует превосходство над существующими методами, особенно в сложных сценариях с минимальными многоракурсными данными, благодаря сильной регуляризации и эффективному моделированию деформаций. Ограничения метода связаны с высокой сложностью задачи, включая влияние статичной камеры или сложных движений, что может приводить к деформациям шаблона.
https://arxiv.org/html/2312.01196v2
Neural Parametric Gaussians для реконструкции монокулярных нежестких объектов
Новый двухэтапный подход для реконструкции 3д объектов из видео, решая проблему ограниченного качества новых видов при значительном отличии от обучающих данных. На первом этапе создается грубая нейронная модель деформации с низкоранговой декомпозицией, обеспечивающая временную согласованность, а на втором этапе оптимизируются трехмерные гауссовы функции в локальных объемах для высококачественной фотореалистичной реконструкции. NPG демонстрирует превосходство над существующими методами, особенно в сложных сценариях с минимальными многоракурсными данными, благодаря сильной регуляризации и эффективному моделированию деформаций. Ограничения метода связаны с высокой сложностью задачи, включая влияние статичной камеры или сложных движений, что может приводить к деформациям шаблона.
https://arxiv.org/html/2312.01196v2
👍3🔥1
😁9❤3🔥2🤯1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Veo3 Quality и Veo3 Fast
Промпт: A hyper-realistic cityscape rapidly folds upwards from the horizon like a book closing, skyscrapers twisting mid-air, cars still moving on vertical roads, clouds bending with the curvature — all in one continuous, breathtaking shot
Fast строит домик, а Quality лучше слушается промпта и действительно закрывает книжку, как испрошено.
Quality делал во Flow
Ну за Inception!
@cgevent
Промпт: A hyper-realistic cityscape rapidly folds upwards from the horizon like a book closing, skyscrapers twisting mid-air, cars still moving on vertical roads, clouds bending with the curvature — all in one continuous, breathtaking shot
Fast строит домик, а Quality лучше слушается промпта и действительно закрывает книжку, как испрошено.
Quality делал во Flow
Ну за Inception!
@cgevent
❤5👍4⚡2🤔1
#unrealneural
Vecformer - transformer, использующий линии для задачи распознавания примитивов на векторных чертежах.
https://arxiv.org/abs/2505.23395
Vecformer - transformer, использующий линии для задачи распознавания примитивов на векторных чертежах.
https://arxiv.org/abs/2505.23395
👍6⚡3
Media is too big
VIEW IN TELEGRAM
#unrealneural
Создание концепции мастер плана без 3д от STF Labs
Заставляет задуматься и пофантазировать о рабочем пайплайне без 3д моделирования 🙃
Создание концепции мастер плана без 3д от STF Labs
Заставляет задуматься и пофантазировать о рабочем пайплайне без 3д моделирования 🙃
❤8⚡3🔥3
Forwarded from ИИ и роботы в стройке
Media is too big
VIEW IN TELEGRAM
Репозиторий с набором инструментов для автоматизации проверки параметров в файлах Revit или IFC — локально, без плагинов и лицензий Autodesk
Подходит для подсчета количества, анализа данных и последующей обработки без необходимости приобретения дорогостоящих лицензий.
Основное про инструменты:
⚫️ Преобразуют файлы форматов .rvt, .dwg, .ifc, .dgn в структурированные данные Excel и 3D-геометрию (DAE) с помощью автоматизации рабочих процессов через n8n.
⚫️ Экспортируют из Revit данные в трех режимах: основные геометрические формы и свойства, материалы и параметры или полностью все данные модели со взаимосвязями.
⚫️ Есть повторный импорт в Revit. Он позволяет загружать обновленные данные из Excel обратно в проект, синхронизировать параметры элементов и автоматизировать процесс обновления модели.
⚫️ Расширяются через Python и ИИ, совместимы с n8n и аналитическими инструментами. Данные представлены в универсальном для автоматизации BIM-процессов формате.
Репозиторий на Гитхабе.
Подходит для подсчета количества, анализа данных и последующей обработки без необходимости приобретения дорогостоящих лицензий.
Основное про инструменты:
Репозиторий на Гитхабе.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍5⚡4
#unrealneural
Исследователи NVIDIA утверждают, что малые языковые модели (SLM) — это будущее агентного ИИ.
Более того, они предлагают метод преобразования существующих систем агентов с использования LLM на SLM, который может работать на практике.
https://arxiv.org/abs/2506.02153
Исследователи NVIDIA утверждают, что малые языковые модели (SLM) — это будущее агентного ИИ.
Более того, они предлагают метод преобразования существующих систем агентов с использования LLM на SLM, который может работать на практике.
https://arxiv.org/abs/2506.02153
⚡5👍3❤2
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
📓🦙 NotebookLlama —Практически полный функционал NotebookLM — в опенсорсе.
Особенности:
✔️ Создаёт базу знаний из документов — с точным разбором через LlamaCloud
✔️ Автоматически пишет резюме и строит mind map-графы
✔️ Позволяет генерировать подкасты (работает на базе ElevenLabs)
✔️ Позволяет вести чат с агентом по документам
✔️ Метрики и аналитика через opentelemetry
🛠 Всё в открытом репо — можешь форкать, кастомизировать, заменять компоненты под себя.
Установка:
▪GitHub: https://github.com/run-llama/notebookllama
▪Попробовать в LlamaCloud: https://cloud.llamaindex.ai
@ai_machinelearning_big_data
#AI #ML #LLM #opensource #NotebookLM
Особенности:
🛠 Всё в открытом репо — можешь форкать, кастомизировать, заменять компоненты под себя.
Установка:
git clone https://github.com/run-llama/notebookllama
▪GitHub: https://github.com/run-llama/notebookllama
▪Попробовать в LlamaCloud: https://cloud.llamaindex.ai
@ai_machinelearning_big_data
#AI #ML #LLM #opensource #NotebookLM
Please open Telegram to view this post
VIEW IN TELEGRAM
1⚡7❤4👍4
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Sim Studio - это конструктор рабочих процессов агентов ИИ с открытым исходным кодом.
Интерфейс Sim Studio - способ быстрого создания и развертывания LLM, которые подключаются к любимым инструментам.
https://github.com/simstudioai/sim
Sim Studio - это конструктор рабочих процессов агентов ИИ с открытым исходным кодом.
Интерфейс Sim Studio - способ быстрого создания и развертывания LLM, которые подключаются к любимым инструментам.
https://github.com/simstudioai/sim
👍8⚡3❤1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
ИИ Ретоп! Наконец то!
Хуньяньский бахнул новый 3д-генератор.
Его зовут Hunyuan3D-PolyGen.
Это точно не оперсорсная версия 2.1, и скорее всего апгрейд версии 2.5(которая без кода).
Судя по видео, Ретоп выглядит достаточно убойно, но я бы не доверял видосам.
Пишут, что сделали свою авторегрессионную модель для ретопа и теперь хошь в игры, хошь в кино.
Ибо теперь также 10 000+ полигонов на модель и повышенная точность генерации.
Умеет выводить в квады - такое мы любим.
Го тестировать:
https://3d.hunyuan.tencent.com/
@cgevent
Хуньяньский бахнул новый 3д-генератор.
Его зовут Hunyuan3D-PolyGen.
Это точно не оперсорсная версия 2.1, и скорее всего апгрейд версии 2.5(которая без кода).
Судя по видео, Ретоп выглядит достаточно убойно, но я бы не доверял видосам.
Пишут, что сделали свою авторегрессионную модель для ретопа и теперь хошь в игры, хошь в кино.
Ибо теперь также 10 000+ полигонов на модель и повышенная точность генерации.
Умеет выводить в квады - такое мы любим.
Го тестировать:
https://3d.hunyuan.tencent.com/
@cgevent
👍7❤4⚡3
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Fact Checker
Находит ошибки и исправляет факты в созданных ИИ блогах и статьях.
Полностью бесплатно и с открытым исходным кодом.
https://demo.exa.ai/hallucination-detector
Fact Checker
Находит ошибки и исправляет факты в созданных ИИ блогах и статьях.
Полностью бесплатно и с открытым исходным кодом.
https://demo.exa.ai/hallucination-detector
🔥7👍3⚡2
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Dynamic Neural Point Clouds
В статье представлен новый метод синтеза новых видов динамических сцен из монокулярного видео, например, снятого на смартфон, с использованием динамического нейронного облака точек (DNPC). Интеграция априорных данных, таких как оценка глубины и сегментация объектов, позволяет устранить неоднозначности движения и глубины, ускоряя оптимизацию и повышая качество изображения. Метод демонстрирует высокое качество на тестовых последовательностях, быструю оптимизацию и поддержку интерактивных приложений в реальном времени.
https://moritzkappel.github.io/projects/dnpc/index.html
Dynamic Neural Point Clouds
В статье представлен новый метод синтеза новых видов динамических сцен из монокулярного видео, например, снятого на смартфон, с использованием динамического нейронного облака точек (DNPC). Интеграция априорных данных, таких как оценка глубины и сегментация объектов, позволяет устранить неоднозначности движения и глубины, ускоряя оптимизацию и повышая качество изображения. Метод демонстрирует высокое качество на тестовых последовательностях, быструю оптимизацию и поддержку интерактивных приложений в реальном времени.
https://moritzkappel.github.io/projects/dnpc/index.html
👍8⚡3🔥3
#unrealneural #пытаюсьпонять
Lost in Latent Space
В статье исследуют использование латентных диффузионных моделей для быстрой и точной эмуляции динамических систем, показывая их устойчивость к сжатию до 1000x и превосходство над негенеративными методами за счет разнообразия предсказаний. Высокая вычислительная стоимость диффузионных моделей ограничивает их применение, поэтому авторы предлагают генерацию в латентном пространстве автоэнкодера, как в обработке изображений и видео. Эмуляция в латентном пространстве сохраняет точность, компенсирует неопределенность и требует тщательного выбора архитектур и оптимизаторов. Автоэнкодеры, используемые для сжатия данных в латентное пространство, позволяют эффективно представлять сложные системы, минимизируя вычислительные затраты, что особенно востребовано в задачах обработки изображений для генерации и реконструкции визуальных данных.
https://huggingface.co/papers/2507.02608
Lost in Latent Space
В статье исследуют использование латентных диффузионных моделей для быстрой и точной эмуляции динамических систем, показывая их устойчивость к сжатию до 1000x и превосходство над негенеративными методами за счет разнообразия предсказаний. Высокая вычислительная стоимость диффузионных моделей ограничивает их применение, поэтому авторы предлагают генерацию в латентном пространстве автоэнкодера, как в обработке изображений и видео. Эмуляция в латентном пространстве сохраняет точность, компенсирует неопределенность и требует тщательного выбора архитектур и оптимизаторов. Автоэнкодеры, используемые для сжатия данных в латентное пространство, позволяют эффективно представлять сложные системы, минимизируя вычислительные затраты, что особенно востребовано в задачах обработки изображений для генерации и реконструкции визуальных данных.
https://huggingface.co/papers/2507.02608
⚡5👍4❤1