BigData

MASt3R-SLAM: детализированный SLAM с априорными данными 3D-реконструкции в реальном времени.

Представлена система плотного SLAM в реальном времени с использованием одной камеры, разработанная на основе MASt3R — приорной модели для реконструкции сцены и сопоставления по двум изображениям. Благодаря использованию этого мощного ML-приора, система сохраняет устойчивость при работе с произвольными видеопоследовательностями из реального мира, не накладывая ограничений на калиброванную или параметрическую модель камеры, за исключением предположения об уникальном центре проекции.

В рамках архитектуры реализованы эффективные алгоритмы сопоставления с картой точек (pointmap matching), трекинга камеры, локального слияния (fusion), построения графа и замыкания петель (loop closure), а также глобальной оптимизации второго порядка.

При наличии калибровки камеры, достаточно минимальной модификации, чтобы достичь state-of-the-art результатов на ряде стандартных бенчмарков. В целом, система представляет собой plug-and-play решение для монокулярного SLAM, обеспечивающее глобально согласованные траектории камеры и плотную 3D-реконструкцию при скорости 15 FPS.

➡️Проект https://edexheim.github.io/mast3r-slam/

➡️Набор моделей https://download.europe.naverlabs.com/ComputerVision/MASt3R/

➡️Arxiv https://arxiv.org/pdf/2412.12392

👉 @bigdata_1

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥1

1.07K views06:55

BigData

✔️ Stanford и Google представили Marin — первую полностью открытую LLM, разработанную на JAX

Чем Marin выделяется среди других моделей:

— Открыто всё: не только веса, но и весь процесс обучения — код, датасеты, гиперпараметры, логи и эксперименты доступны на GitHub
— Обучение проходило на массиве из 12.7 триллионов токенов — модель обошла Llama 3.1 8B в 14 из 19 тестов
— Распространяется под лицензией Apache 2.0 — свободно используйте, модифицируйте и воспроизводите
— Используются Levanter + JAX, обеспечивающие bit‑точную воспроизводимость и масштабируемость на TPU/GPU

Проект задуман как открытая исследовательская лаборатория: каждый эксперимент фиксируется через pull request, логируется в Weights & Biases, обсуждается в issue и сохраняется в репозитории — даже неудачи документируются ради прозрачности.

Доступны две версии модели:

- Marin‑8B‑Base — мощная базовая модель, опережающая Llama 3.1 8B
- Marin‑8B‑Instruct — дообучена с помощью SFT, превосходит OLMo 2 и немного уступает Llama 3.1 Tulu

Это не просто открытый доступ к весам — новый научный стандарт в эпоху масштабных языковых моделей.

📌 JAX — научный фреймворк от Google для численных и ML-вычислений
📌 TPU — специализированные процессоры от Google для ускорения задач машинного обучения

➡️Github: https://github.com/stanford-crfm/marin

➡️Блог: https://developers.googleblog.com/en/stanfords-marin-foundation-model-first-fully-open-model-developed-using-jax/

➡️Гайд: https://docs.jax.dev/en/latest/quickstart.html

👉 @bigdata_1

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1

1.06K views09:57

BigData

CogView4-6B – свежая Text2Image
Модель генерации изображений, разработанный командой THUDM..

Архитектура модели 6B DIT и 9B TextEncoder Демка показывает очень высокое качество следования заданному промпту.

CogView4 поддерживает очень длинный контекст.

Генерирует изображения от 512 до 2048 пикселей.

➡️

Model: https://huggingface.co/THUDM/CogView4-6B

➡️

Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

➡️

Github: https://github.com/THUDM/CogView4

➡️

Paper: https://arxiv.org/abs/2403.05121

👉 @bigdata_1

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

775 views20:27

PhysX-3D: Physical-Grounded 3D Asset Generation

3D-моделирование переходит из виртуального в физический мир. Существующие методы генерации 3D в основном сосредоточены на геометрии и текстурах, но игнорируют физически обоснованное моделирование. В результате, несмотря на быстрый прогресс в области генеративных 3D-моделей, синтезированные объекты часто лишены богатых и важных физических свойств, что ограничивает их применение в реальных задачах, таких как симуляции и embodied AI.

В качестве первого шага к решению этой проблемы мы предлагаем PhysX — сквозную парадигму генерации физически обоснованных 3D-объектов.

1. Чтобы преодолеть критический дефицит 3D-датасетов с физической аннотацией, мы представляем PhysXNet — первый датасет, систематически снабжённый физическими метками по пяти базовым измерениям: абсолютный масштаб, материал, аффордансы, кинематика и функциональное описание. Для этого мы разработали масштабируемый процесс аннотирования с участием человека, основанный на vision-language моделях, что позволяет эффективно создавать физически ориентированные объекты из исходных 3D-данных.

2. Кроме того, мы предлагаем PhysXGen — прямой фреймворк для генерации физически обоснованных 3D-объектов по изображениям, который внедряет физические знания в предобученное 3D-структурное пространство. В частности, PhysXGen использует двухветвевую архитектуру для явного моделирования скрытых связей между 3D-структурами и физическими свойствами, что позволяет получать 3D-объекты с правдоподобными физическими характеристиками при сохранении высокого качества геометрии.

Обширные эксперименты подтверждают превосходную производительность и высокую способность к обобщению предлагаемого подхода. Весь код, данные и модели будут опубликованы для поддержки будущих исследований в области генеративного физического ИИ.

➡️Github: https://github.com/ziangcao0312/PhysX-3D

➡️Paper: https://arxiv.org/pdf/2507.12465v1.pdf

➡️Dataset: https://huggingface.co/datasets/Caoza/PhysX-3D

👉 @bigdata_1

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1👀1

294 views11:59

BigData

Неформально про реком
Глитч нейросети — это база, а ивент AI VK & Pro в «оригинале» — повод собраться и узнать, как меняются рекомендательные системы.

27 августа VK проводит AI VK & Pro — закрытый митап про RecSys и ML. Где соберутся крутые ML-инженеры, исследователи и разработчики.

В программе доклады от ML-лидов VK. Поговорим про Discovery Platform, продовые трансформеры и мультимодальные модели.
Приходите задать вопросы, поделиться опытом и поглитчевать среди своих в неформальной обстановке. А после — афтепати: винил, сигары, вино и покер.

📍 Москва, только офлайн
📅 27 августа, сбор с 18:00
🎟 Вход по регистрации

220 views14:03

About

Blog

Apps

Platform