Машинное обучение digest
58 subscribers
1.69K photos
225 videos
929 links
Download Telegram
🌟 MiniVLA: компактная Vision-Language-Action модель для робототехники.

AI-лаборатория Стенфордского университета представила модель MiniVLA — усовершенствованную версию Vision-Language-Action (VLA), компактную альтернативу OpenVLA.

Отличительная особенность MiniVLA - сокращенное в 7 раз количество параметров (1 млрд. против 7 миллиардов у OpenVLA), что дает значительное ускорение процессов обучения и инференса.

В архитектуре MiniVLA используется тот же ViT для обработки изображений, что и в OpenVLA, однако в качестве языковой модели используется Qwen 2.5 0.5B вместо Llama 2 7B.

Обучение языковой модели основано на датасете Llava-1.5-Instruct VQA, аналогично базовой модели Prismatic VLM в OpenVLA. Несмотря на уменьшение размера, MiniVLA демонстрирует сопоставимую с OpenVLA производительность в рамках бенчмарка Libero-90 (61.4% против 62%).

Одно главных усовершенствований MiniVLA - применение векторного квантования (VQ) для кластеризации действий (action chunking). Вместо дискретного представления действий, модель прогнозирует их последовательности, которые кодируются в виде M кодовых индексов с помощью VQ-BeT5. Это существенно повышает производительность на Libero-90.

Так, MiniVLA с VQ h8 (action chunks) достигает 77% успеха, в то время как базовая модель MiniVLA и OpenVLA демонстрируют 61.4% и 62% соответственно.

MiniVLA поддерживает подачу на вход нескольких изображений, что позволяет использовать "историю изображений" и серию снимков с носимых целевым роботом камер. Мульти-кадровая возможность способствует повышению производительности на Libero-90: модель MiniVLA с VQ h8 и историей изображений (history=2) достигает 82% успешности, а с кадрами с новимой камеры — 82.1%.

По сделанным замерам производительности, MiniVLA показывает в 2.5 раза более высокую скорость инференса, чем OpenVLA (12.5Hz против 5Hz) на одном GPU NVIDIA L40s.

▶️В репозитории на HF опубликованы несколько вариантов MiniVLA:

🟢Prism with Qwen 2.5 0.5B backbone
🟢MiniVLA 1B Wrist VQ
🟢MiniVLA VQ 1B
🟢MiniVLA Image History (T=2) VQ 1B
🟢MiniVLA 1B
🟢MiniVLA 1B VQ Trained on Bridge V2


📌Лицензирование: MIT License.


🟡Статья
🟡Набор моделей
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLA #MiniVLA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ AGUVIS: платформа для автономных агентов GUI на основе компьютерного зрения.

Salesforce Research представил AGUVIS, фреймворк, использующий компьютерное зрение для автономных агентов GUI пользователя, работающего с web, mobile и PC-интерфейсами. AGUVIS использует единые визуальные данные и согласованное пространство действий для повышения обобщаемости в GUI-средах.

Модель обладает возможностями планирования и рассуждения и использует набор траекторий агентов GUI с многомодальным основанием. AGUVIS показал среднюю точность 89,2% в GUI-задачах, превзойдя другие методы, и снижение затрат на вывод на 93% по сравнению с GPT-4o.
Веса модели и код инференса - в планах, код для тренировки, траектории планирования и рассуждений доступны на Github.
aguvis-project.github.io

✔️ Google повела итоги года в области ИИ: 60 главных анонсов 2024 года.

Google подвела итоги 2024 года, отметив значительный прогресс в области развития технологий ИИ. За год было сделано 60 крупных анонсов: в начале 2024 года были представлены обновления для Gemini, Chrome, Pixel и Search и функция Circle to Search. В феврале дебютировала модель Gemini 1.5, а Bard стал Gemini. В марте акцент был сделан на использовании ИИ в здравоохранении, а в мае на конференции Google I/O были представлены новые продукты и функции на базе ИИ.

В течение года Google запустила новые инструменты для Google Workspace, образования, перевода, поиска и покупок. В декабре была представлена Gemini 2.0, модель нового поколения наступающей агентной эры ИИ.
blog.google

✔️ Лазерный искусственный нейрон имитирует функции нервных клеток со скоростью света.

Исследователи Университета Гонконга разработали лазерный искусственный нейрон, который полностью имитирует функции, динамику и обработку информации биологического градиентного нейрона. Новая разработка достигает скорости обработки сигнала в 10 ГБод, что в миллиард раз быстрее, чем у биологических аналогов.

Лазерный градиентный нейрон преодолевает ограничения скорости фотонных версий спайковых нейронов и имеет потенциал для еще более быстрой работы. Ученые использовали его для создания системы резервуарных вычислений, которая демонстрирует исключительную производительность в задачах распознавания образов и прогнозирования последовательностей. Тестовая среда обработала данные 100 миллионов сердечных сокращений или 34,7 миллиона рукописных цифровых изображений всего за одну секунду.
eurekalert.org

✔️ xAI выпустила мобильное приложение Grok для iOS с возможностью генерации изображений.

xAI выпустила Grok для iOS, которое в настоящее время находится на стадии бета-тестирования в Австралии и некоторых других регионах. Приложение имитирует основные функции Grok и использует модель искусственного интеллекта Grok-2.

Приложение может переписывать и обобщать текст, отвечать на вопросы и создавать изображения на основе текстовых запросов, а также получать доступ к данным из интернета и X в режиме реального времени. Одной из отличительных особенностей Grok - возможность генерации изображений, которая не имеет таких строгих ограничений, как у некоторых конкурентов, и позволяет анализировать изображения, загруженные пользователями.
techradar.com

✔️ Соучредитель Anthropic прогнозирует "еще более резкий" прогресс в развитии ИИ в 2025 году.

Джек Кларк, соучредитель Anthropic, в своей публикации на LinkedIn предположил, что в 2025 году темпы развития ИИ значительно ускорятся, благодаря сочетанию традиционных методов масштабирования моделей и масштабирования вычислительных ресурсов во время выполнения, используемое в моделях o-серии OpenAI. Кларк уверен, что сочетание традиционного масштабирования с новыми методами приведет к "еще более резким" достижениям в области ИИ в 2025 году.

Anthropic пока не выпустила модель, конкурирующую с o-серией OpenAI или Gemini от Google. Их модель Opus 3.5 была отложена из-за высоких затрат, но она помогла в разработке Sonnet 3.5.
the-decoder.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 DepthLab: инпейнт карт глубины на основе диффузионных моделей.

DepthLab - диффузионный механизм инпейнта карт глубины с двумя параллельными ветвями для задач заполнения 3D-сцен, генерации сцен на основе текстовых промптов, реконструкции с использованием DUST3R и заполнение глубины LiDAR.

Первая ветвь, Reference U-Net извлекает признаки из RGB-изображений, которые служат условием для второй ветви.

Вторая ветвь, Estimation U-Net, обрабатывает имеющиеся данные о глубине и маску, определяющую области, требующие восстановления. Признаки RGB, полученные из Reference U-Net, последовательно интегрируются в Estimation U-Net, что позволяет управлять процессом восстановления.

Взаимодействие между ветвями Reference U-Net и Estimation U-Net реализуется механизмом cross-attention, который использует CLIP encoder.

Архитектура DepthLab опирается на наработки Marigold и Stable Diffusion V2. Кодирование RGB-изображений и карт глубины в латентное пространство осуществляется VAE. Маска также кодируется с помощью VAE, что позволяет сохранить детальную информацию о форме и границах.

Обучение DepthLab проводилось на двух синтетических датасетах: Hypersim (54 тысячи обучающих образцов) и Virtual KITTI (20 тысяч обучающих образцов). Для расширения обучающей выборки использовались случайные искажения изображений и несколько стратегий маскирования: штрихи, окружности, квадраты и их комбинации.

Оценка качества восстановления проводилась на 5 наборах: NYUv2, KITTI, ETH3D, ScanNet, DIODE. В качестве метрик использовались абсолютная относительная ошибка (AbsRel) и точность в пределах δ1 = 1.25.

Результаты тестов демонстрируют, что DepthLab превосходит как дискриминативные (DiverseDepth, MiDaS, LeReS, Omnidata, HDN, DPT, DepthAnything, DepthAnythingV2), так и генеративные (Marigold, DepthFM, GeoWizard) методы в постоении карт глубины.


Для локального инференса потребуются модели:

🟢Marigold checkpoint;
🟢Энкодер CLIP-ViT-H-14-laion-2B;
🟢Набор чекпоинтов DepthLab.

▶️Локальная установка и инференс:

# Clone repo
git clone https://github.com/Johanan528/DepthLab.git
cd DepthLab

# Create conda env
conda env create -f environment.yaml
conda activate DepthLab

# Run inference
cd scripts
bash infer.sh



🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DepthLab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🖥 nv-ingest - NVIDIA Ingest

NVIDIA-Ingest - это масштабируемый, ориентированный на высокую производительность микросервис для парсинга неструктурированных документов и метаданных очень большого размера.

Инструмент поддерживает PDF, Word и PowerPoint и использует специализированные микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в генеративных приложениях.

NVIDIA Ingest позволяет распараллелить процесс разбиения документов на страницы, где содержимое классифицируется (как таблицы, диаграммы, изображения, текст), извлекается в дискретный контент и далее контекстуализируется с помощью оптического распознавания символов (OCR) в четко определенную схему JSON.

После этого NVIDIA Ingest может опционально вычислением эмбедингов для извлеченного контента, а также опционально храненииь данные в векторной базе данных Milvus.

📌GitHub
📌Документация

@ai_machinelearning_big_data

#NVIDIA #parsing #embedding
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 nv-ingest - NVIDIA Ingest

NVIDIA-Ingest - это масштабируемый, ориентированный на высокую производительность микросервис для парсинга неструктурированных документов и метаданных очень большого размера.

Инструмент поддерживает PDF, Word и PowerPoint и использует специализированные микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в генеративных приложениях.

NVIDIA Ingest позволяет распараллелить процесс разбиения документов на страницы, где содержимое классифицируется (как таблицы, диаграммы, изображения, текст), извлекается в дискретный контент и далее контекстуализируется с помощью оптического распознавания символов (OCR) в четко определенную схему JSON.

После этого NVIDIA Ingest может опционально вычислением эмбедингов для извлеченного контента, а также опционально храненииь данные в векторной базе данных Milvus.

📌GitHub
📌Документация

@ai_machinelearning_big_data

#NVIDIA #parsing #embedding
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Microsoft только что выпустила Phi-4 LLM, обученный на 9,4 триллионах токенов.

Лицензия MIT!

🤗 HF: https://huggingface.co/microsoft/phi-4

🧠Demo: https://huggingface.co/spaces/Tonic/Phi-4

@ai_machinelearning_big_data

#phi4 #llm #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️🔥 Недавно Google Cloud выпустил «Руководство разработчика PyTorch по основам JAX».

Jax – это фреймворк для машинного обучения, подобный PyTorch и TensorFlow.

Его разработали в Deepmind, хотя он не является официальным продуктом Google, он остается популярным.

Jax объединяет Autograd и XLA (Accelerated Linear Algebra - компилятор с открытым исходным кодом для машинного обучения) для обеспечения высокопроизводительных численных вычислений.

Созданный на основе NumPy, его синтаксис следует той же структуре, что делает его простым выбором для разработчиков.

В этом руководстве содержится пошаговый гайд по реализации простой нейтронной сети на Pytorch (JAX + Flax NNX) для тех, кто хочет начать работать с JAX.

📌 Читать
📌Документация Jax

@ai_machinelearning_big_data


#jax #pytorch #google
💰 Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget

Вышел официальный код и чекпоинты для MicroDiffusion от Sony.

Советую прочитать статью, в ней авторы подробно рассказывают о том, как они обучили модель уровня SD1 (MicroDiT) за $1890, используя диффузионный трансформер с MoE и наборы реальных+синтетических данных на 37M.

Теперь любой желающий может обучить модель Stable Diffusion v1/v2-уровня с нуля всего за 2,5 дня, используя 8 графических процессоров H100 (стоимостью < $2000)

Здесь можно посмотреть конфигурацию обучения для каждого этапа.

Paper: https://arxiv.org/abs/2407.15811v1
Github: https://github.com/SonyResearch/micro_diffusion
HF: https://huggingface.co/VSehwag24/MicroDiT
Dataset: https://github.com/SonyResearch/micro_diffusion/blob/main/micro_diffusion/datasets/README.md

@ai_machinelearning_big_data


#stablediffusion #guide #sd #ml #sony