Machinelearning

🌟 noise_step: алгоритм тернарного обучения без использования градиентной памяти.

Noise_step - экспериментальный концепт аглоритма, который позволяет обучать модели, оперируя 1,58-битной (тернарной) точностью, что снижает потребление электроэнергии и сокращает вычислительные затраты.

Noise_step обходится без обратного распространения ошибки, а также может работать параллельно с инференсом и хранит тернарные значения в бинарном представление, которое позволяет упаковать 5 тернов в 1байт.

Алгоритм оценивает градиент, используя произведение Якобиана на вектор возмущения, которые генерируются с помощью распределения Бернулли и равномерного распределения {-1, +1}. Для оценки градиента нужен только знак выравнивания, а не его величина. Чтобы улучшить сходимость, Noise_step отбрасывает возмущения со слишком маленькой величиной выравнивания.

Векторы возмущений не надо хранить в памяти, поскольку они генерируются из начального сида. Это значит, что размер модели больше не зависит от количества параметров, а зависит от произведения шагов и возмущений.

Таким образом, модель можно представить как последовательность шагов, что кардинально уменьшает её размер. Теоретически, основываясь на расчетах, размер модели, подобной GPT-3 175B, можно уменьшить до 19MB.

Noise_step использует дискретные шаги из-за тернарного пространства, что добавляет шума в кривую обучения, но алгоритм сходится примерно как Adam, хотя и требует большего батч-сайза. Сходимость, аналогичная Adam, была подтверждена эмпирически на единственном прикладном эксперименте с простым MLP на наборе MINST и, очевидно, требует большей вариативности практических тестов.

Несмотря на то, что ранее тернарная точность уже была реализована в фреймворке Microsoft и модели Nous Research, которые не имеют таких ограничений, как в Noise_step , он может стать в будущем альтернативой квантованию и встать в один ряд с другими методами оптимизации обучения и инференса.

⚠️ Обучение трансформерных моделей с noise_step пока остается отрытым вопросом, так как для этого необходимо написать ядро, в котором шум будет виртуализирован (генерироваться по мере использования).

⚠️ Для больших моделей с большим количеством шагов реконструкция становится непрактичной, поскольку каждый вес должен обновляться с учетом каждого вектора возмущений на каждом шаге. Полная реконструкция тернарной модели с количеством параметров 175B, потребовала бы примерно 10 в 19 степени операций.

🟡

Исследование

🟡

Google Collab простого MLP c MINST

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #NoiceStep #TernaryPresision

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥46👍19❤9🥰2

17.9K views14:02

Machinelearning

🌟

VSI-Bench: бенчмарк для оценки визуально-пространственного восприятия MMLM.

VSI-Bench - видео-бенчмарк из 5130 пар "вопрос-ответ" основанных на 288 видеозаписях реальных сцен. Видеоматериалы были собраны из публичных датасетов ScanNet, ScanNet++ и ARKitScenes и содержат типы пространств: жилые помещения, офисы и производственные объекты.

Бенчмарк структурирован в виде 8 задач, классифицированных по трем категориям: конфигурационные, измерительные и пространственно-временные:

🟢Конфигурационные задачи определяют количество объектов, измеряют относительные расстояния и направления и планируют маршруты.

🟢Измерительные - определяют размеры объектов, помещений и абсолютные расстояния.

🟢Пространственно-временные задачи выполняют оценку способности тестируемой MMLM к запоминанию последовательности появления объектов в видео.

▶️Структура датасета:

🟠

idx - номер записи в датасете;

🟠

dataset - источник видео (датасет): scannet, arkitscenes or scannetpp;

🟠

scene_name - название видео;

🟠

question_type - тип вопроса;

🟠

question - вопрос;

🟠

options - варианты ответа на вопрос, если возможен множественный выбор;

🟠

ground_truth - правильный ответ на вопрос.

Возможности VSI-Bench оценивались с 15 MLLM, поддерживающих видеоформат: Gemini-1.5, GPT-4o, InternVL2, ViLA, LongViLA, LongVA, LLaVA-OneVision и LLaVA-NeXT-Video.

Оценка проводилась в режиме zero-shot с применением стандартных запросов для каждой модели. В качестве метрик для задач с множественным выбором использовалась Accuracy (ACC), а для задач с числовыми ответами — Mean Relative Accuracy (MRA).

Результаты оценки показали, что, несмотря на достижение значительных результатов топовыми моделями, их производительность все еще уступает человеческой. Люди демонстрируют среднюю точность в 79%, в то время как MLLM с высшим результатом (Gemini-1.5 Pro) показывают более низкие показатели (48.8%).

Использование стандартных лингвистических техник: chain-of-thought, self-consistency и tree-of-thoughts не привели к улучшению результатов. Анализ ошибок выявил, что основная проблема для моделей - пространственное рассуждение, а не визуальное восприятие, NLP-навыки или обработка временных данных.

▶️Локальная установка и запуск evaluation скрипта для нескольких моделей:

# Create conda env
conda create --name vsibench python=3.10
conda activate vsibench

# Clone repo
git clone git@github.com:vision-x-nyu/thinking-in-space.git
cd thinking-in-space

# Update submodules
git submodule update --init --recursive

# Install requirements
cd transformers && pip install -e . && cd ..
pip install -e .
pip install s2wrapper@git+https://github.com/bfshi/scaling_on_scales
pip install deepspeed

# Run all-in-one evaluation script
bash evaluate_all_in_one.sh --model all --num_processes 8 --benchmark vsibench

📌Лицензирование: Apache 2.0 License.

🟡

Страница проекта

🟡

Датасет

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #MMLM #Benchmark #VSIBench

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29❤12✍7🔥3🤨1

21.5K views12:01

Machinelearning

🖥

nv-ingest - NVIDIA Ingest

NVIDIA-Ingest - это масштабируемый, ориентированный на высокую производительность микросервис для парсинга неструктурированных документов и метаданных очень большого размера.

Инструмент поддерживает PDF, Word и PowerPoint и использует специализированные микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в генеративных приложениях.

NVIDIA Ingest позволяет распараллелить процесс разбиения документов на страницы, где содержимое классифицируется (как таблицы, диаграммы, изображения, текст), извлекается в дискретный контент и далее контекстуализируется с помощью оптического распознавания символов (OCR) в четко определенную схему JSON.

После этого NVIDIA Ingest может опционально вычислением эмбедингов для извлеченного контента, а также опционально храненииь данные в векторной базе данных Milvus.

📌

GitHub

📌

Документация

@ai_machinelearning_big_data

#NVIDIA #parsing #embedding

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥43👍22❤8

21.8K views17:04

Machinelearning

🖥

NVIDIA представила видеокарты серии RTX 50 — всего четыре модели.

RTX 5090 оказалась в 1,5 раза производительнее предыдущей версии RTX 4090! Более того, благодаря технологии DLSS 4, даже самая доступная модель RTX 5070 за $550 способна обеспечить производительность на уровне RTX 4090.

Мы все ожидали от RTX 5090, крутые характеристики и все такое. Но все ли поняли, что Дженсен сказал о графике?

Что новая карта использует нейронные сети для генерации 90+% пикселей в играх?

Традиционные алгоритмы трассировки лучей отрисовывают только ~10%, своего рода «скетч», а затем генеративная модель заполняет остальные мелкие детали. За один проход в режиме реального времени.

ИИ - это новый уровень графики, дамы и господа.

Цены и технические характеристики:

GeForce RTX 5090:
- Процессор: GB202-300
- CUDA-ядер: 21 760
- Память: 32 ГБ GDDR7 (1792 Гбайт/с)
- Шина: 512 бит
- Потребление энергии: 575 Вт
- Цена: $1999

GeForce RTX 5080:
- Процессор: GB203-400
- CUDA-ядер: 10 752
- Память: 16 ГБ GDDR7 (960 Гбайт/с)
- Шина: 256 бит
- Потребление энергии: 360 Вт
- Цена: $999

GeForce RTX 5070 Ti:
- Процессор: GB203-300
- CUDA-ядер: 8 960
- Память: 16 ГБ GDDR7 (896 Гбайт/с)
- Шина: 256 бит
- Потребление энергии: 300 Вт
- Цена: $749

GeForce RTX 5070:
- Процессор: GB205-300
- CUDA-ядер: 6 144
- Память: 12 ГБ GDDR7 (672 Гбайт/с)
- Шина: 192 бит
- Потребление энергии: 250 Вт
- Цена: $549

Продажи стартуют уже в этом месяце!

Еще NVIDIA анонсировали проект DIGITS — персональный суперкомпьютер на базе искусственного интеллекта стоимостью 3000 долларов, который настолько мал, что выглядит как Mac Mini, но при этом в 1000 раз мощнее среднестатистического ноутбука.

Обрабатывает модели ИИ с максимальным количеством параметров 200 МИЛЛИАРДОВ.

Это невероятно..

@ai_machinelearning_big_data

#nvidia

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍97🔥39❤22😢4🤬3👏2🤔1

31.4K views04:14

Machinelearning

🔥 Microsoft только что выпустила Phi-4 LLM, обученный на 9,4 триллионах токенов.

Лицензия MIT!

🤗 HF: https://huggingface.co/microsoft/phi-4

🧠

Demo: https://huggingface.co/spaces/Tonic/Phi-4

@ai_machinelearning_big_data

#phi4 #llm #Microsoft

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍68❤18🔥11🤔2🤬1😐1

25.5K views19:25

Machinelearning

⚡Microsoft на высоте!

rStar-Math SoTA для решения математических задач с точностью 90,0% (по сравнению с 58,8% Qwen2.5-Math-7B) и 86,4% (по сравнению с 41,4% Phi3-mini-3.8B), 🔥

превосходя o1-preview на 4,5% и 0,9%, решает 53,3% задач математической олимпиады США, попадая в 20% лучших математиков старшей школы

Код будет опубликован в ближайшее время! 🤗

https://huggingface.co/papers/2501.04519с

@ai_machinelearning_big_data

#microsoft #llm

❤64👍36🔥23🤔4❤‍🔥1🤩1

15.8K viewsedited 09:46

Machinelearning

⚡️🔥 Недавно Google Cloud выпустил «Руководство разработчика PyTorch по основам JAX».

Jax – это фреймворк для машинного обучения, подобный PyTorch и TensorFlow.

Его разработали в Deepmind, хотя он не является официальным продуктом Google, он остается популярным.

Jax объединяет Autograd и XLA (Accelerated Linear Algebra - компилятор с открытым исходным кодом для машинного обучения) для обеспечения высокопроизводительных численных вычислений.

Созданный на основе NumPy, его синтаксис следует той же структуре, что делает его простым выбором для разработчиков.

В этом руководстве содержится пошаговый гайд по реализации простой нейронной сети на Pytorch (JAX + Flax NNX) для тех, кто хочет начать работать с JAX.

📌 Читать
📌Документация Jax

@ai_machinelearning_big_data

#jax #pytorch #google

🔥56👍21❤10❤‍🔥1

28.2K viewsedited 05:31

About

Blog

Apps

Platform