Техническая реализация метода реконструкции состоит из двух фаз: моделирование пространственных отношений и реконструкция человека-объекта в моделируемом пространстве.
Кодирование пространственных отношений пары человек-объект выполняется методом "Human-Object Offset". Для каждой пары вычисляются смещения между всеми якорными точками человека и объекта.
Эти смещения позволяют захватить высоко детализированную корреляцию между частями человека и объекта, обеспечивая качественное кодирование 3D пространственных отношений между ними.
Затем выполняется монокулярная реконструкция человека и объекта методом "Stacked Normalizing Flow (StackFLOW)".
Для вывода апостериорного распределения пространственных отношений между человеком и объектом из изображения, вносятся векторные корректировки в позу человека и положение объекта, максимизируя правдоподобие выборок и минимизируя потери репроекции 2D-3D соответствия.
В процессе разработки метода, StackFLOW сравнивали с существующими методиками реконструкции PHOSA, CHORE и BSTRO на наборах данных BEHAVE и InterCap.
По результатам StackFLOW показал конкурентоспособные результаты.
В репозитории проекта размещены три варианта запуска проекта локально (демонстрация с окклюзиями, демонстрация оптимизации с несколькими объектами и демо с оптимизацией полной последовательности) подробные инструкции по самостоятельной тренировке и оценке на датасетах BEHAVE и InterCap.
@ai_machinelearning_big_data
#AI #3D #Reconstruction #VideoTo3D #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Andrej Кarpathy в репозитории на Github запушил проект nano-llama31.
nano-llama31 - то же самое, что nanoGPT для GPT-2. То есть, это минимальная, свободная от зависимостей реализация архитектуры Llama 3.1, и она может очень просто обучать, настраивать и делать выводы. Это сравнимо с официальным выпуском кода от Meta и реализацией huggingface, которые имеют более сильные зависимости и гораздо больший объем кода.
Это еще пока очень ранний проект. Сейчас он требует довольно много VRAM, например, только обучение RMSNorm все еще занимает ощутимую часть моего 80-гигабайтного GPU. (c) автора
Планы:
git clone https://github.com/meta-llama/llama-models.git
▪ Github
@ai_machinelearning_big_data
#llama #Кarpathy #nanoGPT
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - karpathy/nano-llama31: nanoGPT style version of Llama 3.1
nanoGPT style version of Llama 3.1. Contribute to karpathy/nano-llama31 development by creating an account on GitHub.
OpenGVLab опубликовала в открытом доступе 2 новые мультимодальные модели:
InternVideo2 - это семейство моделей на базе Mistral-7B для работы с video-to-text и диалогах, ориентированных на контекст видео.
Семейство использует архитектуру Vision Transformer (ViT) и получило дополнительные слои для улучшения обучения и использует attention pooling для понимания временных последовательностей и действий в видео. Каждая модель проходит три этапа обучения, чтобы улучшить свое понимание видео и способность выполнять сложные задачи.
На первом этапе обучения модель учится восстанавливать видео-токены, которые были удалены. Затем она учится согласовывать видео-представления с семантикой из других модальностей, таких как аудио, речь и текст. Наконец, модель обучается на видео-центричных входных данных и подключается к LLM (Mistral-7B) для предсказания следующего токена.
Такая конфигурация дает способность выполнять задачи, такие как ответы на вопросы о видео и описывать сложные видео-сценарии.
Различие моделей 8B и 8B-HD в том, что 8B-HD, как видно из названия, обучалась на наборах данных высокого разрешения. Суммарная плотность 8B - это 7B от LLM + 1B от самой InternVideo-1B.
Подробную инструкцию по инференсу можно найти в карточки модели на HF. UI версии пока нету.
@ai_machinelearning_big_data
#AI #VLM #ML #VideoQA #Video2Text
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
MM-Vet оценивает шесть основных возможностей LMM: распознавание, знание, пространственная ориентация, генерация языка, распознавание текста и математика. В версии v2 бенчмарка добавлена новая функция "понимание последовательности изображений и текста", которая может оценить способность моделей обрабатывать последовательности визуальных интерпретаций.
Вторая версия была подготовлена на большем наборе исходных данных (517 пар вопросов-ответов из различных областей), которые были сгенерированы GPT-4V и переработаны вручную исследовательской группой.
@ai_machinelearning_big_data
#AI #Benchmark #LMM #MMVetV2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Экспериментальная модель, размером 2ТB на основе Meta-Llama-3.1-405B-Instruct, рожденная методом passthrough в mergekit.
Для использования автор рекомендует шаблон чата Llama 3 и 4 ноды 8xH100s в FP8.
Квантование и оценка в бенчмарках - решение еще не принято.
@ai_machinelearning_big_data
#LLM #ML #Ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Новостной дайджест
✔️ AWS разработала AI-ассистента Amazon Q.
Amazon Q умеет: генерировать точный код, проводить тестирование и отладку кода, планировать многократные шаги при разработке ПО, давать ответы на вопросы по бизнес-данным, подключаясь к хранилищам предприятия, а также лучшее в отрасли сканирование уязвимостей и оптимизацию среды AWS.
С его возможностями, сотрудники AWS теперь могут создавать приложения на корпоративных данных компании, описывая необходимый функционал естественным языком.
devopsdigest.com
✔️ Сети Колмогорова-Арнольда могут навести физиков на новые гипотезы.
Ученые из MIT разработали новый способ создания нейронных сетей, который оказался более эффективным и точным, чем традиционные методы. Эти новые сети, называемые KAN, могут представлять данные о физике в более понятном и интерпретируемом виде, что может помочь ученым открыть новые законы природы.
В ходе тестирования KAN показала себя более точной и эффективной, чем традиционные нейронные сети. Например, в одной задаче KAN достигла точности 81,6% с использованием всего 200 параметров, в то время как традиционная сеть достигла точности 78% с использованием 300 000 параметров. Кроме того, исследователи смогли визуально смоделировать KAN и упростить ее до простой физической функции, которая точно повторяет ту, которая создала набор данных.
spectrum.ieee.org
✔️ ИИ-модель Profluent приблизилась к точному и управляемому проектированию белков.
Компания Profluent разработала ИИ-модель - РroseLM, которая использует структурный и функциональный контекст для повышения точности и управления в проектировании дизайна белков, что используется для редактирования генов и связывания терапевтических антител.
ProseLM рассчитывает взаимодействия с не-белковыми молекулами и использует адаптерные слои для обучения, предоставляя возможность для намеренного и управляемого проектирования биотехнологических прототипов.
genengnews.com
✔️ NEO Semiconductor объявляет о разработке чипа 3D X-AI: замена HBM и решение проблемы узких мест в шине данных.
Технология 3D X-AI обеспечивает 100-кратное ускорение производительности, снижение энергопотребления на 99% и восьмикратное увеличение плотности памяти благодаря использованию 300 слоев 3D DRAM с нейронными схемами. Чип может обрабатывать до 120 ТБ/с данных, значительно снижая объем передаваемых данных между HBM и GPU.
neosemic.com
✔️ MIT опубликовал "Руководство по разработке стратегии AI для предприятий".
Руководство исследует текущее состояние принятия ИИ на предприятиях и предлагает стратегию для разработки плана внедрения, помогая бизнесу преодолеть диссонанс между амбициями и выполнением.
Ключевые темы: амбиции в области ИИ значительны, но лишь немногие перешли за пределы пилотных проектов; расходы на подготовку к использованию ИИ значительно увеличатся, а доступность и качество данных являются одними из ключевых аспектов для успешного внедрения ИИ.
Полный доклад доступен по ссылке.
technologyreview.com
@ai_machinelearning_big_data
#news #ai #ml
Amazon Q умеет: генерировать точный код, проводить тестирование и отладку кода, планировать многократные шаги при разработке ПО, давать ответы на вопросы по бизнес-данным, подключаясь к хранилищам предприятия, а также лучшее в отрасли сканирование уязвимостей и оптимизацию среды AWS.
С его возможностями, сотрудники AWS теперь могут создавать приложения на корпоративных данных компании, описывая необходимый функционал естественным языком.
devopsdigest.com
Ученые из MIT разработали новый способ создания нейронных сетей, который оказался более эффективным и точным, чем традиционные методы. Эти новые сети, называемые KAN, могут представлять данные о физике в более понятном и интерпретируемом виде, что может помочь ученым открыть новые законы природы.
В ходе тестирования KAN показала себя более точной и эффективной, чем традиционные нейронные сети. Например, в одной задаче KAN достигла точности 81,6% с использованием всего 200 параметров, в то время как традиционная сеть достигла точности 78% с использованием 300 000 параметров. Кроме того, исследователи смогли визуально смоделировать KAN и упростить ее до простой физической функции, которая точно повторяет ту, которая создала набор данных.
spectrum.ieee.org
Компания Profluent разработала ИИ-модель - РroseLM, которая использует структурный и функциональный контекст для повышения точности и управления в проектировании дизайна белков, что используется для редактирования генов и связывания терапевтических антител.
ProseLM рассчитывает взаимодействия с не-белковыми молекулами и использует адаптерные слои для обучения, предоставляя возможность для намеренного и управляемого проектирования биотехнологических прототипов.
genengnews.com
Технология 3D X-AI обеспечивает 100-кратное ускорение производительности, снижение энергопотребления на 99% и восьмикратное увеличение плотности памяти благодаря использованию 300 слоев 3D DRAM с нейронными схемами. Чип может обрабатывать до 120 ТБ/с данных, значительно снижая объем передаваемых данных между HBM и GPU.
neosemic.com
Руководство исследует текущее состояние принятия ИИ на предприятиях и предлагает стратегию для разработки плана внедрения, помогая бизнесу преодолеть диссонанс между амбициями и выполнением.
Ключевые темы: амбиции в области ИИ значительны, но лишь немногие перешли за пределы пилотных проектов; расходы на подготовку к использованию ИИ значительно увеличатся, а доступность и качество данных являются одними из ключевых аспектов для успешного внедрения ИИ.
Полный доклад доступен по ссылке.
technologyreview.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
MiniCPM-V новое семейство MLLM. Набор состоит из 3 моделей и их квантованных версий в int4 и GGUF:
MiniCPM-V 2.6: самая производительная модель в серии MiniCPM-V, построена на основе SigLip-400M и Qwen2-7B и имеет 8 миллиардов параметров.
Эта модель улучшена новыми возможностями для понимания нескольких изображений и видео и поддерживает работу в режиме реального времени на сторонних устройствах, таких как iPad.
MiniCPM-Llama3-V-2_5: построена на основе SigLip-400M и Llama3-8B-Instruct и имеет 8 миллиардов параметров.
Модель ориентирована на задачи OCR, производительность, надежность и поддерживает 30 языков. Она способна работать на устройствах с ограниченными ресурсами, например, на смартфоне.
MiniCPM-V 2: самая легкая модель в серии MiniCPM-V с 2 миллиардами параметров. Она обрабатывает изображения с любым соотношением сторон и разрешением до 1,8 Mpx, например, 1344x1344.
# Clone this repository and navigate to the source folder:
git clone https://github.com/OpenBMB/MiniCPM-V.git
cd MiniCPM-V
# Create conda environment:
conda create -n MiniCPM-V python=3.10 -y
conda activate MiniCPM-V
#Install dependencies.
pip install -r requirements.txt
## For NVIDIA GPUs, run::
python web_demo_2.6.py --device cuda
@ai_machinelearning_big_data
#AI #MLLM #ML #MiniCPM #MobileVLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
https://github.com/stas00/ml-engineering/blob/master/compute/accelerator/amd/debug.md
А здесь большое руководству по устранению различных неполадок для NVIDIA https://github.com/stas00/ml-engineering/blob/master/compute/accelerator/nvidia/debug.md
@ai_machinelearning_big_data
#amd #NVIDIA #Troubleshooting
Please open Telegram to view this post
VIEW IN TELEGRAM
BRAG - это серия специализированных языковых моделей, обученных для RAG-задач с текстом, таблицами и в режиме чата. Все модели ориентированы в основном на английский язык, но модели на базе Llama-3.1-8B и Qwen2-1.5b имеют наследованную поддержку мультиязычности.
В качестве базовых моделей использованы Qwen2-1.5B, Qwen2-7B-Instruct, Llama-3.1-8B-Instruct и Llama-3-8B-Instruct.
Список моделей:
messages = [
{"role": "system", "content": "You are an assistant who gives helpful, detailed, and polite answers to the user's questions based on the context with appropriate reasoning as required. Indicate when the answer cannot be found in the context."},
{"role": "user", "content": """Context: <CONTEXT INFORMATION> \n\n <USER QUERY>"""},
]
⚡️Лицензирование : Apache-2.0
▪Страница проекта
▪Коллекция моделей на HF
@ai_machinelearning_big_data
#AI #LLM #ML #BRAG #RAG
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM