Machinelearning

⚡️ Новостной дайджест.

✔️ NVIDIA запускает NIM Agent Blueprints для предприятий, чтобы помочь им создать свой корпоративный ИИ.

Компания NVIDIA объявила о выпуске каталога готовых ИИ-решений под названием NVIDIA NIM Agent Blueprints, который позволит разработчикам создавать и развертывать генеративные ИИ-приложения для различных отраслей.

NIM Agent Blueprints представляет собой набор предварительно обученных, настраиваемых рабочих процессов, которые могут быть использованы для создания приложений для обслуживание клиентов, автоматизации рабочих процессов и извлечение данных из PDF-файлов.

NVIDIA также объявила о сотрудничестве с Accenture, Cisco, Dell Technologies, Deloitte, Hewlett Packard Enterprise, Lenovo, SoftServe и World Wide Technology, которые будут использовать NIM Agent Blueprints для создания и развертывания генеративных ИИ-приложений для своих клиентов.
nvidianews.nvidia.com

✔️ Claude.ai сделала доступной функцию Artifacts для всех пользователей.

Компания Claude.ai объявила о доступности функции Artifacts для всех пользователей, включая владельцев бесплатных, профессиональных и командных планов. Теперь пользователи могут создавать и просматривать Artifacts в мобильных приложениях для iOS и Android.
anthropic.com

✔️ Cerebras Inference: самый быстрый инференс для языковых моделей.

Компания Cerebras Systems представила сервис для инференса LLM, который показывает рекордную производительность и скорость. Движок, работающий на базе третьего поколения процессора Wafer Scale Engine, способен обрабатывать до 1800 токенов в секунду для модели Llama3.1 8B и до 450 токенов в секунду для модели Llama3.1 70B. Это в 20 раз быстрее, чем решения на базе графических процессоров NVIDIA.

Онлайн-сервис Cerebras предлагает лучшую цену в отрасли - 10 центов за миллион токенов для модели Llama 3.1 8B и 60 центов за миллион токенов для модели Llama 3 70B. Разработчикам уже доступен API для работы с сервисом.
В планах компании - поддержка моделей Llama3 405B и Mistral Large 2 в ближайшие недели.
cerebras.ai

✔️ Закрыта студия дополненной реальности MetaSpark.

Компания объявила о закрытии платформы MetaSpark для сторонних дополнений и контента с 14 января 2025 года. Это означает, что AR решения, созданные сторонними разработчиками, включая бренды и сообщество AR-создателей, больше не будут доступны.

Однако, AR инструменты, принадлежащие Meta, продолжат быть доступны пользователям во всех приложениях компании.
Это решение является частью дорожной карты по приоритезации продуктов, которые лучше всего будут отвечать будущим потребностям потребителей и бизнес-клиентов.
spark.meta.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24❤4🔥4

16.7K views07:14

Machinelearning

🌟LongVILA: Масштабирование VLM с длинным контекстом для обработки длинных видео.

LongVILA, полнофункциональное решение на основе LLaVA, разработанное NVLabs, для длинноконтекстных VLM, включающее программный набор, претрейн-моделей и разработку набора данных для обучения.

Программная реализация основывается на Multi-Modal Sequence Parallelism (MM-SP).
Это распределенный фреймворк для обучения и вывода, который предназначен для визуальных языковых моделей (VLM) с длинным контекстом. Он решает сложную задачу обработки огромных объемов данных и вычислений, необходимых для обучения и развертывания VLM на длинных видео.

Ядром MM-SP является двухэтапная стратегия шардинга и механизм 2D-внимания.
На первом этапе изображения равномерно распределяются по устройствам, обеспечивая сбалансированное кодирование изображений.
Второй этап включает в себя шардинг токенов уровня глобального зрения и текстовых входных данных с добавлением фиктивных токенов для совместимости с кольцевым вниманием.
Механизм 2D-внимания повышает эффективность в MM-SP, объединяя кольцевой стиль и стиль Улисса (Ulysses) последовательного параллелизма, используя внутриузловое общение All-2-All и межузловое общение P2P.

MM-SP распределяет вычислительную нагрузку по нескольким устройствам позволяя проводить обучение и вывод на чрезвычайно длинных последовательностях. Кроме того гибридная стратегия параллелизма минимизирует накладные расходы на связь еще больше улучшая пропускную способность обучения и сокращая время вывода.

Полный стек решения LongVILA расширяет число возможных кадров VILA в 128 раз (с 8 до 1024 кадров) и улучшает оценку аннотирования длинных видео с 2,00 до 3,26 (в 1,6 раза), демонстрируя 99,5% точности в 1400-кадровом видео (длина контекста 274k).

Претрейн модели основаны на Llama-3-8B и предназначены для рассуждений с использованием нескольких изображений и имеют навык визуальной цепочки мышления.
Опубликованы 3 модели:

🟢

Llama-3-LongVILA-8B-128Frames;

🟢

Llama-3-LongVILA-8B-256Frames;

🟢

Llama-3-LongVILA-8B-512Frames.

Эти модели были обучены на 53 миллионах пар "изображение-текст" и могут быть развернуты на конечных устройствах от Jetson Orin для FP16 версий до потребительских ноутбуков в квантованной 4-bit размерности через TinyChat.

📌Лицензирование кода : Apache 2.0 license.

📌Лицензирование моделей: CC-BY-NC-SA-4.0 license.

🟡

Arxiv

🟡

Набор моделей

🖥

Github [ Stars: 1.2K | Issues: 33 | Forks: 92]

@ai_machinelearning_big_data

#AI #NVLab #VLM #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22❤5🔥3

8.41K views09:52

Machinelearning

🌟 Eagle-X5: Обновление семейства MMLM от NVIDIA Research Projects.

Eagle - это семейство MLLM высокого разрешения, построенное на LLaVA. В обновленном до версии X5 наборе представлено 3 модели:

🟢

Eagle-X5-7B

🟢

Eagle-X5-13B

🟠

Eagle-X5-13B-Chat

Архитектура Eagle-X5:

🟠

LLM: Eagle-X5 использует Vicuna-v1.5-7B и Vicuna-v1.5-13B для создания текстовых ответов и рассуждений о визуальном вводе;

🟠

Vision Encoders: в моделях Eagle-X5 пять энкодеров, предварительно натренированы на различных задачах и разрешениях - CLIP, ConvNeXt, Pix2Struct, EVA-02 и SAM (Segment Anything);

🟠

Fusion Module: визуальные признаки, полученные от каждого энкодера, объединяются с помощью поканальной конкатенации;

🟠

Projection Layer: используется для проецирования обработанных визуальных признаков в пространство встраивания LLM.

Обучение модели Eagle-X5 проходит в три этапа:

🟢каждый vision encoder индивидуально настраивается с замороженной LLM методом next-token-prediction supervision. Этот этап приводит визуальные представления в соответствие с языковым пространством и устраняет искажения;

🟢проекционный слой тренируется парами изображение-текст для дальнейшего выравнивания визуального и языкового пространства;

🟢SFT-этап, на котором вся модель точно настраивается на основе мультимодальных наборов данных: пары изображение-текст, VQA и мультимодальных диалоговых наборах.

Eagle показывает высокие результаты в мультимодальных бенчмарках LLM, особенно в задачах, чувствительных к разрешению - OCR и понимание документов.

Установка и запуск с GradioUI:

# Clone repository
git clone https://github.com/NVlabs/EAGLE.git
cd Eagle

# Create venv and install requirements
conda create -n eagle python=3.10 -y
conda activate eagle
pip install --upgrade pip  # enable PEP 660 support
pip install requirements

# Run Gradio
python gradio_demo.py --model-path ${MODEL_CKPT} --conv-mode vicuna_v1

📌Лицензирование кода : Apache 2.0 License.

📌Лицензирование моделей: CC-BY-NC-SA-4.0 License.

🟡

Набор моделей

🟡

Arxiv

🟡

Demo

🖥

Github [ Stars: 56 | Issues: 1 | Forks: 3]

@ai_machinelearning_big_data

#AI #NVIDIA #ML #EAGLEX5 #MMLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍30❤6🔥5

8.45K views17:32

Machinelearning

⚡️ Новостной МЛ дайджест

✔️ Google предлагает подписчикам Gemini Advanced новые функции: Gems и Imagen 3.

Gems дает возможность пользователям файнтюнить Gemini для конкретных задач, предлагая готовые сценарии: образование, программирование, поиск идей, помощник по карьере и ассистент писателя. Imagen 3 - это новейшая модель генерации изображений, разработанная Google DeepMind.
9to5google.com

✔️ Суд признал Google монополией, окажет ли это влияние на рынок ИИ.

Федеральный судья Амит Мехта признал Google монополией, постановив, что компания незаконно использовала свою рыночную власть для вреда конкурентам в области поисковых систем. Это решение является первым поражением крупной интернет-платформы в антимонопольном деле за более чем 20 лет и может иметь серьезные последствия для бизнес-практик компаний Silicon Valley.

Юристы считают, что это решение может сделать судей более восприимчивыми к антимонопольным действиям в других делах против крупных технологических компаний, особенно в отношении растущей индустрии ИИ. Сегодня рынок ИИ доминируется многими из тех же компаний, которые являются ответчиками по антимонопольным обвинениям в суде, и эти компании используют те же тактики для укрепления своей власти на рынке ИИ.
time.com

✔️ Microsoft разрабатывает новые подходы к ИИ, по примеру работы человеческого мозга.

Microsoft объявила о нескольких новых проектах, направленных на разработку более эффективных и устойчивых технологий искусственного интеллекта.

Один из проектов - разработка нейронной сети CircuitNet, которая имитирует работу мозга в обработке информации. CircuitNet использует комбинацию плотно связанных локальных узлов и меньшего количества соединений между отдаленными регионами, вследствие чего сигналы обрабатываются более эффективно.

Другой проект - улучшение точности предсказательных моделей для будущих событий. В нем используются спайковые нейронные сети (Spiking neural networks), которые активируют нейроны только при достижении определенного порога.

Третий проект - улучшение способности ИИ обрабатывать языковые данные и прогнозировать закономерности. Исследователи разработали новый подход, который комбинирует две техники: центральные генераторы паттернов (Central pattern generators) и позиционное кодирование (Positional encoding). В результате, SNN лучше обрабатывает временные данные и точнее прогнозирует будущие события.
microsoft.com

✔️ Релиз Vectorlite v0.2.0: быстрый векторный поиск в процессе работы на любом языке с поддержкой SQL.

Компания Vectorlite объявила о выпуске новой версии своей библиотеки поиска векторов - v0.2.0. В этой версии разработчики решили проблемы, связанные с ограничениями hnswlib, которая использовалась в предыдущих версиях Vectorlite.

Одной из проблем hnswlib была реализация расстояния между векторами, которая была медленной на платформах ARM и не использовала более быстрые инструкции на платформах x64 с поддержкой AVX2. Кроме того, SIMD-инструкции определялись на этапе компиляции, что могло вызвать проблемы на системах, не поддерживающих AVX2.

В новой версии Vectorlite разработчики представили свою собственную портативную реализацию расстояния между векторами с использованием библиотеки Google Highway. Это позволило улучшить производительность Vectorlite в 1,5-3 раза на машинах с поддержкой AVX2 и векторами размером 256 и более. На платформах ARM Vectorlite теперь также поддерживает SIMD-ускорение.

Еще в новой версии Vectorlite нормализация векторов теперь гарантированно ускорена с помощью SIMD, что делает ее в 4-10 раз быстрее, чем скалярная реализация. .
1yefuwang1.github.io

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22❤9🔥6

7.7K viewsedited 06:52

Machinelearning

⚡️ Qwen2-VL: второе поколение VLM моделей от Alibaba Cloud.

Qwen2-VL - это новая версия VLMs, основанная на Qwen2 в семействе моделей Qwen. По сравнению предыдущим поколением, Qwen2-VL обладает возможностями:

🟢Распознавание изображений с различным разрешением и соотношением сторон;
🟢VQA-понимание видеороликов продолжительностью более 20 минут с поддержкой диалога;
🟢Интеграция с носимыми устройствами (мобильный телефон, робот и т.д) в качестве агента управления;
🟢Мультиязычность внутри входных данных, например на изображениях или видео.
🟢Улучшенное распознавание объектов и предметов;
🟢Расширенные возможности в области математики и понимания программного кода.

Набор Qwen2-VL состоит из трех основных моделей, две из которых публикуются в отrрытом доступе. Модель Qwen2-VL-72B доступна только по API:

🟠Qwen2-VL-72B;

🟢

Qwen2-VL-7B-Instruct;

🟢

Qwen2-VL-2B-Instruct,

и их квантованные версии в форматах AWQ и GPTQ в разрядностях Int8 и Int4.

Архитектура моделей. как и в прошлом поколении основана на ViT 600M и LLM Qwen2, но с добавлением двух ключевых модификаций:

🟠использование NDR (Naive Dynamic Resolution), который позволил обрабатывать входные данные любого разрешения, преобразуя их в динамическое количество визуальных токенов. Эта реализация максимально близка к имитации зрительного восприятия человека.

🟠технология Multimodal Rotary Position Embedding (M-ROPE). Благодаря деконструкции оригинального rotary embedding на три части, представляющие временную и пространственную информацию, M-ROPE дает возможность LLM одновременно захватывать 1D( текст ), 2D( визуал ) и 3D( видео ) информацию.

⚠️ Ограничения в возможностях и слабые стороны поколения состоят в том, что модели не умеют извлекать звук из видео, а их знания актуальны на июнь 2023 года.

Кроме того, они не могут гарантировать полную точность при обработке сложных инструкций или сценариев. Модели относительно слабы в задачах, связанных со счетом, распознаванием символов и трехмерным пространственным восприятием.

▶️Использование и интеграция Qwen2-VL возможна с инструментами и на фреймворках: Transformers, vLLM, Llama-Factory, AutoGPTQ, AutoAWQ.

📌Лицензирование: Apache 2.0 License.

🟡

🟡

🟡

🟡

🖥

Github [ Stars: 59 | Issues: 3 | Forks: 2]

@ai_machinelearning_big_data

#AI #Qwen #ML #GPTQ #VLM #AWQ

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13👍10❤5😁1

16.2K views09:32

Machinelearning

0:50

This media is not supported in your browser

VIEW IN TELEGRAM

0:33

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 OmniRe: 3DGS-метод реконструкции и симуляции городской среды.

OmniRe - метод для целостной реконструкции городских среды с движущимися объектами по существующим видеозаписям.
Метод использует нейронный граф сцены и гауссовы представления для моделирования различных динамических объектов - транспортные средства, пешеходов и велосипедистов.

OmniRe реконструирует и оптимизирует всю композицию сцены за один этап: гауссовские атрибуты, положения объектов, позы людей и веса сети деформаций.

Способность целостного моделирования динамических объектов позволяет применять OmniRe в проектах управления транспортными средствами, моделирования дорожного движения и симуляции поведения человека в условиях городской среды.

Ограничения и недостатки:

🟠метод не моделирует световые эффекты при различных условиях освещения;
🟠OmniRe еще не умеет генерировать отсутствующие или исправлять некорректные ракурсы, когда камера значительно отклоняется от траекторий съемки.

Прикладное применения метода реализовано в виде фреймворка Drive Studio. Помимо имплементации метода OmniRe, он имеет ряд полезных функций:

🟢гибкое обучение с использованием нескольких камер;
🟢использование ядра растеризации gsplat с расширенными функциями абсолютных градиентов, сглаживания и т.д;
🟢уточнение ракурса камеры;
🟢уточнение границ для Bounding Box объектов в режиме GT;
🟢афинное преобразование экспозиции съемки для выравнивания освещенности.

Фреймворк поддерживает методы OmniRe, Deformable-GS, PVG, Street Gaussians с использованием набора данных Waymo, NuScenes, NuPlan, ArgoVerse, PandaSet, KITTI.

Планы по развитию Drive Studio:

🟢разработка средство просмотра в режиме реального времени;
🟢инструменты для редактирования и симуляции сцен;
🟢поддержка 2DGS, Surfels и других представлений.

⚠️ Важно! Перед началом обучения внимательно ознакомьтесь с инструкциями по подготовке наборов данных.

▶️Установка:

# Clone repository with submodules
git clone --recursive https://github.com/ziyc/drivestudio.git
cd drivestudio

# Create venv and install requirements
conda create -n drivestudio python=3.9 -y
conda activate drivestudio
pip install -r requirements.txt
pip install git+https://github.com/facebookresearch/pytorch3d.git
pip install git+https://github.com/NVlabs/nvdiffrast

# Set up for SMPL Gaussians
cd third_party/smplx/
pip install -e .
cd ../..