⚡️ Новостной дайджест.
✔️ NVIDIA запускает NIM Agent Blueprints для предприятий, чтобы помочь им создать свой корпоративный ИИ.
Компания NVIDIA объявила о выпуске каталога готовых ИИ-решений под названием NVIDIA NIM Agent Blueprints, который позволит разработчикам создавать и развертывать генеративные ИИ-приложения для различных отраслей.
NIM Agent Blueprints представляет собой набор предварительно обученных, настраиваемых рабочих процессов, которые могут быть использованы для создания приложений для обслуживание клиентов, автоматизации рабочих процессов и извлечение данных из PDF-файлов.
NVIDIA также объявила о сотрудничестве с Accenture, Cisco, Dell Technologies, Deloitte, Hewlett Packard Enterprise, Lenovo, SoftServe и World Wide Technology, которые будут использовать NIM Agent Blueprints для создания и развертывания генеративных ИИ-приложений для своих клиентов.
nvidianews.nvidia.com
✔️ Claude.ai сделала доступной функцию Artifacts для всех пользователей.
Компания Claude.ai объявила о доступности функции Artifacts для всех пользователей, включая владельцев бесплатных, профессиональных и командных планов. Теперь пользователи могут создавать и просматривать Artifacts в мобильных приложениях для iOS и Android.
anthropic.com
✔️ Cerebras Inference: самый быстрый инференс для языковых моделей.
Компания Cerebras Systems представила сервис для инференса LLM, который показывает рекордную производительность и скорость. Движок, работающий на базе третьего поколения процессора Wafer Scale Engine, способен обрабатывать до 1800 токенов в секунду для модели Llama3.1 8B и до 450 токенов в секунду для модели Llama3.1 70B. Это в 20 раз быстрее, чем решения на базе графических процессоров NVIDIA.
Онлайн-сервис Cerebras предлагает лучшую цену в отрасли - 10 центов за миллион токенов для модели Llama 3.1 8B и 60 центов за миллион токенов для модели Llama 3 70B. Разработчикам уже доступен API для работы с сервисом.
В планах компании - поддержка моделей Llama3 405B и Mistral Large 2 в ближайшие недели.
cerebras.ai
✔️ Закрыта студия дополненной реальности MetaSpark.
Компания объявила о закрытии платформы MetaSpark для сторонних дополнений и контента с 14 января 2025 года. Это означает, что AR решения, созданные сторонними разработчиками, включая бренды и сообщество AR-создателей, больше не будут доступны.
Однако, AR инструменты, принадлежащие Meta, продолжат быть доступны пользователям во всех приложениях компании.
Это решение является частью дорожной карты по приоритезации продуктов, которые лучше всего будут отвечать будущим потребностям потребителей и бизнес-клиентов.
spark.meta.com
@ai_machinelearning_big_data
#news #ai #ml
Компания NVIDIA объявила о выпуске каталога готовых ИИ-решений под названием NVIDIA NIM Agent Blueprints, который позволит разработчикам создавать и развертывать генеративные ИИ-приложения для различных отраслей.
NIM Agent Blueprints представляет собой набор предварительно обученных, настраиваемых рабочих процессов, которые могут быть использованы для создания приложений для обслуживание клиентов, автоматизации рабочих процессов и извлечение данных из PDF-файлов.
NVIDIA также объявила о сотрудничестве с Accenture, Cisco, Dell Technologies, Deloitte, Hewlett Packard Enterprise, Lenovo, SoftServe и World Wide Technology, которые будут использовать NIM Agent Blueprints для создания и развертывания генеративных ИИ-приложений для своих клиентов.
nvidianews.nvidia.com
Компания Claude.ai объявила о доступности функции Artifacts для всех пользователей, включая владельцев бесплатных, профессиональных и командных планов. Теперь пользователи могут создавать и просматривать Artifacts в мобильных приложениях для iOS и Android.
anthropic.com
Компания Cerebras Systems представила сервис для инференса LLM, который показывает рекордную производительность и скорость. Движок, работающий на базе третьего поколения процессора Wafer Scale Engine, способен обрабатывать до 1800 токенов в секунду для модели Llama3.1 8B и до 450 токенов в секунду для модели Llama3.1 70B. Это в 20 раз быстрее, чем решения на базе графических процессоров NVIDIA.
Онлайн-сервис Cerebras предлагает лучшую цену в отрасли - 10 центов за миллион токенов для модели Llama 3.1 8B и 60 центов за миллион токенов для модели Llama 3 70B. Разработчикам уже доступен API для работы с сервисом.
В планах компании - поддержка моделей Llama3 405B и Mistral Large 2 в ближайшие недели.
cerebras.ai
Компания объявила о закрытии платформы MetaSpark для сторонних дополнений и контента с 14 января 2025 года. Это означает, что AR решения, созданные сторонними разработчиками, включая бренды и сообщество AR-создателей, больше не будут доступны.
Однако, AR инструменты, принадлежащие Meta, продолжат быть доступны пользователям во всех приложениях компании.
Это решение является частью дорожной карты по приоритезации продуктов, которые лучше всего будут отвечать будущим потребностям потребителей и бизнес-клиентов.
spark.meta.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24❤4🔥4
LongVILA, полнофункциональное решение на основе LLaVA, разработанное NVLabs, для длинноконтекстных VLM, включающее программный набор, претрейн-моделей и разработку набора данных для обучения.
Программная реализация основывается на Multi-Modal Sequence Parallelism (MM-SP).
Это распределенный фреймворк для обучения и вывода, который предназначен для визуальных языковых моделей (VLM) с длинным контекстом. Он решает сложную задачу обработки огромных объемов данных и вычислений, необходимых для обучения и развертывания VLM на длинных видео.
Ядром MM-SP является двухэтапная стратегия шардинга и механизм 2D-внимания.
На первом этапе изображения равномерно распределяются по устройствам, обеспечивая сбалансированное кодирование изображений.
Второй этап включает в себя шардинг токенов уровня глобального зрения и текстовых входных данных с добавлением фиктивных токенов для совместимости с кольцевым вниманием.
Механизм 2D-внимания повышает эффективность в MM-SP, объединяя кольцевой стиль и стиль Улисса (Ulysses) последовательного параллелизма, используя внутриузловое общение All-2-All и межузловое общение P2P.
MM-SP распределяет вычислительную нагрузку по нескольким устройствам позволяя проводить обучение и вывод на чрезвычайно длинных последовательностях. Кроме того гибридная стратегия параллелизма минимизирует накладные расходы на связь еще больше улучшая пропускную способность обучения и сокращая время вывода.
Полный стек решения LongVILA расширяет число возможных кадров VILA в 128 раз (с 8 до 1024 кадров) и улучшает оценку аннотирования длинных видео с 2,00 до 3,26 (в 1,6 раза), демонстрируя 99,5% точности в 1400-кадровом видео (длина контекста 274k).
Претрейн модели основаны на Llama-3-8B и предназначены для рассуждений с использованием нескольких изображений и имеют навык визуальной цепочки мышления.
Опубликованы 3 модели:
Эти модели были обучены на 53 миллионах пар "изображение-текст" и могут быть развернуты на конечных устройствах от Jetson Orin для FP16 версий до потребительских ноутбуков в квантованной 4-bit размерности через TinyChat.
@ai_machinelearning_big_data
#AI #NVLab #VLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤5🔥3
Eagle - это семейство MLLM высокого разрешения, построенное на LLaVA. В обновленном до версии X5 наборе представлено 3 модели:
Архитектура Eagle-X5:
Обучение модели Eagle-X5 проходит в три этапа:
Eagle показывает высокие результаты в мультимодальных бенчмарках LLM, особенно в задачах, чувствительных к разрешению - OCR и понимание документов.
Установка и запуск с GradioUI:
# Clone repository
git clone https://github.com/NVlabs/EAGLE.git
cd Eagle
# Create venv and install requirements
conda create -n eagle python=3.10 -y
conda activate eagle
pip install --upgrade pip # enable PEP 660 support
pip install requirements
# Run Gradio
python gradio_demo.py --model-path ${MODEL_CKPT} --conv-mode vicuna_v1
@ai_machinelearning_big_data
#AI #NVIDIA #ML #EAGLEX5 #MMLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤6🔥5
⚡️ Новостной МЛ дайджест
✔️ Google предлагает подписчикам Gemini Advanced новые функции: Gems и Imagen 3.
Gems дает возможность пользователям файнтюнить Gemini для конкретных задач, предлагая готовые сценарии: образование, программирование, поиск идей, помощник по карьере и ассистент писателя. Imagen 3 - это новейшая модель генерации изображений, разработанная Google DeepMind.
9to5google.com
✔️ Суд признал Google монополией, окажет ли это влияние на рынок ИИ.
Федеральный судья Амит Мехта признал Google монополией, постановив, что компания незаконно использовала свою рыночную власть для вреда конкурентам в области поисковых систем. Это решение является первым поражением крупной интернет-платформы в антимонопольном деле за более чем 20 лет и может иметь серьезные последствия для бизнес-практик компаний Silicon Valley.
Юристы считают, что это решение может сделать судей более восприимчивыми к антимонопольным действиям в других делах против крупных технологических компаний, особенно в отношении растущей индустрии ИИ. Сегодня рынок ИИ доминируется многими из тех же компаний, которые являются ответчиками по антимонопольным обвинениям в суде, и эти компании используют те же тактики для укрепления своей власти на рынке ИИ.
time.com
✔️ Microsoft разрабатывает новые подходы к ИИ, по примеру работы человеческого мозга.
Microsoft объявила о нескольких новых проектах, направленных на разработку более эффективных и устойчивых технологий искусственного интеллекта.
Один из проектов - разработка нейронной сети CircuitNet, которая имитирует работу мозга в обработке информации. CircuitNet использует комбинацию плотно связанных локальных узлов и меньшего количества соединений между отдаленными регионами, вследствие чего сигналы обрабатываются более эффективно.
Другой проект - улучшение точности предсказательных моделей для будущих событий. В нем используются спайковые нейронные сети (Spiking neural networks), которые активируют нейроны только при достижении определенного порога.
Третий проект - улучшение способности ИИ обрабатывать языковые данные и прогнозировать закономерности. Исследователи разработали новый подход, который комбинирует две техники: центральные генераторы паттернов (Central pattern generators) и позиционное кодирование (Positional encoding). В результате, SNN лучше обрабатывает временные данные и точнее прогнозирует будущие события.
microsoft.com
✔️ Релиз Vectorlite v0.2.0: быстрый векторный поиск в процессе работы на любом языке с поддержкой SQL.
Компания Vectorlite объявила о выпуске новой версии своей библиотеки поиска векторов - v0.2.0. В этой версии разработчики решили проблемы, связанные с ограничениями hnswlib, которая использовалась в предыдущих версиях Vectorlite.
Одной из проблем hnswlib была реализация расстояния между векторами, которая была медленной на платформах ARM и не использовала более быстрые инструкции на платформах x64 с поддержкой AVX2. Кроме того, SIMD-инструкции определялись на этапе компиляции, что могло вызвать проблемы на системах, не поддерживающих AVX2.
В новой версии Vectorlite разработчики представили свою собственную портативную реализацию расстояния между векторами с использованием библиотеки Google Highway. Это позволило улучшить производительность Vectorlite в 1,5-3 раза на машинах с поддержкой AVX2 и векторами размером 256 и более. На платформах ARM Vectorlite теперь также поддерживает SIMD-ускорение.
Еще в новой версии Vectorlite нормализация векторов теперь гарантированно ускорена с помощью SIMD, что делает ее в 4-10 раз быстрее, чем скалярная реализация. .
1yefuwang1.github.io
@ai_machinelearning_big_data
#news #ai #ml
Gems дает возможность пользователям файнтюнить Gemini для конкретных задач, предлагая готовые сценарии: образование, программирование, поиск идей, помощник по карьере и ассистент писателя. Imagen 3 - это новейшая модель генерации изображений, разработанная Google DeepMind.
9to5google.com
Федеральный судья Амит Мехта признал Google монополией, постановив, что компания незаконно использовала свою рыночную власть для вреда конкурентам в области поисковых систем. Это решение является первым поражением крупной интернет-платформы в антимонопольном деле за более чем 20 лет и может иметь серьезные последствия для бизнес-практик компаний Silicon Valley.
Юристы считают, что это решение может сделать судей более восприимчивыми к антимонопольным действиям в других делах против крупных технологических компаний, особенно в отношении растущей индустрии ИИ. Сегодня рынок ИИ доминируется многими из тех же компаний, которые являются ответчиками по антимонопольным обвинениям в суде, и эти компании используют те же тактики для укрепления своей власти на рынке ИИ.
time.com
Microsoft объявила о нескольких новых проектах, направленных на разработку более эффективных и устойчивых технологий искусственного интеллекта.
Один из проектов - разработка нейронной сети CircuitNet, которая имитирует работу мозга в обработке информации. CircuitNet использует комбинацию плотно связанных локальных узлов и меньшего количества соединений между отдаленными регионами, вследствие чего сигналы обрабатываются более эффективно.
Другой проект - улучшение точности предсказательных моделей для будущих событий. В нем используются спайковые нейронные сети (Spiking neural networks), которые активируют нейроны только при достижении определенного порога.
Третий проект - улучшение способности ИИ обрабатывать языковые данные и прогнозировать закономерности. Исследователи разработали новый подход, который комбинирует две техники: центральные генераторы паттернов (Central pattern generators) и позиционное кодирование (Positional encoding). В результате, SNN лучше обрабатывает временные данные и точнее прогнозирует будущие события.
microsoft.com
Компания Vectorlite объявила о выпуске новой версии своей библиотеки поиска векторов - v0.2.0. В этой версии разработчики решили проблемы, связанные с ограничениями hnswlib, которая использовалась в предыдущих версиях Vectorlite.
Одной из проблем hnswlib была реализация расстояния между векторами, которая была медленной на платформах ARM и не использовала более быстрые инструкции на платформах x64 с поддержкой AVX2. Кроме того, SIMD-инструкции определялись на этапе компиляции, что могло вызвать проблемы на системах, не поддерживающих AVX2.
В новой версии Vectorlite разработчики представили свою собственную портативную реализацию расстояния между векторами с использованием библиотеки Google Highway. Это позволило улучшить производительность Vectorlite в 1,5-3 раза на машинах с поддержкой AVX2 и векторами размером 256 и более. На платформах ARM Vectorlite теперь также поддерживает SIMD-ускорение.
Еще в новой версии Vectorlite нормализация векторов теперь гарантированно ускорена с помощью SIMD, что делает ее в 4-10 раз быстрее, чем скалярная реализация. .
1yefuwang1.github.io
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤9🔥6
Qwen2-VL - это новая версия VLMs, основанная на Qwen2 в семействе моделей Qwen. По сравнению предыдущим поколением, Qwen2-VL обладает возможностями:
Набор Qwen2-VL состоит из трех основных моделей, две из которых публикуются в отrрытом доступе. Модель Qwen2-VL-72B доступна только по API:
и их квантованные версии в форматах AWQ и GPTQ в разрядностях Int8 и Int4.
Архитектура моделей. как и в прошлом поколении основана на ViT 600M и LLM Qwen2, но с добавлением двух ключевых модификаций:
⚠️ Ограничения в возможностях и слабые стороны поколения состоят в том, что модели не умеют извлекать звук из видео, а их знания актуальны на июнь 2023 года.
Кроме того, они не могут гарантировать полную точность при обработке сложных инструкций или сценариев. Модели относительно слабы в задачах, связанных со счетом, распознаванием символов и трехмерным пространственным восприятием.
@ai_machinelearning_big_data
#AI #Qwen #ML #GPTQ #VLM #AWQ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍10❤5😁1
OmniRe - метод для целостной реконструкции городских среды с движущимися объектами по существующим видеозаписям.
Метод использует нейронный граф сцены и гауссовы представления для моделирования различных динамических объектов - транспортные средства, пешеходов и велосипедистов.
OmniRe реконструирует и оптимизирует всю композицию сцены за один этап: гауссовские атрибуты, положения объектов, позы людей и веса сети деформаций.
Способность целостного моделирования динамических объектов позволяет применять OmniRe в проектах управления транспортными средствами, моделирования дорожного движения и симуляции поведения человека в условиях городской среды.
Ограничения и недостатки:
Прикладное применения метода реализовано в виде фреймворка Drive Studio. Помимо имплементации метода OmniRe, он имеет ряд полезных функций:
Фреймворк поддерживает методы OmniRe, Deformable-GS, PVG, Street Gaussians с использованием набора данных Waymo, NuScenes, NuPlan, ArgoVerse, PandaSet, KITTI.
Планы по развитию Drive Studio:
⚠️ Важно! Перед началом обучения внимательно ознакомьтесь с инструкциями по подготовке наборов данных.
# Clone repository with submodules
git clone --recursive https://github.com/ziyc/drivestudio.git
cd drivestudio
# Create venv and install requirements
conda create -n drivestudio python=3.9 -y
conda activate drivestudio
pip install -r requirements.txt
pip install git+https://github.com/facebookresearch/pytorch3d.git
pip install git+https://github.com/NVlabs/nvdiffrast
# Set up for SMPL Gaussians
cd third_party/smplx/
pip install -e .
cd ../..
@ai_machinelearning_big_data
#AI #DriveStudio #ML #OmiRe #Gaussian
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤8🔥4