🤖💡Небольшая подборка моделей для различных задач обработки видео
VideoLLaMA 2 — логическое развитие прошлых моделей, включает в себя специализированный компонент пространственно-временной свертки (STC), который эффективно улавливает сложную динамику на видео.
EvTexture - новый метод апскейлинга видео. Он использует отдельный итеративный модуль улучшения текстуры, который позволяет получать информацию о событиях с высоким временным разрешением.
Этот модуль позволяет постепенно в несколько итераций уточнять текстуру заданных областей и повышать их разрешение.
MorpheuS - это метод, который может воссоздать 360° поверхности из случайно снятого RGB-D видео. Ненаблюдаемые области пространства достраиваются с помощью диффузионной модели.
ExVideo — техника тюнинга, позволяющая улучшить возможности моделей генерации видео. Она позволяет модели генерировать в 5 раз больше кадров, при этом требуется всего 1.5 тыс. часов обучения на GPU на датасете из 40 тыс. видео.
VideoLLaMA 2 — логическое развитие прошлых моделей, включает в себя специализированный компонент пространственно-временной свертки (STC), который эффективно улавливает сложную динамику на видео.
EvTexture - новый метод апскейлинга видео. Он использует отдельный итеративный модуль улучшения текстуры, который позволяет получать информацию о событиях с высоким временным разрешением.
Этот модуль позволяет постепенно в несколько итераций уточнять текстуру заданных областей и повышать их разрешение.
MorpheuS - это метод, который может воссоздать 360° поверхности из случайно снятого RGB-D видео. Ненаблюдаемые области пространства достраиваются с помощью диффузионной модели.
ExVideo — техника тюнинга, позволяющая улучшить возможности моделей генерации видео. Она позволяет модели генерировать в 5 раз больше кадров, при этом требуется всего 1.5 тыс. часов обучения на GPU на датасете из 40 тыс. видео.
GitHub
GitHub - DAMO-NLP-SG/VideoLLaMA2: VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs - DAMO-NLP-SG/VideoLLaMA2
💡🤖Мультимодальная LLM с продвинутыми возможностями работы с визуальной информацией
Буквально недавно ребята из Шанхайского университета выкатили MG-LLaVA — MLLM, которая расширяет возможности обработки визуальной информации за счет использования дополнительных компонентов: специальных компонентов, которые отвечают за работу с низким и высоким разрешением.
В MG-LLaVA интегрирован дополнительный визуальный энкодер высокого разрешения для захвата мелких деталей, которые затем объединяются с базовыми визуальными признаками с помощью сети Conv-Gate.
По словам разработчиков, эта модель обучалась исключительно на общедоступных мультимодальных данных.
Буквально недавно ребята из Шанхайского университета выкатили MG-LLaVA — MLLM, которая расширяет возможности обработки визуальной информации за счет использования дополнительных компонентов: специальных компонентов, которые отвечают за работу с низким и высоким разрешением.
В MG-LLaVA интегрирован дополнительный визуальный энкодер высокого разрешения для захвата мелких деталей, которые затем объединяются с базовыми визуальными признаками с помощью сети Conv-Gate.
По словам разработчиков, эта модель обучалась исключительно на общедоступных мультимодальных данных.
GitHub
GitHub - PhoenixZ810/MG-LLaVA: Official repository for paper MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning(htt…
Official repository for paper MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning(https://arxiv.org/abs/2406.17770). - PhoenixZ810/MG-LLaVA
🤖🔉Подборка библиотек и моделей для работы со звуком
AudioCraft — это библиотека PyTorch для исследований в области глубокого обучения генерации звука. AudioCraft содержит код вывода и обучения для двух современных генеративных моделей искусственного интеллекта, создающих высококачественный звук: AudioGen и MusicGen.
Qwen-Audio — это мультимодальная версия большой серии моделей Qwen, предложенной Alibaba Cloud. Qwen-Audio принимает разнообразный звук (человеческую речь, естественный звук, музыку и песни) и текст в качестве входных данных и выводит текст.
SEE-2-SOUND — новая разработка университета Торонто, передовой метод генерации пространственного звука из изображений, анимации и видео. Модель состоит из трех основных компонентов: оценка источника звука, генерация звука и пространственная генерация объемного звука.
Hallo - подход в анимации портретных изображений на основе аудио. Он объединяет генеративные диффузионные модели, денойзер на основе UNet, методы временного согласования отдельных движений и опорную нейросеть, а также даёт возможность контролировать выражение и движения лица.
Audio Seal - это SOTA для добавления метаданных на аудио и распознавания их, предназначенная для локального распознавания речи, сгенерированной искусственным интеллектом.
SALMONN — это новая мультимодальная модель машинного обучения с открытым исходным кодом, предназначенная для обработки аудиоданных любого типа: речи, музыки и различных звуков.
AudioCraft — это библиотека PyTorch для исследований в области глубокого обучения генерации звука. AudioCraft содержит код вывода и обучения для двух современных генеративных моделей искусственного интеллекта, создающих высококачественный звук: AudioGen и MusicGen.
Qwen-Audio — это мультимодальная версия большой серии моделей Qwen, предложенной Alibaba Cloud. Qwen-Audio принимает разнообразный звук (человеческую речь, естественный звук, музыку и песни) и текст в качестве входных данных и выводит текст.
SEE-2-SOUND — новая разработка университета Торонто, передовой метод генерации пространственного звука из изображений, анимации и видео. Модель состоит из трех основных компонентов: оценка источника звука, генерация звука и пространственная генерация объемного звука.
Hallo - подход в анимации портретных изображений на основе аудио. Он объединяет генеративные диффузионные модели, денойзер на основе UNet, методы временного согласования отдельных движений и опорную нейросеть, а также даёт возможность контролировать выражение и движения лица.
Audio Seal - это SOTA для добавления метаданных на аудио и распознавания их, предназначенная для локального распознавания речи, сгенерированной искусственным интеллектом.
SALMONN — это новая мультимодальная модель машинного обучения с открытым исходным кодом, предназначенная для обработки аудиоданных любого типа: речи, музыки и различных звуков.
GitHub
GitHub - facebookresearch/audiocraft: Audiocraft is a library for audio processing and generation with deep learning. It features…
Audiocraft is a library for audio processing and generation with deep learning. It features the state-of-the-art EnCodec audio compressor / tokenizer, along with MusicGen, a simple and controllable...
😎🤖Высокоточный Instruct pix2pix по текстовому запросу
Navve Wasserman с коллегами представили усовершенствованную версию Instruct pix2pix под названием "Paint by Inpaint". Процесс усовершенствования включал следующие этапы:
— Создание конвейера обработки изображений с помощью модели inpaint, которая добавляла объекты на изображения. Сравнивая исходное изображение с модифицированным, вычислялась разница, что позволило создать датасет PIPE.
— Датасет PIPE был аннотирован крупной моделью VLM и обработан для устранения артефактов маскирования объектов, что привело к созданию набора высокодетализированных объектов для вычитания.
— Эти два противоположных процесса — удаление и добавление объектов — были объединены с применением более точного контроля (по аналогии с GAN), что в итоге позволило создать модель, очень точно добавляющую объекты на изображения по текстовому запросу.
🖥Страница проекта Paint by Inpaint
Navve Wasserman с коллегами представили усовершенствованную версию Instruct pix2pix под названием "Paint by Inpaint". Процесс усовершенствования включал следующие этапы:
— Создание конвейера обработки изображений с помощью модели inpaint, которая добавляла объекты на изображения. Сравнивая исходное изображение с модифицированным, вычислялась разница, что позволило создать датасет PIPE.
— Датасет PIPE был аннотирован крупной моделью VLM и обработан для устранения артефактов маскирования объектов, что привело к созданию набора высокодетализированных объектов для вычитания.
— Эти два противоположных процесса — удаление и добавление объектов — были объединены с применением более точного контроля (по аналогии с GAN), что в итоге позволило создать модель, очень точно добавляющую объекты на изображения по текстовому запросу.
🖥Страница проекта Paint by Inpaint
GitHub
GitHub - RotsteinNoam/Paint-by-Inpaint: Paint by Inpaint: Learning to Add Image Objects by Removing Them First
Paint by Inpaint: Learning to Add Image Objects by Removing Them First - RotsteinNoam/Paint-by-Inpaint
🤖🔬ИИ-помощник в научных исследованиях
SciSpace Copilot - это искусственный интеллект, помощник в научных исследованиях, разработанный для помощи пользователям в понимании научной литературы, предоставляя объяснения для текстов, математических уравнений и таблиц, найденных в научных статьях, технических блогах и отчетах. Пользователи могут упростить технический язык, задавать уточняющие вопросы, понимать математику и таблицы, а также переключаться между несколькими языками для более полного чтения.
Ключевые особенности сервиса:
Упрощенные объяснения: простые объяснения для технической жаргонной лексики, аббревиатур и сложных параграфов научных работ.
Интерактивное обучение: можно общаться с Copilot, задавая предустановленные или настраиваемые вопросы, чтобы улучшить понимание во время чтения.
Понимание математики и таблиц: анализ математических уравнений или таблиц, чтобы получить понимание их значения.
Гибкость языка: взаимодействие с Copilot на 13 языках и получайте объяснения на предпочитаемом языке.
SciSpace Copilot - это искусственный интеллект, помощник в научных исследованиях, разработанный для помощи пользователям в понимании научной литературы, предоставляя объяснения для текстов, математических уравнений и таблиц, найденных в научных статьях, технических блогах и отчетах. Пользователи могут упростить технический язык, задавать уточняющие вопросы, понимать математику и таблицы, а также переключаться между несколькими языками для более полного чтения.
Ключевые особенности сервиса:
Упрощенные объяснения: простые объяснения для технической жаргонной лексики, аббревиатур и сложных параграфов научных работ.
Интерактивное обучение: можно общаться с Copilot, задавая предустановленные или настраиваемые вопросы, чтобы улучшить понимание во время чтения.
Понимание математики и таблиц: анализ математических уравнений или таблиц, чтобы получить понимание их значения.
Гибкость языка: взаимодействие с Copilot на 13 языках и получайте объяснения на предпочитаемом языке.
Google
SciSpace: Do hours of research in minutes - Chrome Web Store
Your AI research assistant for understanding scientific literature.
⚡️MInference 1.0 by Microsoft
Microsoft опубликовала результаты исследования проекта MInference. Этот метод ускоряет обработку длинных последовательностей благодаря разреженным вычислениям и использованию уникальных шаблонов в матрицах. Методика MInference не требует изменений в настройках предварительного обучения.
Проведенные исследователями Microsoft синтетические тесты метода на моделях LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K и Qwen2-128K показывают сокращение задержек и ошибок при предварительном заполнении до 10 раз на A100 с сохранением точности.
Microsoft опубликовала результаты исследования проекта MInference. Этот метод ускоряет обработку длинных последовательностей благодаря разреженным вычислениям и использованию уникальных шаблонов в матрицах. Методика MInference не требует изменений в настройках предварительного обучения.
Проведенные исследователями Microsoft синтетические тесты метода на моделях LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K и Qwen2-128K показывают сокращение задержек и ошибок при предварительном заполнении до 10 раз на A100 с сохранением точности.
GitHub
GitHub - microsoft/MInference: [NeurIPS'24 Spotlight] To speed up Long-context LLMs' inference, approximate and dynamic sparse…
[NeurIPS'24 Spotlight] To speed up Long-context LLMs' inference, approximate and dynamic sparse calculate the attention, which reduces inference latency by up to 10x for pre-filling...
🤖💡Свежая модель на базе Qwen2-7B
Недавно Arcee AI выпустила свою последнюю инновацию – Arcee Agent, современную модель языка с 7 миллиардами параметров. Эта модель предназначена для вызова функций и использования инструментов, предоставляя разработчикам, исследователям и бизнесу эффективное и мощное решение искусственного интеллекта. Несмотря на свой более небольшой размер по сравнению с более крупными моделями языка, Arcee Agent превосходит их в производительности, что делает его идеальным выбором для сложных приложений, использующих AI, без значительных вычислительных затрат.
Arcee Agent построен на архитектуре Qwen2-7B, известной своей эффективностью и скоростью. Эта модель обучена с использованием спектрального фреймворка, с вычислительными ресурсами, предоставленными CrusoeAI. Основное преимущество Arcee Agent заключается в его продвинутых возможностях вызова функций. Он без проблем интерпретирует, выполняет и объединяет вызовы функций, что позволяет ему эффективно взаимодействовать с различными внешними инструментами, API и сервисами.
Arcee Agent обладает совместимостью с различными форматами использования инструментов. Он оптимально работает с форматом VLLM OpenAI FC, но также умело обрабатывает решения, основанные на запросах, и другие специфические потребности инфраструктуры. Кроме того, он предлагает функциональность двойного режима: в качестве маршрутизатора инструментов, который эффективно направляет запросы к соответствующим инструментам или более крупным моделям, и в качестве автономного чат-агента, способного вести беседы, похожие на человеческие, и самостоятельно выполнять разнообразные задачи.
Возможности модели распространяются на различные бизнес-приложения. В сфере обслуживания клиентов он может автоматизировать сложные запросы и рутинные задачи, такие как сброс пароля и отслеживание заказов, взаимодействуя с системами управления взаимоотношениями с клиентами для персонализированных взаимодействий. В сфере продаж и маркетинга Arcee Agent может автоматизировать квалификацию потенциальных клиентов, генерировать динамический контент и анализировать отзывы клиентов для формирования стратегий. Операционная эффективность повышается благодаря автоматизации административных задач, интеллектуальному поиску данных и оптимизации управления проектами.
Однако, несмотря на свои специализированные возможности, Arcee Agent имеет некоторые ограничения. Его общие знания и возможности вне области вызова функций и использования инструментов ограничены. Он может не так хорошо справляться с задачами, не связанными с его основными функциональностями, и пользователи должны проверять его результаты, особенно в критических приложениях. Дата обрезки знаний модели также может повлиять на ее осведомленность о последних событиях.
Недавно Arcee AI выпустила свою последнюю инновацию – Arcee Agent, современную модель языка с 7 миллиардами параметров. Эта модель предназначена для вызова функций и использования инструментов, предоставляя разработчикам, исследователям и бизнесу эффективное и мощное решение искусственного интеллекта. Несмотря на свой более небольшой размер по сравнению с более крупными моделями языка, Arcee Agent превосходит их в производительности, что делает его идеальным выбором для сложных приложений, использующих AI, без значительных вычислительных затрат.
Arcee Agent построен на архитектуре Qwen2-7B, известной своей эффективностью и скоростью. Эта модель обучена с использованием спектрального фреймворка, с вычислительными ресурсами, предоставленными CrusoeAI. Основное преимущество Arcee Agent заключается в его продвинутых возможностях вызова функций. Он без проблем интерпретирует, выполняет и объединяет вызовы функций, что позволяет ему эффективно взаимодействовать с различными внешними инструментами, API и сервисами.
Arcee Agent обладает совместимостью с различными форматами использования инструментов. Он оптимально работает с форматом VLLM OpenAI FC, но также умело обрабатывает решения, основанные на запросах, и другие специфические потребности инфраструктуры. Кроме того, он предлагает функциональность двойного режима: в качестве маршрутизатора инструментов, который эффективно направляет запросы к соответствующим инструментам или более крупным моделям, и в качестве автономного чат-агента, способного вести беседы, похожие на человеческие, и самостоятельно выполнять разнообразные задачи.
Возможности модели распространяются на различные бизнес-приложения. В сфере обслуживания клиентов он может автоматизировать сложные запросы и рутинные задачи, такие как сброс пароля и отслеживание заказов, взаимодействуя с системами управления взаимоотношениями с клиентами для персонализированных взаимодействий. В сфере продаж и маркетинга Arcee Agent может автоматизировать квалификацию потенциальных клиентов, генерировать динамический контент и анализировать отзывы клиентов для формирования стратегий. Операционная эффективность повышается благодаря автоматизации административных задач, интеллектуальному поиску данных и оптимизации управления проектами.
Однако, несмотря на свои специализированные возможности, Arcee Agent имеет некоторые ограничения. Его общие знания и возможности вне области вызова функций и использования инструментов ограничены. Он может не так хорошо справляться с задачами, не связанными с его основными функциональностями, и пользователи должны проверять его результаты, особенно в критических приложениях. Дата обрезки знаний модели также может повлиять на ее осведомленность о последних событиях.
huggingface.co
arcee-ai/Arcee-Agent · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
😎🤖Принципиально новый метод машинного обучения
Test-Time Training RNN (ТТТ) - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения.
Основная особенность TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат.
Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.
Test-Time Training RNN (ТТТ) - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения.
Основная особенность TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат.
Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.
GitHub
GitHub - test-time-training/ttt-lm-pytorch: Official PyTorch implementation of Learning to (Learn at Test Time): RNNs with Expressive…
Official PyTorch implementation of Learning to (Learn at Test Time): RNNs with Expressive Hidden States - test-time-training/ttt-lm-pytorch
💡🤖Генератор CAD-моделей из текста
Text-to-CAD - это сервис с открытым исходным кодом для создания CAD-файлов с помощью текстовых подсказок. Создавайте модели, которые можно импортировать в выбранную вами CAD-программу. Инфраструктура, лежащая в основе Text-to-CAD, использует наши API проектирования и API машинного обучения для программного анализа обучающих данных и генерации файлов САПР.
Шестеренки, детали, запчасти и различные конструкции — на этом сайте можно получить результат за секунду. Готовые файлы в клик импортируются в любой софт.
Text-to-CAD - это сервис с открытым исходным кодом для создания CAD-файлов с помощью текстовых подсказок. Создавайте модели, которые можно импортировать в выбранную вами CAD-программу. Инфраструктура, лежащая в основе Text-to-CAD, использует наши API проектирования и API машинного обучения для программного анализа обучающих данных и генерации файлов САПР.
Шестеренки, детали, запчасти и различные конструкции — на этом сайте можно получить результат за секунду. Готовые файлы в клик импортируются в любой софт.
Zoo
Zoo: AI CAD Model Generator | Create CAD Files With Text
Text-to-CAD is an open-source prompt interface for generating CAD files through text prompts. Generate models that you can import into the CAD program of your choice.
🤖⚡️Генератор обобщающей политической сети с диффузией
Make-An-Agent - генератор обобщающей политической сети с диффузией, обусловленной поведением.
Обученная на контрольных точках сети политики и их соответствующих траекториях, модель генерации демонстрирует замечательную универсальность и масштабируемость на нескольких задачах и имеет сильную способность к обобщению на невидимых задачах для вывода хорошо выполняемых политик с использованием всего лишь нескольких демонстраций в качестве входных данных.
По словам разработчиков, модель демонстрирует эффективность и результативность в различных областях и задачах, включая поведение различных манипуляторов роботов.
Make-An-Agent - генератор обобщающей политической сети с диффузией, обусловленной поведением.
Обученная на контрольных точках сети политики и их соответствующих траекториях, модель генерации демонстрирует замечательную универсальность и масштабируемость на нескольких задачах и имеет сильную способность к обобщению на невидимых задачах для вывода хорошо выполняемых политик с использованием всего лишь нескольких демонстраций в качестве входных данных.
По словам разработчиков, модель демонстрирует эффективность и результативность в различных областях и задачах, включая поведение различных манипуляторов роботов.
huggingface.co
Paper page - Make-An-Agent: A Generalizable Policy Network Generator with
Behavior-Prompted Diffusion
Behavior-Prompted Diffusion
Join the discussion on this paper page
💡🤖ИИ для генерации различных звуков в беззвучных видео
FoleyCrafter - методика, разработанная для автоматического создания звуковых эффектов, синхронизированных с целевым видеорядом
Архитектура метода построена на основе предварительно обученной модели преобразования текста в аудио (Text2Audio).
Система состоит из двух ключевых компонентов:
Семантический адаптер - использует параллельные слои cross-attention для обусловливания генерации аудио на основе видеопризнаков. Выполняет семантическое соответствие генерируемых звуков визуальному контенту.
Временной контроллер - детектор временных меток анализирует и предсказывает интервалы звука и тишины в видео. Временной адаптер синхронизирует аудио с видео на основе выставленных детектором временных меток.
Оба компонента являются обучаемыми модулями, которые принимают видео в качестве входных данных для синтеза аудио. При этом модель Text2Audio остается фиксированной для сохранения ее способности к синтезу аудио постоянного качества.
Разработчики FoleyCrafter провели количественные и качественные эксперименты на наборах данных VGGSound и AVSync15 по метрикам семантического соответствия MKL, CLIP Score, FID и временной синхронизации Onset ACC, Onset AP.
По сравнению с существующими методами Text2Audio (SpecVQGAN, Diff-Foley и V2A-Mapper) FoleyCrafter показал лучшие результаты.
FoleyCrafter - методика, разработанная для автоматического создания звуковых эффектов, синхронизированных с целевым видеорядом
Архитектура метода построена на основе предварительно обученной модели преобразования текста в аудио (Text2Audio).
Система состоит из двух ключевых компонентов:
Семантический адаптер - использует параллельные слои cross-attention для обусловливания генерации аудио на основе видеопризнаков. Выполняет семантическое соответствие генерируемых звуков визуальному контенту.
Временной контроллер - детектор временных меток анализирует и предсказывает интервалы звука и тишины в видео. Временной адаптер синхронизирует аудио с видео на основе выставленных детектором временных меток.
Оба компонента являются обучаемыми модулями, которые принимают видео в качестве входных данных для синтеза аудио. При этом модель Text2Audio остается фиксированной для сохранения ее способности к синтезу аудио постоянного качества.
Разработчики FoleyCrafter провели количественные и качественные эксперименты на наборах данных VGGSound и AVSync15 по метрикам семантического соответствия MKL, CLIP Score, FID и временной синхронизации Onset ACC, Onset AP.
По сравнению с существующими методами Text2Audio (SpecVQGAN, Diff-Foley и V2A-Mapper) FoleyCrafter показал лучшие результаты.
GitHub
GitHub - open-mmlab/FoleyCrafter: FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds. AI拟音大师,给你的无声视频添加生动而且同步的音效…
FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds. AI拟音大师,给你的无声视频添加生动而且同步的音效 😝 - open-mmlab/FoleyCrafter
🔎💡Небольшой дайджест новостей в сфере технологий ИИ
Gam.hp - инструмент для оценки относительной важности предикторов в обобщенных аддитивных моделях. Исследователи из Nanjing Forestry University и Guangzhou Climate and Agro-meteorology Center в Китае создали пакет программного обеспечения - gam.hp, который рассчитывает индивидуальные значения R² для предикторов на основе концепции "средней общей дисперсии" - метода, ранее применявшегося для множественной регрессии и канонических анализов.
LOTUS предоставляет декларативную модель программирования и оптимизированный механизм запросов для обслуживания мощных конвейеров запросов на основе рассуждений к структурированным и неструктурированным данным.
В основе реализован простой и интуитивно понятный Pandas-подобный API, который реализует семантические операторы для расширения реляционной модели набором модульных операторов на основе языка.
Пользователи могут легко комбинировать такие операторы с традиционными операциями с данными для создания современных систем искусственного интеллекта, способных рассуждать об огромных массивах знаний.
В Netflix создали Maestro - горизонтально масштабируемый оркестратор рабочих процессов общего назначения, предназначенный для управления крупными рабочими процессами, такими как конвейеры обработки данных и конвейеры обучения моделей машинного обучения.
Пользователи могут упаковывать свою бизнес-логику в различные форматы, такие как образы Docker, блокноты, сценарии bash, SQL, Python и т.д.
Модель NeuralGCM, разработанная в сотрудничестве Google и Европейского центра прогнозов погоды на средние расстояния (ECMWF), - это новая атмосферная модель, объединяющая традиционное физическое моделирование с машинным обучением (ML).
Модель предназначена для повышения точности и эффективности прогнозирования погоды и климата.
NeuralGCM превосходит существующие модели в прогнозировании циклонов и их трасс. Примечательной особенностью NeuralGCM является его исключительная вычислительная эффективность, способная генерировать 22,8-дневное моделирование атмосферы в течение 30 секунд, при этом вычислительные затраты в 100 000 раз ниже, чем у традиционных моделей.
Gam.hp - инструмент для оценки относительной важности предикторов в обобщенных аддитивных моделях. Исследователи из Nanjing Forestry University и Guangzhou Climate and Agro-meteorology Center в Китае создали пакет программного обеспечения - gam.hp, который рассчитывает индивидуальные значения R² для предикторов на основе концепции "средней общей дисперсии" - метода, ранее применявшегося для множественной регрессии и канонических анализов.
LOTUS предоставляет декларативную модель программирования и оптимизированный механизм запросов для обслуживания мощных конвейеров запросов на основе рассуждений к структурированным и неструктурированным данным.
В основе реализован простой и интуитивно понятный Pandas-подобный API, который реализует семантические операторы для расширения реляционной модели набором модульных операторов на основе языка.
Пользователи могут легко комбинировать такие операторы с традиционными операциями с данными для создания современных систем искусственного интеллекта, способных рассуждать об огромных массивах знаний.
В Netflix создали Maestro - горизонтально масштабируемый оркестратор рабочих процессов общего назначения, предназначенный для управления крупными рабочими процессами, такими как конвейеры обработки данных и конвейеры обучения моделей машинного обучения.
Пользователи могут упаковывать свою бизнес-логику в различные форматы, такие как образы Docker, блокноты, сценарии bash, SQL, Python и т.д.
Модель NeuralGCM, разработанная в сотрудничестве Google и Европейского центра прогнозов погоды на средние расстояния (ECMWF), - это новая атмосферная модель, объединяющая традиционное физическое моделирование с машинным обучением (ML).
Модель предназначена для повышения точности и эффективности прогнозирования погоды и климата.
NeuralGCM превосходит существующие модели в прогнозировании циклонов и их трасс. Примечательной особенностью NeuralGCM является его исключительная вычислительная эффективность, способная генерировать 22,8-дневное моделирование атмосферы в течение 30 секунд, при этом вычислительные затраты в 100 000 раз ниже, чем у традиционных моделей.
GitHub
GitHub - laijiangshan/gam.hp
Contribute to laijiangshan/gam.hp development by creating an account on GitHub.
🤖💡Генерация 3D изображений на основе реальных фото
😀 Хочется увидеть себя в виде игровой 3D-модели? Теперь это легко! Вот как можно сделать это с помощью двух удивительных сервисов:
DzineAI — этот сервис сгенерирует изображение с любым лицом. Приятный интерфейс, не стоит забывать включить Face Match;
Tripo3d — на основе изображения Tripo3d создаст 3D-модель. Немного цензуры присутствует, но результат впечатляет. Модель можно сохранить во всех популярных форматах.
Стоит отметить, что оба ервиса предоставляют много токенов после регистрации, так что можно пользоваться бесплатно!
😀 Хочется увидеть себя в виде игровой 3D-модели? Теперь это легко! Вот как можно сделать это с помощью двух удивительных сервисов:
DzineAI — этот сервис сгенерирует изображение с любым лицом. Приятный интерфейс, не стоит забывать включить Face Match;
Tripo3d — на основе изображения Tripo3d создаст 3D-модель. Немного цензуры присутствует, но результат впечатляет. Модель можно сохранить во всех популярных форматах.
Стоит отметить, что оба ервиса предоставляют много токенов после регистрации, так что можно пользоваться бесплатно!
www.dzine.ai
Dzine (formerly Stylar.ai) - The Most Controllable AI Image & Design Tool
Transform design with Dzine: the most controllable AI design tool. Enjoy image generation and editing on our all-in-one online free platform.
💡🤖⚡️Вышла облегченная версия оптимизатора Adam
Основная идея Adam-mini заключается в том, что матрица Гессиана нейронных сетей, особенно трансформеров, имеет почти блочно-диагональную структуру. Такая структура подразумевает, что для оптимальной работы различных блоков может потребоваться разная скорость обучения. Adam-mini решает эту проблему, разбивая параметры модели на блоки по наименьшим плотным подблокам в матрице Гессиана. Каждому блоку присваивается одна скорость обучения. Скорость обучения для каждого блока в Adam-mini определяется путем усреднения значений вектора импульса второго порядка Adam (v) в пределах этого блока.
Данная методика сокращает количество необходимых LR, что приводит к значительной экономии памяти. Например, на LLM Adam-mini может сократить до 90% LR, по сравнению с Adam, что в итоге экономит использования памяти на 45-50 %.
Эффективность Adam-mini была проверена сравнением с показателями AdamW в различных сценариях:
Pre-training: на Llama2-7B Adam-mini сокращает использование памяти на 48,04 %, сохраняя при этом сопоставимые с AdamW потери при проверке.
SFТ и RLHF: превосходит AdamW в задачах на основе LoRA и RLHF, удерживая низкое значение perplexity.
Non-LLM Tasks: в задачах, не связанных с LLM - модели СV, ResNet, диффузионные модели, GCN и GAT демонстрирует сравнимую или лучшую производительность, чем AdamW, при этом используя меньше памяти.
Пропускная способность: при предварительном обучении Llama2-7B на 2×A800-80GB Adam-mini показывает производительность на 49,6 % выше, чем AdamW, экономя при этом 33,1 % времени.
На данный момент реализация Adam-mini поддерживает популярные фреймворки:
🟢DDP distributed framework;
🟢FSDP distributed framework;
🟢DeepSpeed;
🟢Hugginface Trainer;
🟢Torchtitan.
Локальный запуск:
Основная идея Adam-mini заключается в том, что матрица Гессиана нейронных сетей, особенно трансформеров, имеет почти блочно-диагональную структуру. Такая структура подразумевает, что для оптимальной работы различных блоков может потребоваться разная скорость обучения. Adam-mini решает эту проблему, разбивая параметры модели на блоки по наименьшим плотным подблокам в матрице Гессиана. Каждому блоку присваивается одна скорость обучения. Скорость обучения для каждого блока в Adam-mini определяется путем усреднения значений вектора импульса второго порядка Adam (v) в пределах этого блока.
Данная методика сокращает количество необходимых LR, что приводит к значительной экономии памяти. Например, на LLM Adam-mini может сократить до 90% LR, по сравнению с Adam, что в итоге экономит использования памяти на 45-50 %.
Эффективность Adam-mini была проверена сравнением с показателями AdamW в различных сценариях:
Pre-training: на Llama2-7B Adam-mini сокращает использование памяти на 48,04 %, сохраняя при этом сопоставимые с AdamW потери при проверке.
SFТ и RLHF: превосходит AdamW в задачах на основе LoRA и RLHF, удерживая низкое значение perplexity.
Non-LLM Tasks: в задачах, не связанных с LLM - модели СV, ResNet, диффузионные модели, GCN и GAT демонстрирует сравнимую или лучшую производительность, чем AdamW, при этом используя меньше памяти.
Пропускная способность: при предварительном обучении Llama2-7B на 2×A800-80GB Adam-mini показывает производительность на 49,6 % выше, чем AdamW, экономя при этом 33,1 % времени.
На данный момент реализация Adam-mini поддерживает популярные фреймворки:
🟢DDP distributed framework;
🟢FSDP distributed framework;
🟢DeepSpeed;
🟢Hugginface Trainer;
🟢Torchtitan.
Локальный запуск:
# # import from source
git clone https://github.com/zyushun/Adam-mini
cd Adam-mini
pip install -e .
# Then use Adam-mini optimizer as follows
from adam_mini import Adam_mini
optimizer = Adam_mini(
named_parameters = model.named_parameters(),
lr = lr,
betas = (beta1,beta2),
eps = eps,
weight_decay = weight_decay,
model_sharding = True,
dim = model_config.dim,
n_heads = model_config.n_heads,
n_kv_heads = model_config.n_kv_heads,
)
# all the hyperparameters, including learning rate (lr), weight_decay, beta1, beta2, eps, its recommend using the same values as for AdamW
GitHub
GitHub - zyushun/Adam-mini: Code for Adam-mini: Use Fewer Learning Rates To Gain More https://arxiv.org/abs/2406.16793
Code for Adam-mini: Use Fewer Learning Rates To Gain More https://arxiv.org/abs/2406.16793 - zyushun/Adam-mini
🤖⚡️Найден новый метод реконструкции пары "человек-объект"
StackFLOW - монокулярная реконструкция пары "человек-объект" с использованием многоуровневого нормализующего потока со смещениями.
Техническая реализация метода реконструкции состоит из двух фаз: моделирование пространственных отношений и реконструкция человека-объекта в моделируемом пространстве.
Кодирование пространственных отношений пары человек-объект выполняется методом "Human-Object Offset". Для каждой пары вычисляются смещения между всеми якорными точками человека и объекта.
Эти смещения позволяют захватить высоко детализированную корреляцию между частями человека и объекта, обеспечивая качественное кодирование 3D пространственных отношений между ними. Затем выполняется монокулярная реконструкция человека и объекта методом "Stacked Normalizing Flow (StackFLOW)".
Для вывода апостериорного распределения пространственных отношений между человеком и объектом из изображения, вносятся векторные корректировки в позу человека и положение объекта, максимизируя правдоподобие выборок и минимизируя потери репроекции 2D-3D соответствия.
В процессе разработки метода, StackFLOW сравнивали с существующими методиками реконструкции PHOSA, CHORE и BSTRO на наборах данных BEHAVE и InterCap.
Разработчики отмечают, что по результатам StackFLOW показал конкурентоспособные результаты.
StackFLOW - монокулярная реконструкция пары "человек-объект" с использованием многоуровневого нормализующего потока со смещениями.
Техническая реализация метода реконструкции состоит из двух фаз: моделирование пространственных отношений и реконструкция человека-объекта в моделируемом пространстве.
Кодирование пространственных отношений пары человек-объект выполняется методом "Human-Object Offset". Для каждой пары вычисляются смещения между всеми якорными точками человека и объекта.
Эти смещения позволяют захватить высоко детализированную корреляцию между частями человека и объекта, обеспечивая качественное кодирование 3D пространственных отношений между ними. Затем выполняется монокулярная реконструкция человека и объекта методом "Stacked Normalizing Flow (StackFLOW)".
Для вывода апостериорного распределения пространственных отношений между человеком и объектом из изображения, вносятся векторные корректировки в позу человека и положение объекта, максимизируя правдоподобие выборок и минимизируя потери репроекции 2D-3D соответствия.
В процессе разработки метода, StackFLOW сравнивали с существующими методиками реконструкции PHOSA, CHORE и BSTRO на наборах данных BEHAVE и InterCap.
Разработчики отмечают, что по результатам StackFLOW показал конкурентоспособные результаты.
GitHub
GitHub - huochf/StackFLOW: The official code for our paper StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing…
The official code for our paper StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset in IJCAI 2023. - huochf/StackFLOW
🤖😎Инструмент для обсуждения программного кода с ИИ
LSP-AI - инструмент с открытым исходным кодом, позволяющий обсуждать ваш код с ИИ, над которым работаете, без переключения контекста.
Общаться с LLM можно прямо в текстовом редакторе. Сервис работает с любым LSP-совместимым редактором (VS Code, Neovim, Helix, Emacs и т.д.).
Также имеется поддержка различных локальных Lms, используя llama.cpp, Ollama, любой сервер, совместимый с OpenAPI, и многое другое.
LSP-AI - инструмент с открытым исходным кодом, позволяющий обсуждать ваш код с ИИ, над которым работаете, без переключения контекста.
Общаться с LLM можно прямо в текстовом редакторе. Сервис работает с любым LSP-совместимым редактором (VS Code, Neovim, Helix, Emacs и т.д.).
Также имеется поддержка различных локальных Lms, используя llama.cpp, Ollama, любой сервер, совместимый с OpenAPI, и многое другое.
GitHub
GitHub - SilasMarvin/lsp-ai: LSP-AI is an open-source language server that serves as a backend for AI-powered functionality, designed…
LSP-AI is an open-source language server that serves as a backend for AI-powered functionality, designed to assist and empower software engineers, not replace them. - SilasMarvin/lsp-ai
This media is not supported in your browser
VIEW IN TELEGRAM
😎🤖Роботы-рабочие заполнили Amazon
На данный момент на Amazon работает около 750 тысяч роботов.
Еще в 2013 году в компании было лишь 1000 машин-трудяг, а текущие темпы внедрения ИИ и робототехники продолжают расти. Как отмечает руководство складов Amazon, каждый робот-упаковщик на складе может заменить 24 рабочих. Упаковщики стоят 1 миллион долларов каждый, и для того, чтобы окупить затраты, потребуется всего два года.
С другой стороны, этот процесс позволяет людям перейти на более творческие и интересные должности, оставив машинам всю рутину.
На данный момент на Amazon работает около 750 тысяч роботов.
Еще в 2013 году в компании было лишь 1000 машин-трудяг, а текущие темпы внедрения ИИ и робототехники продолжают расти. Как отмечает руководство складов Amazon, каждый робот-упаковщик на складе может заменить 24 рабочих. Упаковщики стоят 1 миллион долларов каждый, и для того, чтобы окупить затраты, потребуется всего два года.
С другой стороны, этот процесс позволяет людям перейти на более творческие и интересные должности, оставив машинам всю рутину.
Что из предложенного по вашему менению лучше всего подходит для аннотирования текста?
Anonymous Poll
65%
Tranformer
20%
LSTM
15%
Зависит от объема текста
😎Подборка интересных статей по DL за последние дни
Ликбез по компьютерному зрению в банках - автор рассказывает о том, как в банках и других финансовых организациях используют компьютерное зрение и чем оно полезно для конечных пользователей
Реконсиляция в иерархическом прогнозировании временных рядов - здесь авторы разбирают значение реконсиляции и подробно рассматривают его математическую формализацию, а также несколько популярных методов реконсиляции.
Софтмакс Гумбеля - в этой статье можно узнать о том, как применить метод софтмакса Гумбеля для решения проблемы градиентного спуска в контексте дискретных выборов, что особенно важно в задачах, таких как обучение рекомендательных систем.
Ликбез по компьютерному зрению в банках - автор рассказывает о том, как в банках и других финансовых организациях используют компьютерное зрение и чем оно полезно для конечных пользователей
Реконсиляция в иерархическом прогнозировании временных рядов - здесь авторы разбирают значение реконсиляции и подробно рассматривают его математическую формализацию, а также несколько популярных методов реконсиляции.
Софтмакс Гумбеля - в этой статье можно узнать о том, как применить метод софтмакса Гумбеля для решения проблемы градиентного спуска в контексте дискретных выборов, что особенно важно в задачах, таких как обучение рекомендательных систем.
Хабр
Ликбез по компьютерному зрению в банках. Как технологии ИИ защищают ваши деньги
Уровни зрелости технологий компьютерного зрения Привет, Хабр! Меня зовут Татьяна Дешкина, я заместитель директора по развитию продуктов VisionLabs. Мы создаем системы распознавания и защиту этих...
This media is not supported in your browser
VIEW IN TELEGRAM
🥹Милота дня с помощью ИИ
Нейронка Flux показала миниатюрных животных.
Каждый из них, словно маленькое чудо, представляет собой уникальное сочетание форм и красок
☺️Смотрим, умиляемся и радуемся.
Нейронка Flux показала миниатюрных животных.
Каждый из них, словно маленькое чудо, представляет собой уникальное сочетание форм и красок
☺️Смотрим, умиляемся и радуемся.
Какой из следующих алгоритмов наиболее часто используется для обучения глубоких нейронных сетей?
Anonymous Poll
3%
K-ближайших соседей (k-NN)
6%
Метод опорных векторов (SVM)
78%
Градиентный спуск (Gradient Descent)
13%
Линейная регрессия (Linear Regression)