FoleyCrafter - методика, разработанная для автоматического создания звуковых эффектов, синхронизированных с целевым видеорядом
Архитектура метода построена на основе предварительно обученной модели преобразования текста в аудио (Text2Audio). Система состоит из двух ключевых компонентов:
Оба компонента являются обучаемыми модулями, которые принимают видео в качестве входных данных для синтеза аудио. При этом модель Text2Audio остается фиксированной для сохранения ее способности к синтезу аудио постоянного качества.
Разработчики FoleyCrafter провели количественные и качественные эксперименты на наборах данных VGGSound и AVSync15 по метрикам семантического соответствия MKL, CLIP Score, FID и временной синхронизации Onset ACC, Onset AP.
По сравнению с существующими методами Text2Audio (SpecVQGAN, Diff-Foley и V2A-Mapper) FoleyCrafter показал лучшие результаты.
# Clone the Repository
git clone https://github.com/open-mmlab/foleycrafter.git
# Navigate to the Repository
cd projects/foleycrafter
# Create Virtual Environment with Conda & Install Dependencies
conda create env create -f requirements/environment.yaml
conda activate foleycrafter
# Install GiT LFS
conda install git-lfs
git lfs install
# Download checkpoints
git clone https://huggingface.co/auffusion/auffusion-full-no-adapter checkpoints/auffusion
git clone https://huggingface.co/ymzhang319/FoleyCrafter checkpoints/
# Run Gradio
python app.py --share
🔗 Лицензирование: Apache-2.0
🔗Страница проекта
🔗Arxiv
🔗Модели на HF
🔗Demo
🔗Github [ Stars: 272 | Issues: 4 | Forks: 15]
@ai_machinelearning_big_data
#AI #Text2Audio #FoleyCrafter #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥8❤6⚡1
VGGSfM предлагает новый подход к процессу реконструкции трехмерной структуры сцены и положения камер по набору фотографий.
Вместо цепочки отдельных алгоритмов поиска ключевых точек, сопоставления их между кадрами, длительного восстановления положения камер относительно координат ключевых точек, была разработана модель, каждый компонент которой работает параллельным сквозным принципом.
Ключевые особенности метода:
В ходе тестирования при обучении особенно хорошие результаты были получены на сложных сценах с большими изменениями ракурса между кадрами. Там, где традиционные методы часто терпели неудачу, VGGSfM справлялся с задачей.
Локальная установка:
source install.sh
Локальный запуск:
# Убедитесь, что целевые изображения находятся в ВАША_ПАПКА/images, а необходимые модели скачены
python demo.py SCENE_DIR=/path_to_images resume_ckpt=/path_to_models
# Результаты реконструкции (параметры камеры и 3D-точки) будут сохранены в формате COLMAP в директории output/seq_name
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
# Визуализация
# Установите и запустите visdom
pip install visdom
pip install git+https://github.com/fossasia/visdom
visdom
# Откройте http://localhost:8097 в браузере. Затем запустите демо с флагом "visualize=True"
python demo.py SCENE_DIR=/path_to_images resume_ckpt=/path_to_models visualize=True
python
pip install scikit-learn
git clone git@github.com:DepthAnything/Depth-Anything-V2.git dependency/depth_any_v2
# Затем запустите демо с флагом "dense_depth=True"
python demo.py SCENE_DIR=/path_to_images resume_ckpt=/path_to_models dense_depth=True
▪ Страница проекта
▪Модели на HF
▪Demo
▪Github [ Stars: 529 | Issues: 16 | Forks: 33]
@ai_machinelearning_big_data
#AI #3D #Depthmap #ML #Reconstruction
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥7❤5⚡1🥰1
XTuner - это простой, гибкий и полнофункциональный набор инструментов для тонкой настройки больших моделей (LLM, VLM) практически на всех GPU (от 7B LLM на 8 Gb VRAM до 70B+ на многоузловых GPU).
Обновление V0.1.22:
С учетом обновления XTuner поддерживает:
# It is recommended to build a Python-3.10 virtual environment using conda
conda create --name xtuner-env python=3.10 -y
conda activate xtuner-env
# Install XTuner from source
git clone https://github.com/InternLM/xtuner.git
cd xtuner
pip install -e '.[all]'
# Step 0, prepare the config
xtuner list-cfg
# Step 1, start fine-tuning
xtuner train ${CONFIG_NAME_OR_PATH}
# For example, we can start the QLoRA fine-tuning of InternLM2.5-Chat-7B with oasst1 dataset by
# On a single GPU
xtuner train internlm2_5_chat_7b_qlora_oasst1_e3 --deepspeed deepspeed_zero2
# On multiple GPUs
(DIST) NPROC_PER_NODE=${GPU_NUM} xtuner train internlm2_5_chat_7b_qlora_oasst1_e3 --deepspeed deepspeed_zero2
(SLURM) srun ${SRUN_ARGS} xtuner train internlm2_5_chat_7b_qlora_oasst1_e3 --launcher slurm --deepspeed deepspeed_zero2
# Step 2, convert the saved PTH model (if using DeepSpeed, it will be a directory) to Hugging Face model
xtuner convert pth_to_hf ${CONFIG_NAME_OR_PATH} ${PTH} ${SAVE_PATH}
@ai_machinelearning_big_data
#AI #FineTuning #LLM #XTuner #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤4🔥3
Arcee.ai - сервис, основанный в сентябре 2023 года ( Mark McQuade, Jacob Solawetz и Brian Benedict), который предоставляет услуги тренинга LLM для корпоративных клиентов.
Сервисом представлены в открытом доступе 2 новые модели: Arcee-Scribe и Arcee-Nova.
Модель представляет собой слияние InternLM-2.5-chat с пользовательской InternLM finetune, включающей как общие, так и специфические для письма данные.
Возможности и примеры использования:
Модель набрала 48.5 балла в AGI-Eval, 60.1 в BIG Bench Hard и 69.4 в GPT 4ALL бенчмарках.
Это лучший показатель по сравнению с Llama-3-8B-Instuct по всем тестам и Mistral-7B-Instruct v03 в двух из трех.
Модель представлена в квантованиях (GGUF) от 2Bit (Q2 - 2.78GB) до 32bit (F32 - 31Gb) и
в Transformers
Возможности и примеры использования:
Модель показала лучшие результаты (43.68) в совокупности тестов ( IFEval, BBH, MATH Lvl 5, GPQA, MUSR и MMLU-PRO) по сравнению с Qwen2-72B-Instruct, OrcaMini_V7-72B, LLama-3-70B-Instruct-DPO-v2.0 и другими моделями.
Модель представлена в квантованиях (GGUF) от 1Bit (Q1 - 24GB) до 16bit (F32 - 145Gb) и
в Transformers
Для некоммерческих проектов - Apache2.0
Для коммерческого использования: - через подачу заявки у InternLM
Для некоммерческих проектов - свободно, тип не определен.
Для коммерческого использования: - симметрично Qwen2-72B
@ai_machinelearning_big_data
#AI #LLM #GGUF #ML #ArceeNova #ArceeScribe
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥5🥰5
Новостной дайджест
✔️ Разработчики Llama откладывают выпуск модели LLama-3-400B в ЕС
Релиз самой большой модели компании для пользователей из ЕС отложен на неопределенный срок из-за непредсказуемого поведения регулирующих органов.
Решение компания подчеркивает напряженность в отношениях между крупными технологическими компаниями и руководством ЕС на фоне ужесточения нормативно-правовой базы. Брюссель вводит Закон ЕС об искусственном интеллекте, который вступает в силу в следующем месяце, в то время как для крупных технологических компаний вводятся новые нормативные требования в виде Закона о цифровых рынках (DMA).
theguardian.com
✔️ Китайские технологические компании предлагают "воскресить" умерших близких с помощью аватаров искусственного интеллекта.
Цифровые аватары могут быть созданы на основе видео и аудио с изображением живого человека или его социальных сетей. Некоторые клиенты предпочитают низкотехнологичные решения, такие как использование ИИ для имитации голоса умершего человека, без моделирования визуального образа.
npr.org
✔️ Neo4j Knowledge Graph Builder: Инструмент, создающий графы знаний из неструктурированных данных.
Neo4j использует несколько моделей машинного обучения для обработки различных форматов данных. Он универсален в настройке схемы извлечения и хорошо работает с английским языком.
Архитектура построена на модуле llm-graph-transformer и легко адаптируется для использования в Google Cloud Run и Docker Compose
marktechpost.com
✔️ Agent Symbolic Learning: первый фреймворк для обучения агентов с открытым исходным кодом
AIWaves разработала комплексную систему символьного обучения "Agent Symbolic Learning", которая обеспечивает автоматическую оптимизацию и автономную эволюцию AI-агентов за счет симуляции алгоритмов обратного распространения и градиентного спуска.
Фреймворк использует большие модели и оперативное проектирование для преобразования оценок задач в потери и градиенты на основе текста.
jiqizhixin.com
✔️ Microsoft на ICML 2024: инновации в области машинного обучения.
На ICML 2024 компания Microsoft представила 68 научных работ, из них несколько были выбранных для устных докладов:
NaturalSpeech 3 - новая система преобразования текста в речь, использующая факторизованные диффузионные модели для генерации речи.
CompeteAI - фреймворк для изучения конкуренции агентов с помощью больших языковых моделей, который позволил получить представление о социальном обучении и накопленном преимуществе.
PRISE - новый подход к обучению временным абстракциям действий, проводя аналогию между квантованием действий и токенизацией текста в LLM, позволяет более эффективно и результативно обучать навыкам для непрерывного контроля.
microsoft.com
✔️ Triplex: Открытая SOTA LLM для построения графов знаний обеспечивает структурирование данных с помощью экономичных и эффективных решений.
Triplex - это доработанная версия Phi3-3.8B для создания графов знаний из неструктурированных данных, разработанная SciPhiAI.
Принцип работы основан на построении локальных графов с помощью R2R путем извлечения триплетов - простых утверждений, состоящих из субъекта, предиката и объекта, - из текста или других источников данных.
Она обеспечивает снижение затрат на создание графов знаний на 98 %, относительно GPT-4 по стоимости.
Модель доступна на Huggingface.
sciphi.ai
@ai_machinelearning_big_data
#digest #news
Релиз самой большой модели компании для пользователей из ЕС отложен на неопределенный срок из-за непредсказуемого поведения регулирующих органов.
Решение компания подчеркивает напряженность в отношениях между крупными технологическими компаниями и руководством ЕС на фоне ужесточения нормативно-правовой базы. Брюссель вводит Закон ЕС об искусственном интеллекте, который вступает в силу в следующем месяце, в то время как для крупных технологических компаний вводятся новые нормативные требования в виде Закона о цифровых рынках (DMA).
theguardian.com
Цифровые аватары могут быть созданы на основе видео и аудио с изображением живого человека или его социальных сетей. Некоторые клиенты предпочитают низкотехнологичные решения, такие как использование ИИ для имитации голоса умершего человека, без моделирования визуального образа.
npr.org
Neo4j использует несколько моделей машинного обучения для обработки различных форматов данных. Он универсален в настройке схемы извлечения и хорошо работает с английским языком.
Архитектура построена на модуле llm-graph-transformer и легко адаптируется для использования в Google Cloud Run и Docker Compose
marktechpost.com
AIWaves разработала комплексную систему символьного обучения "Agent Symbolic Learning", которая обеспечивает автоматическую оптимизацию и автономную эволюцию AI-агентов за счет симуляции алгоритмов обратного распространения и градиентного спуска.
Фреймворк использует большие модели и оперативное проектирование для преобразования оценок задач в потери и градиенты на основе текста.
jiqizhixin.com
На ICML 2024 компания Microsoft представила 68 научных работ, из них несколько были выбранных для устных докладов:
NaturalSpeech 3 - новая система преобразования текста в речь, использующая факторизованные диффузионные модели для генерации речи.
CompeteAI - фреймворк для изучения конкуренции агентов с помощью больших языковых моделей, который позволил получить представление о социальном обучении и накопленном преимуществе.
PRISE - новый подход к обучению временным абстракциям действий, проводя аналогию между квантованием действий и токенизацией текста в LLM, позволяет более эффективно и результативно обучать навыкам для непрерывного контроля.
microsoft.com
Triplex - это доработанная версия Phi3-3.8B для создания графов знаний из неструктурированных данных, разработанная SciPhiAI.
Принцип работы основан на построении локальных графов с помощью R2R путем извлечения триплетов - простых утверждений, состоящих из субъекта, предиката и объекта, - из текста или других источников данных.
Она обеспечивает снижение затрат на создание графов знаний на 98 %, относительно GPT-4 по стоимости.
Модель доступна на Huggingface.
sciphi.ai
@ai_machinelearning_big_data
#digest #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤7🔥4⚡2
ZebraLogic - бенчмарк, основанный на логических головоломках и представляет собой набор из 1000 программно сгенерированных заданий различной сложности - с сеткой от 2x2 до 6x6.
Каждая головоломка состоит из N домов (пронумерованных слева направо) и M характеристик для каждого дома. Задача заключается в том, чтобы на основе предоставленных подсказок определить уникальное распределение значений характеристик по домам.
Языковым моделям предоставляется один пример решения головоломки с подробным объяснением хода рассуждений и ответом в формате JSON. Затем модели должны решить новую задачу, предоставив как ход рассуждений, так и окончательное решение в заданном формате.
1. Точность на уровне головоломки (процент полностью правильно решенных головоломок).
2. Точность на уровне ячеек (доля правильно заполненных ячеек в матрице решения).
1. Легкие (сетка менее 3x3)
2. Сложные (сетка размером 3x3) и более.
2x2 ~ 15 секунд
3х3 ~ 1 минута 30 секунд
4х4 ~ от 10 до 15 минут
# Install via conda
conda create -n zeroeval python=3.10
conda activate zeroeval
# pip install vllm -U # pip install -e vllm
pip install vllm==0.5.1
pip install -r requirements.txt
# export HF_HOME=/path/to/your/custom/cache_dir/
# Run Meta-Llama-3-8B-Instruct via local, with greedy decoding on `zebra-grid`
bash zero_eval_local.sh -d zebra-grid -m meta-llama/Meta-Llama-3-8B-Instruct -p Meta-Llama-3-8B-Instruct -s 4
@ai_machinelearning_big_data
#AI #Benchmark #LLM #Evaluation #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27❤6🔥6⚡1😐1
Minitron - это семейство малых языковых моделей (SLMs), полученных путем экспериментального метода pruning модели Nemotron-4 15B (NVIDIA).
Метод состоит из уменьшения embedding size, attention heads и промежуточной размерности MLP, после чего продолжается обучение с дистилляцией до финального результата.
Суть экспериментальности состоит в том, что для получения 8В и 4В из 15В требуется в 40 раз меньше обучающих токенов и это дает экономию вычислительных ресурсов почти в 1.8 раза по сравнению с классическим обучением.
Более подробно методика описана в исследовании на arxiv
В обеих моделях используется Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).
Датасет для Minitron-8B-Base состоит из англоязычных и мультиязычных текстов (веб-страницы, диалоги, статьи и другие материалы) взятых из различных областей (юриспруденция, математика, наука, финансы) и примеров кода на различных языках программирования. Для повышения эффективности модели были добавлены в обучающий набор данные типов QA (question-answering) и ASD (alignment style data).
Актуальность датасета: Июнь 2023
Модели Minitron показали улучшение результатов MMLU на 16 % по сравнению с обучением с нуля и сопоставимы с Mistral 7B, Gemma 7B и Llama-3 8B.
❗️ Модели Minitron предназначены только для исследований и разработок.
PR поддержки моделей в Hugging Face находится на рассмотрении, и ожидается, что она появится в ближайшее время.
git clone git@github.com:suiyoubi/transformers.git
cd transformers
git checkout 63d9cb0
pip install .
@ai_machinelearning_big_data
#AI #Minitron #ML #NVIDIA #SLMs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤4🔥2
⚡️Я️ндекс выложил в опенсорс новые методы сжатия нейросетей
Решение разработано совместно с IST Austria и представляет собой двухэтапный метод сжатия, позволяющий уменьшать модели до 8 раз, при этом сохранив качество их ответов на 95%. Это позволит сэкономить потребляемые ресурсы и ускорить работу нейросетей.
Эффективность методов оценивали на популярных моделях с открытым исходным кодом: LLama 2, Mistral, Mixtral и других. На Хабре разработчики также могут скачать уже сжатые с помощью метода популярные опенсорс модели. Авторы выложили демо-материалы, которые помогут правильно дообучить уменьшенные нейросети под свои сценарии.
▪️Habr: https://habr.com/ru/companies/yandex/articles/830410/
@ai_machinelearning_big_data
Решение разработано совместно с IST Austria и представляет собой двухэтапный метод сжатия, позволяющий уменьшать модели до 8 раз, при этом сохранив качество их ответов на 95%. Это позволит сэкономить потребляемые ресурсы и ускорить работу нейросетей.
Эффективность методов оценивали на популярных моделях с открытым исходным кодом: LLama 2, Mistral, Mixtral и других. На Хабре разработчики также могут скачать уже сжатые с помощью метода популярные опенсорс модели. Авторы выложили демо-материалы, которые помогут правильно дообучить уменьшенные нейросети под свои сценарии.
▪️Habr: https://habr.com/ru/companies/yandex/articles/830410/
@ai_machinelearning_big_data
🔥47👍21❤9