Machinelearning

🌟

FoleyCrafter: Генерация звуковых эффектов для беззвучных видео.

FoleyCrafter - методика, разработанная для автоматического создания звуковых эффектов, синхронизированных с целевым видеорядом
Архитектура метода построена на основе предварительно обученной модели преобразования текста в аудио (Text2Audio). Система состоит из двух ключевых компонентов:

🟢Семантический адаптер - использует параллельные слои cross-attention для обусловливания генерации аудио на основе видеопризнаков. Выполняет семантическое соответствие генерируемых звуков визуальному контенту.
🟢Временной контроллер - детектор временных меток анализирует и предсказывает интервалы звука и тишины в видео. Временной адаптер синхронизирует аудио с видео на основе выставленных детектором временных меток.

Оба компонента являются обучаемыми модулями, которые принимают видео в качестве входных данных для синтеза аудио. При этом модель Text2Audio остается фиксированной для сохранения ее способности к синтезу аудио постоянного качества.

Разработчики FoleyCrafter провели количественные и качественные эксперименты на наборах данных VGGSound и AVSync15 по метрикам семантического соответствия MKL, CLIP Score, FID и временной синхронизации Onset ACC, Onset AP.
По сравнению с существующими методами Text2Audio (SpecVQGAN, Diff-Foley и V2A-Mapper) FoleyCrafter показал лучшие результаты.

▶️ Локальный запуск с использованием GradioUI:


# Clone the Repository
git clone https://github.com/open-mmlab/foleycrafter.git

# Navigate to the Repository
cd projects/foleycrafter

# Create Virtual Environment with Conda & Install Dependencies
conda create env create -f requirements/environment.yaml
conda activate foleycrafter

# Install GiT LFS
conda install git-lfs 
git lfs install

# Download checkpoints 
git clone https://huggingface.co/auffusion/auffusion-full-no-adapter checkpoints/auffusion
git clone https://huggingface.co/ymzhang319/FoleyCrafter checkpoints/

# Run Gradio
python app.py --share

🔗 Лицензирование: Apache-2.0

🔗Страница проекта
🔗Arxiv
🔗Модели на HF
🔗Demo
🔗Github [ Stars: 272 | Issues: 4 | Forks: 15]

@ai_machinelearning_big_data

#AI #Text2Audio #FoleyCrafter #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25🔥8❤6⚡1

24K views07:50

Machinelearning

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 VGGSfM: 3D-реконструкция на основе глубокого анализа структуры в движении.

VGGSfM предлагает новый подход к процессу реконструкции трехмерной структуры сцены и положения камер по набору фотографий.

Вместо цепочки отдельных алгоритмов поиска ключевых точек, сопоставления их между кадрами, длительного восстановления положения камер относительно координат ключевых точек, была разработана модель, каждый компонент которой работает параллельным сквозным принципом.

Ключевые особенности метода:

🟢Вместо поиска соответствий между парами изображений, модель сразу отслеживает точки через все кадры последовательности.
🟢Положения всех камер оцениваются одновременно, а не последовательно.
🟢Для финальной оптимизации используется дифференцируемый слой.

В ходе тестирования при обучении особенно хорошие результаты были получены на сложных сценах с большими изменениями ракурса между кадрами. Там, где традиционные методы часто терпели неудачу, VGGSfM справлялся с задачей.

Локальная установка:


source install.sh
Локальный запуск:

# Убедитесь, что целевые изображения находятся в ВАША_ПАПКА/images, а необходимые модели скачены

python demo.py SCENE_DIR=/path_to_images resume_ckpt=/path_to_models

# Результаты реконструкции (параметры камеры и 3D-точки) будут сохранены в формате COLMAP в директории output/seq_name
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
# Визуализация
# Установите и запустите visdom

pip install visdom

pip install git+https://github.com/fossasia/visdom

visdom

# Откройте http://localhost:8097 в браузере. Затем запустите демо с флагом "visualize=True"

python demo.py SCENE_DIR=/path_to_images resume_ckpt=/path_to_models visualize=True

▶️ VGGSfM поддерживает извлечение плотных карт глубины с помощью Depth-Anything-V2 (бета):


python 
pip install scikit-learn

git clone git@github.com:DepthAnything/Depth-Anything-V2.git dependency/depth_any_v2

# Затем запустите демо с флагом "dense_depth=True"

python demo.py SCENE_DIR=/path_to_images resume_ckpt=/path_to_models dense_depth=True

▪ Страница проекта
▪Модели на HF
▪Demo
▪Github [ Stars: 529 | Issues: 16 | Forks: 33]

@ai_machinelearning_big_data

#AI #3D #Depthmap #ML #Reconstruction

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22🔥7❤5⚡1🥰1

9.13K views07:02

Machinelearning

🌟 XTuner Release V0.1.22: Обновление суперэффективного фреймворка для тонкой настройки LLMs.

XTuner - это простой, гибкий и полнофункциональный набор инструментов для тонкой настройки больших моделей (LLM, VLM) практически на всех GPU (от 7B LLM на 8 Gb VRAM до 70B+ на многоузловых GPU).

Обновление V0.1.22:
🟠улучшен контроль за памятью;
🟠улучшена поддержка Sequence Parallelism в Preference Alignment ;
🟠исправлено более 10 ошибок предыдущей версии;
🟠добавлена поддержка internlm2.5;
🟠добавлена поддержка DatasetInfoHook в DPO;
🟠добавлен конфиг minicpm для sft, qlora, lora и DPO.

С учетом обновления XTuner поддерживает:

*️⃣Mодели: InternLM2 / 2.5, Liama 2/3, Phi-3, ChatGLM 2/3, QWen, Mixtral, DeepSeek V2, Gemma, Baichuan 2.

*️⃣SFT Датасеты: MSAgent-Bench, MOSS-003-SFT, Alpaca, WizardLM, oasst1, Open-Platypus, Code Alpaca, Colorist, Arxiv GenTitle, Chinese Law, OpenOrca, Medical Dialogue.

*️⃣Дата Пайплайны: Incremental Pre-training, Single-turn Conversation SFT, Multi-turn Conversation SFT.

*️⃣Алгоритмы: QLoRA, LoRA, Full parameter fine-tune, DPO, ORPO, Reward Model.

▶️ Локальный запуск

# It is recommended to build a Python-3.10 virtual environment using conda
conda create --name xtuner-env python=3.10 -y
conda activate xtuner-env

# Install XTuner from source
git clone https://github.com/InternLM/xtuner.git
cd xtuner
pip install -e '.[all]'

# Step 0, prepare the config
xtuner list-cfg

# Step 1, start fine-tuning
xtuner train ${CONFIG_NAME_OR_PATH}

# For example, we can start the QLoRA fine-tuning of InternLM2.5-Chat-7B with oasst1 dataset by
# On a single GPU
xtuner train internlm2_5_chat_7b_qlora_oasst1_e3 --deepspeed deepspeed_zero2

# On multiple GPUs
(DIST) NPROC_PER_NODE=${GPU_NUM} xtuner train internlm2_5_chat_7b_qlora_oasst1_e3 --deepspeed deepspeed_zero2

(SLURM) srun ${SRUN_ARGS} xtuner train internlm2_5_chat_7b_qlora_oasst1_e3 --launcher slurm --deepspeed deepspeed_zero2

# Step 2, convert the saved PTH model (if using DeepSpeed, it will be a directory) to Hugging Face model
xtuner convert pth_to_hf ${CONFIG_NAME_OR_PATH} ${PTH} ${SAVE_PATH}

📌Лицензирование: Apache-2.0

🟡

Страница проекта

🖥

Github [ Stars: 3.4K | Issues: 122 | Forks: 274]

@ai_machinelearning_big_data

#AI #FineTuning #LLM #XTuner #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍23❤4🔥3

9.13K views10:03

Machinelearning

⚡️

Arcee: Семейство merdge-моделей от сервиса arcee.ai

Arcee.ai - сервис, основанный в сентябре 2023 года ( Mark McQuade, Jacob Solawetz и Brian Benedict), который предоставляет услуги тренинга LLM для корпоративных клиентов.

Сервисом представлены в открытом доступе 2 новые модели: Arcee-Scribe и Arcee-Nova.

✔️

Arcee-Scribe (7.74B) - это универсальная модель чата, ориентированная на рассуждения, решение творческих задач и написание текстов.
Модель представляет собой слияние InternLM-2.5-chat с пользовательской InternLM finetune, включающей как общие, так и специфические для письма данные.

Возможности и примеры использования:

🟢role-play диалоги с подтекстом и сложными эмоциями;
🟢объяснение сложных идей с помощью творческих аналогий;
🟢создание историй с нелинейным повествованием или уникальной перспективой и сложной повествовательной структурой;
🟢решение бизнес-задач: создание контента, описание продукции, коммуникация с потребителями, брейнстрорминг.

Модель набрала 48.5 балла в AGI-Eval, 60.1 в BIG Bench Hard и 69.4 в GPT 4ALL бенчмарках.
Это лучший показатель по сравнению с Llama-3-8B-Instuct по всем тестам и Mistral-7B-Instruct v03 в двух из трех.

Модель представлена в квантованиях (GGUF) от 2Bit (Q2 - 2.78GB) до 32bit (F32 - 31Gb) и
в Transformers

✔️

Arcee-Nova (72.7B) - высокопроизводительная мультиязычная модель с широким спектром языковых задач. Nova - это объединение Qwen2-72B-Instruct с собственной моделью, настроенной на смеси обобщенных данных.

Возможности и примеры использования:

🟠решение сложных задач, логические выводы и рассуждения;
🟠создание увлекательного и оригинального текстового контента в различных жанрах;
🟠помощь в решении задач программирования, от создания кода до его отладки;
🟠общее понимание языка, создание человекоподобных текстов в различных контекстах.
🟠решение бизнес-задач: создание контента, разработка программного обеспечения, коммуникация с потребителями, анализ данных и построение отчетов, исследования и гипотезы, анализ документов и проверка соответствия нормативным требованиям, адаптивные системы обучения и интеллектуальные обучающие программы.

Модель показала лучшие результаты (43.68) в совокупности тестов ( IFEval, BBH, MATH Lvl 5, GPQA, MUSR и MMLU-PRO) по сравнению с Qwen2-72B-Instruct, OrcaMini_V7-72B, LLama-3-70B-Instruct-DPO-v2.0 и другими моделями.

Модель представлена в квантованиях (GGUF) от 1Bit (Q1 - 24GB) до 16bit (F32 - 145Gb) и
в Transformers

📌Лицензирование Arcee-Scribe

Для некоммерческих проектов - Apache2.0
Для коммерческого использования: - через подачу заявки у InternLM

📌Лицензирование Arcee-Nova

Для некоммерческих проектов - свободно, тип не определен.
Для коммерческого использования: - симметрично Qwen2-72B

🟡

Страница проекта

🟡

Модели Arcee-Scribe

🟡

Модели Arcee-Nova

🟡

Demo Arcee-Nova

@ai_machinelearning_big_data

#AI #LLM #GGUF #ML #ArceeNova #ArceeScribe

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍23🔥5🥰5

9.3K views14:33

Machinelearning

Новостной дайджест

✔️ Разработчики Llama откладывают выпуск модели LLama-3-400B в ЕС

Релиз самой большой модели компании для пользователей из ЕС отложен на неопределенный срок из-за непредсказуемого поведения регулирующих органов.
Решение компания подчеркивает напряженность в отношениях между крупными технологическими компаниями и руководством ЕС на фоне ужесточения нормативно-правовой базы. Брюссель вводит Закон ЕС об искусственном интеллекте, который вступает в силу в следующем месяце, в то время как для крупных технологических компаний вводятся новые нормативные требования в виде Закона о цифровых рынках (DMA).
theguardian.com

✔️ Китайские технологические компании предлагают "воскресить" умерших близких с помощью аватаров искусственного интеллекта.

Цифровые аватары могут быть созданы на основе видео и аудио с изображением живого человека или его социальных сетей. Некоторые клиенты предпочитают низкотехнологичные решения, такие как использование ИИ для имитации голоса умершего человека, без моделирования визуального образа.
npr.org

✔️ Neo4j Knowledge Graph Builder: Инструмент, создающий графы знаний из неструктурированных данных.

Neo4j использует несколько моделей машинного обучения для обработки различных форматов данных. Он универсален в настройке схемы извлечения и хорошо работает с английским языком.
Архитектура построена на модуле llm-graph-transformer и легко адаптируется для использования в Google Cloud Run и Docker Compose
marktechpost.com

✔️ Agent Symbolic Learning: первый фреймворк для обучения агентов с открытым исходным кодом

AIWaves разработала комплексную систему символьного обучения "Agent Symbolic Learning", которая обеспечивает автоматическую оптимизацию и автономную эволюцию AI-агентов за счет симуляции алгоритмов обратного распространения и градиентного спуска.
Фреймворк использует большие модели и оперативное проектирование для преобразования оценок задач в потери и градиенты на основе текста.
jiqizhixin.com

✔️ Microsoft на ICML 2024: инновации в области машинного обучения.

На ICML 2024 компания Microsoft представила 68 научных работ, из них несколько были выбранных для устных докладов:
NaturalSpeech 3 - новая система преобразования текста в речь, использующая факторизованные диффузионные модели для генерации речи.
CompeteAI - фреймворк для изучения конкуренции агентов с помощью больших языковых моделей, который позволил получить представление о социальном обучении и накопленном преимуществе.
PRISE - новый подход к обучению временным абстракциям действий, проводя аналогию между квантованием действий и токенизацией текста в LLM, позволяет более эффективно и результативно обучать навыкам для непрерывного контроля.
microsoft.com

✔️ Triplex: Открытая SOTA LLM для построения графов знаний обеспечивает структурирование данных с помощью экономичных и эффективных решений.

Triplex - это доработанная версия Phi3-3.8B для создания графов знаний из неструктурированных данных, разработанная SciPhiAI.
Принцип работы основан на построении локальных графов с помощью R2R путем извлечения триплетов - простых утверждений, состоящих из субъекта, предиката и объекта, - из текста или других источников данных.
Она обеспечивает снижение затрат на создание графов знаний на 98 %, относительно GPT-4 по стоимости.
Модель доступна на Huggingface.
sciphi.ai

@ai_machinelearning_big_data

#digest #news

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22❤7🔥4⚡2

8.02K views19:33

Machinelearning

🌟 ZebraLogic: Комплексная оценка логического мышления крупных языковых моделей.

ZebraLogic - бенчмарк, основанный на логических головоломках и представляет собой набор из 1000 программно сгенерированных заданий различной сложности - с сеткой от 2x2 до 6x6.

Каждая головоломка состоит из N домов (пронумерованных слева направо) и M характеристик для каждого дома. Задача заключается в том, чтобы на основе предоставленных подсказок определить уникальное распределение значений характеристик по домам.
Языковым моделям предоставляется один пример решения головоломки с подробным объяснением хода рассуждений и ответом в формате JSON. Затем модели должны решить новую задачу, предоставив как ход рассуждений, так и окончательное решение в заданном формате.

⏩Метрики оценки:
1. Точность на уровне головоломки (процент полностью правильно решенных головоломок).
2. Точность на уровне ячеек (доля правильно заполненных ячеек в матрице решения).

⏩Головоломки разделены на два уровня по сложности:
1. Легкие (сетка менее 3x3)
2. Сложные (сетка размером 3x3) и более.

✔️ Результаты оценки популярных моделей, представленные в публичном лидерборде:

🟢лучшие результаты показала Claude 3.5 Sonnet, решившая 33,4% всех головоломок и 12,4% сложных задач
🟢лучший результат среди открытых моделей у DeepSeek-v2-Chat (0628)
🟢модели с 7-10B параметров продемонстрировали крайне низкую эффективность на сложных головоломках (менее 1% решенных задач)
🟢Gemini-1.5-Pro оказалась сопоставима с более легкой Gemini-1.5-Flash
🟢Greedy decoding в большинстве случаев дает лучшие результаты, чем сэмплирование.

✔️ Для сравнения, средняя время выполнение теста человеком:

2x2 ~ 15 секунд
3х3 ~ 1 минута 30 секунд
4х4 ~ от 10 до 15 минут

▶️ Локальный запуск ZebraLogic в рамках фреймфорка ZeroEval

# Install via conda

conda create -n zeroeval python=3.10
conda activate zeroeval

# pip install vllm -U # pip install -e vllm 

pip install vllm==0.5.1
pip install -r requirements.txt
# export HF_HOME=/path/to/your/custom/cache_dir/

# Run Meta-Llama-3-8B-Instruct via local, with greedy decoding on `zebra-grid`
bash zero_eval_local.sh -d zebra-grid -m meta-llama/Meta-Llama-3-8B-Instruct -p Meta-Llama-3-8B-Instruct -s 4

📌Лицензирование: Apache-2.0 license

🟡

Страница проекта

🟡

Датасет на HF

🟡

Leaderboard

🖥

Github [ Stars: 38 | Issues: 1 | Forks: 1]

@ai_machinelearning_big_data

#AI #Benchmark #LLM #Evaluation #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍27❤6🔥6⚡1😐1

10.4K views09:40

Machinelearning

🌟 Minitron 8В и 4В: Две новые pruned-модели на базе Nemotron-4 15B

Minitron - это семейство малых языковых моделей (SLMs), полученных путем экспериментального метода pruning модели Nemotron-4 15B (NVIDIA).
Метод состоит из уменьшения embedding size, attention heads и промежуточной размерности MLP, после чего продолжается обучение с дистилляцией до финального результата.
Суть экспериментальности состоит в том, что для получения 8В и 4В из 15В требуется в 40 раз меньше обучающих токенов и это дает экономию вычислительных ресурсов почти в 1.8 раза по сравнению с классическим обучением.
Более подробно методика описана в исследовании на arxiv

🟢

Minitron-8B использует embedding size 4096, 48 attention heads и промежуточную размерность MLP 16384.

🟢

Minitron-4B использует embedding size 3072, 32 attention heads и промежуточную размерность MLP 9216.

В обеих моделях используется Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).

Датасет для Minitron-8B-Base состоит из англоязычных и мультиязычных текстов (веб-страницы, диалоги, статьи и другие материалы) взятых из различных областей (юриспруденция, математика, наука, финансы) и примеров кода на различных языках программирования. Для повышения эффективности модели были добавлены в обучающий набор данные типов QA (question-answering) и ASD (alignment style data).
Актуальность датасета: Июнь 2023

Модели Minitron показали улучшение результатов MMLU на 16 % по сравнению с обучением с нуля и сопоставимы с Mistral 7B, Gemma 7B и Llama-3 8B.

❗️ Модели Minitron предназначены только для исследований и разработок.
PR поддержки моделей в Hugging Face находится на рассмотрении, и ожидается, что она появится в ближайшее время.

▶️ Для локального запуска следует использовать ветку Github с коммитом ID 63d9cb0 :

git clone git@github.com:suiyoubi/transformers.git

cd transformers

git checkout 63d9cb0

pip install .

📌 Лицензирование: NVIDIA Open Model License Agreement

🟡

Модель 8B

🟡

Модель 4B

🟡

Arxiv

🖥

Github [ Stars: 5 | Issues: 0 | Forks: 9]

@ai_machinelearning_big_data

#AI #Minitron #ML #NVIDIA #SLMs

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16❤4🔥2

8.59K views11:09

Machinelearning

⚡️Я️ндекс выложил в опенсорс новые методы сжатия нейросетей

Решение разработано совместно с IST Austria и представляет собой двухэтапный метод сжатия, позволяющий уменьшать модели до 8 раз, при этом сохранив качество их ответов на 95%. Это позволит сэкономить потребляемые ресурсы и ускорить работу нейросетей.

Эффективность методов оценивали на популярных моделях с открытым исходным кодом: LLama 2, Mistral, Mixtral и других. На Хабре разработчики также могут скачать уже сжатые с помощью метода популярные опенсорс модели. Авторы выложили демо-материалы, которые помогут правильно дообучить уменьшенные нейросети под свои сценарии.

▪️Habr: https://habr.com/ru/companies/yandex/articles/830410/

@ai_machinelearning_big_data

🔥47👍21❤9

10.1K views14:17

About

Blog

Apps

Platform