Машинное обучение digest

🌟EMO-Disentanger: Создание фортепианной музыки с помощью двухэтапного анализа и функционального представления c заданным эмоциональным тоном.

Метод EMO-Disentanger имеет двухэтапную архитектуру. На первом этапе основное внимание уделяется созданию партитуры, которая состоит из мелодии и последовательности аккордов, а на втором этапе создается фортепианное исполнение с желаемой выразительностью.

Двухэтапная структура позволяет разделить процесс генерации на валентное моделирование и моделирование тональных акцентов.
Модель партируты фокусируется на валентном моделировании, генерируя мелодии и последовательности аккордов на основе эмоциональной метки и тональности.
Затем модель исполнения генерирует на тональных акценты, создавая фортепианную игру с заданной выразительностью.

Чтобы отразить взаимодействие между музыкальными элементами и их влияние на эмоции, в EMO-Disentanger предлагается новое функциональное представление символической музыки.
В этом представлении используются римские цифры для обозначения аккордов относительно тональности. Оно также декомпозирует высоту звука на октаву и градус по отношению к тональности, улучшая понимание связей между эмоциями, аккордами и мелодиями.

Партитурная модель и модель исполнения обучаются отдельно с использованием объемных наборов музыкальных данных без аннотаций к эмоциям, чтобы модель могла лучше понять музыку.
Затем обе модели настраиваются на основе датасета, промаркированного эмоциями, для изучения композиции и стилей исполнения, характерных для различных эмоциональных контекстов.

▶️Для локального запуска потребуются:
🟢python 3.8 + CUDA 10.2;
🟢pytorch fast-transformers или transformers, в зависимости от установленной версии CUDA;
🟢midi2audio для конвертации сгенерированного MIDI в audio (опционально);
🟢предварительно загруженные events и веса.

📌Лицензирование : MIT license

🟡

Страница проекта

🟡

Модели

🟡

Arxiv

🖥

Github [ Stars: 12 | Issues: 0 | Forks: 1]

@ai_machinelearning_big_data

#AI #Music #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

5 views16:32

Машинное обучение digest

⚡️ 6 файлов - это все что нужно для архитектуры Llama 3.1

Andrej Кarpathy в репозитории на Github запушил проект nano-llama31.

nano-llama31 - то же самое, что nanoGPT для GPT-2. То есть, это минимальная, свободная от зависимостей реализация архитектуры Llama 3.1, и она может очень просто обучать, настраивать и делать выводы. Это сравнимо с официальным выпуском кода от Meta и реализацией huggingface, которые имеют более сильные зависимости и гораздо больший объем кода.

Это еще пока очень ранний проект. Сейчас он требует довольно много VRAM, например, только обучение RMSNorm все еще занимает ощутимую часть моего 80-гигабайтного GPU. (c) автора

Планы:

🟢удалить лишнее, сделать красиво;
🟢сделать finetuning более полнофункциональным, более похожим на nanoGPT (смешанная точность, DDP, свистелки, лампочки и т.д.)
🟢добавить поддержку Chat model inference и finetuning, а не только Base model
🟢подумать про поддержку для Llama 3 models > 8B
🟢разобраться с варнингом по deprecated set_default_tensor_type

git clone https://github.com/meta-llama/llama-models.git

▪ Github

@ai_machinelearning_big_data

#llama #Кarpathy #nanoGPT

Please open Telegram to view this post

VIEW IN TELEGRAM

4 views21:13

Машинное обучение digest

🌟 MM-Vet v2: Бенчмарк LMM на встроенные возможности.

MM-Vet оценивает шесть основных возможностей LMM: распознавание, знание, пространственная ориентация, генерация языка, распознавание текста и математика. В версии v2 бенчмарка добавлена новая функция "понимание последовательности изображений и текста", которая может оценить способность моделей обрабатывать последовательности визуальных интерпретаций.

Вторая версия была подготовлена на большем наборе исходных данных (517 пар вопросов-ответов из различных областей), которые были сгенерированы GPT-4V и переработаны вручную исследовательской группой.

📌Лицензирование : Apache-2.0 license

🟡

Arxiv

🟡

Dataset MM-Vet v2

🟡

Demo на HF

🖥

Github [ Stars: 218 | Issues: 0 | Forks: 10]

@ai_machinelearning_big_data

#AI #Benchmark #LMM #MMVetV2

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

3 views17:16

Машинное обучение digest

Новостной дайджест

✔️AWS разработала AI-ассистента Amazon Q.

Amazon Q умеет: генерировать точный код, проводить тестирование и отладку кода, планировать многократные шаги при разработке ПО, давать ответы на вопросы по бизнес-данным, подключаясь к хранилищам предприятия, а также лучшее в отрасли сканирование уязвимостей и оптимизацию среды AWS.
С его возможностями, сотрудники AWS теперь могут создавать приложения на корпоративных данных компании, описывая необходимый функционал естественным языком.
devopsdigest.com

✔️Сети Колмогорова-Арнольда могут навести физиков на новые гипотезы.

Ученые из MIT разработали новый способ создания нейронных сетей, который оказался более эффективным и точным, чем традиционные методы. Эти новые сети, называемые KAN, могут представлять данные о физике в более понятном и интерпретируемом виде, что может помочь ученым открыть новые законы природы.
В ходе тестирования KAN показала себя более точной и эффективной, чем традиционные нейронные сети. Например, в одной задаче KAN достигла точности 81,6% с использованием всего 200 параметров, в то время как традиционная сеть достигла точности 78% с использованием 300 000 параметров. Кроме того, исследователи смогли визуально смоделировать KAN и упростить ее до простой физической функции, которая точно повторяет ту, которая создала набор данных.
spectrum.ieee.org

✔️ИИ-модель Profluent приблизилась к точному и управляемому проектированию белков.

Компания Profluent разработала ИИ-модель - РroseLM, которая использует структурный и функциональный контекст для повышения точности и управления в проектировании дизайна белков, что используется для редактирования генов и связывания терапевтических антител.
ProseLM рассчитывает взаимодействия с не-белковыми молекулами и использует адаптерные слои для обучения, предоставляя возможность для намеренного и управляемого проектирования биотехнологических прототипов.
genengnews.com

✔️NEO Semiconductor объявляет о разработке чипа 3D X-AI: замена HBM и решение проблемы узких мест в шине данных.

Технология 3D X-AI обеспечивает 100-кратное ускорение производительности, снижение энергопотребления на 99% и восьмикратное увеличение плотности памяти благодаря использованию 300 слоев 3D DRAM с нейронными схемами. Чип может обрабатывать до 120 ТБ/с данных, значительно снижая объем передаваемых данных между HBM и GPU.
neosemic.com

✔️MIT опубликовал "Руководство по разработке стратегии AI для предприятий".

Руководство исследует текущее состояние принятия ИИ на предприятиях и предлагает стратегию для разработки плана внедрения, помогая бизнесу преодолеть диссонанс между амбициями и выполнением.
Ключевые темы: амбиции в области ИИ значительны, но лишь немногие перешли за пределы пилотных проектов; расходы на подготовку к использованию ИИ значительно увеличатся, а доступность и качество данных являются одними из ключевых аспектов для успешного внедрения ИИ.
Полный доклад доступен по ссылке.
technologyreview.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

2 views07:31

Машинное обучение digest

🌟BRAG: Серия Instruct-RAG LLM.

BRAG - это серия специализированных языковых моделей, обученных для RAG-задач с текстом, таблицами и в режиме чата. Все модели ориентированы в основном на английский язык, но модели на базе Llama-3.1-8B и Qwen2-1.5b имеют наследованную поддержку мультиязычности.

В качестве базовых моделей использованы Qwen2-1.5B, Qwen2-7B-Instruct, Llama-3.1-8B-Instruct и Llama-3-8B-Instruct.

Список моделей:

🟢

BRAG-Qwen2-7b-v0.1 Instruct | 7B | 128K

🟢

BRAG-Llama-3.1-8b-v0.1 Instruct | 8B | 128K

🟢

BRAG-Llama-3-8b-v0.1 Instruct | 8B | 8K

🟢

BRAG-Qwen2-1.5b-v0.1 Instruct | 1.5B | 32K

▶️

Формат промта:


messages = [
    {"role": "system", "content": "You are an assistant who gives helpful, detailed, and polite answers to the user's questions based on the context with appropriate reasoning as required. Indicate when the answer cannot be found in the context."},
    {"role": "user", "content": """Context: <CONTEXT INFORMATION> \n\n <USER QUERY>"""},
]

⚡️Лицензирование : Apache-2.0

▪Страница проекта
▪Коллекция моделей на HF

@ai_machinelearning_big_data

#AI #LLM #ML #BRAG #RAG

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

3 views13:04

Машинное обучение digest

⚡️Qwen выпустили Qwen2-Math, размером 1.5B, 7B и 72B, превосходящие GPT4o, Claude 3.5 на AIME 24/ AMC 23. 🔥

> 84 (72B), 75 (7B), 69,4 (1,5B) баллов на MATH
> > 72B SoTA на MMLU STEM
> Лицензия Apache 2.0 для версии 1.5B и 7B, 72B выпущена под лицензией Qianwen

> Основана на той же архитектуре, что и Qwen 2

> Интеграция с Transformers! 🤗

▪Hf
▪Github
▪Tech report
▪Scope

@ai_machinelearning_big_data

#opensource #Qwen #math

3 views18:19

Машинное обучение digest

Новостной дайджест

✔️Jimeng AI: сервис от ByteDance для генерации видео запущен на матрикового Китае.

ByteDance запустила сервис для генерации видео на основе искусственного интеллекта под названием Jimeng AI, намереваясь конкурировать с Sora от OpenAI и аналогичными продуктами .
Разработанное Faceu Technology, которая является частью бизнеса ByteDance Jianying, известного по приложению CapCut, Jimeng AI доступно в Apple App Store для китайских пользователей.
Программное обеспечение позволяет пользователям создавать видео и изображения на основе текстовых подсказок. Jimeng AI предлагает планы подписки, начинающиеся от 69 юаней в месяц (примерно 10 USD). О планах вывода сервиса на международный рынок сведений нет.
news18.com

✔️LG представляет первую в Южной Корее AI-модель с открытым исходным кодом.

LG AI Research представила Exaone 3.0, LLM третьего поколения этой серии.
Exaone 3.0 достигла высших мировых рейтингов в бенчмарках реальных сценариев использования, кодированию и математике, превзойдя Llama 3.1 от Meta и Gemma 2 от Google.
Модель двуязычна, способна понимать как корейский, так и английский языки и обучена на более чем 60 миллионах параметрах из различных специализированных областей. LG AI Research планирует расширить это до более чем 100 миллионов параметров концу 2024 года.
Облегченная версия Exaone 3.0 выпускается как модель с открытым исходным кодом для поддержки исследований и разработок в экосистеме искусственного интеллекта. LG также планирует интегрировать Exaone 3.0 в свои продукты и услуги и изучает возможности глобального партнерства для расширения его применения в реальных отраслях.
asianews.network

✔️Mistral AI запустила файнтюн моделей, раннюю версию Agents и SDK для разработки приложений генеративного ИИ.

Файнтюн моделей Mistral Large 2 и Codestral (base prompting, few-shot prompting, обучение на своих датасетах) добавлен в платформе La Plateforme.
Альфа-версия «Агентов» позволяют создавать роли и рабочие процессы с помощью простых инструкций и примеров для использования в Le Chat или через API.
SDK MistralAi 1.0, поддерживает Python и Typescript.
Все новинки Mistal доступны только пользователям с платной подпиской в интерфейсе La Plateforme на сайте Mistral.
mistral.ai

Please open Telegram to view this post

VIEW IN TELEGRAM

3 views07:20

Машинное обучение digest

⚡️ ml_mdm: Набор диффузионных моделей Matryoshka от Apple.

Matryoshka (MDM) - сквозная структура для синтеза изображений и видео высокого разрешения. Вместо обучения отдельных моделей использован многомасштабный процесс совместной диффузии, в котором модели меньшего масштаба вложены в модели большего масштаба. Такая структура вложенности не только облегчает обмен свойствами между масштабами, но и обеспечивает постепенный рост обучаемой архитектуры.

ml_mdm - Python-фреймворк для синтеза изображений и видео c с помощью набора pre-trained моделей Matryoshka.

Codebase фреймворка:

🟠ml_mdm.models - реализация core-модели;
🟠ml_mdm.diffusion - диффузионный пайплайн;
🟠ml_mdm.config - подключение конфигурационных классов данных к моделям, конвейерам с помощью simple parsing (надстройка к argparse);
🟠ml_mdm.clis - все инструменты cli проекта.

Для тестирования инференса, оценки на датасете CC12M и обучении на собственных наборах изображений представлены 3 pre-trained модели, построенные на архитектурах U-Net и Nested U-Nets, обученные на 50 млн. пар "текст-изображение" с Flickr:

🟢

vis_model_64x64;

🟢

vis_model_256x256;

🟢

vis_model_1024x1024.

▶️Локальный запуск:

Зависимости для установки по умолчанию в файле pyproject.toml выбраны таким образом, чтобы можно было установить библиотеку даже на CPU-only систему.

#  Running Test Cases:
> pytest   # will run all test cases - including ones that require a gpu
> pytest  -m "not gpu"  # run test cases that can work with just cpu

# Download the models:
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr64/vis_model.pth --output vis_model_64x64.pth
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr256/vis_model.pth --output vis_model_256x256.pth
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr1024/vis_model.pth --output vis_model_1024x1024.pth

# Launch Web Demo:
torchrun --standalone --nproc_per_node=1  ml_mdm/clis/generate_sample.py --port 19999

⚠️ В Issues репозитория есть обращение о некорректной команде запуска Web Demo. Следите за обновлением тикета и коммитами.

📌Лицензирование : Apple Inc.

🟡

Arxiv

🟡

Страница проекта

🖥

Github [ Stars: 166 | Issues: 3 | Forks: 6]

@ai_machinelearning_big_data

#AI #Diffusion #ML #Text2Image #Apple

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2 views12:20