Метод EMO-Disentanger имеет двухэтапную архитектуру. На первом этапе основное внимание уделяется созданию партитуры, которая состоит из мелодии и последовательности аккордов, а на втором этапе создается фортепианное исполнение с желаемой выразительностью.
Двухэтапная структура позволяет разделить процесс генерации на валентное моделирование и моделирование тональных акцентов.
Модель партируты фокусируется на валентном моделировании, генерируя мелодии и последовательности аккордов на основе эмоциональной метки и тональности.
Затем модель исполнения генерирует на тональных акценты, создавая фортепианную игру с заданной выразительностью.
Чтобы отразить взаимодействие между музыкальными элементами и их влияние на эмоции, в EMO-Disentanger предлагается новое функциональное представление символической музыки.
В этом представлении используются римские цифры для обозначения аккордов относительно тональности. Оно также декомпозирует высоту звука на октаву и градус по отношению к тональности, улучшая понимание связей между эмоциями, аккордами и мелодиями.
Партитурная модель и модель исполнения обучаются отдельно с использованием объемных наборов музыкальных данных без аннотаций к эмоциям, чтобы модель могла лучше понять музыку.
Затем обе модели настраиваются на основе датасета, промаркированного эмоциями, для изучения композиции и стилей исполнения, характерных для различных эмоциональных контекстов.
@ai_machinelearning_big_data
#AI #Music #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Andrej Кarpathy в репозитории на Github запушил проект nano-llama31.
nano-llama31 - то же самое, что nanoGPT для GPT-2. То есть, это минимальная, свободная от зависимостей реализация архитектуры Llama 3.1, и она может очень просто обучать, настраивать и делать выводы. Это сравнимо с официальным выпуском кода от Meta и реализацией huggingface, которые имеют более сильные зависимости и гораздо больший объем кода.
Это еще пока очень ранний проект. Сейчас он требует довольно много VRAM, например, только обучение RMSNorm все еще занимает ощутимую часть моего 80-гигабайтного GPU. (c) автора
Планы:
git clone https://github.com/meta-llama/llama-models.git▪ Github
@ai_machinelearning_big_data
#llama #Кarpathy #nanoGPT
Please open Telegram to view this post
VIEW IN TELEGRAM
MM-Vet оценивает шесть основных возможностей LMM: распознавание, знание, пространственная ориентация, генерация языка, распознавание текста и математика. В версии v2 бенчмарка добавлена новая функция "понимание последовательности изображений и текста", которая может оценить способность моделей обрабатывать последовательности визуальных интерпретаций.
Вторая версия была подготовлена на большем наборе исходных данных (517 пар вопросов-ответов из различных областей), которые были сгенерированы GPT-4V и переработаны вручную исследовательской группой.
@ai_machinelearning_big_data
#AI #Benchmark #LMM #MMVetV2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Новостной дайджест
✔️ AWS разработала AI-ассистента Amazon Q.
Amazon Q умеет: генерировать точный код, проводить тестирование и отладку кода, планировать многократные шаги при разработке ПО, давать ответы на вопросы по бизнес-данным, подключаясь к хранилищам предприятия, а также лучшее в отрасли сканирование уязвимостей и оптимизацию среды AWS.
С его возможностями, сотрудники AWS теперь могут создавать приложения на корпоративных данных компании, описывая необходимый функционал естественным языком.
devopsdigest.com
✔️ Сети Колмогорова-Арнольда могут навести физиков на новые гипотезы.
Ученые из MIT разработали новый способ создания нейронных сетей, который оказался более эффективным и точным, чем традиционные методы. Эти новые сети, называемые KAN, могут представлять данные о физике в более понятном и интерпретируемом виде, что может помочь ученым открыть новые законы природы.
В ходе тестирования KAN показала себя более точной и эффективной, чем традиционные нейронные сети. Например, в одной задаче KAN достигла точности 81,6% с использованием всего 200 параметров, в то время как традиционная сеть достигла точности 78% с использованием 300 000 параметров. Кроме того, исследователи смогли визуально смоделировать KAN и упростить ее до простой физической функции, которая точно повторяет ту, которая создала набор данных.
spectrum.ieee.org
✔️ ИИ-модель Profluent приблизилась к точному и управляемому проектированию белков.
Компания Profluent разработала ИИ-модель - РroseLM, которая использует структурный и функциональный контекст для повышения точности и управления в проектировании дизайна белков, что используется для редактирования генов и связывания терапевтических антител.
ProseLM рассчитывает взаимодействия с не-белковыми молекулами и использует адаптерные слои для обучения, предоставляя возможность для намеренного и управляемого проектирования биотехнологических прототипов.
genengnews.com
✔️ NEO Semiconductor объявляет о разработке чипа 3D X-AI: замена HBM и решение проблемы узких мест в шине данных.
Технология 3D X-AI обеспечивает 100-кратное ускорение производительности, снижение энергопотребления на 99% и восьмикратное увеличение плотности памяти благодаря использованию 300 слоев 3D DRAM с нейронными схемами. Чип может обрабатывать до 120 ТБ/с данных, значительно снижая объем передаваемых данных между HBM и GPU.
neosemic.com
✔️ MIT опубликовал "Руководство по разработке стратегии AI для предприятий".
Руководство исследует текущее состояние принятия ИИ на предприятиях и предлагает стратегию для разработки плана внедрения, помогая бизнесу преодолеть диссонанс между амбициями и выполнением.
Ключевые темы: амбиции в области ИИ значительны, но лишь немногие перешли за пределы пилотных проектов; расходы на подготовку к использованию ИИ значительно увеличатся, а доступность и качество данных являются одними из ключевых аспектов для успешного внедрения ИИ.
Полный доклад доступен по ссылке.
technologyreview.com
@ai_machinelearning_big_data
#news #ai #ml
Amazon Q умеет: генерировать точный код, проводить тестирование и отладку кода, планировать многократные шаги при разработке ПО, давать ответы на вопросы по бизнес-данным, подключаясь к хранилищам предприятия, а также лучшее в отрасли сканирование уязвимостей и оптимизацию среды AWS.
С его возможностями, сотрудники AWS теперь могут создавать приложения на корпоративных данных компании, описывая необходимый функционал естественным языком.
devopsdigest.com
Ученые из MIT разработали новый способ создания нейронных сетей, который оказался более эффективным и точным, чем традиционные методы. Эти новые сети, называемые KAN, могут представлять данные о физике в более понятном и интерпретируемом виде, что может помочь ученым открыть новые законы природы.
В ходе тестирования KAN показала себя более точной и эффективной, чем традиционные нейронные сети. Например, в одной задаче KAN достигла точности 81,6% с использованием всего 200 параметров, в то время как традиционная сеть достигла точности 78% с использованием 300 000 параметров. Кроме того, исследователи смогли визуально смоделировать KAN и упростить ее до простой физической функции, которая точно повторяет ту, которая создала набор данных.
spectrum.ieee.org
Компания Profluent разработала ИИ-модель - РroseLM, которая использует структурный и функциональный контекст для повышения точности и управления в проектировании дизайна белков, что используется для редактирования генов и связывания терапевтических антител.
ProseLM рассчитывает взаимодействия с не-белковыми молекулами и использует адаптерные слои для обучения, предоставляя возможность для намеренного и управляемого проектирования биотехнологических прототипов.
genengnews.com
Технология 3D X-AI обеспечивает 100-кратное ускорение производительности, снижение энергопотребления на 99% и восьмикратное увеличение плотности памяти благодаря использованию 300 слоев 3D DRAM с нейронными схемами. Чип может обрабатывать до 120 ТБ/с данных, значительно снижая объем передаваемых данных между HBM и GPU.
neosemic.com
Руководство исследует текущее состояние принятия ИИ на предприятиях и предлагает стратегию для разработки плана внедрения, помогая бизнесу преодолеть диссонанс между амбициями и выполнением.
Ключевые темы: амбиции в области ИИ значительны, но лишь немногие перешли за пределы пилотных проектов; расходы на подготовку к использованию ИИ значительно увеличатся, а доступность и качество данных являются одними из ключевых аспектов для успешного внедрения ИИ.
Полный доклад доступен по ссылке.
technologyreview.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
BRAG - это серия специализированных языковых моделей, обученных для RAG-задач с текстом, таблицами и в режиме чата. Все модели ориентированы в основном на английский язык, но модели на базе Llama-3.1-8B и Qwen2-1.5b имеют наследованную поддержку мультиязычности.
В качестве базовых моделей использованы Qwen2-1.5B, Qwen2-7B-Instruct, Llama-3.1-8B-Instruct и Llama-3-8B-Instruct.
Список моделей:
messages = [
{"role": "system", "content": "You are an assistant who gives helpful, detailed, and polite answers to the user's questions based on the context with appropriate reasoning as required. Indicate when the answer cannot be found in the context."},
{"role": "user", "content": """Context: <CONTEXT INFORMATION> \n\n <USER QUERY>"""},
]
⚡️Лицензирование : Apache-2.0
▪Страница проекта
▪Коллекция моделей на HF
@ai_machinelearning_big_data
#AI #LLM #ML #BRAG #RAG
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Qwen выпустили Qwen2-Math, размером 1.5B, 7B и 72B, превосходящие GPT4o, Claude 3.5 на AIME 24/ AMC 23. 🔥
> 84 (72B), 75 (7B), 69,4 (1,5B) баллов на MATH
> > 72B SoTA на MMLU STEM
> Лицензия Apache 2.0 для версии 1.5B и 7B, 72B выпущена под лицензией Qianwen
> Основана на той же архитектуре, что и Qwen 2
> Интеграция с Transformers! 🤗
▪Hf
▪Github
▪Tech report
▪Scope
@ai_machinelearning_big_data
#opensource #Qwen #math
> 84 (72B), 75 (7B), 69,4 (1,5B) баллов на MATH
> > 72B SoTA на MMLU STEM
> Лицензия Apache 2.0 для версии 1.5B и 7B, 72B выпущена под лицензией Qianwen
> Основана на той же архитектуре, что и Qwen 2
> Интеграция с Transformers! 🤗
▪Hf
▪Github
▪Tech report
▪Scope
@ai_machinelearning_big_data
#opensource #Qwen #math
Новостной дайджест
✔️ Jimeng AI: сервис от ByteDance для генерации видео запущен на матрикового Китае.
ByteDance запустила сервис для генерации видео на основе искусственного интеллекта под названием Jimeng AI, намереваясь конкурировать с Sora от OpenAI и аналогичными продуктами .
Разработанное Faceu Technology, которая является частью бизнеса ByteDance Jianying, известного по приложению CapCut, Jimeng AI доступно в Apple App Store для китайских пользователей.
Программное обеспечение позволяет пользователям создавать видео и изображения на основе текстовых подсказок. Jimeng AI предлагает планы подписки, начинающиеся от 69 юаней в месяц (примерно 10 USD). О планах вывода сервиса на международный рынок сведений нет.
news18.com
✔️ LG представляет первую в Южной Корее AI-модель с открытым исходным кодом.
LG AI Research представила Exaone 3.0, LLM третьего поколения этой серии.
Exaone 3.0 достигла высших мировых рейтингов в бенчмарках реальных сценариев использования, кодированию и математике, превзойдя Llama 3.1 от Meta и Gemma 2 от Google.
Модель двуязычна, способна понимать как корейский, так и английский языки и обучена на более чем 60 миллионах параметрах из различных специализированных областей. LG AI Research планирует расширить это до более чем 100 миллионов параметров концу 2024 года.
Облегченная версия Exaone 3.0 выпускается как модель с открытым исходным кодом для поддержки исследований и разработок в экосистеме искусственного интеллекта. LG также планирует интегрировать Exaone 3.0 в свои продукты и услуги и изучает возможности глобального партнерства для расширения его применения в реальных отраслях.
asianews.network
✔️ Mistral AI запустила файнтюн моделей, раннюю версию Agents и SDK для разработки приложений генеративного ИИ.
Файнтюн моделей Mistral Large 2 и Codestral (base prompting, few-shot prompting, обучение на своих датасетах) добавлен в платформе La Plateforme.
Альфа-версия «Агентов» позволяют создавать роли и рабочие процессы с помощью простых инструкций и примеров для использования в Le Chat или через API.
SDK MistralAi 1.0, поддерживает Python и Typescript.
Все новинки Mistal доступны только пользователям с платной подпиской в интерфейсе La Plateforme на сайте Mistral.
mistral.ai
ByteDance запустила сервис для генерации видео на основе искусственного интеллекта под названием Jimeng AI, намереваясь конкурировать с Sora от OpenAI и аналогичными продуктами .
Разработанное Faceu Technology, которая является частью бизнеса ByteDance Jianying, известного по приложению CapCut, Jimeng AI доступно в Apple App Store для китайских пользователей.
Программное обеспечение позволяет пользователям создавать видео и изображения на основе текстовых подсказок. Jimeng AI предлагает планы подписки, начинающиеся от 69 юаней в месяц (примерно 10 USD). О планах вывода сервиса на международный рынок сведений нет.
news18.com
LG AI Research представила Exaone 3.0, LLM третьего поколения этой серии.
Exaone 3.0 достигла высших мировых рейтингов в бенчмарках реальных сценариев использования, кодированию и математике, превзойдя Llama 3.1 от Meta и Gemma 2 от Google.
Модель двуязычна, способна понимать как корейский, так и английский языки и обучена на более чем 60 миллионах параметрах из различных специализированных областей. LG AI Research планирует расширить это до более чем 100 миллионов параметров концу 2024 года.
Облегченная версия Exaone 3.0 выпускается как модель с открытым исходным кодом для поддержки исследований и разработок в экосистеме искусственного интеллекта. LG также планирует интегрировать Exaone 3.0 в свои продукты и услуги и изучает возможности глобального партнерства для расширения его применения в реальных отраслях.
asianews.network
Файнтюн моделей Mistral Large 2 и Codestral (base prompting, few-shot prompting, обучение на своих датасетах) добавлен в платформе La Plateforme.
Альфа-версия «Агентов» позволяют создавать роли и рабочие процессы с помощью простых инструкций и примеров для использования в Le Chat или через API.
SDK MistralAi 1.0, поддерживает Python и Typescript.
Все новинки Mistal доступны только пользователям с платной подпиской в интерфейсе La Plateforme на сайте Mistral.
mistral.ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Matryoshka (MDM) - сквозная структура для синтеза изображений и видео высокого разрешения. Вместо обучения отдельных моделей использован многомасштабный процесс совместной диффузии, в котором модели меньшего масштаба вложены в модели большего масштаба. Такая структура вложенности не только облегчает обмен свойствами между масштабами, но и обеспечивает постепенный рост обучаемой архитектуры.
ml_mdm - Python-фреймворк для синтеза изображений и видео c с помощью набора pre-trained моделей Matryoshka.
Codebase фреймворка:
Для тестирования инференса, оценки на датасете CC12M и обучении на собственных наборах изображений представлены 3 pre-trained модели, построенные на архитектурах U-Net и Nested U-Nets, обученные на 50 млн. пар "текст-изображение" с Flickr:
Зависимости для установки по умолчанию в файле pyproject.toml выбраны таким образом, чтобы можно было установить библиотеку даже на CPU-only систему.
# Running Test Cases:
> pytest # will run all test cases - including ones that require a gpu
> pytest -m "not gpu" # run test cases that can work with just cpu
# Download the models:
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr64/vis_model.pth --output vis_model_64x64.pth
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr256/vis_model.pth --output vis_model_256x256.pth
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr1024/vis_model.pth --output vis_model_1024x1024.pth
# Launch Web Demo:
torchrun --standalone --nproc_per_node=1 ml_mdm/clis/generate_sample.py --port 19999
⚠️ В Issues репозитория есть обращение о некорректной команде запуска Web Demo. Следите за обновлением тикета и коммитами.
@ai_machinelearning_big_data
#AI #Diffusion #ML #Text2Image #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM