Машинное обучение digest
57 subscribers
1.69K photos
224 videos
922 links
Download Telegram
🌟Parler-TTS: качественный синтез речи по тексту на английском языке.

Parler-TTS - это модели текст-в-речь (TTS), способные генерировать качественную, естественно звучащую речь в заданном стиле (пол, тон, тип речи и т. д.).
Все датасеты обучения, предварительная обработка, код обучения и веса выпускаются публично, что даст возможность сообществу строить на нашей работе и разрабатывать свои собственные модифицированные модели TTS. Обе модели обучались на 45 тысячах часов англоязычных аудиокниг.

Parler-TTS - это авторегрессионная модель, основанная на трансформерах, которая генерирует аудиотокены в причинно-следственном порядке. Код для инференса Parler-TTS оптимизирован для быстрой генерации благодаря совместимости с SDPA и Flash Attention 2.

Архитектура Parler-TTS состоит из трех частей: текстовый кодировщик (Flan-T5), декодер и аудиокодек DAC. Текстовый кодировщик преобразует текст в скрытые состояния, декодер генерирует аудиотокены на основе этих состояний, а аудиокодек восстанавливает аудиосигнал из аудиотокенов.

Модели:

🟢Parler-TTS Mini - 880 миллионов параметров
🟢Parler-TTS Large - 2,3 миллиарда параметров

Характеристиками речи (пол, темп речи, высота тона и реверберация) можно управлять непосредственно через текстовый промпт. Например:

🟠Добавьте промпт "very clear audio" для создания аудио высокого качества, а "very noisy audio" - для высокого уровня фонового шума;
🟠Пунктуация может использоваться для управления просодией генерации - используйте запятые, чтобы добавить небольшие паузы в речь.


▶️Установка и запуск:

# Clone repository and install dependences:
pip install git+https://github.com/huggingface/parler-tts.git

# Inference with random voice
import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-v1")

prompt = "Hey, how are you doing today?"
description = "A female speaker delivers a slightly expressive and animated speech with a moderate speed and pitch. The recording is of very high quality, with the speaker's voice sounding clear and very close up."

input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)y



📌Лицензирование : Apache-2.0 license


🟡Модель Parler-TTS Mini
🟡Модель Parler-TTS Large
🟡Arxiv
🟡Demo Video
🟡Google Collab (файнтюн)
🟡Demo
🖥Github [ Stars: 3.4K | Issues: 49 | Forks: 338]


@ai_machinelearning_big_data

#AI #Parler #ML #TTS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Лучшее за неделю из мира Open ML/ AI:

1. В качестве сюрприза команда Qwen выпустила -

Qwen2-Math - специализированный англоязычный набор моделей на базе LLM Qwen2 для математических вычислений. Всего в релиз вошло 6 вариантов с разной плотностью параметров, от 1.5B до 72B.
Старшая модель Qwen 2-Math-72B предназначена для сложных

Qwen 2 Audio - 8.5B, лицензионные аудиоязыковые модели Apache 2.0 (Bas + Instruct), достигшие SoTA на ASR, S2TT и AIR-Bench, обученные на ~ 550 тысячах часов аудио. Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.

2. Parler TTS- 885M - это модели текст-в-речь (TTS), способные генерировать качественную, естественно звучащую речь в заданном стиле (пол, тон, тип речи и т. д.).
Все датасеты обучения, предварительная обработка, код обучения и веса выпускаются публично, что даст возможность сообществу строить на нашей работе и разрабатывать свои собственные модифицированные модели TTS. Обе модели обучались на 45 тысячах часов англоязычных аудиокниг.


3. LG выпустила EXAONE 7.8B, обученный на токенах 8T, превосходящий L3.1 8B, Phi3, Mistral 72,0 балла Human eval, 34,4 балла на MATH, 9,01 балла по MT-Bench (некоммерческая лицензия).

4. Hugging Face выпустили IDEFICS3 Llama 8B - Выпустили лицензионный VLM-сервер Apache 2.0 с расширенными возможностями контроля качества и работы с документами! Основан на : SigLip, текст на базе: Llama 3.1 8B, контекст 10K, DocVQA 87.7; MMStar 55.9

5. Internet LM open выпустил Internet LM 2.5 20B с лицензией Apache 2.0, контекстным окном размером до 1 млн и обучен работе с большим количеством синтетических данных! соревнуется с Gemma 27B в области информационных технологий; СРЕДНИЙ балл: 73,5, МАТЕМАТИКА: 64,7

6. Tsingua KEG выпустила CogVideoX 2B - открытую модель преобразования текста в видео, подобную SORA, которая генерирует видео продолжительностью до 6 секунд с частотой 8 кадров в секунду, довольно приличного качества!

И... произошло еще много чего: PyTorch выпустил FlexAttention, aiola выпустила Whisper Medusa (на 150% быстрее выводит логические данные), Maxime выпустила токен frankenmerge на 1 трлн долларов Llama 3.1 и т.д

@data_analysis_ml

#ainews #mlnews #digest
⚡️Falcon Mamba: англоязычная языковая модель на архитектуре Mamba.

Falcon Mamba - модель от Technology Innovation Institute (TII, Dubai, UAE), основанная на архитектуре Mamba, которая может обрабатывать последовательности произвольной длины без увеличения памяти хранения.
Модель была обучена на ~5500GT данных RefinedWeb, качественных технических данных и экземпляров кода на разных языках программирования из открытых источников.

Архитектура модели построена на оригинальной Mamba с добавлением дополнительных слоев нормализации RMS.
Такая комбинация придает модели возможность обрабатывать последовательности любой длины без необходимости увеличения потребления памяти, вмещаясь, по сути, на одну А10 24 GB.
Falcon Mamba доступна в экосистеме Hugging Face и совместима с большинством API Hugging Face. Модель также поддерживает функцию квантование bitsandbytes, для обеспечения возможности запуска модели на небольших GPU и CPU.

Коллекция моделей FalconMamba 7B:

🟢falcon-mamba-7b
🟢falcon-mamba-7b-instruct
🟠falcon-mamba-7b-4bit
🟠falcon-mamba-7b-instruct-4bit


📌Лицензирование : TII Falcon-Mamba License 2.0


🟡Страница проекта
🟡Коллекция моделей на HF
🟡Demo


@ai_machinelearning_big_data

#AI #Falcon #ML #LLM #Mamba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 UnpromptedControl

Unprompted Control — это утилита, которая автоматически удаляет объекты с изображений и восстанавливает поврежденные области, используя методы глубокого обучения и смешивания. В этом процессе ключевую роль играют модели Control Net и Stable Diffusion Inpaint Pipeline, которые направляют восстановление и обеспечивают естественное слияние результатов с остальным изображением.

Однако метод имеет свои ограничения, особенно при работе с изображениями лиц и тел людей. В таких случаях может потребоваться маскирование не только самого объекта, но и его теней для достижения наилучшего результата.

Несмотря на эти сложности, репозиторий предлагает ценный инструмент для бесшовного восстановления и удаления объектов.

- Githiub
- Colab
🌟 EXAONE-3.0-7.8B-Instruct: языковая модель с открытым исходным кодом c 7,8B параметров от LG,

EXAONE-3.0-7.8B-Instruct (EXpert AI for EveryONE) основана на архитектуре Transformers, с длиной контекста в 4096 токенов. Модель использует Rotary Position Embeddings (RoPE) и Grouped Query Attention (GQA), имеет 32 слоя и размер словаря в 102 400 токенов.
Поддержка английского и корейского языков реализована с помощью специального токенизатора BBPE (byte-level byte-pair encoding), который дает низкое сжатие для корейского языка по сравнению с существующими аналогами.

Процесс обучения строился на двухэтапном режиме.
Первый этап состоял из обучения на 6 триллионах токенов для накопления общих знаний , а затем на дополнительных 2 триллионах токенов, ориентированных на более высокие языковые навыки и экспертные знания.
Для улучшения способности следовать инструкциям была применена постобработка: контролируемая тонкая настройка и оптимизация прямых предпочтений.

В реальных сценариях использования EXAONE 3.0 7,8B продемонстрировала высокие результаты в тесте MT-Bench, который коррелирует с оценками в LMSYS Chatbot Arena. Модель показала точность в математических и code задачах, заняв первое место в большинстве проведенных тестов.

▶️Локальный запуск:

Рекомендованная версия transformers>=4.41.0
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
"LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct",
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct")

# Choose your prompt
prompt = "Explain who you are" # English example
prompt = "너의 소원을 말해봐" # Korean example

messages = [
{"role": "system", "content": "You are EXAONE model from LG AI Research, a helpful assistant."},
{"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
)

output = model.generate(
input_ids.to("cuda"),
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=128
)
print(tokenizer.decode(output[0]))



📌Лицензирование : использование разрешено исключительно в некоммерческих целях. Любое коммерческое использование модели требует отдельной лицензии от правообладателя.


🟡Страница проекта
🟡Arxiv
🟡Модель на HF
🟡Demo
🖥Github [ Stars: 123 | Issues: 0 | Forks: 5]


@ai_machinelearning_big_data

#AI #LLM #ML #EXAONE #LG
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышла бета-версия Grok-2

https://x.ai/blog/grok-2

Она превосходит, Claude 3.5 Sonnet и GPT-4-Turbo.

@data_analysis_ml
⭐️ Новостной дайджест

✔️Tora: Alibaba запустила проект генерации видео с контролем траектории.

Alibaba запустила проект генерации видео под названием Tora, которая поддерживает комбинацию траектории, текста и изображений, дает высокую точность и управляемость при генерации видео.
Tora представляет два новых модуля обработки движений: модуль выделения траектории и модуль управления движением. Также, она поддерживает управление начальным и конечным кадром, что гарантирует консистентность процесса генерации видео.
В планах опубликование: демо на Huggingface, код инференса и обучения. Сроки не называются.
Страница проекта, технический отчет исследования и репозиторий на Github.


✔️Tachyon: Одноплатный компьютер на Snapdragon с AI-ускорителем.

Particle представила Tachyon, новую одноплатную компьютерную систему (SBC), основанную на процессоре Qualcomm Snapdragon, c поддержкой 5G и собственным AI-ускорителем. Устройство имеет форму, схожую с Raspberry Pi, и оснащено восьмиядерным процессором Kryo с тактовой частотой до 2.7 ГГц, 4 ГБ оперативной памяти и 64 ГБ встроенной памяти UFS.
Tachyon предлагает поддержку текстового и графического интерфейсов, а также интеграцию с Raspberry Pi через 40-контактный GPIO, два USB-C 3.1 порта.
Одноплатник будет поставляться с Ubuntu 24.04. Розничная цена на Tachyon будет составлять $249 ( $149 за "суперранний" уровень финансирования на Kikstarter сейчас).
Ожидается, что первые поставки начнутся в январе 2025 года.
tomshardware.com


✔️Vimeo анонсировала AI-перевод видео для бизнес-клиентов.

Новая функция позволяет пользователям автоматически переводить аудиодорожки и субтитры на более чем 30 языков, что значительно ускоряет процесс адаптации видео для международной аудитории. Так же заявлена функция редактирования переведенных субтитров, чтобы пользователи могли улучшать качество перевода по мере необходимости.
С запуском новых функций Vimeo планирует привлечь больше бизнес-клиентов, предоставляя им эффективные инструменты для создания и распространения контента на глобальном уровне.
vimeo.com

✔️Индия и ОАЭ лидируют в мире по внедрению ИИ и Gen AI.

"Global AI Adoption Index" от IBM показывает, что Индия и ОАЭ являются лидерами в глобальном внедрении искусственного интеллекта и генеративного ИИ.
42% опрошенных компаний уже интегрировали AI в свои бизнес-модели, при этом почти все предприятия увеличивают свои инвестиции в AI-решения. Основные отрасли - автомобилестроение, производство и финансовые услуги.
В ОАЭ 52% IT-специалистов сообщили о стратегии внедрения AI в своих организациях, в то время как в Индии этот показатель составляет 42%. Наиболее распространенные области применения AI включают автоматизацию IT-процессов, обнаружение угроз и управление.
consultancy-me.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Выпущен Keras 3.5.0

- Добавлена интеграция с Hugging Face Hub.
Теперь можно сохранять модели на Hugging Face Hub напрямую через keras.Model.save(), а также загружать .keras модели с Hub с помощью keras.saving.load_model().

- Обеспечена совместимость с NumPy 2.0.

- Добавлены новые методы и операции.

- Исправлены ошибки и улучшена производительность.

📌Github
⚡️ CogVideoX: Код и модель Text-to-video генерации.

CogVideoX - обновление модели генерации текста в видео CogVideo, выпущенной в мае 2022 года.
Обновление до CogVideoX :

🟠переход на библиотеку diffusers версии 0.30.0, что позволяет выполнять инференс на одном GPU NVIDIA 24Gb;
🟠использование в модели 3D Causal VAE, который позволяет выполнять реконструкцию видео практически без потерь.

CogVideoX-2B: первая модель в серии CogVideoX, разработанная для генерации видео.
Для запуска требуется 18GB VRAM GPU (с использованием SAT) для инференса на одном графическом процессоре и 40GB для дообучения и файнтюна.
Модель поддерживает генерацию видео с разрешением 720x480, длительностью 6 секунд и частотой 8 кадров в секунду, с максимальной длиной текстового промпта в 226 токенов.

CogVideoX-5B: более плотная модель на 5B, доступна только для коммерческих целей по API.
При регистрации дают 25 млн токенов попробовать, но возможность регистрации по некитайским номерам сотовых операторов неизвестна.
Технические параметры CogVideoX-5B не публиковались.

CogVideoX обучалась на наборе данных из 35 миллионов видеоклипов, каждый из которых длительностью около шести секунд. Данные для обучения прошли фильтрацию на низкое качество.

CogVideoX использует 3D causal VAE для сжатия видеоданных как в пространственном, так и во временном отношении, тем самым сокращая длину последовательности по сравнению с традиционными методами.
Это помогает поддерживать непрерывность между кадрами, минимизируя мерцание в сгенерированных видео.

Модель объединяет Expert Transformer с адаптивным LayerNorm для синхронизации согласования между видео и текстовыми вхождениями.
Такая конструкция позволяет комплексно моделировать временные и пространственные измерения с использованием 3D full focus, оптимизируя обработку интенсивных движений в генерации.
Выделенный captioning pipeline для видео генерирует точные текстовые описания для кадров, улучшая семантическое понимание модели.

Эмпирические результаты тестов показывают, что CogVideoX превосходит существующие общедоступные модели в машинных и в человеческих оценках.

▶️Локальный запуск доступен в нескольких вариантах:

🟢с использованием SAT (SwissArmyTransformers) весов и адаптированного кода. Подробная инструкция доступна тут;
🟢с использованием Diffusers в режимах : СLi-инференса, GradioUI и Streamlit web app.

Перед запуском разработчики советуют сконвертировать текстовой промпт в формат, понятный CogVideoX-2B, так как она обучалась на длинных LLM-образных промптах, выполнив скрипт convert_demo.py.
По умолчанию, CogVideoX использует LLM GLM4, но его также можно заменить любой другой LLM, например GPT, Gemini и т.д.
Этот шаг не является обязательным, модель будет работать без ошибок, но более детальный промпт даст лучшие результаты генерации видео.


▶️Установка и запуск:

# Clone repository & install requirements:
git clone https://github.com/THUDM/CogVideo.git
pip install -r requirements.txt
cd inference

# For Linux and Windows run GradioUI
python gradio_web_demo.py

# For macOS with Apple Silicon use this (maybe 20x slower than RTX 4090)
PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py

📌Лицензирование :

🟢Код: Apache 2.0 License.

🟠Модель : CogVideoX License (бесплатно для академических целей, регистрация и получение базовой лицензии - для коммерческой эксплуатации до 1млн. в мес. активных посещений. Свыше 1 млн. в мес. - получение дополнительной лицензии).


🟡Arxiv
🟡Demo
🟡Сообщество в Discord
🟡Модель для Diffusers
🟡VAE для SAT
🟡Модель для SAT
🖥Github [ Stars: 5.5K | Issues: 19 | Forks: 495]


@ai_machinelearning_big_data

#AI #VLM #ML #Text2Video #CogVideoX
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 UnpromptedControl

Unprompted Control — это утилита, которая автоматически удаляет объекты с изображений и восстанавливает поврежденные области, используя методы глубокого обучения и смешивания. В этом процессе ключевую роль играют модели Control Net и Stable Diffusion Inpaint Pipeline, которые направляют восстановление и обеспечивают естественное слияние результатов с остальным изображением.

Однако метод имеет свои ограничения, особенно при работе с изображениями лиц и тел людей. В таких случаях может потребоваться маскирование не только самого объекта, но и его теней для достижения наилучшего результата.

Несмотря на эти сложности, репозиторий предлагает ценный инструмент для бесшовного восстановления и удаления объектов.

- Githiub
- Colab

@pythonl
Бесплатный курс с теорией и практикой математики для Data Science.

Никакой лишней воды, только то, что действительно нужно для работы с ML, и всё это с примерами кода. Приятный бонус — можно выбрать диалект для примеров (PyTorch, Keras или MXNET).

Кстати, остальные главы курса тоже на высоте.

https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/index.html