Forwarded from Machinelearning
XVERSE-MoE-A36 - мультиязычная LLM, разработанная с нуля Shenzhen Yuanxiang Technology. Модель основана на архитектуре Mixture-of-Experts, имеет 255 млрд. параметров, из которых 36 млрд. активируются в процессе работы.
XVERSE-MoE-A36B предназначена для решения задач: генерация текста, машинный перевод, анализ тональности, реферирование текста, вопрос-ответ, применение в интеллектуальных системах обслуживания клиентов, образовательных помощниках и анализе данных.
Модель использует структуру decoder-only Transformer, где слой Feedforward Network разделен на специализированные экспертные слои.
Отличительной особенностью модели является использование набора общих и не общих экспертов, каждый из которых составляет 1/4 от размера стандартного FFN. Общие эксперты всегда активны во время вычислений, а не общие - активируются выборочно маршрутизатором.
Для обучения модели использовался массив данных на 40 языках, включая китайский, английский, русский и испанский. В процессе обучения использовалась стратегия динамического изменения набора данных с изменением скорости обучения (LR).
Тестирование модели проводилось на наборах данных MMLU, C-Eval, CMMLU, RACE-M, PIQA, GSM8K, MATH, MBPP и HumanEval.
Результаты показывают, что XVERSE-MoE-A36B превосходит другие модели MoE с открытым исходным кодом по производительности и эффективности.
⚠️ Важно! Несмотря на название, модель - 255B, ее физический размер ~ 512 Gb
# Clone repository:
git clone https://github.com/xverse-ai/XVERSE-MoE-A36B
cd XVERSE-MoE-A36B
# Install the dependencies:
pip install -r requirements.txt
# Inference with Transformers:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("xverse/XVERSE-MoE-A36B")
model = AutoModelForCausalLM.from_pretrained("xverse/XVERSE-MoE-A36B", trust_remote_code=True, torch_dtype=torch.bfloat16, device_map='auto')
model = model.eval()
inputs = tokenizer('Attraction of Omsk: The Forbidden City', return_tensors='pt').input_ids
inputs = inputs.cuda()
generated_ids = model.generate(inputs, max_new_tokens=70, eos_token_id=tokenizer.eos_token_id, repetition_penalty=1.1)
print(tokenizer.batch_decode(generated_ids, skip_special_tokens=True))
# Inference with WebUI:
python chat_demo.py --port='port' --model_path='/path/to/model/' --tokenizer_path='/path/to/tokenizer/'
@ai_machinelearning_big_data
#AI #ML #MoE #LLM #XVERSE
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1🔥1
Forwarded from Machinelearning
⚡️ Ling-flash-2.0 теперь в открытом доступе! ⚡️
Модель на 100B параметров, но задействовано всего ≈6.1B активных, что делает модель очень экономной в вычислительной нагрузке.
🚀 Чем хороша Ling-flash-2.0
- Обучена на более чем 20 триллионах токенов с до-обучением и RL-этапами.
- Демонстрирует state-of-the-art производительность среди плотных моделей до 40B параметров.
- Особенно хороша в сложном рассуждении, генерации кода и задачах с фронтендом.
⚙️ Архитектура и эффективность
- MoE-архитектура с активированием лишь части параметров (activation ratio 1/32).
- Много технических фишек: продвинутое распределение экспертов, баланс внимания, схема маршрутизации без вспомогательных потерь и др.
- На железе H20 модель генерирует 200+ токенов в секунду - в 3× быстрее по сравнению с плотной моделью 36B.
- Поддерживает контексты до 128K токенов (с YaRN).
https://huggingface.co/inclusionAI/Ling-flash-2.0
@ai_machinelearning_big_data
#moe #llm #ml #ai #opensource
Модель на 100B параметров, но задействовано всего ≈6.1B активных, что делает модель очень экономной в вычислительной нагрузке.
🚀 Чем хороша Ling-flash-2.0
- Обучена на более чем 20 триллионах токенов с до-обучением и RL-этапами.
- Демонстрирует state-of-the-art производительность среди плотных моделей до 40B параметров.
- Особенно хороша в сложном рассуждении, генерации кода и задачах с фронтендом.
⚙️ Архитектура и эффективность
- MoE-архитектура с активированием лишь части параметров (activation ratio 1/32).
- Много технических фишек: продвинутое распределение экспертов, баланс внимания, схема маршрутизации без вспомогательных потерь и др.
- На железе H20 модель генерирует 200+ токенов в секунду - в 3× быстрее по сравнению с плотной моделью 36B.
- Поддерживает контексты до 128K токенов (с YaRN).
https://huggingface.co/inclusionAI/Ling-flash-2.0
@ai_machinelearning_big_data
#moe #llm #ml #ai #opensource
👍4❤2🔥2
🔥 Новая модель: Ring-mini-2.0
📊 При размере всего 16B параметров (и лишь **1.4B активных**) модель показывает уровень рассуждений, сравнимый с плотными моделями до 10B.
На ключевых бенчмарках:
- LiveCodeBench, AIME 2025, GPQA, ARC-AGI-v1
Ring-mini-2.0 обходит все плотные модели <10B и даже соперничает с более крупными MoE-моделями (например, gpt-oss-20B-medium), особенно в задачах логического мышления.
⚡ Дополнительно — команда vibe на базе Ring-mini-2.0 в anycoder собрала быстрый чат-приложение, демонстрируя практические возможности модели.
Ring-mini-2.0 — ещё один шаг к компактным, но мощным reasoning-моделям, которые легко запускать и интегрировать.
#AI #LLM #RingMini #Reasoning #MoE
https://huggingface.co/spaces/akhaliq/Ring-mini-2.0
📊 При размере всего 16B параметров (и лишь **1.4B активных**) модель показывает уровень рассуждений, сравнимый с плотными моделями до 10B.
На ключевых бенчмарках:
- LiveCodeBench, AIME 2025, GPQA, ARC-AGI-v1
Ring-mini-2.0 обходит все плотные модели <10B и даже соперничает с более крупными MoE-моделями (например, gpt-oss-20B-medium), особенно в задачах логического мышления.
⚡ Дополнительно — команда vibe на базе Ring-mini-2.0 в anycoder собрала быстрый чат-приложение, демонстрируя практические возможности модели.
Ring-mini-2.0 — ещё один шаг к компактным, но мощным reasoning-моделям, которые легко запускать и интегрировать.
#AI #LLM #RingMini #Reasoning #MoE
https://huggingface.co/spaces/akhaliq/Ring-mini-2.0
🔥3👍2