Эмбеддинг бенчмарка

Вышел mmBERT (ждём мультимодальную версию для MMM). Модель обучена на более чем 3 триллионах токенов, охватывает свыше 1800 языков, при этом доля русского составляет около 10% обучающей выборки (второе место после английского).

Orion Weller вторую неделю подряд публикует работы, которые будут все будут долго обсуждать (на прошлой — LIMIT). В этой работе он почему-то единственный автор из оригинального ModernBert.

Три стадии обучения:

1. Pre-training (2.3T токенов) — маскирование 30% токенов, обучение на 60 высокоресурсных языках.
2. Mid-training (600B токенов) — расширение набора языков до 110, дообучение на более чистых подвыборках (FineWeb2-HQ, DCLM и дополнительные источники), увеличение максимального контекста до 8192 токенов.
3. Decay-phase (100B токенов) — добавление более 1700 низкоресурсных языков (FineWeb2 full), понижение температуры сэмплирования, объединение чекпойнтов с помощью TIES-merging.

Нововведения:

- Inverse Mask Ratio Schedule — постепенное уменьшение доли маскирования от 30% → 15% → 5% по фазам, что позволяет сначала учить базовые репрезентации, а затем уточнять языковые зависимости.
- Annealed Language Learning — динамическое изменение температуры выборки языков, переход от перекоса в сторону высокоресурсных языков к более равномерному распределению для адаптации к редким.
- Progressive Language Addition — поэтапное добавление языков (60 → 110 → 1833) вместо одновременного обучения на всех, что повышает эффективность и предотвращает переобучение на малых наборах.
- Model Merging — в финальной фазе тренируются три специализированные версии (англоцентричная, 110-язычная и полная), после чего они объединяются через TIES-merging, сочетая сильные стороны каждой.

Также заменили токенизатор c OLMo на Gemma 2 (не зря была стажировка в google)

Ссылки:
Hugging Face
GitHub
Paper

❤12🔥2💯2

223 views07:26