Вышел mmBERT (ждём мультимодальную версию для MMM). Модель обучена на более чем 3 триллионах токенов, охватывает свыше 1800 языков, при этом доля русского составляет около 10% обучающей выборки (второе место после английского).
Orion Weller вторую неделю подряд публикует работы, которые будут все будут долго обсуждать (на прошлой — LIMIT).В этой работе он почему-то единственный автор из оригинального ModernBert.
Три стадии обучения:
1. Pre-training (2.3T токенов) — маскирование 30% токенов, обучение на 60 высокоресурсных языках.
2. Mid-training (600B токенов) — расширение набора языков до 110, дообучение на более чистых подвыборках (FineWeb2-HQ, DCLM и дополнительные источники), увеличение максимального контекста до 8192 токенов.
3. Decay-phase (100B токенов) — добавление более 1700 низкоресурсных языков (FineWeb2 full), понижение температуры сэмплирования, объединение чекпойнтов с помощью TIES-merging.
Нововведения:
- Inverse Mask Ratio Schedule — постепенное уменьшение доли маскирования от 30% → 15% → 5% по фазам, что позволяет сначала учить базовые репрезентации, а затем уточнять языковые зависимости.
- Annealed Language Learning — динамическое изменение температуры выборки языков, переход от перекоса в сторону высокоресурсных языков к более равномерному распределению для адаптации к редким.
- Progressive Language Addition — поэтапное добавление языков (60 → 110 → 1833) вместо одновременного обучения на всех, что повышает эффективность и предотвращает переобучение на малых наборах.
- Model Merging — в финальной фазе тренируются три специализированные версии (англоцентричная, 110-язычная и полная), после чего они объединяются через TIES-merging, сочетая сильные стороны каждой.
Также заменили токенизатор c OLMo на Gemma 2 (не зря была стажировка в google)
Ссылки:
Hugging Face
GitHub
Paper
Orion Weller вторую неделю подряд публикует работы, которые будут все будут долго обсуждать (на прошлой — LIMIT).
Три стадии обучения:
1. Pre-training (2.3T токенов) — маскирование 30% токенов, обучение на 60 высокоресурсных языках.
2. Mid-training (600B токенов) — расширение набора языков до 110, дообучение на более чистых подвыборках (FineWeb2-HQ, DCLM и дополнительные источники), увеличение максимального контекста до 8192 токенов.
3. Decay-phase (100B токенов) — добавление более 1700 низкоресурсных языков (FineWeb2 full), понижение температуры сэмплирования, объединение чекпойнтов с помощью TIES-merging.
Нововведения:
- Inverse Mask Ratio Schedule — постепенное уменьшение доли маскирования от 30% → 15% → 5% по фазам, что позволяет сначала учить базовые репрезентации, а затем уточнять языковые зависимости.
- Annealed Language Learning — динамическое изменение температуры выборки языков, переход от перекоса в сторону высокоресурсных языков к более равномерному распределению для адаптации к редким.
- Progressive Language Addition — поэтапное добавление языков (60 → 110 → 1833) вместо одновременного обучения на всех, что повышает эффективность и предотвращает переобучение на малых наборах.
- Model Merging — в финальной фазе тренируются три специализированные версии (англоцентричная, 110-язычная и полная), после чего они объединяются через TIES-merging, сочетая сильные стороны каждой.
Также заменили токенизатор c OLMo на Gemma 2 (не зря была стажировка в google)
Ссылки:
Hugging Face
GitHub
Paper
❤12🔥2💯2
Embedinggemma-300m
Архитектура
* Базой служит gemma-3 (наверное 270m), полученная через адаптацию encoder-decoder по рецепту [T5Gemma](https://arxiv.org/abs/2504.06225).
* Сверху добавлены два проекционных слоя (768 → 3072), (3072 → 768).
* Использует mean pooling.
* Промпты -- (query:
Функции потерь
1. Контрастная (NCE) — с hard negatives и дополнительным весом сложности.
2. Глобальный ортогональный регуляризатор (GOR) — равномерно распределяет эмбеддинги по пространству, улучшает выразительность и устойчивость к квантованию.
3. Дистилляция (embedding matching) — прямое сопоставление с пространством более мощной модели Gemini Embedding.
Усреднили веса межу разными запусками с разными гиперпараметрами через простое усреднение.
SOTA среди моделей <500M параметров на
Arxiv: https://arxiv.org/abs/2509.20354
HF: https://huggingface.co/google/embeddinggemma-300m
Архитектура
* Базой служит gemma-3 (наверное 270m), полученная через адаптацию encoder-decoder по рецепту [T5Gemma](https://arxiv.org/abs/2504.06225).
* Сверху добавлены два проекционных слоя (768 → 3072), (3072 → 768).
* Использует mean pooling.
* Промпты -- (query:
"task: search result | query: ...", passage: "title: {title | none} | text: ...")Функции потерь
1. Контрастная (NCE) — с hard negatives и дополнительным весом сложности.
2. Глобальный ортогональный регуляризатор (GOR) — равномерно распределяет эмбеддинги по пространству, улучшает выразительность и устойчивость к квантованию.
3. Дистилляция (embedding matching) — прямое сопоставление с пространством более мощной модели Gemini Embedding.
Усреднили веса межу разными запусками с разными гиперпараметрами через простое усреднение.
SOTA среди моделей <500M параметров на
MTEB(Multilingual, v2).Arxiv: https://arxiv.org/abs/2509.20354
HF: https://huggingface.co/google/embeddinggemma-300m
❤10🔥2👍1
RTEB (Retrieval Embedding Benchmark)
Voyage AI by MongoDB добавила в MTEB новый бенчмарк -- для оценки эмбеддингов на retrieval-задачах.
RTEB использует гибридный подход, объединяющий открытые и закрытые датасеты, чтобы измерять обобщающую способность и не допускать «train on test».
Разработан для реальных приложений: включает датасеты на 20 языках (в основном английский и без русского) и в ключевых доменах — право, здравоохранение, финансы, программный код.
В качестве метрики по умолчанию применяется NDCG@10.
Уже выявляет разрывы в качестве: у некоторых моделей наблюдается заметное падение на закрытых датасетах, что указывает на переобучение к публичным бенчмаркам.
Доступен на лидерборде MTEB в Hugging Face.
Подрбонее в посте на HF blog
Voyage AI by MongoDB добавила в MTEB новый бенчмарк -- для оценки эмбеддингов на retrieval-задачах.
RTEB использует гибридный подход, объединяющий открытые и закрытые датасеты, чтобы измерять обобщающую способность и не допускать «train on test».
Разработан для реальных приложений: включает датасеты на 20 языках (в основном английский и без русского) и в ключевых доменах — право, здравоохранение, финансы, программный код.
В качестве метрики по умолчанию применяется NDCG@10.
Уже выявляет разрывы в качестве: у некоторых моделей наблюдается заметное падение на закрытых датасетах, что указывает на переобучение к публичным бенчмаркам.
Доступен на лидерборде MTEB в Hugging Face.
Подрбонее в посте на HF blog
❤6👍2🔥1
ModernVBERT
Архитектура
ModernVBERT (от авторов ColPali) построен на основе текстового ModernBERT (150M) и визуального SigLIP2-16B-512 (100M) энкодеров. Модель реализует архитектуру сходную с LLava и QwenVL, где визуальные патчи размером 512×512 проецируются в пространство текстовых токенов и обрабатываются совместно с ними.
Для дообучения (в статье alignment) энкодеров применялось Masked Language Modeling: визуальные признаки проходят через проекционный слой и передаются в текстовый энкодер, который учится восстанавливать замаскированные токены, используя как текстовую, так и визуальную информацию. Например, передают картинку и
Авторы провели контролируемые эксперименты, сравнивая энкодеры с casual и bidirection attention. При прочих равных условиях (одинаковый объём данных и число параметров) было показано, что модели с bidirection attention, обученные на MLM-задаче, дают прирост +10.6 nDCG@5 при многовектором поиске (colbert) на ViDoRe, а для одно-векторных моделей разница составляет +1.6 nDCG@5. Дообучение моделей с casual attention на bidirection attention не возвращает потерянное качество, что показывает необходимость обучения энкодеров изначально в двунаправленном режиме.
Обучение
Модель обучалась в несколько стадий. Сначала проводилось мультимодальное выравнивание с MLM-целью на 10 млрд токенов с использованием LoRA-адаптеров. Затем стадия контрастивного дообучение на комбинации пар «документ–текст» и «текст–текст» в пропорции 2:1 с использованием hard negatives.
Arxiv: https://arxiv.org/abs/2510.01149
HF: https://huggingface.co/ModernVBERT
Репо: https://github.com/illuin-tech/modernvbert
Архитектура
ModernVBERT (от авторов ColPali) построен на основе текстового ModernBERT (150M) и визуального SigLIP2-16B-512 (100M) энкодеров. Модель реализует архитектуру сходную с LLava и QwenVL, где визуальные патчи размером 512×512 проецируются в пространство текстовых токенов и обрабатываются совместно с ними.
Для дообучения (в статье alignment) энкодеров применялось Masked Language Modeling: визуальные признаки проходят через проекционный слой и передаются в текстовый энкодер, который учится восстанавливать замаскированные токены, используя как текстовую, так и визуальную информацию. Например, передают картинку и
[MASK] села на кресло и пытаются восстанавливать маскированное слово.Авторы провели контролируемые эксперименты, сравнивая энкодеры с casual и bidirection attention. При прочих равных условиях (одинаковый объём данных и число параметров) было показано, что модели с bidirection attention, обученные на MLM-задаче, дают прирост +10.6 nDCG@5 при многовектором поиске (colbert) на ViDoRe, а для одно-векторных моделей разница составляет +1.6 nDCG@5. Дообучение моделей с casual attention на bidirection attention не возвращает потерянное качество, что показывает необходимость обучения энкодеров изначально в двунаправленном режиме.
Обучение
Модель обучалась в несколько стадий. Сначала проводилось мультимодальное выравнивание с MLM-целью на 10 млрд токенов с использованием LoRA-адаптеров. Затем стадия контрастивного дообучение на комбинации пар «документ–текст» и «текст–текст» в пропорции 2:1 с использованием hard negatives.
Arxiv: https://arxiv.org/abs/2510.01149
HF: https://huggingface.co/ModernVBERT
Репо: https://github.com/illuin-tech/modernvbert
🔥6👍2❤1
MTEB v2
Спустя почти год работы вышел MTEB(где я отрефакторил море легаси кода саентистов) , более удобный интерфей для оценки моделей, новую документацию, поддержку datasets v4 (перезагрузил боллее 300 задач с trust_remote_code), статистику датасетов и много другое. Более подробно можно прочитать:
На нашем новом сайте
Или в блоге на 🤗
Спустя почти год работы вышел MTEB
v2. Мы добавили поддержку мультимодальности в моделях и задачах На нашем новом сайте
Или в блоге на 🤗
🔥13👏6❤4
Sentence transformers теперь официально часть HuggingFace 🤗
https://huggingface.co/blog/sentence-transformers-joins-hf
https://huggingface.co/blog/sentence-transformers-joins-hf
huggingface.co
Sentence Transformers is joining Hugging Face!
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥6🤯3🤗2❤1
Я сделал канал (@hf_dailypapers), в котором каждый день будут публиковаться статьи из HuggingFace Daily Papers.
Сейчас уже существует похожий канал (@huggingfacepapers), ноу него фатальный недостаток он использует суммаризацию и публикует ограниченный список статей по какой-то непонятной логике. В моём канале статьи будут выходить просто все статьи задень с дополнительной информацией (upvotes, organzation и тп)
Бот публикует свежие статьи примерно(так как GitHub schedule не гарантировано по времени) в 10 утра со вторника по субботу, и также актуальные блоги каждый день. Если у кого-то есть предложения или замечания по работе, можно писать в чате или оставить issue в репозитории: https://github.com/Samoed/hf-daily-papers-tg
Сейчас уже существует похожий канал (@huggingfacepapers), но
Бот публикует свежие статьи примерно
Telegram
Huggingface Daily papers
Unofficial Huggingface daily papers and posts from https://huggingface.co/papers
Source code: https://github.com/Samoed/hf-daily-papers-tg
Source code: https://github.com/Samoed/hf-daily-papers-tg
❤5🔥3👏1
Please open Telegram to view this post
VIEW IN TELEGRAM
👏5🥰2🌭2
Huggingface сделал свой wrapped https://huggingface.co/spaces/huggingface/2025-wrapped
Смотрят только активность в профиле (сколько новых датасетов/моделей), но это не включает актвиность в организациях (я добавил issue на эот)
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
2025 Wrapped - a Hugging Face Space by huggingface
This app generates a personalized wrapped report for your Hugging Face activity in 2025, showing stats like models, datasets, and likes, along with a playful nickname and roast based on your contri...
🎉4🏆2🔥1