Вышел mmBERT (ждём мультимодальную версию для MMM). Модель обучена на более чем 3 триллионах токенов, охватывает свыше 1800 языков, при этом доля русского составляет около 10% обучающей выборки (второе место после английского).
Orion Weller вторую неделю подряд публикует работы, которые будут все будут долго обсуждать (на прошлой — LIMIT).В этой работе он почему-то единственный автор из оригинального ModernBert.
Три стадии обучения:
1. Pre-training (2.3T токенов) — маскирование 30% токенов, обучение на 60 высокоресурсных языках.
2. Mid-training (600B токенов) — расширение набора языков до 110, дообучение на более чистых подвыборках (FineWeb2-HQ, DCLM и дополнительные источники), увеличение максимального контекста до 8192 токенов.
3. Decay-phase (100B токенов) — добавление более 1700 низкоресурсных языков (FineWeb2 full), понижение температуры сэмплирования, объединение чекпойнтов с помощью TIES-merging.
Нововведения:
- Inverse Mask Ratio Schedule — постепенное уменьшение доли маскирования от 30% → 15% → 5% по фазам, что позволяет сначала учить базовые репрезентации, а затем уточнять языковые зависимости.
- Annealed Language Learning — динамическое изменение температуры выборки языков, переход от перекоса в сторону высокоресурсных языков к более равномерному распределению для адаптации к редким.
- Progressive Language Addition — поэтапное добавление языков (60 → 110 → 1833) вместо одновременного обучения на всех, что повышает эффективность и предотвращает переобучение на малых наборах.
- Model Merging — в финальной фазе тренируются три специализированные версии (англоцентричная, 110-язычная и полная), после чего они объединяются через TIES-merging, сочетая сильные стороны каждой.
Также заменили токенизатор c OLMo на Gemma 2 (не зря была стажировка в google)
Ссылки:
Hugging Face
GitHub
Paper
Orion Weller вторую неделю подряд публикует работы, которые будут все будут долго обсуждать (на прошлой — LIMIT).
Три стадии обучения:
1. Pre-training (2.3T токенов) — маскирование 30% токенов, обучение на 60 высокоресурсных языках.
2. Mid-training (600B токенов) — расширение набора языков до 110, дообучение на более чистых подвыборках (FineWeb2-HQ, DCLM и дополнительные источники), увеличение максимального контекста до 8192 токенов.
3. Decay-phase (100B токенов) — добавление более 1700 низкоресурсных языков (FineWeb2 full), понижение температуры сэмплирования, объединение чекпойнтов с помощью TIES-merging.
Нововведения:
- Inverse Mask Ratio Schedule — постепенное уменьшение доли маскирования от 30% → 15% → 5% по фазам, что позволяет сначала учить базовые репрезентации, а затем уточнять языковые зависимости.
- Annealed Language Learning — динамическое изменение температуры выборки языков, переход от перекоса в сторону высокоресурсных языков к более равномерному распределению для адаптации к редким.
- Progressive Language Addition — поэтапное добавление языков (60 → 110 → 1833) вместо одновременного обучения на всех, что повышает эффективность и предотвращает переобучение на малых наборах.
- Model Merging — в финальной фазе тренируются три специализированные версии (англоцентричная, 110-язычная и полная), после чего они объединяются через TIES-merging, сочетая сильные стороны каждой.
Также заменили токенизатор c OLMo на Gemma 2 (не зря была стажировка в google)
Ссылки:
Hugging Face
GitHub
Paper
❤12🔥2💯2
Embedinggemma-300m
Архитектура
* Базой служит gemma-3 (наверное 270m), полученная через адаптацию encoder-decoder по рецепту [T5Gemma](https://arxiv.org/abs/2504.06225).
* Сверху добавлены два проекционных слоя (768 → 3072), (3072 → 768).
* Использует mean pooling.
* Промпты -- (query:
Функции потерь
1. Контрастная (NCE) — с hard negatives и дополнительным весом сложности.
2. Глобальный ортогональный регуляризатор (GOR) — равномерно распределяет эмбеддинги по пространству, улучшает выразительность и устойчивость к квантованию.
3. Дистилляция (embedding matching) — прямое сопоставление с пространством более мощной модели Gemini Embedding.
Усреднили веса межу разными запусками с разными гиперпараметрами через простое усреднение.
SOTA среди моделей <500M параметров на
Arxiv: https://arxiv.org/abs/2509.20354
HF: https://huggingface.co/google/embeddinggemma-300m
Архитектура
* Базой служит gemma-3 (наверное 270m), полученная через адаптацию encoder-decoder по рецепту [T5Gemma](https://arxiv.org/abs/2504.06225).
* Сверху добавлены два проекционных слоя (768 → 3072), (3072 → 768).
* Использует mean pooling.
* Промпты -- (query:
"task: search result | query: ...", passage: "title: {title | none} | text: ...")Функции потерь
1. Контрастная (NCE) — с hard negatives и дополнительным весом сложности.
2. Глобальный ортогональный регуляризатор (GOR) — равномерно распределяет эмбеддинги по пространству, улучшает выразительность и устойчивость к квантованию.
3. Дистилляция (embedding matching) — прямое сопоставление с пространством более мощной модели Gemini Embedding.
Усреднили веса межу разными запусками с разными гиперпараметрами через простое усреднение.
SOTA среди моделей <500M параметров на
MTEB(Multilingual, v2).Arxiv: https://arxiv.org/abs/2509.20354
HF: https://huggingface.co/google/embeddinggemma-300m
❤10🔥2👍1
RTEB (Retrieval Embedding Benchmark)
Voyage AI by MongoDB добавила в MTEB новый бенчмарк -- для оценки эмбеддингов на retrieval-задачах.
RTEB использует гибридный подход, объединяющий открытые и закрытые датасеты, чтобы измерять обобщающую способность и не допускать «train on test».
Разработан для реальных приложений: включает датасеты на 20 языках (в основном английский и без русского) и в ключевых доменах — право, здравоохранение, финансы, программный код.
В качестве метрики по умолчанию применяется NDCG@10.
Уже выявляет разрывы в качестве: у некоторых моделей наблюдается заметное падение на закрытых датасетах, что указывает на переобучение к публичным бенчмаркам.
Доступен на лидерборде MTEB в Hugging Face.
Подрбонее в посте на HF blog
Voyage AI by MongoDB добавила в MTEB новый бенчмарк -- для оценки эмбеддингов на retrieval-задачах.
RTEB использует гибридный подход, объединяющий открытые и закрытые датасеты, чтобы измерять обобщающую способность и не допускать «train on test».
Разработан для реальных приложений: включает датасеты на 20 языках (в основном английский и без русского) и в ключевых доменах — право, здравоохранение, финансы, программный код.
В качестве метрики по умолчанию применяется NDCG@10.
Уже выявляет разрывы в качестве: у некоторых моделей наблюдается заметное падение на закрытых датасетах, что указывает на переобучение к публичным бенчмаркам.
Доступен на лидерборде MTEB в Hugging Face.
Подрбонее в посте на HF blog
❤6👍2🔥1
ModernVBERT
Архитектура
ModernVBERT (от авторов ColPali) построен на основе текстового ModernBERT (150M) и визуального SigLIP2-16B-512 (100M) энкодеров. Модель реализует архитектуру сходную с LLava и QwenVL, где визуальные патчи размером 512×512 проецируются в пространство текстовых токенов и обрабатываются совместно с ними.
Для дообучения (в статье alignment) энкодеров применялось Masked Language Modeling: визуальные признаки проходят через проекционный слой и передаются в текстовый энкодер, который учится восстанавливать замаскированные токены, используя как текстовую, так и визуальную информацию. Например, передают картинку и
Авторы провели контролируемые эксперименты, сравнивая энкодеры с casual и bidirection attention. При прочих равных условиях (одинаковый объём данных и число параметров) было показано, что модели с bidirection attention, обученные на MLM-задаче, дают прирост +10.6 nDCG@5 при многовектором поиске (colbert) на ViDoRe, а для одно-векторных моделей разница составляет +1.6 nDCG@5. Дообучение моделей с casual attention на bidirection attention не возвращает потерянное качество, что показывает необходимость обучения энкодеров изначально в двунаправленном режиме.
Обучение
Модель обучалась в несколько стадий. Сначала проводилось мультимодальное выравнивание с MLM-целью на 10 млрд токенов с использованием LoRA-адаптеров. Затем стадия контрастивного дообучение на комбинации пар «документ–текст» и «текст–текст» в пропорции 2:1 с использованием hard negatives.
Arxiv: https://arxiv.org/abs/2510.01149
HF: https://huggingface.co/ModernVBERT
Репо: https://github.com/illuin-tech/modernvbert
Архитектура
ModernVBERT (от авторов ColPali) построен на основе текстового ModernBERT (150M) и визуального SigLIP2-16B-512 (100M) энкодеров. Модель реализует архитектуру сходную с LLava и QwenVL, где визуальные патчи размером 512×512 проецируются в пространство текстовых токенов и обрабатываются совместно с ними.
Для дообучения (в статье alignment) энкодеров применялось Masked Language Modeling: визуальные признаки проходят через проекционный слой и передаются в текстовый энкодер, который учится восстанавливать замаскированные токены, используя как текстовую, так и визуальную информацию. Например, передают картинку и
[MASK] села на кресло и пытаются восстанавливать маскированное слово.Авторы провели контролируемые эксперименты, сравнивая энкодеры с casual и bidirection attention. При прочих равных условиях (одинаковый объём данных и число параметров) было показано, что модели с bidirection attention, обученные на MLM-задаче, дают прирост +10.6 nDCG@5 при многовектором поиске (colbert) на ViDoRe, а для одно-векторных моделей разница составляет +1.6 nDCG@5. Дообучение моделей с casual attention на bidirection attention не возвращает потерянное качество, что показывает необходимость обучения энкодеров изначально в двунаправленном режиме.
Обучение
Модель обучалась в несколько стадий. Сначала проводилось мультимодальное выравнивание с MLM-целью на 10 млрд токенов с использованием LoRA-адаптеров. Затем стадия контрастивного дообучение на комбинации пар «документ–текст» и «текст–текст» в пропорции 2:1 с использованием hard negatives.
Arxiv: https://arxiv.org/abs/2510.01149
HF: https://huggingface.co/ModernVBERT
Репо: https://github.com/illuin-tech/modernvbert
🔥6👍2❤1
MTEB v2
Спустя почти год работы вышел MTEB(где я отрефакторил море легаси кода саентистов) , более удобный интерфей для оценки моделей, новую документацию, поддержку datasets v4 (перезагрузил боллее 300 задач с trust_remote_code), статистику датасетов и много другое. Более подробно можно прочитать:
На нашем новом сайте
Или в блоге на 🤗
Спустя почти год работы вышел MTEB
v2. Мы добавили поддержку мультимодальности в моделях и задачах На нашем новом сайте
Или в блоге на 🤗
🔥13👏6❤4
Sentence transformers теперь официально часть HuggingFace 🤗
https://huggingface.co/blog/sentence-transformers-joins-hf
https://huggingface.co/blog/sentence-transformers-joins-hf
huggingface.co
Sentence Transformers is joining Hugging Face!
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥6🤯3🤗2❤1
Я сделал канал (@hf_dailypapers), в котором каждый день будут публиковаться статьи из HuggingFace Daily Papers.
Сейчас уже существует похожий канал (@huggingfacepapers), ноу него фатальный недостаток он использует суммаризацию и публикует ограниченный список статей по какой-то непонятной логике. В моём канале статьи будут выходить просто все статьи задень с дополнительной информацией (upvotes, organzation и тп)
Бот публикует свежие статьи примерно(так как GitHub schedule не гарантировано по времени) в 10 утра со вторника по субботу, и также актуальные блоги каждый день. Если у кого-то есть предложения или замечания по работе, можно писать в чате или оставить issue в репозитории: https://github.com/Samoed/hf-daily-papers-tg
Сейчас уже существует похожий канал (@huggingfacepapers), но
Бот публикует свежие статьи примерно
Telegram
Huggingface Daily papers
Unofficial Huggingface daily papers and posts from https://huggingface.co/papers
Source code: https://github.com/Samoed/hf-daily-papers-tg
Source code: https://github.com/Samoed/hf-daily-papers-tg
❤5🔥3👏1
Please open Telegram to view this post
VIEW IN TELEGRAM
👏5🥰2🌭2
Huggingface сделал свой wrapped https://huggingface.co/spaces/huggingface/2025-wrapped
Смотрят только активность в профиле (сколько новых датасетов/моделей), но это не включает актвиность в организациях (я добавил issue на эот)
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
2025 Wrapped - a Hugging Face Space by huggingface
This app generates a personalized wrapped report for your Hugging Face activity in 2025, showing stats like models, datasets, and likes, along with a playful nickname and roast based on your contri...
🎉4🏆2🔥1
ty вышел из альфыВышла первая бета версия
ty — typechecker от astral-sh (авторы ruff, uv)https://github.com/astral-sh/ty/releases/tag/0.0.2
Документация: https://docs.astral.sh/ty/
Блогпост с примерами https://astral.sh/blog/ty
GitHub
Release 0.0.2 · astral-sh/ty
Release Notes
Released on 2025-12-16.
This is the first Beta release of ty, which we're now ready to recommend to motivated users for
production use. See our blog post for more details.
LSP ser...
Released on 2025-12-16.
This is the first Beta release of ty, which we're now ready to recommend to motivated users for
production use. See our blog post for more details.
LSP ser...
👍7❤2🔥1
Эмбеддинг бенчмарка
Если кто-то хочет посмотреть статистику по разным организациям (сомневаюсь, но все же), то я обновил их space с этой возможностью
https://samoed-2025-wrapped.hf.space/
https://samoed-2025-wrapped.hf.space/
❤6🔥1🥰1