MTEB v2
Спустя почти год работы вышел MTEB(где я отрефакторил море легаси кода саентистов) , более удобный интерфей для оценки моделей, новую документацию, поддержку datasets v4 (перезагрузил боллее 300 задач с trust_remote_code), статистику датасетов и много другое. Более подробно можно прочитать:
На нашем новом сайте
Или в блоге на 🤗
Спустя почти год работы вышел MTEB
v2. Мы добавили поддержку мультимодальности в моделях и задачах На нашем новом сайте
Или в блоге на 🤗
🔥13👏6❤4
Sentence transformers теперь официально часть HuggingFace 🤗
https://huggingface.co/blog/sentence-transformers-joins-hf
https://huggingface.co/blog/sentence-transformers-joins-hf
huggingface.co
Sentence Transformers is joining Hugging Face!
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥6🤯3🤗2❤1
Я сделал канал (@hf_dailypapers), в котором каждый день будут публиковаться статьи из HuggingFace Daily Papers.
Сейчас уже существует похожий канал (@huggingfacepapers), ноу него фатальный недостаток он использует суммаризацию и публикует ограниченный список статей по какой-то непонятной логике. В моём канале статьи будут выходить просто все статьи задень с дополнительной информацией (upvotes, organzation и тп)
Бот публикует свежие статьи примерно(так как GitHub schedule не гарантировано по времени) в 10 утра со вторника по субботу, и также актуальные блоги каждый день. Если у кого-то есть предложения или замечания по работе, можно писать в чате или оставить issue в репозитории: https://github.com/Samoed/hf-daily-papers-tg
Сейчас уже существует похожий канал (@huggingfacepapers), но
Бот публикует свежие статьи примерно
Telegram
Huggingface Daily papers
Unofficial Huggingface daily papers and posts from https://huggingface.co/papers
Source code: https://github.com/Samoed/hf-daily-papers-tg
Source code: https://github.com/Samoed/hf-daily-papers-tg
❤5🔥3👏1
Please open Telegram to view this post
VIEW IN TELEGRAM
👏5🥰2🌭2
Huggingface сделал свой wrapped https://huggingface.co/spaces/huggingface/2025-wrapped
Смотрят только активность в профиле (сколько новых датасетов/моделей), но это не включает актвиность в организациях (я добавил issue на эот)
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
2025 Wrapped - a Hugging Face Space by huggingface
This app generates a personalized wrapped report for your Hugging Face activity in 2025, showing stats like models, datasets, and likes, along with a playful nickname and roast based on your contri...
🎉4🏆2🔥1
ty вышел из альфыВышла первая бета версия
ty — typechecker от astral-sh (авторы ruff, uv)https://github.com/astral-sh/ty/releases/tag/0.0.2
Документация: https://docs.astral.sh/ty/
Блогпост с примерами https://astral.sh/blog/ty
GitHub
Release 0.0.2 · astral-sh/ty
Release Notes
Released on 2025-12-16.
This is the first Beta release of ty, which we're now ready to recommend to motivated users for
production use. See our blog post for more details.
LSP ser...
Released on 2025-12-16.
This is the first Beta release of ty, which we're now ready to recommend to motivated users for
production use. See our blog post for more details.
LSP ser...
👍7❤2🔥1
Эмбеддинг бенчмарка
Если кто-то хочет посмотреть статистику по разным организациям (сомневаюсь, но все же), то я обновил их space с этой возможностью
https://samoed-2025-wrapped.hf.space/
https://samoed-2025-wrapped.hf.space/
❤6🔥1🥰1
Вышли Qwen3-VL-Embedder и Reranker
https://huggingface.co/collections/Qwen/qwen3-vl-reranker
https://huggingface.co/collections/Qwen/qwen3-vl-embedding
Качество на текстовом домене проседает немного по сравнению с обычным и какие-то немного странные сравнения по моделям на vision части (нет jina-v4 например).
Пока нет поддержки в transformers (вряд-ли она скоро появится, тк сейчас их рефакторят) и надо использовать через их библиотеку
https://huggingface.co/collections/Qwen/qwen3-vl-reranker
https://huggingface.co/collections/Qwen/qwen3-vl-embedding
Качество на текстовом домене проседает немного по сравнению с обычным и какие-то немного странные сравнения по моделям на vision части (нет jina-v4 например).
Пока нет поддержки в transformers (вряд-ли она скоро появится, тк сейчас их рефакторят) и надо использовать через их библиотеку
🔥4🎉4🥰1
Эмбеддинг бенчмарка
Вышли Qwen3-VL-Embedder и Reranker https://huggingface.co/collections/Qwen/qwen3-vl-reranker https://huggingface.co/collections/Qwen/qwen3-vl-embedding Качество на текстовом домене проседает немного по сравнению с обычным и какие-то немного странные сравнения…
Qwen3-VL-Embedding продолжение
Спустя пару дней они выложили тех репорт https://arxiv.org/abs/2601.04720
- Первая модель которая полноценно используют chat tempalte от llm (ждем когда будет SBERT v6 с поддержкой)
- Схема обучения такая же как у Qwen3-Embedding. Тоже pre-training и fine-tuning основан на сгенерированных данных, но сейчас еще реранкер дистилили в эмбеддер
- Также использовали InfoNCE, но добавили Quantization-Aware Training и Matryoshka Representation Learning (как у gemma-embedding)
- По их замерам int8 эмбеддинги будут вести себя также как и fp32
Спустя пару дней они выложили тех репорт https://arxiv.org/abs/2601.04720
- Первая модель которая полноценно используют chat tempalte от llm (ждем когда будет SBERT v6 с поддержкой)
- Схема обучения такая же как у Qwen3-Embedding. Тоже pre-training и fine-tuning основан на сгенерированных данных, но сейчас еще реранкер дистилили в эмбеддер
- Также использовали InfoNCE, но добавили Quantization-Aware Training и Matryoshka Representation Learning (как у gemma-embedding)
- По их замерам int8 эмбеддинги будут вести себя также как и fp32
🔥4🥰3👍1🎉1
Эмбеддинг бенчмарка
Пока нет поддержки в transformers (вряд-ли она скоро появится, тк сейчас их рефакторят) и надо использовать через их библиотеку
Видимо нормальной интеграции надо будет долго ждать
😢4🤔1😭1
Pandas 3.0
- Теперь у строк есть свой тип, а не просто object
- Улучшили поддержку Copy-on-Write (теперь нет
- Убрали некоторые alias для дат (теперь надо писать
Поддерживает только python 3.11+
Полный список: https://pandas.pydata.org/community/blog/pandas-3.0.html
- Теперь у строк есть свой тип, а не просто object
- Улучшили поддержку Copy-on-Write (теперь нет
SettingWithCopyWarning) - Убрали некоторые alias для дат (теперь надо писать
ME вместо M) и даты могут сохраняться также в секундах, а не только в наносекундахПоддерживает только python 3.11+
Полный список: https://pandas.pydata.org/community/blog/pandas-3.0.html
❤6🔥1🥰1
Transformers v5
Пост (от декабря): https://huggingface.co/blog/transformers-v5
Полный список изменений: https://github.com/huggingface/transformers/releases/tag/v5.0.0
- Теперь токенизаторы используют только tokenizers, что раньше было
- Теперь dtype будет
- Убрали
- Много аргументов в трейнере поменяли. Например,
- Также сделали методы для получения отдельных модальностей у модели для SentenceTransformers, так что ждем когда появится новая версия
Пост (от декабря): https://huggingface.co/blog/transformers-v5
Полный список изменений: https://github.com/huggingface/transformers/releases/tag/v5.0.0
- Теперь токенизаторы используют только tokenizers, что раньше было
fast. Более подробно можно прочитать в их блоге https://huggingface.co/blog/tokenizers- Теперь dtype будет
auto по дефолту (раньше было fp32)- Убрали
load_in_8bit и теперь надо передавать конфиг напрямую- Много аргументов в трейнере поменяли. Например,
report_to теперь по дефолту none- Также сделали методы для получения отдельных модальностей у модели для SentenceTransformers, так что ждем когда появится новая версия
❤3✍3🔥1