Эмбеддинг бенчмарка

ModernVBERT Архитектура ModernVBERT (от авторов ColPali) построен на основе текстового ModernBERT (150M) и визуального SigLIP2-16B-512 (100M) энкодеров. Модель реализует архитектуру сходную с LLava и QwenVL, где визуальные патчи размером 512×512 проецируются…

❤3🔥1🥰1

177 views15:15

Эмбеддинг бенчмарка

MTEB v2

Спустя почти год работы вышел MTEB v2. Мы добавили поддержку мультимодальности в моделях и задачах (где я отрефакторил море легаси кода саентистов), более удобный интерфей для оценки моделей, новую документацию, поддержку datasets v4 (перезагрузил боллее 300 задач с trust_remote_code), статистику датасетов и много другое. Более подробно можно прочитать:

На нашем новом сайте
Или в блоге на 🤗

🔥13👏6❤4

423 views13:51

Эмбеддинг бенчмарка

Sentence transformers теперь официально часть HuggingFace 🤗
https://huggingface.co/blog/sentence-transformers-joins-hf

huggingface.co

Sentence Transformers is joining Hugging Face!

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥6🤯3🤗2❤1

185 views13:11

Эмбеддинг бенчмарка

Я сделал канал (@hf_dailypapers), в котором каждый день будут публиковаться статьи из HuggingFace Daily Papers.

Сейчас уже существует похожий канал (@huggingfacepapers), но ~~у него фатальный недостаток~~ он использует суммаризацию и публикует ограниченный список статей по какой-то непонятной логике. В моём канале статьи будут выходить просто все статьи задень с дополнительной информацией (upvotes, organzation и тп)

Бот публикует свежие статьи примерно (так как GitHub schedule не гарантировано по времени) в 10 утра со вторника по субботу, и также актуальные блоги каждый день. Если у кого-то есть предложения или замечания по работе, можно писать в чате или оставить issue в репозитории: https://github.com/Samoed/hf-daily-papers-tg

Huggingface Daily papers

Unofficial Huggingface daily papers and posts from https://huggingface.co/papers
Source code: https://github.com/Samoed/hf-daily-papers-tg

❤5🔥3👏1

162 views09:03

Эмбеддинг бенчмарка

Заддосил 🤗 перезаливом датасетов

Please open Telegram to view this post

VIEW IN TELEGRAM

👏5🥰2🌭2

118 views11:00

Эмбеддинг бенчмарка

🤗 Wrapped

Huggingface сделал свой wrapped https://huggingface.co/spaces/huggingface/2025-wrapped

Смотрят только активность в профиле (сколько новых датасетов/моделей), но это не включает актвиность в организациях (я добавил issue на эот)

Please open Telegram to view this post

VIEW IN TELEGRAM

huggingface.co

2025 Wrapped - a Hugging Face Space by huggingface

This app generates a personalized wrapped report for your Hugging Face activity in 2025, showing stats like models, datasets, and likes, along with a playful nickname and roast based on your contri...

🎉4🏆2🔥1

111 views19:10

Эмбеддинг бенчмарка

ty вышел из альфы

Вышла первая бета версия ty — typechecker от astral-sh (авторы ruff, uv)

https://github.com/astral-sh/ty/releases/tag/0.0.2
Документация: https://docs.astral.sh/ty/
Блогпост с примерами https://astral.sh/blog/ty

GitHub

Release 0.0.2 · astral-sh/ty

Release Notes
Released on 2025-12-16.
This is the first Beta release of ty, which we're now ready to recommend to motivated users for
production use. See our blog post for more details.
LSP ser...

👍7❤2🔥1

106 viewsedited 21:16

Эмбеддинг бенчмарка

Average vLLM review comment

😁4🤝4🥰2

104 viewsedited 09:55

Эмбеддинг бенчмарка

🤗 Wrapped Huggingface сделал свой wrapped https://huggingface.co/spaces/huggingface/2025-wrapped Смотрят только активность в профиле (сколько новых датасетов/моделей), но это не включает актвиность в организациях (я добавил issue на эот)

Если кто-то хочет посмотреть статистику по разным организациям (сомневаюсь, но все же), то я обновил их space с этой возможностью

https://samoed-2025-wrapped.hf.space/

❤6🔥1🥰1

94 views10:45

Эмбеддинг бенчмарка

Видимо еще агенты... (Или kernels доделают)

❤2🔥2🥰2👀1

107 views12:13

Эмбеддинг бенчмарка

Оказывается TGI все

🥰4❤2🔥1😭1

226 views17:29

Эмбеддинг бенчмарка

Вышли Qwen3-VL-Embedder и Reranker

https://huggingface.co/collections/Qwen/qwen3-vl-reranker

https://huggingface.co/collections/Qwen/qwen3-vl-embedding

Качество на текстовом домене проседает немного по сравнению с обычным и какие-то немного странные сравнения по моделям на vision части (нет jina-v4 например).

Пока нет поддержки в transformers (вряд-ли она скоро появится, тк сейчас их рефакторят) и надо использовать через их библиотеку

🔥4🎉4🥰1

106 views14:29

Эмбеддинг бенчмарка

Qwen3-VL-Embedding продолжение

Спустя пару дней они выложили тех репорт https://arxiv.org/abs/2601.04720

- Первая модель которая полноценно используют chat tempalte от llm (ждем когда будет SBERT v6 с поддержкой)
- Схема обучения такая же как у Qwen3-Embedding. Тоже pre-training и fine-tuning основан на сгенерированных данных, но сейчас еще реранкер дистилили в эмбеддер
- Также использовали InfoNCE, но добавили Quantization-Aware Training и Matryoshka Representation Learning (как у gemma-embedding)
- По их замерам int8 эмбеддинги будут вести себя также как и fp32

🔥4🥰3👍1🎉1

89 views08:10

Эмбеддинг бенчмарка

Пока нет поддержки в transformers (вряд-ли она скоро появится, тк сейчас их рефакторят) и надо использовать через их библиотеку

Видимо нормальной интеграции надо будет долго ждать

😢4🤔1😭1

72 views08:10

Эмбеддинг бенчмарка

Pandas 3.0

- Теперь у строк есть свой тип, а не просто object
- Улучшили поддержку Copy-on-Write (теперь нет SettingWithCopyWarning)
- Убрали некоторые alias для дат (теперь надо писать ME вместо M) и даты могут сохраняться также в секундах, а не только в наносекундах

Поддерживает только python 3.11+

Полный список: https://pandas.pydata.org/community/blog/pandas-3.0.html

❤6🔥1🥰1

57 views15:25

Эмбеддинг бенчмарка

Transformers v5

Пост (от декабря): https://huggingface.co/blog/transformers-v5
Полный список изменений: https://github.com/huggingface/transformers/releases/tag/v5.0.0

- Теперь токенизаторы используют только tokenizers, что раньше было fast. Более подробно можно прочитать в их блоге https://huggingface.co/blog/tokenizers
- Теперь dtype будет auto по дефолту (раньше было fp32)
- Убрали load_in_8bit и теперь надо передавать конфиг напрямую
- Много аргументов в трейнере поменяли. Например,report_to теперь по дефолту none
- Также сделали методы для получения отдельных модальностей у модели для SentenceTransformers, так что ждем когда появится новая версия

❤3✍3🔥1

455 viewsedited 10:40

About

Blog

Apps

Platform