#nlp #mteb #embeddings
Есть такой MTEB - Massive Text Embedding Benchmark.
У них сделан приятный лидерборд на Градио.
Большинства моделек, которые были в топе пару лет тому, когда я немного занимался NLP, в этой таблице вообще нет, наверное, слишком слабы.
Что удивительно, эмбеддинговые модельки от OpenAI практически в самом хвосте.
А что же чемпион? Всех заруливает опенсорсная NV-Embed-v2 от Nvidia.
"We present NV-Embed-v2, a generalist embedding model that ranks No. 1 on the Massive Text Embedding Benchmark (MTEB benchmark)(as of Aug 30, 2024) with a score of 72.31 across 56 text embedding tasks. It also holds the No. 1 in the retrieval sub-category (a score of 62.65 across 15 tasks) in the leaderboard, which is essential to the development of RAG technology.
NV-Embed-v2 presents several new designs, including having the LLM attend to latent vectors for better pooled embedding output, and demonstrating a two-staged instruction tuning method to enhance the accuracy of both retrieval and non-retrieval tasks. Additionally, NV-Embed-v2 incorporates a novel hard-negative mining methods that take into account the positive relevance score for better false negatives removal.
For more technical details, refer to our paper: NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models."
Для русского языка потестировано в 6 раз меньше моделей, лидируют e5-mistral-7b-instruct(7B) и multilingual-e5-large-instruct (0.5B). Если их сравнить со старенькими distilrubert-small-cased или rubert от DeepPavlov, в зависимости от задачи скор лидеров выше от 10 до 60 процентных пунктов.
Есть такой MTEB - Massive Text Embedding Benchmark.
У них сделан приятный лидерборд на Градио.
Большинства моделек, которые были в топе пару лет тому, когда я немного занимался NLP, в этой таблице вообще нет, наверное, слишком слабы.
Что удивительно, эмбеддинговые модельки от OpenAI практически в самом хвосте.
А что же чемпион? Всех заруливает опенсорсная NV-Embed-v2 от Nvidia.
"We present NV-Embed-v2, a generalist embedding model that ranks No. 1 on the Massive Text Embedding Benchmark (MTEB benchmark)(as of Aug 30, 2024) with a score of 72.31 across 56 text embedding tasks. It also holds the No. 1 in the retrieval sub-category (a score of 62.65 across 15 tasks) in the leaderboard, which is essential to the development of RAG technology.
NV-Embed-v2 presents several new designs, including having the LLM attend to latent vectors for better pooled embedding output, and demonstrating a two-staged instruction tuning method to enhance the accuracy of both retrieval and non-retrieval tasks. Additionally, NV-Embed-v2 incorporates a novel hard-negative mining methods that take into account the positive relevance score for better false negatives removal.
For more technical details, refer to our paper: NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models."
Для русского языка потестировано в 6 раз меньше моделей, лидируют e5-mistral-7b-instruct(7B) и multilingual-e5-large-instruct (0.5B). Если их сравнить со старенькими distilrubert-small-cased или rubert от DeepPavlov, в зависимости от задачи скор лидеров выше от 10 до 60 процентных пунктов.
GitHub
GitHub - embeddings-benchmark/mteb: MTEB: Massive Text Embedding Benchmark
MTEB: Massive Text Embedding Benchmark. Contribute to embeddings-benchmark/mteb development by creating an account on GitHub.
👍3