Анализ данных (Data analysis)
45.2K subscribers
2.12K photos
232 videos
1 file
1.91K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
Forwarded from Machinelearning
🌟 Контекстуальные эмбединги для повышения эффективности поиска.

Contextual Document Embeddings (CDE) - это метод векторных эмбедингов, разработанный в Cornell University, который учитывает дополнительный контекст из "соседних" документов целевого набора данных.

Метод CDE предлагает добавить к функции встраивания зависимость не только от запроса или документа, но и от всех других документов в наборе данных. Чтобы создать такую функцию с осведомленностью о своем окружении, предлагаются две взаимодополняющих техники:

🟢Контекстуальное обучение, которое основано на кластеризации документов и запросов для формирования групп тематически схожих псевдообластей данных. Обучение на этих группах позволяет эмбединг-модели различать документы в сложных контекстах.

🟠Контекстуальная архитектура. Дополняет стандартный BERT-подобный энкодер дополнительными токенами из агрегированной информации о соседних документах. Эта информация позволяет модели учитывать относительную частоту терминов в контексте, аналогично тому, как это делается в статистических моделях поиска.

Тестирование CDE показало, что обе техники улучшают производительность в задачах поиска вне предметной области, а контекстуальная архитектура эффективнее традиционных эмбедингов в специализированных областях: финансах, юриспруденции и медицине.

Для практических экспериментов предлагается блокнот ipynb (или его версия для Google Collab) в котором используется эмбединг-модель cde-small-v1 с 281 млн. параметров, получившая средний балл 65.00 в бенчмарке MTEB leaderboard в категории моделей до 400 млн. параметров. Этот блокнот научит создавать свои собственные эмбединги в контексте вашего набора данных или просто использовать модель как есть.


🟡Модель
🟡Arxiv
🟡Ipynb блокнот
🟡Google Collab
🖥Github

@ai_machinelearning_big_data

#AI #ML #Embeddings #Retrieval #CDE
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM