Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp #nlp_papers
Я решила немного чаще рассказывать вам про работы, которые мы делаем с коллегами вместе, да и вообще больше привлекать внимания к менее хайповым не-чатгпт научным проблемам, поэтому введу новую рубрику — #nlp_papers
Сегодня поговорим о том, как можно применять теорию общественного выбора к оценке LLM.
Vote'n'Rank: Revision of Benchmarking with Social Choice Theory
Теория общественного выбора (Social choice theory) — это теоретические и практические методы агрегирования или объединения индивидуальных предпочтений в функцию коллективного общественного благосостояния. Обычно в этой области предполагается, что у людей есть предпочтения, и из этого следует, что их можно смоделировать с помощью функций полезности.
🌸Проблема: современные языковые модели оцениваются на целом ворохе различных задач. В результате такой оценки на каждую модель приходится по 20-30 метрик, зачастую разной природы (точность, полнота, Bert score, MCC..) и диапазона (от 0 до 1, от -1 до 1, и т.д.). Как на основании таких результатов выстраивать лидерборд лучших моделей? Усреднять такое явно нельзя. Да и потом, является ли лучшее среднее всех результатов по всем задачам оптимальным направлением наших стремлений?
🌸Идея: Позаимствуем методы рассчетов из теории общественного выбора и перевзвесим результаты моделей на GLUE, SuperGLUE и VALUE (Video-and-Language Understanding Evaluation).
Будем использовать такие правила агрегации, как скоринговые правила (Plurality, Borda, Dowdall), итеративные скоринговые правила (пороговое правило, Baldwin), и мажоритарные правила (Condorcet rule, Copeland rule).
Агрегации Vote'n'Rank более надежны, чем среднее арифметическое всех метрик, и в то же время способны обрабатывать отсутствующие значения на разных задачах и указывать условия, при которых система становится победителем.
• Правило множественности (Plurality)— хороший выбор, если пользователю нужны только лучшие системы по каждой задаче.
• Если все позиции в рейтинге имеют значение, используйте правила Borda или Dowdall. Обратите внимание, что Даудалл присваивает более высокие веса верхним позициям.
• Пороговое правило полезно в тех случаях, когда пользователь хочет свести к минимуму количество задач с низким результатом: правило присваивает наивысший ранг системе, которая считается худшей по наименьшему числу задач.
• Если цель состоит в том, чтобы выбрать систему, которая превосходит все остальные в попарном сравнении, используйте правила Болдуина, Кондорсе, Коупленда или правила Минимакса.
Feel free использовать в своих пайплайнах оценки моделей!
🖥 Paper: https://arxiv.org/abs/2210.05769v3
🖥 Github: https://github.com/PragmaticsLab/vote_and_rank
🌸Accepted EACL 2023
Я решила немного чаще рассказывать вам про работы, которые мы делаем с коллегами вместе, да и вообще больше привлекать внимания к менее хайповым не-чатгпт научным проблемам, поэтому введу новую рубрику — #nlp_papers
Сегодня поговорим о том, как можно применять теорию общественного выбора к оценке LLM.
Vote'n'Rank: Revision of Benchmarking with Social Choice Theory
Теория общественного выбора (Social choice theory) — это теоретические и практические методы агрегирования или объединения индивидуальных предпочтений в функцию коллективного общественного благосостояния. Обычно в этой области предполагается, что у людей есть предпочтения, и из этого следует, что их можно смоделировать с помощью функций полезности.
🌸Проблема: современные языковые модели оцениваются на целом ворохе различных задач. В результате такой оценки на каждую модель приходится по 20-30 метрик, зачастую разной природы (точность, полнота, Bert score, MCC..) и диапазона (от 0 до 1, от -1 до 1, и т.д.). Как на основании таких результатов выстраивать лидерборд лучших моделей? Усреднять такое явно нельзя. Да и потом, является ли лучшее среднее всех результатов по всем задачам оптимальным направлением наших стремлений?
🌸Идея: Позаимствуем методы рассчетов из теории общественного выбора и перевзвесим результаты моделей на GLUE, SuperGLUE и VALUE (Video-and-Language Understanding Evaluation).
Будем использовать такие правила агрегации, как скоринговые правила (Plurality, Borda, Dowdall), итеративные скоринговые правила (пороговое правило, Baldwin), и мажоритарные правила (Condorcet rule, Copeland rule).
Агрегации Vote'n'Rank более надежны, чем среднее арифметическое всех метрик, и в то же время способны обрабатывать отсутствующие значения на разных задачах и указывать условия, при которых система становится победителем.
• Правило множественности (Plurality)— хороший выбор, если пользователю нужны только лучшие системы по каждой задаче.
• Если все позиции в рейтинге имеют значение, используйте правила Borda или Dowdall. Обратите внимание, что Даудалл присваивает более высокие веса верхним позициям.
• Пороговое правило полезно в тех случаях, когда пользователь хочет свести к минимуму количество задач с низким результатом: правило присваивает наивысший ранг системе, которая считается худшей по наименьшему числу задач.
• Если цель состоит в том, чтобы выбрать систему, которая превосходит все остальные в попарном сравнении, используйте правила Болдуина, Кондорсе, Коупленда или правила Минимакса.
Feel free использовать в своих пайплайнах оценки моделей!
🌸Accepted EACL 2023
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - PragmaticsLab/vote_and_rank: Novel aggregation methods for multi-task NLP benchmarking
Novel aggregation methods for multi-task NLP benchmarking - PragmaticsLab/vote_and_rank
❤1
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp
"Во-первых, это красиво..."
Все постят этот восхитительный гайд по архитектурам LLM. Очень люблю такие майндмэпы — легко запомнить, систематизировать, использовать в лекциях
"Во-первых, это красиво..."
Все постят этот восхитительный гайд по архитектурам LLM. Очень люблю такие майндмэпы — легко запомнить, систематизировать, использовать в лекциях
❤1
#python #langdetect #nlp
Кто пользуется либой langdetect для определения языка - она не очень точная (по кр мере, на коротких фразах). Можно проверять с помощью google translate api.
Кто пользуется либой langdetect для определения языка - она не очень точная (по кр мере, на коротких фразах). Можно проверять с помощью google translate api.
#nlp #spellchecking
Продолжаю работать с contextualSpellCheck. Хотя они оказались не так плохи, как я вначале подумал, они всё же налажали. Их либа рассматривает только 10 вариантов подстановки от нейронной модельки, и изменить это число невозможно без перекомпиляции (шучу, это же питон, можно просто отредактировать исходники). Не глупость ли это? Ну спасибо, ребята, что за всех решили, что 10 кандидатов будет достаточно. Кстати, это прямо частый паттерн, когда создатели библиотеки часть внутренних параметров хардкодят и забывают открывать. Понятно, что для их повседневных задач это не оказалось нужным, а остальным-то что делать?
С top_n=1000 на предыдущем примере получается уже более осмысленный ответ, Cuba вместо точки, и даже правильный ответ Dubai мелькает.
Но тут уже удивляет пакет editdistance. Каким образом у них Cuba более похожа на dubia, чем Dubai?
Продолжаю работать с contextualSpellCheck. Хотя они оказались не так плохи, как я вначале подумал, они всё же налажали. Их либа рассматривает только 10 вариантов подстановки от нейронной модельки, и изменить это число невозможно без перекомпиляции (шучу, это же питон, можно просто отредактировать исходники). Не глупость ли это? Ну спасибо, ребята, что за всех решили, что 10 кандидатов будет достаточно. Кстати, это прямо частый паттерн, когда создатели библиотеки часть внутренних параметров хардкодят и забывают открывать. Понятно, что для их повседневных задач это не оказалось нужным, а остальным-то что делать?
С top_n=1000 на предыдущем примере получается уже более осмысленный ответ, Cuba вместо точки, и даже правильный ответ Dubai мелькает.
Но тут уже удивляет пакет editdistance. Каким образом у них Cuba более похожа на dubia, чем Dubai?
#nlp #mlm #transformers
Друзья, а какая из публично доступных моделей сейчас считается SOTA для мультиязыкового masked language prediction? Bert-ы что-то не вдохновляют.
капец. похоже, ошибку нашёл в contextualSpellChecker.
для "Я ушл в магазин.", bert-base-multilingual-cased предлагает топовый ответ '##шел' с вероятностью 0.3896,
Либа думает, что решётка означает склейку токенов, и склеивает очищенный от решёток вариант с предыдущим токеном. Хотя, кажется, Берт имеет в виду вовсе не склейку с предыдущим токеном, а скорее склейку с текущим токеном, но выброшенными посл 2-мя символами. А, нет, это уже глюки. ## это просто признак субтокена.
Друзья, а какая из публично доступных моделей сейчас считается SOTA для мультиязыкового masked language prediction? Bert-ы что-то не вдохновляют.
капец. похоже, ошибку нашёл в contextualSpellChecker.
для "Я ушл в магазин.", bert-base-multilingual-cased предлагает топовый ответ '##шел' с вероятностью 0.3896,
Либа думает, что решётка означает склейку токенов, и склеивает очищенный от решёток вариант с предыдущим токеном. Хотя, кажется, Берт имеет в виду вовсе не склейку с предыдущим токеном, а скорее склейку с текущим токеном, но выброшенными посл 2-мя символами. А, нет, это уже глюки. ## это просто признак субтокена.
#nlp #instructiontuning #p3 #flan2021 #inputinversion #chainofthought #metaprompt
https://www.youtube.com/watch?v=_bZdiwxjabQ
https://www.youtube.com/watch?v=_bZdiwxjabQ
YouTube
Татьяна Гайнцева - Instruction tuning: что, почему и как
Data Fest 2023:
https://ods.ai/events/datafestonline2023
Трек "Instruct Models":
https://ods.ai/tracks/df23-instruct-models
Наши соц.сети:
Telegram: https://t.me/datafest
Вконтакте: https://vk.com/datafest
https://ods.ai/events/datafestonline2023
Трек "Instruct Models":
https://ods.ai/tracks/df23-instruct-models
Наши соц.сети:
Telegram: https://t.me/datafest
Вконтакте: https://vk.com/datafest
#nlp #spellchecking
Кстати, если решите отлавливать опечатки, и SpaCy входит в ваш инструментарий, используйте мой форк либы contextualSpellCheck. У нас естьпеченьки GPU, Дамерау и Байес! А если статью сравнительную напишете, будет вообще чудесно, мне некогда (.
Кстати, если решите отлавливать опечатки, и SpaCy входит в ваш инструментарий, используйте мой форк либы contextualSpellCheck. У нас есть
GitHub
GitHub - fingoldo/contextualSpellCheck: Contextual word checker for better suggestions, with Damerau, case-insensitivity comparison…
Contextual word checker for better suggestions, with Damerau, case-insensitivity comparison, Bayesian decision making. - GitHub - fingoldo/contextualSpellCheck: Contextual word checker for better s...
👍1
#nlp #mteb #embeddings
Есть такой MTEB - Massive Text Embedding Benchmark.
У них сделан приятный лидерборд на Градио.
Большинства моделек, которые были в топе пару лет тому, когда я немного занимался NLP, в этой таблице вообще нет, наверное, слишком слабы.
Что удивительно, эмбеддинговые модельки от OpenAI практически в самом хвосте.
А что же чемпион? Всех заруливает опенсорсная NV-Embed-v2 от Nvidia.
"We present NV-Embed-v2, a generalist embedding model that ranks No. 1 on the Massive Text Embedding Benchmark (MTEB benchmark)(as of Aug 30, 2024) with a score of 72.31 across 56 text embedding tasks. It also holds the No. 1 in the retrieval sub-category (a score of 62.65 across 15 tasks) in the leaderboard, which is essential to the development of RAG technology.
NV-Embed-v2 presents several new designs, including having the LLM attend to latent vectors for better pooled embedding output, and demonstrating a two-staged instruction tuning method to enhance the accuracy of both retrieval and non-retrieval tasks. Additionally, NV-Embed-v2 incorporates a novel hard-negative mining methods that take into account the positive relevance score for better false negatives removal.
For more technical details, refer to our paper: NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models."
Для русского языка потестировано в 6 раз меньше моделей, лидируют e5-mistral-7b-instruct(7B) и multilingual-e5-large-instruct (0.5B). Если их сравнить со старенькими distilrubert-small-cased или rubert от DeepPavlov, в зависимости от задачи скор лидеров выше от 10 до 60 процентных пунктов.
Есть такой MTEB - Massive Text Embedding Benchmark.
У них сделан приятный лидерборд на Градио.
Большинства моделек, которые были в топе пару лет тому, когда я немного занимался NLP, в этой таблице вообще нет, наверное, слишком слабы.
Что удивительно, эмбеддинговые модельки от OpenAI практически в самом хвосте.
А что же чемпион? Всех заруливает опенсорсная NV-Embed-v2 от Nvidia.
"We present NV-Embed-v2, a generalist embedding model that ranks No. 1 on the Massive Text Embedding Benchmark (MTEB benchmark)(as of Aug 30, 2024) with a score of 72.31 across 56 text embedding tasks. It also holds the No. 1 in the retrieval sub-category (a score of 62.65 across 15 tasks) in the leaderboard, which is essential to the development of RAG technology.
NV-Embed-v2 presents several new designs, including having the LLM attend to latent vectors for better pooled embedding output, and demonstrating a two-staged instruction tuning method to enhance the accuracy of both retrieval and non-retrieval tasks. Additionally, NV-Embed-v2 incorporates a novel hard-negative mining methods that take into account the positive relevance score for better false negatives removal.
For more technical details, refer to our paper: NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models."
Для русского языка потестировано в 6 раз меньше моделей, лидируют e5-mistral-7b-instruct(7B) и multilingual-e5-large-instruct (0.5B). Если их сравнить со старенькими distilrubert-small-cased или rubert от DeepPavlov, в зависимости от задачи скор лидеров выше от 10 до 60 процентных пунктов.
GitHub
GitHub - embeddings-benchmark/mteb: MTEB: Massive Text Embedding Benchmark
MTEB: Massive Text Embedding Benchmark. Contribute to embeddings-benchmark/mteb development by creating an account on GitHub.
👍3
#asr #nlp #finetuning #t5
Лектор обалденный. Чистое золото!
Сколько он техник применил для решения реальной задачи, просто жесть. Могу подтвердить, что так всё на практике и бывает, всплывает много мелких проблем, каждую из которых приходится решать творчески.
Я не знал, что моделька t5 так хороша, в эпоху больших-то моделей.
https://youtu.be/blE2Dm9SORE?si=LzGeMhrApdLkqq1R
Лектор обалденный. Чистое золото!
Сколько он техник применил для решения реальной задачи, просто жесть. Могу подтвердить, что так всё на практике и бывает, всплывает много мелких проблем, каждую из которых приходится решать творчески.
Я не знал, что моделька t5 так хороша, в эпоху больших-то моделей.
https://youtu.be/blE2Dm9SORE?si=LzGeMhrApdLkqq1R
YouTube
Иван Бондаренко | Маленькая, но удаленькая! Зачем использовать LLM размером меньше 1B параметров?
Спикер: Иван Бондаренко, старший преподаватель, научный сотрудник НГУ
Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в треке секции NLP: https://ods.ai/tracks/df24-nlp
______
Наши соц.сети:
Telegram: https://t.me/datafest…
Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в треке секции NLP: https://ods.ai/tracks/df24-nlp
______
Наши соц.сети:
Telegram: https://t.me/datafest…
Forwarded from Artem Ryblov’s Data Science Weekly
The Kaggle Book by Konrad Banachewicz and Luca Massaron
Millions of data enthusiasts from around the world compete on Kaggle, the most famous data science competition platform of them all. Participating in Kaggle competitions is a surefire way to improve your data analysis skills, network with an amazing community of data scientists, and gain valuable experience to help grow your career.
The first book of its kind, The Kaggle Book assembles in one place the techniques and skills you'll need for success in competitions, data science projects, and beyond. Two Kaggle Grandmasters walk you through modeling strategies you won't easily find elsewhere, and the knowledge they've accumulated along the way. As well as Kaggle-specific tips, you'll learn more general techniques for approaching tasks based on image, tabular, textual data, and reinforcement learning. You'll design better validation schemes and work more comfortably with different evaluation metrics.
Whether you want to climb the ranks of Kaggle, build some more data science skills, or improve the accuracy of your existing models, this book is for you.
Link: Book
Navigational hashtags: #armknowledgesharing #armbooks
General hashtags: #ml #machinelearning #featureengineering #kaggle #metrics #validation #hyperparameters #tabular #cv #nlp
@data_science_weekly
Millions of data enthusiasts from around the world compete on Kaggle, the most famous data science competition platform of them all. Participating in Kaggle competitions is a surefire way to improve your data analysis skills, network with an amazing community of data scientists, and gain valuable experience to help grow your career.
The first book of its kind, The Kaggle Book assembles in one place the techniques and skills you'll need for success in competitions, data science projects, and beyond. Two Kaggle Grandmasters walk you through modeling strategies you won't easily find elsewhere, and the knowledge they've accumulated along the way. As well as Kaggle-specific tips, you'll learn more general techniques for approaching tasks based on image, tabular, textual data, and reinforcement learning. You'll design better validation schemes and work more comfortably with different evaluation metrics.
Whether you want to climb the ranks of Kaggle, build some more data science skills, or improve the accuracy of your existing models, this book is for you.
Link: Book
Navigational hashtags: #armknowledgesharing #armbooks
General hashtags: #ml #machinelearning #featureengineering #kaggle #metrics #validation #hyperparameters #tabular #cv #nlp
@data_science_weekly
#dyatlovpass #mysteries #ai #nlp #criminology
В очередной раз попалось в рекомендациях видео по загадке трагической гибели туристов на перевале Дятлова.
Это хорошо документированная, но не имеющая очевидного решения тайна 1959-го года.
Есть десятки версий, ни одна полностью не объясняет всю фактологическую базу.
Дело осложняется тем, что "интернет-эксперты", авторы версий, зачастую не дружат с логикой и не способны делать корректные выводы даже из ясных и простых посылок.
У меня давно была идея сконструировать экспертную систему с материалами дела, с визуализацией цепочки событий (по времени и месту), "нечёткой логикой", и, самое главное, системой оценки и сравнения версий.
Каждый факт (свидетельство с определённой степенью достоверности) из экспертной системы может противоречить либо не противоречить определённой версии.
Тогда можно было бы найти версию, объясняющую наибольший объём фактов, определить недостоверные факты и даже недостоверные источники информации.
Раньше не было возможности такое запилить, но с современным ИИ это стало возможным в течение последних 2 лет.
Эта система, в случае создания, может быть масштабирована на все сложные криминологические случаи.
Ну и в целом это может быть прикольным проектом, с авто анализом текстов, изображений, геомоделированием, психологией.
Если кто вдруг заинтересован в совместной работе в этом направлении, пишите.
В очередной раз попалось в рекомендациях видео по загадке трагической гибели туристов на перевале Дятлова.
Это хорошо документированная, но не имеющая очевидного решения тайна 1959-го года.
Есть десятки версий, ни одна полностью не объясняет всю фактологическую базу.
Дело осложняется тем, что "интернет-эксперты", авторы версий, зачастую не дружат с логикой и не способны делать корректные выводы даже из ясных и простых посылок.
У меня давно была идея сконструировать экспертную систему с материалами дела, с визуализацией цепочки событий (по времени и месту), "нечёткой логикой", и, самое главное, системой оценки и сравнения версий.
Каждый факт (свидетельство с определённой степенью достоверности) из экспертной системы может противоречить либо не противоречить определённой версии.
Тогда можно было бы найти версию, объясняющую наибольший объём фактов, определить недостоверные факты и даже недостоверные источники информации.
Раньше не было возможности такое запилить, но с современным ИИ это стало возможным в течение последних 2 лет.
Эта система, в случае создания, может быть масштабирована на все сложные криминологические случаи.
Ну и в целом это может быть прикольным проектом, с авто анализом текстов, изображений, геомоделированием, психологией.
Если кто вдруг заинтересован в совместной работе в этом направлении, пишите.
Wikipedia
Гибель тургруппы Дятлова
невыясненная гибель группы туристов в 1959 году на Северном Урале
👍1
#nlp #pca #dimreducers
Интересный рецепт: блок, дающий разреженные (sparse) признаки, после него PCA, дающий на выходе уже разумное количество плотных (dense) признаков.
https://www.youtube.com/watch?v=x7RX8VprCnE
Интересный рецепт: блок, дающий разреженные (sparse) признаки, после него PCA, дающий на выходе уже разумное количество плотных (dense) признаков.
https://www.youtube.com/watch?v=x7RX8VprCnE
YouTube
PCA as an embedding technique
If you have text represented as a sparse vector then there are a few things that you cannot do. In particular; not every scikit-learn model inside of scikit-learn can deal with it. Most notably the histogram boosted ensemble models. So what if we use PCA…
#nlp #skrub #topicmodelling
Другой компонент для той же задачи.
https://www.youtube.com/watch?v=l7y7gBpGa5U
Другой компонент для той же задачи.
https://www.youtube.com/watch?v=l7y7gBpGa5U
YouTube
How the GapEncoder works
The GapEncoder is an estimator from the skrub library that can do feature generation and topic modelling at the same time. Being able to do both is great for utility, but it also comes with some benefits for accuracy.
Link to paper: https://inria.hal.science/hal…
Link to paper: https://inria.hal.science/hal…
#nlp
Какая полезная работа! По сути, WordNet на стероидах. Красотки.
https://www.youtube.com/watch?v=-27hNX7PSsU
Какая полезная работа! По сути, WordNet на стероидах. Красотки.
https://www.youtube.com/watch?v=-27hNX7PSsU
YouTube
Анна Латушко, Джулия Мазине | Как отсмотреть всю Википедию и не сойти с ума?
Спикер: Анна Латушко, Джулия Мазине
Название: Как отсмотреть всю Википедию и не сойти с ума? История создания библиотеки wiki-synonyms
Data Fest Siberia 5: https://ods.ai/events/datafestsiberia5
Трек NLP: https://ods.ai/tracks/sibfest5-nlp
_____
Наши соц.сети:…
Название: Как отсмотреть всю Википедию и не сойти с ума? История создания библиотеки wiki-synonyms
Data Fest Siberia 5: https://ods.ai/events/datafestsiberia5
Трек NLP: https://ods.ai/tracks/sibfest5-nlp
_____
Наши соц.сети:…