Aspiring Data Science
370 subscribers
425 photos
11 videos
10 files
1.87K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp #nlp_papers

Я решила немного чаще рассказывать вам про работы, которые мы делаем с коллегами вместе, да и вообще больше привлекать внимания к менее хайповым не-чатгпт научным проблемам, поэтому введу новую рубрику — #nlp_papers

Сегодня поговорим о том, как можно применять теорию общественного выбора к оценке LLM.

Vote'n'Rank: Revision of Benchmarking with Social Choice Theory

Теория общественного выбора (Social choice theory) — это теоретические и практические методы агрегирования или объединения индивидуальных предпочтений в функцию коллективного общественного благосостояния. Обычно в этой области предполагается, что у людей есть предпочтения, и из этого следует, что их можно смоделировать с помощью функций полезности.

🌸Проблема: современные языковые модели оцениваются на целом ворохе различных задач. В результате такой оценки на каждую модель приходится по 20-30 метрик, зачастую разной природы (точность, полнота, Bert score, MCC..) и диапазона (от 0 до 1, от -1 до 1, и т.д.). Как на основании таких результатов выстраивать лидерборд лучших моделей? Усреднять такое явно нельзя. Да и потом, является ли лучшее среднее всех результатов по всем задачам оптимальным направлением наших стремлений?

🌸Идея: Позаимствуем методы рассчетов из теории общественного выбора и перевзвесим результаты моделей на GLUE, SuperGLUE и VALUE (Video-and-Language Understanding Evaluation).
Будем использовать такие правила агрегации, как скоринговые правила (Plurality, Borda, Dowdall), итеративные скоринговые правила (пороговое правило, Baldwin), и мажоритарные правила (Condorcet rule, Copeland rule).

Агрегации Vote'n'Rank более надежны, чем среднее арифметическое всех метрик, и в то же время способны обрабатывать отсутствующие значения на разных задачах и указывать условия, при которых система становится победителем.
• Правило множественности (Plurality)— хороший выбор, если пользователю нужны только лучшие системы по каждой задаче.
• Если все позиции в рейтинге имеют значение, используйте правила Borda или Dowdall. Обратите внимание, что Даудалл присваивает более высокие веса верхним позициям.
Пороговое правило полезно в тех случаях, когда пользователь хочет свести к минимуму количество задач с низким результатом: правило присваивает наивысший ранг системе, которая считается худшей по наименьшему числу задач.
• Если цель состоит в том, чтобы выбрать систему, которая превосходит все остальные в попарном сравнении, используйте правила Болдуина, Кондорсе, Коупленда или правила Минимакса.

Feel free использовать в своих пайплайнах оценки моделей!

🖥Paper: https://arxiv.org/abs/2210.05769v3
🖥Github: https://github.com/PragmaticsLab/vote_and_rank
🌸Accepted EACL 2023
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp
"Во-первых, это красиво..."
Все постят этот восхитительный гайд по архитектурам LLM. Очень люблю такие майндмэпы — легко запомнить, систематизировать, использовать в лекциях
1
#python #langdetect #nlp

Кто пользуется либой langdetect для определения языка - она не очень точная (по кр мере, на коротких фразах). Можно проверять с помощью google translate api.
#nlp #spellchecking

Продолжаю работать с contextualSpellCheck. Хотя они оказались не так плохи, как я вначале подумал, они всё же налажали. Их либа рассматривает только 10 вариантов подстановки от нейронной модельки, и изменить это число невозможно без перекомпиляции (шучу, это же питон, можно просто отредактировать исходники). Не глупость ли это? Ну спасибо, ребята, что за всех решили, что 10 кандидатов будет достаточно. Кстати, это прямо частый паттерн, когда создатели библиотеки часть внутренних параметров хардкодят и забывают открывать. Понятно, что для их повседневных задач это не оказалось нужным, а остальным-то что делать?

С top_n=1000 на предыдущем примере получается уже более осмысленный ответ, Cuba вместо точки, и даже правильный ответ Dubai мелькает.

Но тут уже удивляет пакет editdistance. Каким образом у них Cuba более похожа на dubia, чем Dubai?
#nlp #mlm #transformers

Друзья, а какая из публично доступных моделей сейчас считается SOTA для мультиязыкового masked language prediction? Bert-ы что-то не вдохновляют.

капец. похоже, ошибку нашёл в contextualSpellChecker.
для "Я ушл в магазин.", bert-base-multilingual-cased предлагает топовый ответ '##шел' с вероятностью 0.3896,
Либа думает, что решётка означает склейку токенов, и склеивает очищенный от решёток вариант с предыдущим токеном. Хотя, кажется, Берт имеет в виду вовсе не склейку с предыдущим токеном, а скорее склейку с текущим токеном, но выброшенными посл 2-мя символами. А, нет, это уже глюки. ## это просто признак субтокена.
#nlp #spellchecking

Кстати, если решите отлавливать опечатки, и SpaCy входит в ваш инструментарий, используйте мой форк либы contextualSpellCheck. У нас есть печеньки GPU, Дамерау и Байес! А если статью сравнительную напишете, будет вообще чудесно, мне некогда (.
👍1
#nlp #mteb #embeddings

Есть такой MTEB - Massive Text Embedding Benchmark.
У них сделан приятный лидерборд на Градио.

Большинства моделек, которые были в топе пару лет тому, когда я немного занимался NLP, в этой таблице вообще нет, наверное, слишком слабы.

Что удивительно, эмбеддинговые модельки от OpenAI практически в самом хвосте.

А что же чемпион? Всех заруливает опенсорсная NV-Embed-v2 от Nvidia.

"We present NV-Embed-v2, a generalist embedding model that ranks No. 1 on the Massive Text Embedding Benchmark (MTEB benchmark)(as of Aug 30, 2024) with a score of 72.31 across 56 text embedding tasks. It also holds the No. 1 in the retrieval sub-category (a score of 62.65 across 15 tasks) in the leaderboard, which is essential to the development of RAG technology.

NV-Embed-v2 presents several new designs, including having the LLM attend to latent vectors for better pooled embedding output, and demonstrating a two-staged instruction tuning method to enhance the accuracy of both retrieval and non-retrieval tasks. Additionally, NV-Embed-v2 incorporates a novel hard-negative mining methods that take into account the positive relevance score for better false negatives removal.

For more technical details, refer to our paper: NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models."

Для русского языка потестировано в 6 раз меньше моделей, лидируют e5-mistral-7b-instruct(7B) и multilingual-e5-large-instruct (0.5B). Если их сравнить со старенькими distilrubert-small-cased или rubert от DeepPavlov, в зависимости от задачи скор лидеров выше от 10 до 60 процентных пунктов.
👍3
#asr #nlp #finetuning #t5

Лектор обалденный. Чистое золото!

Сколько он техник применил для решения реальной задачи, просто жесть. Могу подтвердить, что так всё на практике и бывает, всплывает много мелких проблем, каждую из которых приходится решать творчески.
Я не знал, что моделька t5 так хороша, в эпоху больших-то моделей.

https://youtu.be/blE2Dm9SORE?si=LzGeMhrApdLkqq1R
The Kaggle Book by Konrad Banachewicz and Luca Massaron

Millions of data enthusiasts from around the world compete on Kaggle, the most famous data science competition platform of them all. Participating in Kaggle competitions is a surefire way to improve your data analysis skills, network with an amazing community of data scientists, and gain valuable experience to help grow your career.

The first book of its kind, The Kaggle Book assembles in one place the techniques and skills you'll need for success in competitions, data science projects, and beyond. Two Kaggle Grandmasters walk you through modeling strategies you won't easily find elsewhere, and the knowledge they've accumulated along the way. As well as Kaggle-specific tips, you'll learn more general techniques for approaching tasks based on image, tabular, textual data, and reinforcement learning. You'll design better validation schemes and work more comfortably with different evaluation metrics.

Whether you want to climb the ranks of Kaggle, build some more data science skills, or improve the accuracy of your existing models, this book is for you.

Link: Book

Navigational hashtags: #armknowledgesharing #armbooks
General hashtags: #ml #machinelearning #featureengineering #kaggle #metrics #validation #hyperparameters #tabular #cv #nlp

@data_science_weekly
#dyatlovpass #mysteries #ai #nlp #criminology

В очередной раз попалось в рекомендациях видео по загадке трагической гибели туристов на перевале Дятлова.

Это хорошо документированная, но не имеющая очевидного решения тайна 1959-го года.

Есть десятки версий, ни одна полностью не объясняет всю фактологическую базу.

Дело осложняется тем, что "интернет-эксперты", авторы версий, зачастую не дружат с логикой и не способны делать корректные выводы даже из ясных и простых посылок.

У меня давно была идея сконструировать экспертную систему с материалами дела, с визуализацией цепочки событий (по времени и месту), "нечёткой логикой", и, самое главное, системой оценки и сравнения версий.

Каждый факт (свидетельство с определённой степенью достоверности) из экспертной системы может противоречить либо не противоречить определённой версии.

Тогда можно было бы найти версию, объясняющую наибольший объём фактов, определить недостоверные факты и даже недостоверные источники информации.

Раньше не было возможности такое запилить, но с современным ИИ это стало возможным в течение последних 2 лет.

Эта система, в случае создания, может быть масштабирована на все сложные криминологические случаи.

Ну и в целом это может быть прикольным проектом, с авто анализом текстов, изображений, геомоделированием, психологией.

Если кто вдруг заинтересован в совместной работе в этом направлении, пишите.
👍1
#nlp #pca #dimreducers

Интересный рецепт: блок, дающий разреженные (sparse) признаки, после него PCA, дающий на выходе уже разумное количество плотных (dense) признаков.

https://www.youtube.com/watch?v=x7RX8VprCnE