DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
PromptBench - это основанный на Pytorch пакет Python для оценки больших языковых моделей (LLM). Он предоставляет удобные API для исследователей, чтобы проводить оценку LLM.

🖥Code: https://github.com/microsoft/promptbench

🌟Docs: https://promptbench.readthedocs.io/en/latest/

📚Paper: https://arxiv.org/abs/2312.07910v1

⚡️Dataset: https://paperswithcode.com/dataset/mmlu+
https://osf.io/preprints/psyarxiv/mp27q - когда файнтюн модели пошел слегка не по плану, упс...
OpenMathInstruct-1 — это набор данных для настройки математических инструкций, содержащий 1,8 миллиона пар «задача-решение», созданный с использованием лицензированной модели Mixtral-8x7B.

▪️Dataset: https://huggingface.co/datasets/nvidia/OpenMathInstruct-1

▪️Paper: https://huggingface.co/papers/2402.10176
PDD — это новая автоматическая метрика, предназначенная для количественной оценки расхождения в дискурсе между двумя длинными статьями. Он разделяет предложения статьи на несколько ячеек позиций и вычисляет расхождение в структурах дискурса внутри каждой ячейки.

🖥Github: https://github.com/williamlyh/pos_div_metric

📕Paper: https://arxiv.org/pdf/2402.10175v1.pdf

🔥Dataset: https://paperswithcode.com/dataset/recipe1m-1

Tasks: https://paperswithcode.com/task/coherence-evaluation
Новый фреймворк предназначенный для диффузионных моделей (например, SD) для создания изображений с любым разрешением и соотношением сторон. В отличие от других методов генерации с заданным разрешениями, которые обрабатывают изображения с последующей обработкой, ResAdapter напрямую генерирует изображения с заданным разрешением.

▪️page: https://res-adapter.github.io
▪️paper: https://arxiv.org/abs/2403.02084
▪️code: https://github.com/bytedance/res-adapter
Это шедеврально ))))
👍4
https://arxiv.org/abs/2406.10162

Как мы знаем, один из основных этапов обучения LLM – это RL в каком-то его проявлении. Так вот выяснилось, что если во время RL модель обучать в сложной игровой среде, то она может случайно научиться читерить, вместо того, чтобы учиться выполнять те действия, которые подразумевались разработчиком.

В числе прочего модель может даже взломать собственную ревард-модель (внимание на картинку). Для справки: эта тоже обучаемая модель, которая оценивает текущую политику LLM, они работают как бы в связке. Так вот вместо того, чтобы прилежно учиться по ревард-модели, LLM просто взяла и... натаскала ее так, чтобы та всегда выдавала высший балл.

Также модель может обобщать и другие игровые процессы. Она как будто понимает, что от нее хотят, и тем самым в итоге ломает сам механизм игровой среды.
https://arxiv.org/pdf/2407.13313 - новая попытка чуть более точнее предсказать временные ряды, в целом весьма неплохой подход. Исследуется степень, в которой эффективность выявления связей сочетается с высокой сортируемостью данных, при этом используются имитационные данные на основе моделей SVAR и графиков Эрдеша-Реньи.
Media is too big
VIEW IN TELEGRAM
Красивый ролик от Deep Mind о том как идет обучение модели и предсказание. Красиво, но ничего не понятно ))))
🦄1
Пакет с пакетами ))))
300 Вопросов по Машинному обучению (Machine Learning) - Вопрос_225

🟡 Что такое синтетические данные в рамках машинного обучения ? (Часть_2)

⚪️Ответ:

2. Тестирование и оценка моделей:
- Синтетические данные можно использовать для тестирования моделей в контролируемых условиях. Это позволяет проверять модели на специфических сценариях, которые могут быть сложно воспроизвести в реальном мире.
- Синтетические данные также помогают при оценке устойчивости моделей к различным источникам шума и искажений.

#MachineLearning #SyntheticData #DataGeneration #DataAugmentation #PrivacyPreservation #ModelTesting #BalancedDatasets #TransferLearning #DataScience #ArtificialIntelligence
🔄🔄🔄https://huggingface.co/datasets/proj-persona/PersonaHub - первый датасет на полностью синтетических данных, пока что у нему относятся с осторожность но все же это реальный прорыв. Сейчас ждем долгую адаптацию и тестирование на различных платформах, но все же это прорыв. Данные пока не столь точны, они полны галлюцинаций и вообще весьма сомнительны, но первый кирпичь уже заложен.
300 Вопросов по Машинному обучению (Machine Learning) - Вопрос_225

🟡 Что такое синтетические данные в рамках машинного обучения ? (Часть_1)

⚪️Ответ: Синтетические данные - это искусственно созданные данные, которые имитируют характеристики реальных данных. Они широко используются в машинном обучении для решения различных задач:

1. Создание обучающих наборов данных:
- Реальных данных часто недостаточно для эффективного обучения моделей машинного обучения.
- Синтетические данные позволяют увеличить размер обучающей выборки и добавить разнообразия.

#MachineLearning #SyntheticData #DataGeneration #DataAugmentation #PrivacyPreservation #ModelTesting #BalancedDatasets #TransferLearning #DataScience #ArtificialIntelligence