DenoiseLAB
484 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
Отличный курс по MLOps; состоит из 6 модулей, к каждому модулю прилагается подробный Jupyter Notebook со всей нужной теорией и примерами кода.

🔑🔑🔑https://github.com/DataTalksClub/mlops-zoomcamp/tree/main
⚪️⚪️⚪️Marqo - сквозная система поиска векторов как для текста, так и для изображений. Генерация, хранение и поиск векторов осуществляются с помощью единого API. Нет необходимости использовать собственные вставки.

⚪️⚪️⚪️Одного сходства векторов недостаточно для векторного поиска. Для векторного поиска требуется не только база данных векторов, но и развертывание и управление машинным обучением (ML), предварительная обработка и преобразование входных данных, а также возможность изменять поведение поиска без переобучения модели. Marqo содержит все эти элементы, позволяя разработчикам встроить векторный поиск в свое приложение с минимальными усилиями.

https://github.com/marqo-ai/marqo
Дата центры в совокупности потребляют больше энергии, чем Италия, Испания, и даже Австралия.

Это выяснили аналитики из Bloomberg в новой статье на тему потребление энергии системами ИИ.

Как всегда, Bloomberg отличается интересными сравнениями и яркими графиками. Отличное чтиво на воскресенье.
🗣🗣🗣"PyWinAssistant" - это первый фреймворк искусственного узкого интеллекта для Windows 10/11 с открытым исходным кодом (выпущен 31 декабря 2023 года, до выхода документа Microsoft VoT) для искусственного содействия любым пользовательским интерфейсам win32api путем использования визуализации мышления (VoT) и пространственных рассуждений в больших языковых моделях без OCR / обнаружения объектов / сегментации.

🗣🗣🗣Это улучшает качество обобщения и минимизирует общее использование данных LLM и моделей зрения. Он имеет встроенные опции помощи для улучшения использования компьютера человеком, с новым техническим подходом к помощи и тестированию пользовательского интерфейса и пользовательского опыта с помощью пространственной визуализации мышления, правильно обобщает любые подсказки на естественном языке и планирует выполнение правильных действий в ОС с учетом требований безопасности.

🔎🔎🔎https://github.com/a-real-ai/pywinassistant
🖥 SQL генератор

Выпущена Sqlcode 8b на базе Llama-3!

Вероятно, это лучшая на данный момент модель размером <10B для преобразования текста в SQL.

Работает лучше, чем gpt-4-turbo и claude opus для генерации SQL запросов.

▪️Github: https://github.com/defog-ai/sql-eval
▪️Weights: https://huggingface.co/defog/llama-3-sqlcoder-8b/
▪️Demo (optimized for postgres): https://defog.ai/sqlcoder-demo/
This media is not supported in your browser
VIEW IN TELEGRAM
😂😂😂Когда ты думаешь добавить еще одну фичу в уже и так норм работающую модель, казалось бы что могло пойти не так )))
😁3👍2
Apple выпустил ИИ-модель MGIE для редактирования изображений

Модель позволяет редактировать изображения при помощи текстовых команд на естественном языке. Доступно как редактирование картинки целиком, так и ее отдельной области. Можно менять яркость, резкость, применять художественные эффекты или менять размер изображения.

https://github.com/apple/ml-mgie
PromptBench - это основанный на Pytorch пакет Python для оценки больших языковых моделей (LLM). Он предоставляет удобные API для исследователей, чтобы проводить оценку LLM.

🖥Code: https://github.com/microsoft/promptbench

🌟Docs: https://promptbench.readthedocs.io/en/latest/

📚Paper: https://arxiv.org/abs/2312.07910v1

⚡️Dataset: https://paperswithcode.com/dataset/mmlu
OpenMathInstruct-1 — это набор данных для настройки математических инструкций, содержащий 1,8 миллиона пар «задача-решение», созданный с использованием лицензированной модели Mixtral-8x7B.

▪️Dataset: https://huggingface.co/datasets/nvidia/OpenMathInstruct-1

▪️Paper: https://huggingface.co/papers/2402.10176
PDD — это новая автоматическая метрика, предназначенная для количественной оценки расхождения в дискурсе между двумя длинными статьями. Он разделяет предложения статьи на несколько ячеек позиций и вычисляет расхождение в структурах дискурса внутри каждой ячейки.

🖥Github: https://github.com/williamlyh/pos_div_metric

📕Paper: https://arxiv.org/pdf/2402.10175v1.pdf

🔥Dataset: https://paperswithcode.com/dataset/recipe1m-1

Tasks: https://paperswithcode.com/task/coherence-evaluation
https://arxiv.org/abs/2406.06608 - в документе рассмотрено 58 техник промптинга для текста и 40 для иных модальностей. Все разделено на 6 основных подходов, таких как In-Context Learning (ICL), Zero-Shot, Self-Criticism и др.

Все сопровождается тестами на бенчмарках и, местами, даже доказательствами и строгими определениями. Например, на картинке – дефинишн few-shot промтинга на языке условной вероятности.

Читается легко, встречается много интересных рассуждений и деталей. Однозначно рекомендуем.
PromptBench - это основанный на Pytorch пакет Python для оценки больших языковых моделей (LLM). Он предоставляет удобные API для исследователей, чтобы проводить оценку LLM.

🖥Code: https://github.com/microsoft/promptbench

🌟Docs: https://promptbench.readthedocs.io/en/latest/

📚Paper: https://arxiv.org/abs/2312.07910v1

⚡️Dataset: https://paperswithcode.com/dataset/mmlu+
https://osf.io/preprints/psyarxiv/mp27q - когда файнтюн модели пошел слегка не по плану, упс...
OpenMathInstruct-1 — это набор данных для настройки математических инструкций, содержащий 1,8 миллиона пар «задача-решение», созданный с использованием лицензированной модели Mixtral-8x7B.

▪️Dataset: https://huggingface.co/datasets/nvidia/OpenMathInstruct-1

▪️Paper: https://huggingface.co/papers/2402.10176