OlympicArena — это комплексный бенчмарк со сложным механизмом оценки LLM, предназначенный для определения возможностей AI в широком спектре задач олимпийского уровня.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
pip install -U "huggingface_hub[cli]"
huggingface-cli download bartowski/DeepSeek-Coder-V2-Instruct-GGUF --include "DeepSeek-Coder-V2-Instruct-Q4_K_M.gguf" --local-dir ./
Представлены несколько моделей с разным уровнем сжатия, требуют от 142.45 Гб до 52.7 Гб (но последняя не рекомендуется, экстремально низкое качество)
Квантизация выполнена с использованием опции imatrix, с использованием датасета отсюда
Исходная, не квантизованная модель
🤗 Hugging Face
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Модульная облачная платформа Cloud.ru Evolution Stack позволит заказчикам реализовать гибридные сценарии и гибко использовать собственные вычислительные ресурсы, а также ресурсы публичного облака. Ожидается, что ПО позволит улучшить распределение пиковых нагрузок между публичным и частным облаками для оптимизации расходов на IT-инфраструктуру.
До внедрения Evolution Stack, эксперты определят архитектуру и подходящие платформенные сервисы, осуществят установку и пуско-наладочные работы и реализуют необходимые интеграции с существующим корпоративным ПО. Ожидается, что на реализацию проекта уйдет около четырех месяцев.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
gte-Qwen2-7B-instruct — это новейшая модель из семейства моделей gte (General Text Embedding), которая занимает 1-е место по оценкам на английском и китайском языках в бенчмарке Massive Text Embedding Benchmark MTEB
gte-Qwen2-7B-instruct имеет несколько особенностей:
— механизм двунаправленного внимания, улучшающий её понимание контекста
— модель была обучена на большом многоязычном датасете текстов, охватывающем различные области
🤗 Hugging Face
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
—
pip install torchmetrics
TorchMetrics — это коллекция из 100+ реализаций метрик PyTorch и простой в использовании API для создания собственных метрик.
Особенности API TorchMetrics:
— стандартизированный интерфейс для воспроизводимости
— можно использовать для распределенных ML-систем
— автоматическая синхронизация между несколькими устройствами
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
В этом Colab'е детально показывается, как тонко настроить Mistral-7B для соответствия уровня ответов Mistral-Large на RAG-конвейере обработки документов.
Такая тонкая настройка стала возможной благодаря недавно вышедшему MistralAI Finetune Engine
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Масштабируемое обучение MOE с помощью PyTorch
В новом блоге Pytorch показано, как масштабировать до трех тысяч GPU, используя Distributed и MegaBlocks, эффективную реализацию MoE с открытым исходным кодом в PyTorch.
https://pytorch.org/blog/training-moes/
@data_analysis_ml
В новом блоге Pytorch показано, как масштабировать до трех тысяч GPU, используя Distributed и MegaBlocks, эффективную реализацию MoE с открытым исходным кодом в PyTorch.
https://pytorch.org/blog/training-moes/
@data_analysis_ml
Cambrian-1 — это семейство MLLM, разработанных с упором на работу с визуальной информацией. На страничке Cambrian-1 представлены модели 3 размеров (8B, 13B и 34B), данные для обучения, скрипты для обучения на TPU.
Скоро на GitHub появится скрипт для обучения на GPU.
🤗 Hugging Face
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
—
pip install google-vizier[jax]
OSS Vizier — это инструмент, написанный на Python для оптимизации и исследования нейросетей и т.д.
OSS Vizier основан на Google Vizier, одном из первых сервисов для настройки гиперпараметров, рассчитанных на работу с масштабными ML-системами.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Это квантизованная версия модели Nous Hermes 2 Mistral 7B DPO; работает очень быстро и неплохо умеет в код
Сама исходная модель Nous Hermes 2 показала отличные результаты во всех бенчмарках — AGIEval, BigBench Reasoning, GPT4All и TruthfulQA;
была обучена на 1000000 пар промпт-ответ качества GPT-4 или выше, а также на других высококачественных наборах данных, доступных в teknium/OpenHermes-2.5.
🤗 Hugging Face
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
—
pip install ivy
Ivy — ML-фреймворк, который позволяет:
— использовать ML-модели и/или функции в любом фреймворке, конвертируя любой код из одного фреймворка в другой с помощью
ivy.transpile()
— преобразовывать модели и библиотеки ML для их использования в другом фреймворке с помощью
ivy.source_to_source()
(эта функция пока в закрытой бета-версии) @data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Microsoft только что был опубликовали Graph RAG!
Проект Graph RAG - это пакет для обработки и преобразования данных открытым исходным кодом, предназначенный для извлечения структурированных данных из неструктурированного текста с использованием возможностей LLMs.
Эо методология использования структур памяти knowledge graph для улучшения работы LLM.
▪ Github
▪ Docs
▪ Blog
@data_analysis_ml
Проект Graph RAG - это пакет для обработки и преобразования данных открытым исходным кодом, предназначенный для извлечения структурированных данных из неструктурированного текста с использованием возможностей LLMs.
Эо методология использования структур памяти knowledge graph для улучшения работы LLM.
▪ Github
▪ Docs
▪ Blog
@data_analysis_ml