Forwarded from Machinelearning
Vikhr Team — сообщество энтузиастов, занимающихся созданием и развитием русифицированных LLM, выпустили две новые модели, оптимизированные для русского языка в задачах генерации кода, решения математических задач, обобщения, ответов на вопросы и построения логических выводов. Обе модели адаптированы для RAG и могут выступать реранкером на уровне LLM.
В бенчмарке Ru-Arena General, Vikhr-Nemo-12B-Instruct-R-21-09-24 достигла результата в 79.8, уступая только двум моделям семейства GPT-4 .
Для файнтюна базовых моделей Mistral-Nemo-12B и Llama-3.1-8B, Vikhr Team разработали уникальный метод выравнивания — Simple Margin Preference Optimization (SMPO).
Он представляет собой микс из техник, заимствованных из CRLFT, IPO и SimPO, с добавлением своей функции потерь. Метод опубликован в репозитории на GitHub в комплекте тулкита скриптов и конфигураций, использовавшихся для обучения представленных моделей.
В процессе обучения моделей использовался кастомный SFT-датасет GrandMaster-PRO-MAX, собранный Vikhr Team самостоятельно, для следования самым разным наборам инструкций на разных языках (в основном на русском) и отвечать также - на русском языке. В него была включена CoT-способность.
@ai_machinelearning_big_data
#AI #ML #LLM #Vikhr
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🎶 OpenMusic
Приложение, воспроизводящее музыку 🎧 🎹
▪github: https://github.com/ivcylc/qa-mdt
▪демо: https://huggingface.co/spaces/jadechoghari/OpenMusic
▪модель: https://huggingface.co/jadechoghari/openmusic
@machinelearning_ru
Приложение, воспроизводящее музыку 🎧 🎹
▪github: https://github.com/ivcylc/qa-mdt
▪демо: https://huggingface.co/spaces/jadechoghari/OpenMusic
▪модель: https://huggingface.co/jadechoghari/openmusic
@machinelearning_ru
❤1👍1🔥1
⚡️Converting a From-Scratch GPT Architecture to Llama 2
Хотите посмотреть сравнение GPT и Llama под капотом?
Здесь пошаговый учебник-гайд с кодом, где разобраны ключевые различия:
Github
@machinelearning_ru
Хотите посмотреть сравнение GPT и Llama под капотом?
Здесь пошаговый учебник-гайд с кодом, где разобраны ключевые различия:
Github
@machinelearning_ru
👍6❤2🔥2
📌 Mini-Omni: Языковые модели, которые могут слышать и говорить, одновременно думая в онлайн режиме
https://huggingface.co/spaces/gradio/omni-mini
@machinelearning_ru
https://huggingface.co/spaces/gradio/omni-mini
@machinelearning_ru
❤7🔥1
Forwarded from Machinelearning
Обучение LLM требует огромных вычислительных ресурсов. Поскольку размеры моделей исчисляются миллиардами параметров, специализированные методы распараллеливания необходимы для того, чтобы сделать обучение выполнимым.
В статье "Исследование параллельных стратегий с Jax" подробно рассматривается реализация некоторых стратегий масштабирования в Jax - фреймворке Python, предназначенном для высокопроизводительных численных вычислений с поддержкой ускорителей GPU и TPU.
Стратегии, описанные в туториале с примерами кода и иллюстрациями:
@ai_machinelearning_big_data
#AI #ML #LLM #JAX #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
Свежий Бесплатный курс от freeCodeCamp по программированию CUDA.
Этот 12 -ти часовой бесплатный курс научит вас программировать с помощью Nvidia CUDA и использовать графические процессоры для высокопроизводительных вычислений и Deep learning.
Содержание:
▪Video: https://www.youtube.com/watch?v=86FAWCzIe_4
▪Code: https://github.com/Infatoshi/cuda-course
▪Github https://github.com/Infatoshi/mnist-cuda
#cuda #deeplearning #cpp #c #bigdata #courses #бесплатныйкурс
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍5❤3🎉2🤩2👏1
От генерации шаблонами с ранжированием по длине до использования тяжелых BERT. Руководитель группы автоматической генерации рекламы рассказала о соединении тяжёлых процессингов и GPU‑вычислений и решении сопутствующих сложностей.
🔗 Ссылка
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4❤3
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤6👏2
Forwarded from Machinelearning
NVIDIA представила набор патчей для ядра Linux с технологией vGPU для использования виртуальных графических процессоров в системах виртуализации. vGPU разделяет ресурсы физического графического процессора NVIDIA, привязывая каждый виртуальный GPU к виртуальной функции PCI Express.
Драйвер vGPU работает с видеокартами NVIDIA на архитектуре Ada Lovelace, создавая от одного до нескольких виртуальных GPU в зависимости от модели карты. В хост-системе создание и сопряжение виртуальных GPU с гостевыми системами выполняются изменённым драйвером Nouveau. В гостевых системах используются штатные драйверы NVIDIA, как для обычного графического процессора.
Каждый vGPU получает часть памяти из фреймбуфера физического GPU, различаясь типами, назначением, размером видеопамяти, количеством дисплеев и максимальным разрешением экрана.
Реализация технологии vGPU включает базовый драйвер nvkm на основе Nouveau и менеджер vgpu_mgr, реализованный как модуль VFIO. Менеджер создает и удаляет виртуальные GPU, выбирает тип, управляет ресурсами и предоставляет API для управления. Он взаимодействует с базовым драйвером GPU для загрузки прошивки GSP, управления ресурсами, обработки исключений, конфигурации и системных событий.
Также в Mesa Vulkan-драйвер добавлен gfxstream (Graphics Streaming Kit) для доступа к API Vulkan из гостевых систем Linux, Android и Fuchsia. Драйвер, разработанный Google, перенаправляет обращения к графическим API при виртуализации API Vulkan. Он используется в эмуляторе Android, виртуальном устройстве Cuttlefish, сервисе Google Play Games и операционной системе Fuchsia. Gfxstream включен в QEMU и crosvm и поддерживается совместно с устройствами virtio-gpu и goldish.
@ai_machinelearning_big_data
#AI #ML #vGPU #Linux #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Редактирование выражений лица в режиме реального времени
Grog преобразовывает изображение Cog в Gradio, используя серверную часть ComfyUI - магия открытого исходного кода 🤝
▶️Модель: https://huggingface.co/spaces/fffiloni/expression-editor
@machinelearning_ru
Grog преобразовывает изображение Cog в Gradio, используя серверную часть ComfyUI - магия открытого исходного кода 🤝
▶️Модель: https://huggingface.co/spaces/fffiloni/expression-editor
@machinelearning_ru
👍10❤1🔥1
git clone https://github.com/xlmnxp/qocker.git
cd qocker
pip install -r requirements.txt
python3 main.py
▪️Github
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8❤4👍4👎2🔥2
💡 AMD выпустила модель размером 135M, натренированную на 690 млрд токенов
Модель слабая, единственная ее фича - тренировка на амд.
https://huggingface.co/amd/AMD-Llama-135m
@machinelearning_ru
Модель слабая, единственная ее фича - тренировка на амд.
https://huggingface.co/amd/AMD-Llama-135m
@machinelearning_ru
huggingface.co
amd/AMD-Llama-135m · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
😁5👍3🔥2🤔2❤1