Forwarded from Machinelearning
Vikhr Team — сообщество энтузиастов, занимающихся созданием и развитием русифицированных LLM, выпустили две новые модели, оптимизированные для русского языка в задачах генерации кода, решения математических задач, обобщения, ответов на вопросы и построения логических выводов. Обе модели адаптированы для RAG и могут выступать реранкером на уровне LLM.
В бенчмарке Ru-Arena General, Vikhr-Nemo-12B-Instruct-R-21-09-24 достигла результата в 79.8, уступая только двум моделям семейства GPT-4 .
Для файнтюна базовых моделей Mistral-Nemo-12B и Llama-3.1-8B, Vikhr Team разработали уникальный метод выравнивания — Simple Margin Preference Optimization (SMPO).
Он представляет собой микс из техник, заимствованных из CRLFT, IPO и SimPO, с добавлением своей функции потерь. Метод опубликован в репозитории на GitHub в комплекте тулкита скриптов и конфигураций, использовавшихся для обучения представленных моделей.
В процессе обучения моделей использовался кастомный SFT-датасет GrandMaster-PRO-MAX, собранный Vikhr Team самостоятельно, для следования самым разным наборам инструкций на разных языках (в основном на русском) и отвечать также - на русском языке. В него была включена CoT-способность.
@ai_machinelearning_big_data
#AI #ML #LLM #Vikhr
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🎶 OpenMusic
Приложение, воспроизводящее музыку 🎧 🎹
▪github: https://github.com/ivcylc/qa-mdt
▪демо: https://huggingface.co/spaces/jadechoghari/OpenMusic
▪модель: https://huggingface.co/jadechoghari/openmusic
@machinelearning_ru
Приложение, воспроизводящее музыку 🎧 🎹
▪github: https://github.com/ivcylc/qa-mdt
▪демо: https://huggingface.co/spaces/jadechoghari/OpenMusic
▪модель: https://huggingface.co/jadechoghari/openmusic
@machinelearning_ru
❤1👍1🔥1
⚡️Converting a From-Scratch GPT Architecture to Llama 2
Хотите посмотреть сравнение GPT и Llama под капотом?
Здесь пошаговый учебник-гайд с кодом, где разобраны ключевые различия:
Github
@machinelearning_ru
Хотите посмотреть сравнение GPT и Llama под капотом?
Здесь пошаговый учебник-гайд с кодом, где разобраны ключевые различия:
Github
@machinelearning_ru
👍6❤2🔥2
📌 Mini-Omni: Языковые модели, которые могут слышать и говорить, одновременно думая в онлайн режиме
https://huggingface.co/spaces/gradio/omni-mini
@machinelearning_ru
https://huggingface.co/spaces/gradio/omni-mini
@machinelearning_ru
❤7🔥1
Forwarded from Machinelearning
Обучение LLM требует огромных вычислительных ресурсов. Поскольку размеры моделей исчисляются миллиардами параметров, специализированные методы распараллеливания необходимы для того, чтобы сделать обучение выполнимым.
В статье "Исследование параллельных стратегий с Jax" подробно рассматривается реализация некоторых стратегий масштабирования в Jax - фреймворке Python, предназначенном для высокопроизводительных численных вычислений с поддержкой ускорителей GPU и TPU.
Стратегии, описанные в туториале с примерами кода и иллюстрациями:
@ai_machinelearning_big_data
#AI #ML #LLM #JAX #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
Свежий Бесплатный курс от freeCodeCamp по программированию CUDA.
Этот 12 -ти часовой бесплатный курс научит вас программировать с помощью Nvidia CUDA и использовать графические процессоры для высокопроизводительных вычислений и Deep learning.
Содержание:
▪Video: https://www.youtube.com/watch?v=86FAWCzIe_4
▪Code: https://github.com/Infatoshi/cuda-course
▪Github https://github.com/Infatoshi/mnist-cuda
#cuda #deeplearning #cpp #c #bigdata #courses #бесплатныйкурс
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍5❤3🎉2🤩2👏1
От генерации шаблонами с ранжированием по длине до использования тяжелых BERT. Руководитель группы автоматической генерации рекламы рассказала о соединении тяжёлых процессингов и GPU‑вычислений и решении сопутствующих сложностей.
🔗 Ссылка
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4❤3
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤6👏2
Forwarded from Machinelearning
NVIDIA представила набор патчей для ядра Linux с технологией vGPU для использования виртуальных графических процессоров в системах виртуализации. vGPU разделяет ресурсы физического графического процессора NVIDIA, привязывая каждый виртуальный GPU к виртуальной функции PCI Express.
Драйвер vGPU работает с видеокартами NVIDIA на архитектуре Ada Lovelace, создавая от одного до нескольких виртуальных GPU в зависимости от модели карты. В хост-системе создание и сопряжение виртуальных GPU с гостевыми системами выполняются изменённым драйвером Nouveau. В гостевых системах используются штатные драйверы NVIDIA, как для обычного графического процессора.
Каждый vGPU получает часть памяти из фреймбуфера физического GPU, различаясь типами, назначением, размером видеопамяти, количеством дисплеев и максимальным разрешением экрана.
Реализация технологии vGPU включает базовый драйвер nvkm на основе Nouveau и менеджер vgpu_mgr, реализованный как модуль VFIO. Менеджер создает и удаляет виртуальные GPU, выбирает тип, управляет ресурсами и предоставляет API для управления. Он взаимодействует с базовым драйвером GPU для загрузки прошивки GSP, управления ресурсами, обработки исключений, конфигурации и системных событий.
Также в Mesa Vulkan-драйвер добавлен gfxstream (Graphics Streaming Kit) для доступа к API Vulkan из гостевых систем Linux, Android и Fuchsia. Драйвер, разработанный Google, перенаправляет обращения к графическим API при виртуализации API Vulkan. Он используется в эмуляторе Android, виртуальном устройстве Cuttlefish, сервисе Google Play Games и операционной системе Fuchsia. Gfxstream включен в QEMU и crosvm и поддерживается совместно с устройствами virtio-gpu и goldish.
@ai_machinelearning_big_data
#AI #ML #vGPU #Linux #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Редактирование выражений лица в режиме реального времени
Grog преобразовывает изображение Cog в Gradio, используя серверную часть ComfyUI - магия открытого исходного кода 🤝
▶️Модель: https://huggingface.co/spaces/fffiloni/expression-editor
@machinelearning_ru
Grog преобразовывает изображение Cog в Gradio, используя серверную часть ComfyUI - магия открытого исходного кода 🤝
▶️Модель: https://huggingface.co/spaces/fffiloni/expression-editor
@machinelearning_ru
👍10❤1🔥1
git clone https://github.com/xlmnxp/qocker.git
cd qocker
pip install -r requirements.txt
python3 main.py
▪️Github
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8❤5👍4👎2🔥2
💡 AMD выпустила модель размером 135M, натренированную на 690 млрд токенов
Модель слабая, единственная ее фича - тренировка на амд.
https://huggingface.co/amd/AMD-Llama-135m
@machinelearning_ru
Модель слабая, единственная ее фича - тренировка на амд.
https://huggingface.co/amd/AMD-Llama-135m
@machinelearning_ru
huggingface.co
amd/AMD-Llama-135m · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
😁5👍3🔥2🤔2❤1
Байесовские нейронные поля (Bayes NF) - метод масштабируемого пространственно-временного прогнозирования, объединяющий архитектуру глубокой нейронной сети моделирования функций с иерархическим Байесовским моделированием для точной оценки неопределенности в сложных пространственно-временных полях.
Bayes NF строятся на основе Байесовской нейронной сети, отображающей многомерные пространственно-временные координаты в действительное поле.
Для получения высокой априорной вероятности для данных как с низко-, так и с высокочастотными вариациями, к исходным данным о времени и положении, подающимся в сеть, добавляются признаки Фурье, а чтобы учитывать априорные неопределенности, параметры сети получают априорное распределение.
Апостериорный вывод осуществляется с помощью стохастических ансамблей оценки максимального апостериори (MAP) или вариационно обученных суррогатов.
Метод Bayes NF относительно прост, он может обрабатывать пропущенные данные и обучаться по полному распределению вероятностей для произвольных пространственно-временных индексов.
Bayes NF универсален и применим к различным наборам данных без необходимости разработки новой модели для каждого случая или применения специфических для набора данных аппроксимаций вывода.
⚠️ Для локального запуска BayesNF на средних и больших объемах данных требуется GPU.
# Install bayesnf from PIP into venv:
$ python -m venv pyenv
$ source pyenv/bin/activate
$ python -m pip install -U bayesnf
# Install dependencies for Python 3.10
$ python -m pip install -r requirements.Python3.10.14.txt
@ai_machinelearning_big_data
#AI #ML #Predictions #BAYESNF
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥5❤2
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2👎2🥰2🤔1
OpenAI’s New ChatGPT In 3 Minutes! + NotebookML and AlphaChip
https://www.youtube.com/watch?v=Mmi8Eb_81Wc&pp=wgIGCgQQAhgB
@machinelearning_ru
https://www.youtube.com/watch?v=Mmi8Eb_81Wc&pp=wgIGCgQQAhgB
@machinelearning_ru
YouTube
OpenAI’s New ChatGPT Goes On Steroids!
❤️ Check out Lambda here and sign up for their GPU Cloud: https://lambdalabs.com/papers
NotebookLM: https://notebooklm.google/
Our paper on ray tracing: https://users.cg.tuwien.ac.at/zsolnai/gfx/adaptive_metropolis/
Give it a face: https://x.com/HalimA…
NotebookLM: https://notebooklm.google/
Our paper on ray tracing: https://users.cg.tuwien.ac.at/zsolnai/gfx/adaptive_metropolis/
Give it a face: https://x.com/HalimA…
👍4❤1🔥1
🤖 Объясняемая AI: применение LIME для интерпретации моделей
LIME (Local Interpretable Model-agnostic Explanations) позволяет пользователям интерпретировать и понимать выводы машинного обучения. 📉
Используется для объяснения результатов любых моделей и улучшает доверие к предсказаниям.
🔗 Узнайте больше: LIME Documentation
💭 Делайте свои модели более понятными и объясняемыми!
@machinelearning_ru
LIME (Local Interpretable Model-agnostic Explanations) позволяет пользователям интерпретировать и понимать выводы машинного обучения. 📉
Используется для объяснения результатов любых моделей и улучшает доверие к предсказаниям.
🔗 Узнайте больше: LIME Documentation
💭 Делайте свои модели более понятными и объясняемыми!
@machinelearning_ru
❤3🔥2👍1👎1