Forwarded from Machinelearning
Большой, подробный и лаконичный туториал в 2-х частях по оптимизации матричного умножения на микроархитектуре Hopper (H100) с использованием библиотеки CUTLASS.
CUTLASS - это набор реализаций алгоритмов линейной алгебры (шаблонов) для использования на CUDA в задачах глубокого обучения, инженерных расчетах и научных исследованиях.
В этой части подробно рассматривается концепция «ядерных матриц» и «матричных дескрипторов», которые нужны для эффективной работы с WGMMA.
В конце туториала кратко описывается реализация конвейеризации в GEMM-ядрах для архитектуры Ampere.
@ai_machinelearning_big_data
#AI #ML #CUTLASS #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Отличный блог о стратегиях параллелизма в JAX.
В нем много подробных рисунков и простого кода.
https://astralord.github.io/posts/exploring-parallel-strategies-with-jax/
@machinelearning_interview
В нем много подробных рисунков и простого кода.
https://astralord.github.io/posts/exploring-parallel-strategies-with-jax/
@machinelearning_interview
Forwarded from Machinelearning
Llama 3.1-Nemotron-51B-Instruct основана на Llama 3.1-70B и предназначена для NLP-задач генерации текста, чата, рассуждения и обобщения. Мультиязычность наследована от родительская модель. Llama 3.1-Nemotron-51B-Instruct также умеет обрабатывать языки программирования.
Архитектура модели построена с использованием методологии Neural Architecture Search (NAS) и блочной дистилляции.
NAS позволяет отобрать наиболее эффективные блоки трансформера для каждого слоя модели, а блочная дистилляция обеспечивает перенос знаний от исходной модели Llama 3.1-70B к более компактной Llama 3.1-Nemotron-51B-Instruct.
Полученная архитектура имеет нерегулярную структуру блоков с уменьшенным количеством операций внимания и полносвязных слоев, что существенно снижает вычислительную сложность и объем используемой памяти.
В процессе обучения модели использовались бенчмаркиMT-Bench и MMLU. Тестирование проводилось на задачах генерации текста, перевода и ответов на вопросы.
Результаты показали, что инференс Llama 3.1-Nemotron-51B-Instruct в 2.2 раза быстрее "родительской" модели (Llama 3.1-70B) при сохранении практически той же точности.
Благодаря сниженным требованиям к памяти, модель может обрабатывать в 4 раза большие объемы данных на одном GPU.
import torch
import transformers
model_id = "nvidia/Llama-3_1-Nemotron-51B-Instruct"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=20,
**model_kwargs
)
print(pipeline([{"role": "user", "content": "Hey how are you?"}]))
@ai_machinelearning_big_data
#AI #ML #LLM #Nemotron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💼 Обратное собеседование (reverse-interview) это список вопросов для соискателей.
Пункты не упорядочены и могут быть неприменимы к конкретной должности или виду работы. Вначале это был просто список вопросов, но со временем он стал включать ещё и те вещи, которых хотелось бы видеть больше, и «красные флажки», то есть вещи, которых хочется избегать. Ещё я обратил внимание, что многие люди, которых я собеседовал, не задавали эти вопросы, и, я думаю, это были упущенные возможности.
Разделы вопросов:
- Технологии
- Должность
- Команда
- Ваши будущие коллеги
- Компания
- Бизнес
- Удалённая работа
- Офисная работа
- Компенсация
- Больничный, декретный период, отпуск
📌 Вопросы
@machinelearning_interview
Пункты не упорядочены и могут быть неприменимы к конкретной должности или виду работы. Вначале это был просто список вопросов, но со временем он стал включать ещё и те вещи, которых хотелось бы видеть больше, и «красные флажки», то есть вещи, которых хочется избегать. Ещё я обратил внимание, что многие люди, которых я собеседовал, не задавали эти вопросы, и, я думаю, это были упущенные возможности.
Разделы вопросов:
- Технологии
- Должность
- Команда
- Ваши будущие коллеги
- Компания
- Бизнес
- Удалённая работа
- Офисная работа
- Компенсация
- Больничный, декретный период, отпуск
📌 Вопросы
@machinelearning_interview
Собираетесь на собеседование на позицию Python Developer? Тогда обратите внимание на эту шпаргалку, где собраны ответы на более чем 100 вопросов, которые часто задают на интервью. Разработчики тщательно подготовили эти материалы, и уверены, что они помогут вам лучше подготовиться к вопросам.
Эти вопросы покрывают практически все темы Python + затрагивают азы Computer Science: алгоритмы, структуры данных и т.д.
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Эффективность MaskLLM оценивали сравнением с другими методами на моделях LLaMA-2, Nemotron-4 и GPT-3.
Результаты показали, что MaskLLM достигает более низкой перплексии на наборе данных Wikitext при использовании 2:4 разреженности. Например, для LLaMA-2 7B MaskLLM достиг перплексии 6.72, в то время как SparseGPT показал результат 10.42.
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
▪️Github
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Репозиторий GitHub "advice", в котором содержится обширная коллекция ссылок на ресурсы, предлагающие советы по различным аспектам поступления в аспирантуру, проведения исследований и жизни в аспирантуре, в основном в области информатики, NLP и ML.
Автор репозитория - Shaily Bhatt, аспирант первого года обучения в Институте языковых технологий CMU и бывший сотрудник NLU Group в Google Research (Индия).
Содержание:
Заявки в аспирантуру:
Исследования:
В репозитории также есть раздел "Список списков", в котором собраны ссылки на другие полезные ресурсы.
@ai_machinelearning_big_data
#AI #ML #Resources #Github #Awesome
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Этот веб-инструмент преобразует содержимое репозитория GitHub в форматированный текстовый файл для запросов Large Language Model (LLM).
Он упрощает процесс преобразования репозитория в удобные для LLM данные для генерации кода, документации, использования и др.
▪️Github
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Исследование, проведенное Университетом Кембриджа, Пекинским университетом почты и телекоммуникаций о малых языковых моделях, опубликованных в открытом доступе в период с 2022-2024 гг.
Авторами были проанализированы 59 современных открытых SLM, их архитектуру, используемые наборы данных для обучения и алгоритмы. Целевая группа состояла из моделей с 100M–5B параметрами, построенных на архитектуре декодера-трансформера, которые подходят для устройств от носимых гаджетов до смартфонов и планшетов.
Выводы, к которым пришли авторы:
Архитектура SLM
Наборы данных для обучения
Алгоритмы обучения
Возможности SLM
Контекстное обучение
Latency и потребление VRAM
Влияние квантования и оборудования
@ai_machinelearning_big_data
#AI #ML #SLM #Paper #Arxiv
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM