эйай ньюз
53.2K subscribers
1.31K photos
681 videos
7 files
1.63K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
Distill-Whisper от 🤗в x6 раз быстрее оригинала!

Моделька Whisper от OpenAI для транскрипции аудио в текст (я писал о ней тут и тут) бодро разлетелась по множеству проектов. Вот только самая крупная ее версия, Large-v2, имеет 1.5 млрд параметров и не является самой быстрой.

Но для деплоя в прод очень хочется иместь что-то такое же точное как Whisper-Large-v2, но быстрое.

Парни из Hugging Face взяли и дистиллировали эту модель, добившись ускорения инференса в 6 раз, с потерей в точности только на 1% WER.

#ликбез:
Если на пальцах, дистилляция - это процесс перегонки знаний из большой модели в более маленькую, чтобы ускорить инференс, но сохранить точность. Работает это потому, что большие модели легче обучить до нужной точности, но как правило количество нейронов в таких моделях избыточно и может быть сокращено после того как тренировка завершена (например, в с помощью дистиляции или прунинга).

Энкодер оставили как есть и заморозили, а в декодере оставили только 2 слоя, так как большинсво операций происходит именно в декодере. Далее эту прелесть дистиллировали на 20к часах опенсорсных аудио-записей.

Веса опубликуют через пару дней под MIT лицензией!

❱❱ Код
❱❱ Статья

@ai_newz
Там Карпатый опять отжигает. Он выпустил часовую лекцию «Интро в большие языковые модели».

Образовательный контент от Карпатого всегда топовый. Нужно смотреть! #ликбез

Часть 1: LLMs
00:00:00 Intro: Large Language Model (LLM) talk
00:00:20 LLM Inference
00:04:17 LLM Training
00:08:58 LLM dreams
00:11:22 How do they work?
00:14:14 Finetuning into an Assistant
00:17:52 Summary so far
00:21:05 Appendix: Comparisons, Labeling docs, RLHF, Synthetic data, Leaderboard

Часть 2: Future of LLMs
00:25:43 LLM Scaling Laws
00:27:43 Tool Use (Browser, Calculator, Interpreter, DALL-E)
00:33:32 Multimodality (Vision, Audio)
00:35:00 Thinking, System 1/2
00:38:02 Self-improvement, LLM AlphaGo
00:40:45 LLM Customization, GPTs store
00:42:15 LLM OS

Часть 3: LLM Security
00:45:43 LLM Security Intro
00:46:14 Jailbreaks
00:51:30 Prompt Injection
00:56:23 Data poisoning
00:58:37 LLM Security conclusions

Слайды

@ai_newz
⚡️Как ускорить диффузию ч1 - Model Distillation

Начинаю серию постов про основные методы для ускорения диффузионных моделей, т.к это один из моих главных научных интересов. В первой части поговорим про дистилляцию. Говорить будем в разрезе text2img, но многие из этих техник могут применяться и для видео.

Мы знаем, что диффузии из коробки требуется много прогонов по сети (шагов), чтобы сгенерить картинку во время инференса. Поэтому появился целый пласт работ, которые выдают вообще адовые ускорения. Ну такой вот примерно рецепт усредненный для дистиляции text2image моделей, потому что вариаций масса: берешь огромную модель учителя, которая генерит медленно, но качественно, и учишь студента предсказывать за 1-4 шага выходы учителя, полученные за много шагов. Магическим образом это работает. Но есть много нюансов, понять которые можно из следующих работ:

Model Distillation:
Guidance and Progressive Distillation - классика жанра, где впервые провели дистилляцию до 4 шагов.
Consistency Models - Более хитрая дистилляция, где на каждом шагу пытаемся предсказать конечный результат.
Improved Techniques for Training Consistency Models - то же самое, но с улучшенным расписанием шагов
SnapFusion - пруним архитектуру Unet и дистиллируем в меньшее число шагов с помощью Progressive Distillation.
InstaFlow - формулируем диффузии как линейный Flow Matching и дистиллируем в несколько раундов, пока не достигнем генерации за один шаг.
UfoGen - это Diffusion + GAN, где дискриминатор инициализируется UNet-ом диффузии.
Adversarial Diffusion Distillation (SDXL-Turbo) это дистилляция Diffusion + GAN, но дискриминатор тут основан на фичах DINOv2.
Latent Adversarial Diffusion Distillation (SD3 Turbo) — тоже самое только в latent фичах.
Imagine Flash — моя статья о дистилляции в 3 шага.

>> Читать часть 2

#ликбез
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
А вот и подоспел новый образовательный контент от Карпатого после его ухода из OpenAI. #ликбез

Андрей написал минимальную имплементацию Byte Pair Encoding (BPE) токенайзера, который широко используется в современных LLM, в том числе и в GPT-4.

Токенайзер - это алгоритм, который преобразует текст в последовательность токенов (целых чисел), перед тем, как его скормить в LLM.

Идея BPE очень простая:
1️⃣ Берем Unicode строку и представляем ее в виде последовательности байтов. - Изначально каждый байт - это отдельный токен, их всего 256 уникальных.
2️⃣ Затем находим наиболее частую пару соседних токенов и заменяем её на новый токен с номером (256 + i) → пример на скрине.
3️⃣ Повторяем это дело K раз. В итоге имеем словарь на 256 + K токенов, которые сжимают оригинальную последовательность байтов в более короткую последовательность токенов, закодированных номерами.


Видео лекция про BPE у Карпатого уже в производстве, он обещал скоро ей поделиться!

А пока можете посмотреть разбор BPE (пост+видео) из NLP курса на HuggingFace: ссылка.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Как ускорить диффузию ч2 - Samplers & Low-level optimizations

Продолжаем серию постов про основные методы для ускорения диффузионных моделей. [Ссылка на часть 1].

Optimized Sampling Efficiency by new samplers:
Есть подходы на основе численных методов, которые позволяют более эффективно решать дифференциальное уравнение, задающее траекторию обратной диффузии (это когда мы из шума движемся к картинке).
STSP: Sampling with splitting numerical methods
В эту категорию тоже можно отнести всякие замысловатые солверы, такие как DDIM, DPM, PNDM, PLMS, UniPC [пост].
Итеративный метод Пикарда, который позволяет распараллелить семплинг, ценой больших вычислений [пост].

Low-level optimizations:
Профайлером анализируем узкие места в сети и переписываем отдельные операции на CUDA и вручную оптимизируем и фьюзим кернелы. Тут общие советы трудно давать, все зависит от вашей архитектуры.
FlashAttention-2 - ускоряет flash-attention блоки, которые являются одними из самых прожорливых по ресурсам в архитектуре Unet, широко используемой в диффузиях.

#ликбез
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Chatbot Arena: В топе LLM арены в этом месяце заметные перестановки

* GPT-4 уступила своё лидерство Claude 3 Opus
* Старые версии GPT-4 проигрывают даже Claude 3 Haiku - а он ведь дешевле GPT-3.5 (!)
* Command R от Cohere прошла в топ 10, при том что у неё всего 35 миллиарда параметров (а ещё её можно скачать)

Что за Chatbot Arena?
Chatbot Arena – это пожалуй один из самых внушающих доверие рейтингов LLM, т.к. там тестируют модели в "полевых условиях" на случайных запросах от пользователей. За место в рейтинге на Chatbot Arena модели соревнуются путём дуэлей друг с другом – на сайте юзеры общаются с двумя анонимными LLM одновременно и голосуют за лучшую из этих двух. Рейтинг определяется по системе ELO (её также используют для определения рейтинга игроков в шахматах).

Недавней DBRX на лидерборде арены ещё нет из-за недостаточного количества голосов, но это можно исправить – любой может зайти на арену и потестировать пару LLM-ок вслепую.

Почитать подробнее про Арену:
- Блогпост
- Статья
- Лидерборд

#ликбез
@ai_newz
📚Tutorial on Diffusion Models for Imaging and Vision

В копилку к посту с туториалами и блогпостами по Диффузионным Моделям, принес вам еще свежий туториал на 50 стр из Purdue University.

Полезная штука для всех начинающих с диффузией. Туториал включает базу по VAE, DDPM, Score-Matching Langevin Dynamics и стохастическим диффурам.

📖 Pdf

#ликбез

@ai_newz
Интро в Трансформеры для чайников

3Blue1Brown, популярный математический ютубер, начал выпускать серию видео о том, как работает трансформер. Первое видео посвящено эмбеддингам и тому, как моделька определяет, какой токен ей выдать. Вышло лучшее объяснение темы "для чайников", с анимациями и довольно простым языком. Обещает ещё две части: одну посвящённую Attention, другую MLP.

Если после просмотра возникнет желание погрузиться в детали:
- У Андрея Карпатого есть видео где он имплементирует и объясняет как саму GPT, так и её токенизатор.
- Лекция Интро в большие языковые модели (LLM), тоже от Карпатого.

#ликбез
@ai_newz
Что такое Mixture of Experts (MoE)?

МоЕ — это вид моделей, который используется в куче современных LLM. Далеко ходить не надо — пять из шести моделей, о которых я рассказывал в дайджесте на прошлой неделе, были MoE. GPT-4, судя по слухам, подтверждённым Хуангом – тоже MoE.

Чем MoE отличаются от обычных (dense) моделей?

В MoE часть слоев заменяется на sparse (разреженные) MoE-слои. Они состоят из нескольких "экспертов" — по сути, отдельных небольших слоёв. Для каждого токена используется только небольшая часть экспертов. Решает, какие токены обрабатываются каким экспертами, специальная "сеть-маршрутизатор".  Это позволяет MoE быть быстрее чем dense модели, как в тренировке так и в инференсе.

Почему MoE используют?

Модели с MoE учатся в разы быстрее обычных с таким же количеством компьюта. Авторы DBRX хвастались что их конфиг MoE учится в 2 раза быстрее их же dense модели, а у авторов Qwen-MoE прирост скорости был вообще 4x.

Откуда такая разница между разными MoE в приросте эффективности тренировки?

Когда учится MoE, нужно балансировать потребление памяти, эффективность тренировки и скорость выполнения, что достигается уменьшением или увеличением общего числа экспертов, числа активных экспертов и размера экспертов. Разные команды используют разные конфигурации, отсюда и разница.

Почему MoE не используют везде?

MoE потребляет в разы больше памяти чем обычные модели, что касается и обучения и инференса. На практике большее количество памяти означает большее количество видеокарт. Для запуска Grok, например, нужно 8 видеокарт. Для GPT-4, по слухам, нужно вообще 64 видеокарты. Чтобы это имело финансовый смысл, нужен определенный уровень нагрузки, который есть не у всех. Плюс тот факт, что модель - MoE, часто ставит крест на возможности запуска на потребительских видеокартах.

Как их запускают?

Модель разбивают на несколько видеокарт (например, с помощью tensor parallelism). На каждую видеокарту кидается одинаковое количество экспертов и используют трюки чтобы убедиться что на каждого приходится одинаковая нагрузка.

Как это выглядит применимо к трансформерам?

Обычно эксперты в MoE делаются на основе слоёв MLP внутри трансформера. То есть вместо одного MLP делают несколько параллельных, но одновременно используется только часть из них. Остальные части модели (attention, эмбеддинги) — общие для всех экспертов.

>> Блогпост про MoE с большим числом деталей

#ликбез
@ai_newz
Еще раз обо мне

В канал пришло много новых людей, решил еще раз представиться и сделать подборку интересных постов.

Меня зовут Артём, я из Беларуси. Сейчас живу в Швейцарии и работаю в Meta GenAI на позиции Staff Research Scientist. До этого сделал PhD в университете Хайдельберга, в той самой научной группе, где придумали Stable Diffusion. За время в лабе я опубликовал кучу статей на топовых конфах. В перерывах между статьями я оттачивал свои эйай навыки на практике, упарываясь на Kaggle соревнованиях (я очень азартный тип в этом плане) – добрался до Top45 в мировом рейтинге с несколькими золотыми медалями. Больше про меня есть в этом посте и по тегам #personal и #мойпуть. [Если что, то я на фотке слева]

Подборка личных постов:
▪️Рассказ о том, как я вкатился в AI/ML
▪️Откуда AI хайп и как было, когда я начинал свое PhD
▪️Видео-интервью со мной
▪️Вот здесь делюсь личной радостью, ведь мы завезли диффузию в инсту,
▪️На основе emu, которую лично я оптимизировал, чтоб вот быстро и чётко
▪️Еще про то как мы сделали и ускорили генеративные стикеры для инсты, WhatsApp и FB Messenger.
▪️Про наш громкий релиз Imagine Flash, риалтайм генерацию картинок – проект, который я вел.
▪️Моя статья об ускорении диффузии с помощью кеширования, без потери качества конечно же.
▪️Как я приделывал ноги Аватарам в метаверсе [ч1, ч2], пока работа в Meta Reality Labs.
▪️Пост-апдейт и про, то как я недавно стал стафом в Meta GenAI (ну вы поняли).

Из еще почитать:
▪️Пост про грейды в бигтехе [ч1, ч2]. Все же в курсе, что сеньор это еще не все?:)
▪️Список книг для изучения ML в 2024.
▪️Гайд по ускорению диффузии [ч1, ч2], так сказать полевой опыт.
▪️Разбор того, как дистиллировали sd3 в 4 шага, который репостнул CEO бывший CEO Stability
▪️Список лекций и туториалов про 3D Human Understanding от топовых ученых из этой сферы.
▪️Лонгрид про парижский стартап Mistral и мое знакомство с фаундером.
▪️Пост про GR00T, модельку от nvidia, которая может стать chatgpt моментом в робототехнике.
▪️Еще вот про те самые чаевые в $200 для LMM и финальный список всех трюков, чтобы вставить в промпт по умолчанию.

Недавно запустился еженедельный #дайджест с кратким обзором новостей.

А также в ленте можно найти 1000 и 1 разбор свежих пейперов с мои авторитетным мнением, еще есть рубрика #ликбез с разбором базовых тем и #карьера с моими мыслями/байками по карьере в AI/ML.

Ну что, поздравляю всех новоприбывших! Обнял ❤️

@ai_newz