Love. Death. Transformers.

Лежат заключённые на нарах, после отбоя. Вдруг, из одного угла слышится: 14.
Вся камера начинает заливисто смеяться.
Из другого угла: 37.
Камера опять ржёт.
Новенький арестант спрашивает у лежащего рядом старожила:
- А че это за цифры из-за которых все в камере смеются?
Старый отвечает:
- Понимаешь, кореш, давно тут сидим, все анекдоты уже рассказали и, чтобы не повторять каждый раз, присвоили им номера. Называет кто-то номер анекдота, а все остальные вспоминают и смеются.
Новенький на всю камеру:
— nan!
— Kernel panic - not syncing: nvhost_scale_emc_debug_init
Новенький был осуждён за убитый трейн.

😁92👍5🤩4❤1🤔1🤮1💩1

3.12K viewsedited 18:42

Однажды Эрнест хэменгуей поспорил что напишет самую грустную историю из пяти слов:
Годную идею проебал хуевый менджмент

❤54😢20🍓6🤔1🤮1

2.9K views09:37

Love. Death. Transformers.

offload придумали те кто не умеет в freeze

😁7🤔2

2.59K views10:59

Love. Death. Transformers.

Forwarded from Градиентное погружение (Максим Герасимов)

Kaggle Accelerator

Ещё неделю назад заметил новую фичу на Kaggle, помимо конфигураций P100 (16 гб), TPU v3-8, теперь доступны T4×2 (15 + 15 гб видеопамяти).

P100 они не заменят и будут уступать, но позволят:

1) При должном желании (сложно) запускать 2 эксперимента вместо одного, при этом недельная квота GPU (30-40 часов) общая для T4×2 и P100, а это дополнительные гпу часы.

2) Ускорить инференс/обучение (в некоторых случаях).

3) Тюнить параметры параллельно.

4) Запускать большие модели (до 30 гб).
Кажется что это самый большой плюс.
Да, все ещё неудобно, но лучше чем zero-offload.

Training using 2 T4 with Pytorch DataParallel
Single-Machine Model Parallel Best Practices

🔥19❤1👍1

2.58K views13:08

Love. Death. Transformers.

Forwarded from Dan Okhlopkov - канал

Если хотите залипнуть, друзья технари
⚠️ не открывать во время работы ⚠️

🔗 https://www.decisionproblem.com/paperclips/index2.html

👍2

2.43K views22:26

Love. Death. Transformers.

#чтивонаночь

Решаем любую задачу не зная решения, Composing Ensembles of Pre-trained Models via Iterative Consensus

Идея простая: берем некторый генератор(gpt), берем некоторый scorer и начинаем итеративно генерировать гипотезы, прогоняем их через классификатор и показываем снова генератору, тем самым по сути совершая adversial атаку на gpt.

Неожиданно такой подход бьет SOTA на
-Video QA

В целом подход дает очень хорошие резы практически на всех мультимодальных бенчах включая генерацию картинок(тут генератором выступил GLIDE)

сайт
code - нет, полагаю это довольно медленная штука
paper

👍8

3.04K views23:13

Love. Death. Transformers.

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

Flipper zero прекрасен

❤‍🔥23👍4😐1

3.17K views12:50

Love. Death. Transformers.

О, гайд по тюну whisper

Blog

huggingface.co

Fine-Tune Whisper For Multilingual ASR with 🤗 Transformers

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍12

3.38K views13:09

Love. Death. Transformers.

Forwarded from DLStories

eDiffi: новая SOTA text-to-image диффузионная модель от Nvidia, которая также хорошо умеет в style transfer и генерацию картинок по скетчам (!)

Авторы eDiff пристально посмотрели на то, как происходит генерация картинок диффузионными моделями, и нашли две интересные особенности. Эти особенности они затем использовали для построения более эффективной архитектуры модели.
Вот что за особенности:

1️⃣ Как мы знаем, диффузия генерирует картинку шаг за шагом, на каждом шаге чуть уменьшая зашумленность картинки. Ребята из Nvidia внимательно посмотрели на этот процесс и заметили, что на первых шагах алгоритма (когда картинка представляет из себя практически гауссов шум), значения матрицы cross-attention между пикселями картинки и эмбеддингами текста довольно большие. Т.е. это значит, что на первых шагах алгоритм сильно опирается на текст, чтобы сгенерировать следующую картинку. А на последних шагах алгоритма, когда картинка уже почти готова и шума осталось мало, значения матрицы cross-attention малы. Это значит, что модель практически игнорирует текст на этом этапе.
Это звучит логично: на первых шагах входящая картинка — это просто случайный шум, и модель “смотрит” на текст, чтобы понять, что вообще генерировать. А на последних шагах все объекты на изображении уже расставлены, и задача модели — добиться визуальной красоты, убрать малый остаточный шум, причесать детали.

В связи с этим авторы предположили, что иметь лишь одну модель для всех стадий генерации картинки из шума не оптимально. Она ведь, по сути, разные задачи на разных этапах решает. Поэтому они педложили сделать три модели: одну для начальных этапов (когда нужно сильно смотреть на текст), вторую для середины процесса, третью — для финала (когда нужно “причесывать детали”).
Чтобы сильно не увеличивать время обучения (три модели обучать дороже), авторы сначала обучают одну модель, как обычно это и делается, и затем делят ее на три и немного дообучают их каждую для своей стадии.

Эта идея позволяет получить SOTA диффузию на датасете COCO 2014, и обойти Imagen, Parti, Stable Diffusion и другие модели.

2️⃣ Идея номер два связана с то, каким образом получаются эмбеддинги текста. Мы помним, что DALL-E 2 использует эмбеддинги предобученного CLIP, а Imagen и многие другие модели — эмбеддинги из языковой модели T5 (тоже предобученной). Переход от CLIP к T5, казалось бы, улучшил результаты: детали генерируемых картинок стали более четкими, на них даже начал появляться осмысленный текст.
Однако не все так однозначно (эта фраза вызвала нервую улыбку, простите)). Похоже, эмбеддинги CLIP и T5 каждый по-своему хороши. Диффузия с эмбеддингами CLIP позволяет получить более “цельно” выглядящую картинку, все детили которой хорошо согласуются между собой. Эмбеддинги T5 же делают детали картинки более проработанными.

Идея тогда проста: обучать сеть на обоих эмбедднгах сразу. И это помогает: картинки становятся в целом еще лучшего визуального качества. Метрика FID-CLIP для такой модели также выше, чем для моделей, обученных только с CLIP или только с T5.

Вот такая общая идея модели. Лакончично и практично. Но и это еще не все: авторы также придумали, как делать классный style transfer и генерацию изображений по скетчам. Об этом будут следующие посты⬇️

📃 Статья

👍21❤1👎1

3.21K views14:21

Love. Death. Transformers.

Forwarded from russiansinlondon

WHY IS THIS MY FOR YOU PAGE 😂

😁11🤔5🍓4❤1💩1

2.73K views12:18

Love. Death. Transformers.

big brain, small dick

👍36😢7🤮3🍾1

3.17K views21:47

Love. Death. Transformers.

каждый учит как он хочет - сказали ребята из nvidia и выпустили а~~100~~800 только для китайского рынка

Забавно что это 1 в 1 а100 с той лишь разницей что зарезали шину между картами, те теперь на них нельзя построить нормальный кластер - не хватит скорости передачи данных между картами.

Для тех кто смотрит с середины - для Китая ввели санкции на поставке железок для кластеров

the verge

The Verge

Nvidia’s selling a nerfed GPU in China to get around export restrictions

The US has restricted the sale of some cards to the country.

👍13

2.99K viewsedited 11:26

Love. Death. Transformers.