Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Поговорим про задачу image captioning.

Кто то использует модели? Если да, для чего и на каком языке.
Делитесь в комментариях
👍6
👍33👎3
левый столбик: нормальная работа
правый столбик: бот в тг на выходных
👍49🔥5
Лежат заключённые на нарах, после отбоя. Вдруг, из одного угла слышится: 14.
Вся камера начинает заливисто смеяться.
Из другого угла: 37.
Камера опять ржёт.
Новенький арестант спрашивает у лежащего рядом старожила:
- А че это за цифры из-за которых все в камере смеются?
Старый отвечает:
- Понимаешь, кореш, давно тут сидим, все анекдоты уже рассказали и, чтобы не повторять каждый раз, присвоили им номера. Называет кто-то номер анекдота, а все остальные вспоминают и смеются.
Новенький на всю камеру:
— nan!
Kernel panic - not syncing: nvhost_scale_emc_debug_init
Новенький был осуждён за убитый трейн.
😁92👍5🤩41🤔1🤮1💩1
Однажды Эрнест хэменгуей поспорил что напишет самую грустную историю из пяти слов:
Годную идею проебал хуевый менджмент
54😢20🍓6🤔1🤮1
offload придумали те кто не умеет в freeze
😁7🤔2
Forwarded from Градиентное погружение (Максим Герасимов)
Kaggle Accelerator

Ещё неделю назад заметил новую фичу на Kaggle, помимо конфигураций P100 (16 гб), TPU v3-8, теперь доступны T4×2 (15 + 15 гб видеопамяти).

P100 они не заменят и будут уступать, но позволят:

1) При должном желании (сложно) запускать 2 эксперимента вместо одного, при этом недельная квота GPU (30-40 часов) общая для T4×2 и P100, а это дополнительные гпу часы.

2) Ускорить инференс/обучение (в некоторых случаях).

3) Тюнить параметры параллельно.

4) Запускать большие модели (до 30 гб).
Кажется что это самый большой плюс.
Да, все ещё неудобно, но лучше чем zero-offload.

Training using 2 T4 with Pytorch DataParallel
Single-Machine Model Parallel Best Practices
🔥191👍1
Если хотите залипнуть, друзья технари
⚠️ не открывать во время работы ⚠️

🔗 https://www.decisionproblem.com/paperclips/index2.html
👍2
#чтивонаночь

Решаем любую задачу не зная решения, Composing Ensembles of Pre-trained Models via Iterative Consensus

Идея простая: берем некторый генератор(gpt), берем некоторый scorer и начинаем итеративно генерировать гипотезы, прогоняем их через классификатор и показываем снова генератору, тем самым по сути совершая adversial атаку на gpt.

Неожиданно такой подход бьет SOTA на
-Video QA

В целом подход дает очень хорошие резы практически на всех мультимодальных бенчах включая генерацию картинок(тут генератором выступил GLIDE)

сайт
code - нет, полагаю это довольно медленная штука
paper
👍8
This media is not supported in your browser
VIEW IN TELEGRAM
Flipper zero прекрасен
❤‍🔥23👍4😐1
Forwarded from DLStories
eDiffi: новая SOTA text-to-image диффузионная модель от Nvidia, которая также хорошо умеет в style transfer и генерацию картинок по скетчам (!)

Авторы eDiff пристально посмотрели на то, как происходит генерация картинок диффузионными моделями, и нашли две интересные особенности. Эти особенности они затем использовали для построения более эффективной архитектуры модели.
Вот что за особенности:

1️⃣ Как мы знаем, диффузия генерирует картинку шаг за шагом, на каждом шаге чуть уменьшая зашумленность картинки. Ребята из Nvidia внимательно посмотрели на этот процесс и заметили, что на первых шагах алгоритма (когда картинка представляет из себя практически гауссов шум), значения матрицы cross-attention между пикселями картинки и эмбеддингами текста довольно большие. Т.е. это значит, что на первых шагах алгоритм сильно опирается на текст, чтобы сгенерировать следующую картинку. А на последних шагах алгоритма, когда картинка уже почти готова и шума осталось мало, значения матрицы cross-attention малы. Это значит, что модель практически игнорирует текст на этом этапе.
Это звучит логично: на первых шагах входящая картинка — это просто случайный шум, и модель “смотрит” на текст, чтобы понять, что вообще генерировать. А на последних шагах все объекты на изображении уже расставлены, и задача модели — добиться визуальной красоты, убрать малый остаточный шум, причесать детали.

В связи с этим авторы предположили, что иметь лишь одну модель для всех стадий генерации картинки из шума не оптимально. Она ведь, по сути, разные задачи на разных этапах решает. Поэтому они педложили сделать три модели: одну для начальных этапов (когда нужно сильно смотреть на текст), вторую для середины процесса, третью — для финала (когда нужно “причесывать детали”).
Чтобы сильно не увеличивать время обучения (три модели обучать дороже), авторы сначала обучают одну модель, как обычно это и делается, и затем делят ее на три и немного дообучают их каждую для своей стадии.

Эта идея позволяет получить SOTA диффузию на датасете COCO 2014, и обойти Imagen, Parti, Stable Diffusion и другие модели.

2️⃣ Идея номер два связана с то, каким образом получаются эмбеддинги текста. Мы помним, что DALL-E 2 использует эмбеддинги предобученного CLIP, а Imagen и многие другие модели — эмбеддинги из языковой модели T5 (тоже предобученной). Переход от CLIP к T5, казалось бы, улучшил результаты: детали генерируемых картинок стали более четкими, на них даже начал появляться осмысленный текст.
Однако не все так однозначно (эта фраза вызвала нервую улыбку, простите)). Похоже, эмбеддинги CLIP и T5 каждый по-своему хороши. Диффузия с эмбеддингами CLIP позволяет получить более “цельно” выглядящую картинку, все детили которой хорошо согласуются между собой. Эмбеддинги T5 же делают детали картинки более проработанными.

Идея тогда проста: обучать сеть на обоих эмбедднгах сразу. И это помогает: картинки становятся в целом еще лучшего визуального качества. Метрика FID-CLIP для такой модели также выше, чем для моделей, обученных только с CLIP или только с T5.

Вот такая общая идея модели. Лакончично и практично. Но и это еще не все: авторы также придумали, как делать классный style transfer и генерацию изображений по скетчам. Об этом будут следующие посты⬇️

📃 Статья
👍211👎1
Forwarded from russiansinlondon
WHY IS THIS MY FOR YOU PAGE 😂
😁11🤔5🍓41💩1
big brain, small dick
👍36😢7🤮3🍾1
каждый учит как он хочет - сказали ребята из nvidia и выпустили а100800 только для китайского рынка

Забавно что это 1 в 1 а100 с той лишь разницей что зарезали шину между картами, те теперь на них нельзя построить нормальный кластер - не хватит скорости передачи данных между картами.


Для тех кто смотрит с середины - для Китая ввели санкции на поставке железок для кластеров

the verge
👍13
This media is not supported in your browser
VIEW IN TELEGRAM
Nvidia выложили в open source свой физический движок
github
🤔137👍1
Самый важный вопрос: как связан recsys, nlp и причем тут agi
🤔6
This media is not supported in your browser
VIEW IN TELEGRAM
Yes, I am 2004
Yes, I am senior quantitative researcher
👍31🤡17😁5