Поговорим про задачу image captioning.
Кто то использует модели? Если да, для чего и на каком языке.
Делитесь в комментариях
Кто то использует модели? Если да, для чего и на каком языке.
Делитесь в комментариях
👍6
вы вообще сами то читаете хуйню которую пишитe
habr
habr
Хабр
Краткий пересказ Towards Pretrained Transformers As universal Computation Engines
Данная статья представляет собой краткий пересказ https://arxiv.org/abs/2103.05247АннотацияДанная статья является разбором свежей статьи от исследователей из университета Беркли "Pretrained...
🤔8🤨4
Love. Death. Transformers.
вы вообще сами то читаете хуйню которую пишитe habr
Sponsored by chat with
okhlopkov.com
okhlopkov.com
Лежат заключённые на нарах, после отбоя. Вдруг, из одного угла слышится: 14.
Вся камера начинает заливисто смеяться.
Из другого угла: 37.
Камера опять ржёт.
Новенький арестант спрашивает у лежащего рядом старожила:
- А че это за цифры из-за которых все в камере смеются?
Старый отвечает:
- Понимаешь, кореш, давно тут сидим, все анекдоты уже рассказали и, чтобы не повторять каждый раз, присвоили им номера. Называет кто-то номер анекдота, а все остальные вспоминают и смеются.
Новенький на всю камеру:
— nan!
—
Новенький был осуждён за убитый трейн.
Вся камера начинает заливисто смеяться.
Из другого угла: 37.
Камера опять ржёт.
Новенький арестант спрашивает у лежащего рядом старожила:
- А че это за цифры из-за которых все в камере смеются?
Старый отвечает:
- Понимаешь, кореш, давно тут сидим, все анекдоты уже рассказали и, чтобы не повторять каждый раз, присвоили им номера. Называет кто-то номер анекдота, а все остальные вспоминают и смеются.
Новенький на всю камеру:
— nan!
—
Kernel panic - not syncing: nvhost_scale_emc_debug_initНовенький был осуждён за убитый трейн.
😁92👍5🤩4❤1🤔1🤮1💩1
Однажды Эрнест хэменгуей поспорил что напишет самую грустную историю из пяти слов:
Годную идею проебал хуевый менджмент
Годную идею проебал хуевый менджмент
❤54😢20🍓6🤔1🤮1
Forwarded from Градиентное погружение (Максим Герасимов)
Kaggle Accelerator
Ещё неделю назад заметил новую фичу на Kaggle, помимо конфигураций P100 (16 гб), TPU v3-8, теперь доступны T4×2 (15 + 15 гб видеопамяти).
P100 они не заменят и будут уступать, но позволят:
1) При должном желании (сложно) запускать 2 эксперимента вместо одного, при этом недельная квота GPU (30-40 часов) общая для T4×2 и P100, а это дополнительные гпу часы.
2) Ускорить инференс/обучение (в некоторых случаях).
3) Тюнить параметры параллельно.
4) Запускать большие модели (до 30 гб).
Кажется что это самый большой плюс.
Да, все ещё неудобно, но лучше чем zero-offload.
Training using 2 T4 with Pytorch DataParallel
Single-Machine Model Parallel Best Practices
Ещё неделю назад заметил новую фичу на Kaggle, помимо конфигураций P100 (16 гб), TPU v3-8, теперь доступны T4×2 (15 + 15 гб видеопамяти).
P100 они не заменят и будут уступать, но позволят:
1) При должном желании (сложно) запускать 2 эксперимента вместо одного, при этом недельная квота GPU (30-40 часов) общая для T4×2 и P100, а это дополнительные гпу часы.
2) Ускорить инференс/обучение (в некоторых случаях).
3) Тюнить параметры параллельно.
4) Запускать большие модели (до 30 гб).
Кажется что это самый большой плюс.
Да, все ещё неудобно, но лучше чем zero-offload.
Training using 2 T4 with Pytorch DataParallel
Single-Machine Model Parallel Best Practices
🔥19❤1👍1
Forwarded from Dan Okhlopkov - канал
Если хотите залипнуть, друзья технари
⚠️ не открывать во время работы ⚠️
🔗 https://www.decisionproblem.com/paperclips/index2.html
⚠️ не открывать во время работы ⚠️
🔗 https://www.decisionproblem.com/paperclips/index2.html
👍2
#чтивонаночь
Решаем любую задачу не зная решения, Composing Ensembles of Pre-trained Models via Iterative Consensus
Идея простая: берем некторый генератор(gpt), берем некоторый scorer и начинаем итеративно генерировать гипотезы, прогоняем их через классификатор и показываем снова генератору, тем самым по сути совершая adversial атаку на gpt.
Неожиданно такой подход бьет SOTA на
-Video QA
В целом подход дает очень хорошие резы практически на всех мультимодальных бенчах включая генерацию картинок(тут генератором выступил GLIDE)
сайт
code - нет, полагаю это довольно медленная штука
paper
Решаем любую задачу не зная решения, Composing Ensembles of Pre-trained Models via Iterative Consensus
Идея простая: берем некторый генератор(gpt), берем некоторый scorer и начинаем итеративно генерировать гипотезы, прогоняем их через классификатор и показываем снова генератору, тем самым по сути совершая adversial атаку на gpt.
Неожиданно такой подход бьет SOTA на
-Video QA
В целом подход дает очень хорошие резы практически на всех мультимодальных бенчах включая генерацию картинок(тут генератором выступил GLIDE)
сайт
code - нет, полагаю это довольно медленная штука
paper
👍8
Forwarded from DLStories
eDiffi: новая SOTA text-to-image диффузионная модель от Nvidia, которая также хорошо умеет в style transfer и генерацию картинок по скетчам (!)
Авторы eDiff пристально посмотрели на то, как происходит генерация картинок диффузионными моделями, и нашли две интересные особенности. Эти особенности они затем использовали для построения более эффективной архитектуры модели.
Вот что за особенности:
1️⃣ Как мы знаем, диффузия генерирует картинку шаг за шагом, на каждом шаге чуть уменьшая зашумленность картинки. Ребята из Nvidia внимательно посмотрели на этот процесс и заметили, что на первых шагах алгоритма (когда картинка представляет из себя практически гауссов шум), значения матрицы cross-attention между пикселями картинки и эмбеддингами текста довольно большие. Т.е. это значит, что на первых шагах алгоритм сильно опирается на текст, чтобы сгенерировать следующую картинку. А на последних шагах алгоритма, когда картинка уже почти готова и шума осталось мало, значения матрицы cross-attention малы. Это значит, что модель практически игнорирует текст на этом этапе.
Это звучит логично: на первых шагах входящая картинка — это просто случайный шум, и модель “смотрит” на текст, чтобы понять, что вообще генерировать. А на последних шагах все объекты на изображении уже расставлены, и задача модели — добиться визуальной красоты, убрать малый остаточный шум, причесать детали.
В связи с этим авторы предположили, что иметь лишь одну модель для всех стадий генерации картинки из шума не оптимально. Она ведь, по сути, разные задачи на разных этапах решает. Поэтому они педложили сделать три модели: одну для начальных этапов (когда нужно сильно смотреть на текст), вторую для середины процесса, третью — для финала (когда нужно “причесывать детали”).
Чтобы сильно не увеличивать время обучения (три модели обучать дороже), авторы сначала обучают одну модель, как обычно это и делается, и затем делят ее на три и немного дообучают их каждую для своей стадии.
Эта идея позволяет получить SOTA диффузию на датасете COCO 2014, и обойти Imagen, Parti, Stable Diffusion и другие модели.
2️⃣ Идея номер два связана с то, каким образом получаются эмбеддинги текста. Мы помним, что DALL-E 2 использует эмбеддинги предобученного CLIP, а Imagen и многие другие модели — эмбеддинги из языковой модели T5 (тоже предобученной). Переход от CLIP к T5, казалось бы, улучшил результаты: детали генерируемых картинок стали более четкими, на них даже начал появляться осмысленный текст.
Однако не все так однозначно (эта фраза вызвала нервую улыбку, простите)). Похоже, эмбеддинги CLIP и T5 каждый по-своему хороши. Диффузия с эмбеддингами CLIP позволяет получить более “цельно” выглядящую картинку, все детили которой хорошо согласуются между собой. Эмбеддинги T5 же делают детали картинки более проработанными.
Идея тогда проста: обучать сеть на обоих эмбедднгах сразу. И это помогает: картинки становятся в целом еще лучшего визуального качества. Метрика FID-CLIP для такой модели также выше, чем для моделей, обученных только с CLIP или только с T5.
Вот такая общая идея модели. Лакончично и практично. Но и это еще не все: авторы также придумали, как делать классный style transfer и генерацию изображений по скетчам. Об этом будут следующие посты⬇️
📃 Статья
Авторы eDiff пристально посмотрели на то, как происходит генерация картинок диффузионными моделями, и нашли две интересные особенности. Эти особенности они затем использовали для построения более эффективной архитектуры модели.
Вот что за особенности:
1️⃣ Как мы знаем, диффузия генерирует картинку шаг за шагом, на каждом шаге чуть уменьшая зашумленность картинки. Ребята из Nvidia внимательно посмотрели на этот процесс и заметили, что на первых шагах алгоритма (когда картинка представляет из себя практически гауссов шум), значения матрицы cross-attention между пикселями картинки и эмбеддингами текста довольно большие. Т.е. это значит, что на первых шагах алгоритм сильно опирается на текст, чтобы сгенерировать следующую картинку. А на последних шагах алгоритма, когда картинка уже почти готова и шума осталось мало, значения матрицы cross-attention малы. Это значит, что модель практически игнорирует текст на этом этапе.
Это звучит логично: на первых шагах входящая картинка — это просто случайный шум, и модель “смотрит” на текст, чтобы понять, что вообще генерировать. А на последних шагах все объекты на изображении уже расставлены, и задача модели — добиться визуальной красоты, убрать малый остаточный шум, причесать детали.
В связи с этим авторы предположили, что иметь лишь одну модель для всех стадий генерации картинки из шума не оптимально. Она ведь, по сути, разные задачи на разных этапах решает. Поэтому они педложили сделать три модели: одну для начальных этапов (когда нужно сильно смотреть на текст), вторую для середины процесса, третью — для финала (когда нужно “причесывать детали”).
Чтобы сильно не увеличивать время обучения (три модели обучать дороже), авторы сначала обучают одну модель, как обычно это и делается, и затем делят ее на три и немного дообучают их каждую для своей стадии.
Эта идея позволяет получить SOTA диффузию на датасете COCO 2014, и обойти Imagen, Parti, Stable Diffusion и другие модели.
2️⃣ Идея номер два связана с то, каким образом получаются эмбеддинги текста. Мы помним, что DALL-E 2 использует эмбеддинги предобученного CLIP, а Imagen и многие другие модели — эмбеддинги из языковой модели T5 (тоже предобученной). Переход от CLIP к T5, казалось бы, улучшил результаты: детали генерируемых картинок стали более четкими, на них даже начал появляться осмысленный текст.
Однако не все так однозначно (эта фраза вызвала нервую улыбку, простите)). Похоже, эмбеддинги CLIP и T5 каждый по-своему хороши. Диффузия с эмбеддингами CLIP позволяет получить более “цельно” выглядящую картинку, все детили которой хорошо согласуются между собой. Эмбеддинги T5 же делают детали картинки более проработанными.
Идея тогда проста: обучать сеть на обоих эмбедднгах сразу. И это помогает: картинки становятся в целом еще лучшего визуального качества. Метрика FID-CLIP для такой модели также выше, чем для моделей, обученных только с CLIP или только с T5.
Вот такая общая идея модели. Лакончично и практично. Но и это еще не все: авторы также придумали, как делать классный style transfer и генерацию изображений по скетчам. Об этом будут следующие посты⬇️
📃 Статья
👍21❤1👎1
каждый учит как он хочет - сказали ребята из nvidia и выпустили а100800 только для китайского рынка
Забавно что это 1 в 1 а100 с той лишь разницей что зарезали шину между картами, те теперь на них нельзя построить нормальный кластер - не хватит скорости передачи данных между картами.
Для тех кто смотрит с середины - для Китая ввели санкции на поставке железок для кластеров
the verge
Забавно что это 1 в 1 а100 с той лишь разницей что зарезали шину между картами, те теперь на них нельзя построить нормальный кластер - не хватит скорости передачи данных между картами.
Для тех кто смотрит с середины - для Китая ввели санкции на поставке железок для кластеров
the verge
The Verge
Nvidia’s selling a nerfed GPU in China to get around export restrictions
The US has restricted the sale of some cards to the country.
👍13
This media is not supported in your browser
VIEW IN TELEGRAM
Nvidia выложили в open source свой физический движок
github
github
🤔13❤7👍1
Самый важный вопрос: как связан recsys, nlp и причем тут agi
🤔6
This media is not supported in your browser
VIEW IN TELEGRAM
Yes, I am 2004
Yes, I am senior quantitative researcher
Yes, I am senior quantitative researcher
👍31🤡17😁5