ruDalle
"Пиратский корабль сражается с волнами во время бури - Иван Айвазовский и Росс Тран"
"Пиратский корабль сражается с волнами во время бури - Иван Айвазовский и Росс Тран"
Крутой колаб на kaggle по тюну ruDALL-e на эмодзи. Датасет для тюна в комплекте.
К тому, кто первыйсоберет все яй сгенерит стикерпак из взрывающихся баклажанов, приедет Дуров и покажет мультфильм!
К тому, кто первый
Forwarded from тоже моушн
о, какая прикольная штука. онлайн генератор картинок по текстовому запросу. работает на vqgan, довольно шустрый, есть пресеты. айда пробовать!
на картинке выше - кролик в весеннем лесу яркими цветами
на картинке выше - кролик в весеннем лесу яркими цветами
Forwarded from Мишин Лернинг
This media is not supported in your browser
VIEW IN TELEGRAM
🦑 KAPAO | Новая сахарная SOTA на CrowdPose
KAPAO - это эффективный и точный single-stage метод детекции и оценки позы человека. Есть код и веса!
Ресерчеры представили 3 версии: KAPAO-S, KAPAO-M, KAPAO-L
- Эффективный (быстрый) и точный метод
- KAPAO-L(arge) бъет SOTA на CrowdPose
- Решение основано на yolov5 (s,m,l)
💻 Code 📰 Paper
p.s.: ребята шарят и умеют в demo!
KAPAO - это эффективный и точный single-stage метод детекции и оценки позы человека. Есть код и веса!
Ресерчеры представили 3 версии: KAPAO-S, KAPAO-M, KAPAO-L
- Эффективный (быстрый) и точный метод
- KAPAO-L(arge) бъет SOTA на CrowdPose
- Решение основано на yolov5 (s,m,l)
💻 Code 📰 Paper
p.s.: ребята шарят и умеют в demo!
Forwarded from AbstractDL
This media is not supported in your browser
VIEW IN TELEGRAM
GradInit: перебор гиперпараметров оптимизатора и warmup больше не нужны (by Google)
В гугл предложили супер крутой универсальный architecture-agnostic метод инициализации весов моделей.
Идея очень простая: добавить множители перед каждым блоком параметров и запустить по ним несколько итераций оптимизации лосса. Дальше эти множители фиксируем и учим модель как обычно. Такая инициализация не зависит от глубины и типа архитектуры (работает и на резнетах и на трансформерах) и почти полностью решает проблему взрывающихся\затухающих градиентов.
В итоге отпадает необходимость в переборе гиперпараметров оптимизатора, а трансформер вообще получилось обучить без warmup’a, что считалось практически невозможным. Как бонус, такая инициализация даёт небольшой буст на многих бенчмарках (и картиночных и текстовых).
Статья, GitHub
В гугл предложили супер крутой универсальный architecture-agnostic метод инициализации весов моделей.
Идея очень простая: добавить множители перед каждым блоком параметров и запустить по ним несколько итераций оптимизации лосса. Дальше эти множители фиксируем и учим модель как обычно. Такая инициализация не зависит от глубины и типа архитектуры (работает и на резнетах и на трансформерах) и почти полностью решает проблему взрывающихся\затухающих градиентов.
В итоге отпадает необходимость в переборе гиперпараметров оптимизатора, а трансформер вообще получилось обучить без warmup’a, что считалось практически невозможным. Как бонус, такая инициализация даёт небольшой буст на многих бенчмарках (и картиночных и текстовых).
Статья, GitHub
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Отвал башки! Тут пацаны из гугла обучили NERF на RAW фотках. Получается просто башенного качества рендеринг HDR изображений. Можно менять экспозицию, фокус. Вы только посмотрите на получаемый эффект боке в ночных сценах!
Дополнительное преимущество этого метода перед обычным нерфом - это то, что он хорошо работает на шумных снимках с малым освещением. За счет того, что информация агрегируется с нескольких фотографий, метод хорошо справляется с шумом и недостатком освещения, превосходя специализированные single-photo denoising модели.
Статью ознаменовали как NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images. Ну, разве что кода еще нет.
Сайт проекта | Arxiv
Дополнительное преимущество этого метода перед обычным нерфом - это то, что он хорошо работает на шумных снимках с малым освещением. За счет того, что информация агрегируется с нескольких фотографий, метод хорошо справляется с шумом и недостатком освещения, превосходя специализированные single-photo denoising модели.
Статью ознаменовали как NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images. Ну, разве что кода еще нет.
Сайт проекта | Arxiv
Forwarded from AbstractDL
This media is not supported in your browser
VIEW IN TELEGRAM
🔥MTTR: End-to-End Text Referring Video Object Segmentation
Представлена новая SOTA в сегментации объектов на видео по их текстовому описанию. Качество просто невероятное!
Модель основана на мультимодальном трансформере, в который подаются фичи от текстового энкодера (RoBERTa) и видео энкодера (Video Swin). Примечательно, что в отличие от предыдущих решений, обучение здесь end2end — sequence prediction problem.
P.S. Авторы опубликали и код, и веса моделей 👍
Статья, GitHub
Представлена новая SOTA в сегментации объектов на видео по их текстовому описанию. Качество просто невероятное!
Модель основана на мультимодальном трансформере, в который подаются фичи от текстового энкодера (RoBERTa) и видео энкодера (Video Swin). Примечательно, что в отличие от предыдущих решений, обучение здесь end2end — sequence prediction problem.
P.S. Авторы опубликали и код, и веса моделей 👍
Статья, GitHub