AbstractDL
11.5K subscribers
244 photos
16 videos
282 links
Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
By Anton Razzhigaev
Download Telegram
Forwarded from DL in NLP (Vlad Lialin)
PyTorch 2.0 release
Блог
Github release notes

Сегодня pytorch 2.0 вышел с nightly на релиз. Вот его новые фичи, часть всё ещё в бете:

1. Полная backward compatibility и никаких серьёзных изменений стандарнтых API типа torch.nn — всё ещё наш любимый торч
1. Быстрее чем 1.X благодаря тому что куски переписали на Triton и C++
1. Accelerated Transformers (i.e. Better Transformers) — фичи для быстрого и эффективного exact attention, такие как Flash attention.
1. Лучшая поддержка MPS на MacOS и оптимизации для AWS Graviton3
1. Jax-like torch.func

Главная фича: torch.compile, который заменяет старые torchscript и jit. Обещает быть более user-friendly.

Но по-настоящему самая главная фича (потому что её я написал) это что __repr__ ModuleList теперь выглядит компактно когда модули повторяются.
👍91
Forwarded from Complete AI (Andrey Kuznetsov)
⚡️⚡️⚡️VideoFusion
Вышла первая open source диффузионная модель для синтеза видео по текстовому описанию на 1.7B параметров (CVPR 2023).

Авторы предлагают рассматривать диффузионный процесс как некоторый декомпозируемый процесс: базовый шум (base), общий для всех кадров, и шум остаточный (residual), который изменяется во времени. Две модели учатся совместно и приводят к результату, по качеству превосходящему существующие GAN-based и диффузионные модели синтеза видео.

Статья
HuggingFace
👍55👎1
Memorizing Transformers: как добавить в GPT долговременную память (by Google)

Вы думали, что 260 000 токенов это что-то невозможное для этэншна? А вот и нет, оказывается, если приделать approximate KNN внутрь механизма внимания и складировать Keys и Values в отдельном буфере, то можно засунуть в GPT целые книги!

Авторы показывают, что такое внимание помогает модели вспоминать сложные теоремы и леммы, которые были описаны десятки страниц назад! А самое крутое — это можно приделать к любому предобученному трансформеру, нужно лишь немного потюнить его на длинных текстах, что не очень сложно, так как градиенты через память не идут.

Статья
👍115
IQ GPT-4 равен 111

Проверил IQ у chatGPT (GPT-4) на psychtests.com (и заплатил за это 7 долларов). Я не использовал никаких специальных промптов, few-shot или CoT, просто копировал вопрос как есть и вбивал ответ модели. Оказалось, что GPT-4 умнее 79% людей, и её IQ равен 111!

Ссылка на отчёт
👍109👎8
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Transformer models: an introduction and catalog

Если путаетесь в обилии трансформерных моделей, то вот вам обзор.

🔸 Для каждой модели есть описание, отражающее её суть. Например, ALBERT — это сжатая версия BERT'а, использующая sharing весов.
🔸 Также есть описание основных деталей архитектуры и информация по задачам, на которых модель обучалась (objective).
🔸 У каждой модели есть ссылка на оригинальную статью, если захочется погрузиться в детали.

👉 Читать
👍79
🔥Kandinsky 2.1: новая опенсорсная диффузия!

Это гибрид DallE-2 и Latent Diffusion — сначала происходит диффузионное отображение текстового CLIP эмбеддинга в картиночный (как в DallE-2), а дальше из него с помощью латентной диффузии генерируется изображение. Также доступен режим смешивания картинок (благодаря клипу). Качество потрясающее! А веса и код уже в открытом доступе!

Статья, GitHub, хабр, бот
👍68👎9
🤗 FRED-T5 теперь на HuggingFace

Понедельник начинается с приятных сюрпризов, коллеги выложили веса новой языковой модели FRED-T5 на HuggingFace.

Эта модель показывает SOTA на RussianSuperGlue, а теперь все желающие могут попробовать ее в бою!

Для обучения FRED-T5 использовался подход на основе денойзеров из статьи Google UL2.

🔻Модели:
FRED-T5 1.7B
FRED-T5-large
Training details

👉 P.S. Кстати, ребята делают много интересного в области NLP и PLP. И пишут про это в TG, так что залетаем к ним в канал @nlpcoreteam!
👍32👎3
Segment Anything

Meta представила крутейшую и полностью открытую модель для сегментации изображений. Говорят, что она претендует на роль GPT в мире CV. Моя знакомая написала небольшой обзор со всеми подробностями про эту модель и её обучение. Читается довольно легко, а также там много картинок — поэтому рекомендую всем заглянуть!
👍47
This media is not supported in your browser
VIEW IN TELEGRAM
Смотрите какую красоту сгенерировал с помощью Кандинского ☺️

А тем временем у нас уже больше 2М уникальных пользователей за неделю! Это даже быстрее чем у chatGPT.
👍96👎8
🔥MiniGPT-4: почти как GPT-4, но всего 13B параметров

Оказалось, если соединить LLaMA (Vicuna) и FROMAGe, то получится не только на 90% приблизиться к GPT-4, но и даже воспроизвести её визуальные навыки! При том, что тут обучается всего лишь один единственный линейный слой.

По сравнению с FROMAGe тут добавили Q-former и файнтюнинг на своём чистейшем визуально-диалоговом сете (3.5к примеров).

С помощью этой модели можно даже сгенерировать код сайта по одному лишь наброску! Код и веса есть в открытом доступе.

Статья, GitHub, датасет, блог
👍118👎2
Visual Instruction Tuning: как нагенерить визуальные диалоги не обладая зрением (by Microsoft)

Это какое-то читерство! Совсем не обязательно видеть картинки, чтобы генерировать по ним сложные инструктивные диалоги — достаточно подать в ChatGPT их кэпшны и попросить позадавать вопросы в формате чатбота.

«Сделай вид, что ты видишь картинку и можешь ответить на все вопросы»

Потом обучаем на этих синтетических диалогах FROMAGe и готово! SOTA на нескольких бенчмарках!

Статья, GitHub, датасет, демо
👍43👎2
Дропаут ускоряет обучение глубоких моделей (by META)

Раньше считалось, что с дропаутом лосс наоборот падает медленнее, и это своего рода цена за спасение от переобучения — но оказалось, что это не так.

Eсли применять дропаут только в самом начале обучения, а потом отключать, то можно не только спастись от оверфиттинга, но и ускорить сходимость модели!

Это позволяет лучше синхронизировать градиенты на large-scale датасетах, что приводит к стабильному long-term выигрышу на всех архитектурах.

Статья, GitHub
👍123
Почему Adam иногда взрывается при обучении больших LM? (by META)

Очень тяжело учить гигантские языковые модели, к примеру, PaLM приходилось перезапускать десятки раз! И откатывать модель на сотни батчей назад из-за возникающих всплесков перплексии. Чтобы найти причины такой нестабильности, авторы провели кучу экспериментов и даже подвели теорию под всё это.

Главную вину возложили на оптимизатор Adam — оказалось, что при обучении больших моделей (от 60B параметров) возникает корреляция градиентов между разными степами. Это нарушает условия Центральной Предельной Теоремы, из-за чего распределение апдейтов весов становится бимодальным (см. картинку), а такие апдейты почти всегда ортогональны истинному направлению оптимизации. Именно это движение «вбок» и приводит к взрыву.

В конце статьи предлагается несколько способов как этого избежать, но единственный надёжный — откат модели на несколько шагов назад.

Статья
👍93
Forwarded from эйай ньюз
🔥DeepFloyd IF: новая text-2-image модель

StablityAI выпустили новую модель, которая очень похожа на Imagen от Google, но работает лучше и в open-source.

Архитектура IF, как и у Imagen состоит из трех диффузионных моделей, каждая из которых работает в пространстве RGB и прогрессивно увеличивают картинку. Сначала Text→64×64, затем (Text+64×64)→256×256, и наконец (Text+256×256)→1024×1024. А текст кодируется с помощью текстового энкодера T5.

Почему это круто?
— IF неплохо умеет генерировать текст (я даже генерил в канале ранее), явно лучше чем StableDiffusion XL

— Нормальная открытая имплементация по типу Imagen, которой до сих пор не было. Возможно с какими-то трюками, о которых мы узнаем, когда авторы выпустят блогпост

— FID скор измеряет похожесть снеренированных картинок на реальные. Это чуть ли не основная метрика для качества генерации. У IF FID=6.7, тогда как у Imagen 7.3. Меньше — лучше. Разрыв не космический, но приличный.

Код выложили, веса ждем тут. И ждем подробной статьи от авторов.

@ai_newz
👍39
This media is not supported in your browser
VIEW IN TELEGRAM
Очень красивая шпаргалка по всем языковым моделям (от word2vec до ChatGPT)

Статья, GitHub
👍94👎8
Emergent Abilities of LLM — это всего лишь иллюзия (by Stanford)

Последнее время много говорят про эмерджентность гигантских языковых моделей — мол, некоторые их свойства (проблески сознания 😂) начинают резко проявляться на большом масштабе (~30B параметров). Но тут обнаружили, что это всего лишь следствие выбора сильно нелинейных метрик для тестирования (Multiple Choice Grade, String Accuracy). И если их поменять на более «плавные» аналоги (Brier Score, Edit Distance) — то вся эмерджентность куда-то пропадает и перформанс LLM масштабируется без резких скачков.

Авторы демонстрируют эту псевдо-эмерджентность на всём семействе моделей instructGPT/GPT-3 и даже на классических автоэнкодерах для MNIST. Похоже, что всё-таки никакого магического числа параметров для языковых моделей не существует, и все их свойства меняются постепенно и крайне предсказуемо.

Статья
👍129👎1
Нейро Конфуций стал понимать картинки! Ещё я сделал его ответы чуть более конкретными и добавил работу в групповых чатах ☺️
👍56