AbstractDL
11.5K subscribers
244 photos
16 videos
282 links
Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
By Anton Razzhigaev
Download Telegram
Deep learning models might be secretly (almost) linear

Линейные модели обычно сильно ограничены в своих возможностях, поэтому в нейронки всегда добавляются слои активации (ReLU и тп).

Забавно, но существует много свидетельств, что нейронные сети на самом деле почти линейные (по инпуту и по весам). В этом блогпосте собрано 17 таких примеров со ссылками. Вот несколько самых интересных из них:

1. Веса моделей обученных от одной инициализации можно складывать (да, прям W1 + W2) и всё будет работать (тык, тык)
2. Ластик концептов позволяет удалять целые понятия из моделей одним линейным оператором (тык)
3. Работает линейная алгебра внутренних репрезентаций (тык)
4. Unsupervised linear probing (тык)
5. GPT микроскоп (colab)
6. LoRa адаптеры линейно стыкуются (тык)

Похоже, что глубоким моделям достаточно совсем чуть-чуть нелинейности в поведении для получения потрясающих результатов.

Блогпост
👍67
Wikipedia-based Image Text Datasets (by Google)

Представлены два крупнейших чистых мультимодальных датасета: WIT и WikiWeb2M — они содержат полные страницы википедии со всеми картинками, структурированным текстом и метадатой (37M изображений и 1.8М страниц).

Они идеально подходят для обучения таких штук как Flamingo или Fromage, а также отлично сочетаются с графами знаний.

Статья, WIT, WikiWeb2M
👍48
К слову, на Google I/O только что анонсировали обновление Bard — теперь он базируется на PALM-2, понимает картинки и использует графы знаний.

Статья, YouTube
👍35👎1
🔥СhatGPT+ теперь имеет доступ в интернет!

Нужно зайти в настройки и включить beta features. Я проверил, всё уже работает!

P.S. А у кого-то сегодня даже плагины появились (не у меня).

Релиз
👍115👎1
DarkBERT: A Language Model for the Dark Side of the Internet

Пока в EU пытаются зарегулировать AI вусмерть — в Южной Корее учат DarkBERT.

Ничего особенного, просто берт, обученный на дарквебе (наркоторговля, оружие, etc.). Якобы, такая модель нужна чтобы лучше классифицировать нелегальный контент и специфичный язык пользователей тёмной стороны интернета 🌚

P.S. Саму модель пока не выложили, поэтому можно проходить мимо.

Статья
👍54
TinyStories: The Smallest GPT with Coherent English (by Microsoft)

Как думаете, с какого размера у LM появляется возможность писать связный текст? Оказалось, что и 2.5M параметров достаточно!

Главное препятствие для полноценного понимания языка у трансформеров — огромное количество редких слов (длинный хвост распределения). Но если составить обучающий датасет из 1.5к наиболее частотных корней (словарный запас 5-летнего ребёнка), то даже однослойную GPT можно будет обучить так, что она обойдёт GPT2-XL!

Этот чудесный датасет, написанный руками GPT-4, отлично подходит для валидации новых архитектур, на нём даже скейлинг Шиншиллы подтверждается. Так что если хотите изобрести свою «SuperGPT» архитектуру, то рекомендую экспериментировать на этом сете. Его размер всего 3 Гб.

P.S. Из интересных выводов — лучше масштабировать GPT в глубину, чем в ширину.

Статья, датасет, модель
👍97
🔥QLoRA: Зафайнтюнить 30B модель в колабе? Легко!

Гениальная и удивительно простая идея лежит в основе этого подхода. Если мы тюним только LoRA адаптеры, а основная модель заморожена, то почему-бы не заквантовать её до предела?

Квантуется модель в новый 4-bit NormalFloat, который отлично подходит для normally distributed активаций. При этом все операции с LoRA остаются в bf16. Самое удивительное — такой подход не отстаёт от полного 16-bit файнтюнига базовой модели — авторы проверили на 1000(!) разных LM.

Всё это уже интегрировано в HuggingFace, а как бонус — авторы обучили нового SOTA чатбота (Guanaco + OASST1 + QLoRA).

Статья, GitHub, colab, модель
👍89
Skoltech

Три года назад я закончил Сколтех, и поступить туда — было лучшим решением в моей жизни. Настолько захватывающее и современное обучение стало для меня шоком, особенно после МГУ.

Так что, если кто-то из подписчиков думает про IT магистратуру — обязательно посмотрите в сторону Skoltech, дедлайн 10 июля.
👍84👎28
This media is not supported in your browser
VIEW IN TELEGRAM
MEMIT: Где именно GPT хранит свои знания? (by MIT)

Оказалось, что память у трансформеров находится в feed-forward части, а точнее в последнем слое некоторых MLP. При этом все факты можно довольно легко изменять без вреда для остальных знаний и навыков модели.

Авторы придумали хитрый способ как определить место внутри модели, связанное с отдельной ассоциацией. Для этого они берут текст нужного факта, зашумляют эмбеддинги его токенов и смотрят какой фрагмент модели наиболее подвержен влиянию такого искажения — всегда оказывается, что это один из feed-forward слоёв.

А для подмены факта необходимо внести небольшие изменения в выходную матрицу найденного MLP (rank-one modification), основываясь на желаемом аутпуте для этого слоя. Такой подход работает надёжнее, чем файнтюнинг, ведь если долго учить GPT тексту «Лувр находится в Париже» — то она может начать говорить, что и Статуя Свободы, и Кремль, и вообще всё остальное тоже находится в Париже.

Авторы смогли запихнуть десятки тысяч фактов из Wikidata внутрь GPT-J и подготовили демо, где можно наблюдать за внутренним «развитием» ассоциаций в модели от слоя к слою.

Статья, GitHub, демо, colab
👍154
Understanding Optimization of Deep Learning

Крутой обзор всех аспектов и методов оптимизации нейронных сетей. Тут описано как бороться с возникающими проблемами, в чём отличия оптимизаторов, почему трансформеры капризнее резнетов (сильная кривизна лосса → большое значение константы Липшица) и ещё много всего интересного на 50 страниц.

P.S. На картинке показано как можно справиться с взрывающимися градиентами.

Статья
👍100👎1
Forwarded from DL in NLP (Vlad Lialin)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model
arxiv.org/abs/2305.18290

Интересная статья, которая предлагает делать RLHF без RL. Используя пару математических трюков, можно показать что при модели Bradley-Terry человеческих предпочтений (которая похожа на то как моделируется reward в RLHF) можно вывести определённый лосс L который нам надо минимизировать.

Таким образом мы сводим RL задачу которая оптимизирует выученный (произвольный) reward к прямой задачи оптимизации на нашем датасете человеческих предпочтений. На практике это означает, что вам больше не надо страдать с PPO, не нужно генерировать текст во время обучения, и можно просто напрямую оптимизировать L. Экспериментальные результаты показывают что DPO работает так же как RLHF или лучше.
👍60
LightGlue: Local Feature Matching at Light Speed (by Microsoft)

Появилась новая SOTA по качеству и скорости для сопоставления изображений.

Выравнивание происходит при помощи трансформера, который матчит эмбеддинги ключевых точек (SuperPoint, DISK). А высокая скорость достигается «ранним выходом» из модели — на лёгких изображениях инференс завершается на начальных слоях трансформера (очень похоже на CALM).

Код и веса выложены в открытый доступ.

Статья, GitHub
👍59
Forwarded from эйай ньюз
The Little Book of Deep Learning

Карманная книга по DL от профессора из Женевского Университета François Fleuret. Всего 160 страниц размером с экран телефона, где очень ёмко описываются основные принципы Глубокого Обучения с отличными иллюстрациями.

Классно подойдёт для того чтобы освежить знания перед собеседованиями либо для быстрого входа в DL (желательно, конечно, пользоваться и другими источниками параллельно).

• По ссылке можно бесплатно скачать PDF, отформатированную специально для удобного чтения на мобильных телефонах.

• Либо можно заказать бумажный вариант. #books

@ai_newz
👍108
Обнаружил что-то странное, чатгпт игнорирует всё, что похоже на спецтокены. Наверное, это защита от одного из векторов атаки на модель.
👍73
Найдена причина всплесков в активациях трансформеров (by Qualcomm)

Как же тяжело квантовать трансформеры (fp32→int8). Столько всего придумали, лишь бы спастись от аутлаеров в активациях, которые принимают огромные значения, выходя за пределы машинной точности.

В статье Quantizable Transformers наконец нашли причину этих магических всплесков, которые даже начинали оправдывать "искрами сознания". Всю вину возложили на софтмакс этэншна — когда модель хочет занулить вклад каких-нибудь токенов (или патчей), голове внимания приходится выдавать огромные (по модулю) значения логитов, чтобы получить ~0 после софтмакса. Авторы попробовали добавить clipped softmax и gated attention, после чего все трансформеры стали не только легко квантоваться, но и даже чуть-чуть выиграли в точности.

Главная улика, которая навела авторов на софтмакс — аутлаеры всегда соответствовали "бесполезным" токенам или патчам (см. картинку). Статья очень легко читается и вообще похожа на детектив, всем рекомендую 💁‍♂️

Статья
👍172👎2😢1
LongNet: Scaling Transformers to 1,000,000,000 Tokens (by Microsoft)

Тут придумали новый sparse attention, который позволил обучить трансформер с длиной контекста в МИЛЛИАРД токенов. А ведь совсем недавно мы считали, что 256к — это много 😂

На самом деле, тут нет ничего хитрого или супер нового, всего-лишь dilated attention, который экспоненциально расширяется с увеличением длины текста, причём для каждой головы внимания добавляется свой сдвиг окна. Это позволило получить честную линейную сложность внимания (см. график). Но самое главное — авторы показали, что такое увеличение длины контекста действительно помогает и приводит к снижению перплексии.

Статья
👍67
ChatGPT Fails on Simple Questions (by Skoltech & Me)

Есть такой старенький бенчмарк с простыми вопросами по википедии (так и называется Simple Questions), и, оказывается, ChatGPT с ним справляется очень плохо, даже хуже, чем GPT-3. А лучший результат вообще достигается решением с эмбеддингами графов знаний (BERT + PTBG).

Похоже, всё дело в том, что RLHF вынуждает модель отказываться от ответа, если она в нём не уверена. А GPT-3 просто тычет пальцем в небо и часто угадывает.

Статья, GitHub
👍60
Kandinsky 2.2

Благодаря более крупному картиночному энкодеру (CLIP-ViT-G) у нас получилось сильно забустить как качество генерации изображений, так и понимание текста. Веса и код уже в открытом доступе!

Статья, хабр, colab, бот, сайт
👍142👎5
🔥FlashAttention-2: опять в два раза быстрее

Вот это подарок! Авторы FlashAttention смогли его оптимизировать ещё сильнее, приближая скорость внимания к теоретическому пределу — ускорение как на инференсе, так и на обучении в 5 раз по сравнению с обычным торчём!

Статья, GitHub
👍79🔥1
LLaMa-2: лучшая опенсорсная языковая модель (by Meta)

Авторы обновили обучающий датасет, сделав его чище и больше (2T токенов), добавили более быстрый grouped-query attention, удлинили контекст до 4k токенов и учили в несколько этапов: pretraining, supervised fine-tuning, RLHF.

Из интересных наблюдений — RL не просто портит калибровку вероятностей (что первыми заметили openAI), а на самом деле корректирует температуру, балансируя между фактологической точностью и креативностью, в зависимости от промпта.

Статья, GitHub, HuggingFace
👍49
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 ruGPT-3.5. Открытая русскоязычная LLM от Сбера

Друзья, мы выложили в open source нашу языковую модель (pretrain), на основе которой обучали GigaChat!

🔸 Претрейн довольно большой — 13B (13 миллиардов параметров). Модель видела много разнообразного текста (книги, статьи, чаты и т.д.), в основном на русском языке, а также на английском (около10%). Дополнительно дообучали на коде.

🔸 ruGPT-3.5 13B можно дообучать на инструктивных датасетах и получать свои версии ChatGPT, которые бы хорошо понимали русский язык.

🔸 Решили выложить с открытой лицензией (MIT), так что каких-либо ограничений в этом плане в отличии от LLaMA нет.

Написали небольшой пост про это, прошу поддержать, кому интересно.

👉 Хабр | Hugging Face
👍117👎16