Саммари техрепорта про GPT-4
Если отложить в сторону шутки про отсутствие архитектурных деталей — в статье всё равно есть несколько интересных моментов.
Модель училась в два этапа: претрейнинг + RLHF, причём второй этап не улучшил перформанс на большинстве бенчмарков и даже испортил калибровку вероятностей (уверенности в ответах), но зато сделал модель менее токсичной и опасной.
Перед тем как обучать финальную «большую» версию GPT-4, все эксперименты и подбор гиперпараметров осуществялись на маленьких моделях, причём scaling low просчитали так точно, что получилось идеально предсказать итоговый лосс. Таким образом OpenAI сэкономили кучу денег на экспериментах.
Модель понимает очень много языков, причём даже на самых редких из них всё равно бьёт все предыдущие соты на MMLU. Также она обходит большинство экспертов на экзаменационных задачах (даже по юриспруденции и физике).
Ребята из ARC (это которые следят чтобы AI не убил человеков) проверили, что модель не сможет само-воспроизводиться и распространяться по интернету даже если ей дать такую возможность. Авторы предполагают, что файнтюнинг сможет это исправить 🌚
А ещё GPT-4, до того как её кастрировали с помощью RLHF, умела генерировать рецепты запрещённых веществ на основе того, что можно купить в аптеках.
P.S. Помните inverse scaling prize? Это где крупные LM работают хуже, чем маленькие — GPT-4 там всех победила! (может потому что она всё-таки маленькая? 😂)
Статья, блог, YouTube
Если отложить в сторону шутки про отсутствие архитектурных деталей — в статье всё равно есть несколько интересных моментов.
Модель училась в два этапа: претрейнинг + RLHF, причём второй этап не улучшил перформанс на большинстве бенчмарков и даже испортил калибровку вероятностей (уверенности в ответах), но зато сделал модель менее токсичной и опасной.
Перед тем как обучать финальную «большую» версию GPT-4, все эксперименты и подбор гиперпараметров осуществялись на маленьких моделях, причём scaling low просчитали так точно, что получилось идеально предсказать итоговый лосс. Таким образом OpenAI сэкономили кучу денег на экспериментах.
Модель понимает очень много языков, причём даже на самых редких из них всё равно бьёт все предыдущие соты на MMLU. Также она обходит большинство экспертов на экзаменационных задачах (даже по юриспруденции и физике).
Ребята из ARC (это которые следят чтобы AI не убил человеков) проверили, что модель не сможет само-воспроизводиться и распространяться по интернету даже если ей дать такую возможность. Авторы предполагают, что файнтюнинг сможет это исправить 🌚
А ещё GPT-4, до того как её кастрировали с помощью RLHF, умела генерировать рецепты запрещённых веществ на основе того, что можно купить в аптеках.
P.S. Помните inverse scaling prize? Это где крупные LM работают хуже, чем маленькие — GPT-4 там всех победила! (может потому что она всё-таки маленькая? 😂)
Статья, блог, YouTube
👍66
Forwarded from DL in NLP (Vlad Lialin)
PyTorch 2.0 release
Блог
Github release notes
Сегодня pytorch 2.0 вышел с nightly на релиз. Вот его новые фичи, часть всё ещё в бете:
1. Полная backward compatibility и никаких серьёзных изменений стандарнтых API типа torch.nn — всё ещё наш любимый торч
1. Быстрее чем 1.X благодаря тому что куски переписали на Triton и C++
1. Accelerated Transformers (i.e. Better Transformers) — фичи для быстрого и эффективного exact attention, такие как Flash attention.
1. Лучшая поддержка MPS на MacOS и оптимизации для AWS Graviton3
1. Jax-like torch.func
Главная фича:
Но по-настоящему самая главная фича (потому что её я написал) это что
Блог
Github release notes
Сегодня pytorch 2.0 вышел с nightly на релиз. Вот его новые фичи, часть всё ещё в бете:
1. Полная backward compatibility и никаких серьёзных изменений стандарнтых API типа torch.nn — всё ещё наш любимый торч
1. Быстрее чем 1.X благодаря тому что куски переписали на Triton и C++
1. Accelerated Transformers (i.e. Better Transformers) — фичи для быстрого и эффективного exact attention, такие как Flash attention.
1. Лучшая поддержка MPS на MacOS и оптимизации для AWS Graviton3
1. Jax-like torch.func
Главная фича:
torch.compile, который заменяет старые torchscript и jit. Обещает быть более user-friendly.Но по-настоящему самая главная фича (потому что её я написал) это что
__repr__ ModuleList теперь выглядит компактно когда модули повторяются.👍91
Forwarded from Complete AI (Andrey Kuznetsov)
⚡️⚡️⚡️VideoFusion
Вышла первая open source диффузионная модель для синтеза видео по текстовому описанию на 1.7B параметров (CVPR 2023).
Авторы предлагают рассматривать диффузионный процесс как некоторый декомпозируемый процесс: базовый шум (base), общий для всех кадров, и шум остаточный (residual), который изменяется во времени. Две модели учатся совместно и приводят к результату, по качеству превосходящему существующие GAN-based и диффузионные модели синтеза видео.
Статья
HuggingFace
Вышла первая open source диффузионная модель для синтеза видео по текстовому описанию на 1.7B параметров (CVPR 2023).
Авторы предлагают рассматривать диффузионный процесс как некоторый декомпозируемый процесс: базовый шум (base), общий для всех кадров, и шум остаточный (residual), который изменяется во времени. Две модели учатся совместно и приводят к результату, по качеству превосходящему существующие GAN-based и диффузионные модели синтеза видео.
Статья
HuggingFace
👍55👎1
Memorizing Transformers: как добавить в GPT долговременную память (by Google)
Вы думали, что 260 000 токенов это что-то невозможное для этэншна? А вот и нет, оказывается, если приделать approximate KNN внутрь механизма внимания и складировать Keys и Values в отдельном буфере, то можно засунуть в GPT целые книги!
Авторы показывают, что такое внимание помогает модели вспоминать сложные теоремы и леммы, которые были описаны десятки страниц назад! А самое крутое — это можно приделать к любому предобученному трансформеру, нужно лишь немного потюнить его на длинных текстах, что не очень сложно, так как градиенты через память не идут.
Статья
Вы думали, что 260 000 токенов это что-то невозможное для этэншна? А вот и нет, оказывается, если приделать approximate KNN внутрь механизма внимания и складировать Keys и Values в отдельном буфере, то можно засунуть в GPT целые книги!
Авторы показывают, что такое внимание помогает модели вспоминать сложные теоремы и леммы, которые были описаны десятки страниц назад! А самое крутое — это можно приделать к любому предобученному трансформеру, нужно лишь немного потюнить его на длинных текстах, что не очень сложно, так как градиенты через память не идут.
Статья
👍115
IQ GPT-4 равен 111
Проверил IQ у chatGPT (GPT-4) на psychtests.com (и заплатил за это 7 долларов). Я не использовал никаких специальных промптов, few-shot или CoT, просто копировал вопрос как есть и вбивал ответ модели. Оказалось, что GPT-4 умнее 79% людей, и её IQ равен 111!
Ссылка на отчёт
Проверил IQ у chatGPT (GPT-4) на psychtests.com (и заплатил за это 7 долларов). Я не использовал никаких специальных промптов, few-shot или CoT, просто копировал вопрос как есть и вбивал ответ модели. Оказалось, что GPT-4 умнее 79% людей, и её IQ равен 111!
Ссылка на отчёт
👍109👎8
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Transformer models: an introduction and catalog
Если путаетесь в обилии трансформерных моделей, то вот вам обзор.
🔸 Для каждой модели есть описание, отражающее её суть. Например, ALBERT — это сжатая версия BERT'а, использующая sharing весов.
🔸 Также есть описание основных деталей архитектуры и информация по задачам, на которых модель обучалась (objective).
🔸 У каждой модели есть ссылка на оригинальную статью, если захочется погрузиться в детали.
👉 Читать
Если путаетесь в обилии трансформерных моделей, то вот вам обзор.
🔸 Для каждой модели есть описание, отражающее её суть. Например, ALBERT — это сжатая версия BERT'а, использующая sharing весов.
🔸 Также есть описание основных деталей архитектуры и информация по задачам, на которых модель обучалась (objective).
🔸 У каждой модели есть ссылка на оригинальную статью, если захочется погрузиться в детали.
👉 Читать
👍79
🔥Kandinsky 2.1: новая опенсорсная диффузия!
Это гибрид DallE-2 и Latent Diffusion — сначала происходит диффузионное отображение текстового CLIP эмбеддинга в картиночный (как в DallE-2), а дальше из него с помощью латентной диффузии генерируется изображение. Также доступен режим смешивания картинок (благодаря клипу). Качество потрясающее! А веса и код уже в открытом доступе!
Статья, GitHub, хабр, бот
Это гибрид DallE-2 и Latent Diffusion — сначала происходит диффузионное отображение текстового CLIP эмбеддинга в картиночный (как в DallE-2), а дальше из него с помощью латентной диффузии генерируется изображение. Также доступен режим смешивания картинок (благодаря клипу). Качество потрясающее! А веса и код уже в открытом доступе!
Статья, GitHub, хабр, бот
👍68👎9
Forwarded from Mashkka про Data Science
🤗 FRED-T5 теперь на HuggingFace
Понедельник начинается с приятных сюрпризов, коллеги выложили веса новой языковой модели FRED-T5 на HuggingFace.
Эта модель показывает SOTA на RussianSuperGlue, а теперь все желающие могут попробовать ее в бою!
Для обучения FRED-T5 использовался подход на основе денойзеров из статьи Google UL2.
🔻Модели:
FRED-T5 1.7B
FRED-T5-large
Training details
👉 P.S. Кстати, ребята делают много интересного в области NLP и PLP. И пишут про это в TG, так что залетаем к ним в канал @nlpcoreteam!
Понедельник начинается с приятных сюрпризов, коллеги выложили веса новой языковой модели FRED-T5 на HuggingFace.
Эта модель показывает SOTA на RussianSuperGlue, а теперь все желающие могут попробовать ее в бою!
Для обучения FRED-T5 использовался подход на основе денойзеров из статьи Google UL2.
🔻Модели:
FRED-T5 1.7B
FRED-T5-large
Training details
👉 P.S. Кстати, ребята делают много интересного в области NLP и PLP. И пишут про это в TG, так что залетаем к ним в канал @nlpcoreteam!
👍32👎3
Segment Anything
Meta представила крутейшую и полностью открытую модель для сегментации изображений. Говорят, что она претендует на роль GPT в мире CV. Моя знакомая написала небольшой обзор со всеми подробностями про эту модель и её обучение. Читается довольно легко, а также там много картинок — поэтому рекомендую всем заглянуть!
Meta представила крутейшую и полностью открытую модель для сегментации изображений. Говорят, что она претендует на роль GPT в мире CV. Моя знакомая написала небольшой обзор со всеми подробностями про эту модель и её обучение. Читается довольно легко, а также там много картинок — поэтому рекомендую всем заглянуть!
Teletype
Разбор SAM (Segment Anything Model)
SAM — это модель от Meta AI, обученная на новом огромном датасете для сегментации изображений. Этот датасет содержит 11 млн картинок...
👍47
This media is not supported in your browser
VIEW IN TELEGRAM
Смотрите какую красоту сгенерировал с помощью Кандинского ☺️
А тем временем у нас уже больше 2М уникальных пользователей за неделю! Это даже быстрее чем у chatGPT.
А тем временем у нас уже больше 2М уникальных пользователей за неделю! Это даже быстрее чем у chatGPT.
👍96👎8
🔥MiniGPT-4: почти как GPT-4, но всего 13B параметров
Оказалось, если соединить LLaMA (Vicuna) и FROMAGe, то получится не только на 90% приблизиться к GPT-4, но и даже воспроизвести её визуальные навыки! При том, что тут обучается всего лишь один единственный линейный слой.
По сравнению с FROMAGe тут добавили Q-former и файнтюнинг на своём чистейшем визуально-диалоговом сете (3.5к примеров).
С помощью этой модели можно даже сгенерировать код сайта по одному лишь наброску! Код и веса есть в открытом доступе.
Статья, GitHub, датасет, блог
Оказалось, если соединить LLaMA (Vicuna) и FROMAGe, то получится не только на 90% приблизиться к GPT-4, но и даже воспроизвести её визуальные навыки! При том, что тут обучается всего лишь один единственный линейный слой.
По сравнению с FROMAGe тут добавили Q-former и файнтюнинг на своём чистейшем визуально-диалоговом сете (3.5к примеров).
С помощью этой модели можно даже сгенерировать код сайта по одному лишь наброску! Код и веса есть в открытом доступе.
Статья, GitHub, датасет, блог
👍118👎2
Visual Instruction Tuning: как нагенерить визуальные диалоги не обладая зрением (by Microsoft)
Это какое-то читерство! Совсем не обязательно видеть картинки, чтобы генерировать по ним сложные инструктивные диалоги — достаточно подать в ChatGPT их кэпшны и попросить позадавать вопросы в формате чатбота.
«Сделай вид, что ты видишь картинку и можешь ответить на все вопросы»
Потом обучаем на этих синтетических диалогах FROMAGe и готово! SOTA на нескольких бенчмарках!
Статья, GitHub, датасет, демо
Это какое-то читерство! Совсем не обязательно видеть картинки, чтобы генерировать по ним сложные инструктивные диалоги — достаточно подать в ChatGPT их кэпшны и попросить позадавать вопросы в формате чатбота.
«Сделай вид, что ты видишь картинку и можешь ответить на все вопросы»
Потом обучаем на этих синтетических диалогах FROMAGe и готово! SOTA на нескольких бенчмарках!
Статья, GitHub, датасет, демо
👍43👎2
Дропаут ускоряет обучение глубоких моделей (by META)
Раньше считалось, что с дропаутом лосс наоборот падает медленнее, и это своего рода цена за спасение от переобучения — но оказалось, что это не так.
Eсли применять дропаут только в самом начале обучения, а потом отключать, то можно не только спастись от оверфиттинга, но и ускорить сходимость модели!
Это позволяет лучше синхронизировать градиенты на large-scale датасетах, что приводит к стабильному long-term выигрышу на всех архитектурах.
Статья, GitHub
Раньше считалось, что с дропаутом лосс наоборот падает медленнее, и это своего рода цена за спасение от переобучения — но оказалось, что это не так.
Eсли применять дропаут только в самом начале обучения, а потом отключать, то можно не только спастись от оверфиттинга, но и ускорить сходимость модели!
Это позволяет лучше синхронизировать градиенты на large-scale датасетах, что приводит к стабильному long-term выигрышу на всех архитектурах.
Статья, GitHub
👍123
Почему Adam иногда взрывается при обучении больших LM? (by META)
Очень тяжело учить гигантские языковые модели, к примеру, PaLM приходилось перезапускать десятки раз! И откатывать модель на сотни батчей назад из-за возникающих всплесков перплексии. Чтобы найти причины такой нестабильности, авторы провели кучу экспериментов и даже подвели теорию под всё это.
Главную вину возложили на оптимизатор Adam — оказалось, что при обучении больших моделей (от 60B параметров) возникает корреляция градиентов между разными степами. Это нарушает условия Центральной Предельной Теоремы, из-за чего распределение апдейтов весов становится бимодальным (см. картинку), а такие апдейты почти всегда ортогональны истинному направлению оптимизации. Именно это движение «вбок» и приводит к взрыву.
В конце статьи предлагается несколько способов как этого избежать, но единственный надёжный — откат модели на несколько шагов назад.
Статья
Очень тяжело учить гигантские языковые модели, к примеру, PaLM приходилось перезапускать десятки раз! И откатывать модель на сотни батчей назад из-за возникающих всплесков перплексии. Чтобы найти причины такой нестабильности, авторы провели кучу экспериментов и даже подвели теорию под всё это.
Главную вину возложили на оптимизатор Adam — оказалось, что при обучении больших моделей (от 60B параметров) возникает корреляция градиентов между разными степами. Это нарушает условия Центральной Предельной Теоремы, из-за чего распределение апдейтов весов становится бимодальным (см. картинку), а такие апдейты почти всегда ортогональны истинному направлению оптимизации. Именно это движение «вбок» и приводит к взрыву.
В конце статьи предлагается несколько способов как этого избежать, но единственный надёжный — откат модели на несколько шагов назад.
Статья
👍93
Forwarded from эйай ньюз
🔥DeepFloyd IF: новая text-2-image модель
StablityAI выпустили новую модель, которая очень похожа на Imagen от Google, но работает лучше и в open-source.
Архитектура IF, как и у Imagen состоит из трех диффузионных моделей, каждая из которых работает в пространстве RGB и прогрессивно увеличивают картинку. Сначала Text→64×64, затем (Text+64×64)→256×256, и наконец (Text+256×256)→1024×1024. А текст кодируется с помощью текстового энкодера T5.
Почему это круто?
— IF неплохо умеет генерировать текст (я даже генерил в канале ранее), явно лучше чем StableDiffusion XL
— Нормальная открытая имплементация по типу Imagen, которой до сих пор не было. Возможно с какими-то трюками, о которых мы узнаем, когда авторы выпустят блогпост
— FID скор измеряет похожесть снеренированных картинок на реальные. Это чуть ли не основная метрика для качества генерации. У IF FID=6.7, тогда как у Imagen 7.3. Меньше — лучше. Разрыв не космический, но приличный.
Код выложили, веса ждем тут. И ждем подробной статьи от авторов.
@ai_newz
StablityAI выпустили новую модель, которая очень похожа на Imagen от Google, но работает лучше и в open-source.
Архитектура IF, как и у Imagen состоит из трех диффузионных моделей, каждая из которых работает в пространстве RGB и прогрессивно увеличивают картинку. Сначала Text→64×64, затем (Text+64×64)→256×256, и наконец (Text+256×256)→1024×1024. А текст кодируется с помощью текстового энкодера T5.
Почему это круто?
— IF неплохо умеет генерировать текст (я даже генерил в канале ранее), явно лучше чем StableDiffusion XL
— Нормальная открытая имплементация по типу Imagen, которой до сих пор не было. Возможно с какими-то трюками, о которых мы узнаем, когда авторы выпустят блогпост
— FID скор измеряет похожесть снеренированных картинок на реальные. Это чуть ли не основная метрика для качества генерации. У IF FID=6.7, тогда как у Imagen 7.3. Меньше — лучше. Разрыв не космический, но приличный.
Код выложили, веса ждем тут. И ждем подробной статьи от авторов.
@ai_newz
👍39