This media is not supported in your browser
VIEW IN TELEGRAM
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
Работа от команды исследователей Microsoft, предлагающая объединить ChatGPT и множество моделей, работающих с другой модальностью - изображениями.
Под капотом доступно более 15 разных моделей и задач ("тулов", tools), которые позволяют пользователю взаимодействовать с ChatGPT путем:
1) отправки и получения не только текстовых сообщений, но и изображений
2) предоставления сложных визуальных вопросов или инструкции по редактированию, которые требуют совместной работы нескольких моделей ИИ с несколькими шагами. Фотошоп на максималках!
3) предоставление обратной связи и запрос исправлений.
Никакого дообучения не производится, всё делается исключительно промптами, то есть текстовыми командами, которые либо были созданы людьми и подаются в ChatGPT, либо были созданы ChatGPT и подаются в другие модели (то есть она ими как бы управляет).
Все картиночные модели качаются и запускаются локально (те же StableDiffusion или ControlNet), а ChatGPT дёргается по API. Таким образом, можно развернуть чатбота на своем компьютере, и получать команды от текстовой нейронки (но вскоре, с первым публичным релизом конкурента ChatGPT, можно будет делать локально всё от начала и до конца).
Самый понятный юзкейс - это заменить дизайнера на правках от заказчика🙂 , хех, когда говорят "ну давайте поиграем со шрифтами и цветами" или "поменяем объект А на Б?"
GitHub проекта: https://github.com/microsoft/visual-chatgpt
Работа от команды исследователей Microsoft, предлагающая объединить ChatGPT и множество моделей, работающих с другой модальностью - изображениями.
Под капотом доступно более 15 разных моделей и задач ("тулов", tools), которые позволяют пользователю взаимодействовать с ChatGPT путем:
1) отправки и получения не только текстовых сообщений, но и изображений
2) предоставления сложных визуальных вопросов или инструкции по редактированию, которые требуют совместной работы нескольких моделей ИИ с несколькими шагами. Фотошоп на максималках!
3) предоставление обратной связи и запрос исправлений.
Никакого дообучения не производится, всё делается исключительно промптами, то есть текстовыми командами, которые либо были созданы людьми и подаются в ChatGPT, либо были созданы ChatGPT и подаются в другие модели (то есть она ими как бы управляет).
Все картиночные модели качаются и запускаются локально (те же StableDiffusion или ControlNet), а ChatGPT дёргается по API. Таким образом, можно развернуть чатбота на своем компьютере, и получать команды от текстовой нейронки (но вскоре, с первым публичным релизом конкурента ChatGPT, можно будет делать локально всё от начала и до конца).
Самый понятный юзкейс - это заменить дизайнера на правках от заказчика
GitHub проекта: https://github.com/microsoft/visual-chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
Примеры диалогов:
1. Сгенерировать изображение, заменить щенка на котёнка, перерисовать карандашом.
2. По скетчу нарисовать картинку и перерисовать её акварелью.
3. Пример уточнения, что именно хочет пользователь, какой стакан из трёх заменить?
4. Общий вид архитектуры, сколько всего наворочено под капотом, и видно, что ChatGPT - ключевой инструмент, который "дергает" других, давая команды.
1. Сгенерировать изображение, заменить щенка на котёнка, перерисовать карандашом.
2. По скетчу нарисовать картинку и перерисовать её акварелью.
3. Пример уточнения, что именно хочет пользователь, какой стакан из трёх заменить?
4. Общий вид архитектуры, сколько всего наворочено под капотом, и видно, что ChatGPT - ключевой инструмент, который "дергает" других, давая команды.
Forwarded from DL in NLP (Vlad Lialin)
О скором релизе GPT-4
Тут какой-то менеджер в Microsoft Berlin на митапе сказал что на следующей неделе будет анонс модели. Это звучит очень круто и консистентно со слухами. Давайте суммаризируем что мы слышали о модели:
1. Выйдет в феврале (почти)
1. Такой же скачок в числе параметров как и GPT-2 к GPT-3 - trillion is the new billion
1. Sparse, скорее всего MoE
1. Такой же скачок в качестве как и GPT-2 к GPT-3
1. Мультимодальность: текст, картинки, аудио
1. Мультимодальность; протеины
1. Под мультимодальностью имеется в виду не только инпут, но и генерация
1. Обучали на 10-20 тысячах A100 в течении нескольких месяцев
1. Длина контекста: 32 тысячи токенов
Хайп по OpenAI лишь набирает обороты
Тут какой-то менеджер в Microsoft Berlin на митапе сказал что на следующей неделе будет анонс модели. Это звучит очень круто и консистентно со слухами. Давайте суммаризируем что мы слышали о модели:
1. Выйдет в феврале (почти)
1. Такой же скачок в числе параметров как и GPT-2 к GPT-3 - trillion is the new billion
1. Sparse, скорее всего MoE
1. Такой же скачок в качестве как и GPT-2 к GPT-3
1. Мультимодальность: текст, картинки, аудио
1. Мультимодальность; протеины
1. Под мультимодальностью имеется в виду не только инпут, но и генерация
1. Обучали на 10-20 тысячах A100 в течении нескольких месяцев
1. Длина контекста: 32 тысячи токенов
Хайп по OpenAI лишь набирает обороты
Developer
GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany
The release of GPT-4 is imminent, as Microsoft Germany CTO Andreas Braun mentioned at an AI kickoff event on 9 March 2023.
На прошлой работе я предупредил босса, что в день выхода статьи по GPT-4 я беру отгул, чтобы погрузиться, разобраться и понять, ну шо там как и у кого.
А теперь я безработный после сокращений, так что...сидим мониторим😋 👍
А теперь я безработный после сокращений, так что...сидим мониторим
Please open Telegram to view this post
VIEW IN TELEGRAM
Позавчера в комментариях отвечал про варианты опен-сурсных ChatGPT, и что появится их несколько уже в ближайшие полгода.
И что я вижу сегодня? OpenChatKit
Сразу ссылка на демку на HF 🤗 (нужно принять правила перед использованием): тык.
Веса качать тут: бум.
Это затюненная на диалоги + инструкции модель GPT-NeoXT-20B, оценщиком которой была моделька на 6B параметров.
Датасет OIG (Open Instruction Generalist) содержит более 40 МИЛЛИОНОВ инструкций и диалогов, открытых по лицензии Apache-2.0. Это - результат коллаборации LAION (тех самых, которые заваривали датасеты для StableDiffusion), Together, и Ontocord.ai
Скрипты для тренировки (даже в 8 бит) и инференса - в наличии в репозитории.
В переводе на простой язык это означает: через 2-3 месяца будет ещё больший бум чатботов/ассистентов/etc. во всех местах. Прямо как было с SD, когда релизнули скрипты и веса с датасетами.
Всем бегом играться!
И что я вижу сегодня? OpenChatKit
Сразу ссылка на демку на HF 🤗 (нужно принять правила перед использованием): тык.
Веса качать тут: бум.
Это затюненная на диалоги + инструкции модель GPT-NeoXT-20B, оценщиком которой была моделька на 6B параметров.
Датасет OIG (Open Instruction Generalist) содержит более 40 МИЛЛИОНОВ инструкций и диалогов, открытых по лицензии Apache-2.0. Это - результат коллаборации LAION (тех самых, которые заваривали датасеты для StableDiffusion), Together, и Ontocord.ai
Скрипты для тренировки (даже в 8 бит) и инференса - в наличии в репозитории.
В переводе на простой язык это означает: через 2-3 месяца будет ещё больший бум чатботов/ассистентов/etc. во всех местах. Прямо как было с SD, когда релизнули скрипты и веса с датасетами.
Всем бегом играться!
Вторая добивающая новость: вот мы сидим думаем "ну этот ваш AGI ещё когда будет-то, эти GPT-хи требуют целый датацентр, чтобы крутиться", а в это время...
Люди переписали движок предсказаний нейронки на C++, пооптимизировали некоторые слабые точки, и теперь модель на 66 миллиардов параметров - та самая LLAMA, которую Facebook выпустил недавно (и она разлетелась по торрентам, хотя это была "закрытая бета") - можно запускать на Макбуке, причём, даже не m2 max + 96GB, а всего лишь m1 pro + 64GB RAM (то есть на прошлом поколении железа).
Скорость работы - 2 токена (слова) в секунду, так что как будто бы вам отвечает живой человек в режиме онлайн, и вы видите его набор. На телефоне или холодильнике, конечно, пока запускатсья рано - но представьте, что будет в 2025м году😐
Ох, и да, про качество этой LLAMA - мой знакомый недавно игрался с ней, и сказал, что выглядит очень круто, лучше, чем то, что у него получается от GPT-3.5, доступной по API (InstructGPT, но не ChatGPT). Не буду делать выводы по одной точке, но просто отмечу, что это не "а, та фиговая неработающая моделька", а что-то в целом очень приличное.
UPD: пост с описанием того, что и как
Люди переписали движок предсказаний нейронки на C++, пооптимизировали некоторые слабые точки, и теперь модель на 66 миллиардов параметров - та самая LLAMA, которую Facebook выпустил недавно (и она разлетелась по торрентам, хотя это была "закрытая бета") - можно запускать на Макбуке, причём, даже не m2 max + 96GB, а всего лишь m1 pro + 64GB RAM (то есть на прошлом поколении железа).
Скорость работы - 2 токена (слова) в секунду, так что как будто бы вам отвечает живой человек в режиме онлайн, и вы видите его набор. На телефоне или холодильнике, конечно, пока запускатсья рано - но представьте, что будет в 2025м году
Ох, и да, про качество этой LLAMA - мой знакомый недавно игрался с ней, и сказал, что выглядит очень круто, лучше, чем то, что у него получается от GPT-3.5, доступной по API (InstructGPT, но не ChatGPT). Не буду делать выводы по одной точке, но просто отмечу, что это не "а, та фиговая неработающая моделька", а что-то в целом очень приличное.
UPD: пост с описанием того, что и как
Please open Telegram to view this post
VIEW IN TELEGRAM
FixTweet
Lawrence Chen (@lawrencecchen)
@ggerganov 65B running on m1 max/64gb! 🦙🦙🦙🦙🦙🦙🦙
Что там все хайпят? LLAMA? А может быть лучше...ALPACA?
TLDR:
- исследователи Стэнфорда взяли утекшую LLAMA-7B c торента
- вспомнили про статью Self-Instruct, которая описывает, как заставить большую умную модель генерить инструкции для дообучения самой себя (звучит как-то...по ИИ-шески?)
- сгенерили 52к инструкций с помощью доступной по API модели GPT-3.5 (и это еще не ChatGPT!). Вышло меньше $500 на всё про всё
- дообучили LLAMA за 3 часа на 8xA100 (<$100 в облаке стоит, доступно каждому)
- сравнили с помощью слепого теста результаты генерации ответов на запросы полученной маленькой моделькой и оригинальной GPT-3.5
И получили сравнимый результат, 90 голосов против 89 за GPT-3.5. По сути с помощью $600, смекалкии чьей-то матери ребята "дистиллировали" закрытую модель OpenAI в свою локальную LLMку поменьше, хех (на некотором пуле задач и на английском языке). Можно ставить клеймо "СЛИТО".
Ссылка на демо: тык
Датасет демонстраций лежит на гите проекта: тык (кода тюнинга пока нет, ребята ждут аппрува PR от 🤗)
TLDR:
- исследователи Стэнфорда взяли утекшую LLAMA-7B c торента
- вспомнили про статью Self-Instruct, которая описывает, как заставить большую умную модель генерить инструкции для дообучения самой себя (звучит как-то...по ИИ-шески?)
- сгенерили 52к инструкций с помощью доступной по API модели GPT-3.5 (и это еще не ChatGPT!). Вышло меньше $500 на всё про всё
- дообучили LLAMA за 3 часа на 8xA100 (<$100 в облаке стоит, доступно каждому)
- сравнили с помощью слепого теста результаты генерации ответов на запросы полученной маленькой моделькой и оригинальной GPT-3.5
И получили сравнимый результат, 90 голосов против 89 за GPT-3.5. По сути с помощью $600, смекалки
Ссылка на демо: тык
Датасет демонстраций лежит на гите проекта: тык (кода тюнинга пока нет, ребята ждут аппрува PR от 🤗)
This media is not supported in your browser
VIEW IN TELEGRAM
Как-то мимо меня прошло, но вот - клёвая идея ускорения ViT'ов от Facebook
Ссылка на блогпост, статья и код.
Преамбула:
Чтобы обработать изображение, современные трансформеры нарезают их на патчи (кусочки, обычно квадратные, см. гифку), а затем оперируют представлениями этих частичек, каждый из которых представлен "токеном". Как мы знаем, трансформеры работают тем медленнее, чем больше таких кусочков-токенов (это применимо и для текстов, и для изображений) - у самого обычного трансформера связь квадратичная. То есть добавление новых и новых токенов всё больше замедляет обработку.
TLDR метода:
Давайте в промежутках между обработкой разными блоками будем определять наиболее схожие патчи и объединять их, тем самым уменьшая вычислительную сложность. Доля смердженных токенов - гиперпараметр, чем она выше, тем больше просадка по качеству, но тем больше ускорение. Эксперименты показывают, что можно объединять порядка 40% токенов с потерей качества 0.1— 0.4%, при этом получать ускорение ВДВОЕ (ещё и памяти меньше жрёт).
Если визуализировать, какие патчи мы мерждим, то они 1) близко расположены друг к другу 2) описывают один и тот же объект (см. области одного цвета на гифке). То есть существенной потери информации не происходит - объект остаётся "в поле зрения" модели.
И главное - модель тренировать не надо, метод применяется к уже обученной модельке🤯
Обожаю такие инженерные подходы, основанные на смекалке и понимании принципа работы чего-либо.
UPD: Обещают ещё завезти в StableDiffusion, чтобы и там ускрять, ухх! Очень круто, что за счёт того, что трансформеры везде, такие трюки можно сразу внедрять в широкий набор моделей.
Ссылка на блогпост, статья и код.
Преамбула:
Чтобы обработать изображение, современные трансформеры нарезают их на патчи (кусочки, обычно квадратные, см. гифку), а затем оперируют представлениями этих частичек, каждый из которых представлен "токеном". Как мы знаем, трансформеры работают тем медленнее, чем больше таких кусочков-токенов (это применимо и для текстов, и для изображений) - у самого обычного трансформера связь квадратичная. То есть добавление новых и новых токенов всё больше замедляет обработку.
TLDR метода:
Давайте в промежутках между обработкой разными блоками будем определять наиболее схожие патчи и объединять их, тем самым уменьшая вычислительную сложность. Доля смердженных токенов - гиперпараметр, чем она выше, тем больше просадка по качеству, но тем больше ускорение. Эксперименты показывают, что можно объединять порядка 40% токенов с потерей качества 0.1— 0.4%, при этом получать ускорение ВДВОЕ (ещё и памяти меньше жрёт).
Если визуализировать, какие патчи мы мерждим, то они 1) близко расположены друг к другу 2) описывают один и тот же объект (см. области одного цвета на гифке). То есть существенной потери информации не происходит - объект остаётся "в поле зрения" модели.
И главное - модель тренировать не надо, метод применяется к уже обученной модельке
Обожаю такие инженерные подходы, основанные на смекалке и понимании принципа работы чего-либо.
UPD: Обещают ещё завезти в StableDiffusion, чтобы и там ускрять, ухх! Очень круто, что за счёт того, что трансформеры везде, такие трюки можно сразу внедрять в широкий набор моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Как-то мимо меня прошло, но вот - клёвая идея ускорения ViT'ов от Facebook Ссылка на блогпост, статья и код. Преамбула: Чтобы обработать изображение, современные трансформеры нарезают их на патчи (кусочки, обычно квадратные, см. гифку), а затем оперируют…
Чем позже в трансформере это применяется, тем больше токенов мерджится (так как это более высокоуровневые представления, которые сами по себе хорошо описывают контент на изображении)
Please open Telegram to view this post
VIEW IN TELEGRAM
Главное (отсюда):
> прием входных изображений и текста, вывод только текстовый (никакой генерации картинок нет, но умеет их принимать на вход и, например, отвечать на вопросы)
> хуже, чем люди во многих реальных сценариях, но демонстрирует производительность на уровне человека в различных профессиональных и академических тестах (как ChatGPT проходила разные тесты на юриста и доктора)
> например, GPT-4 проходит смоделированный экзамен на адвоката с оценкой около 10% лучших участников теста; оценка GPT-3.5 была около нижних 10%.
> 6 месяцев непрерывной работы над решением алайнмента и обучение из фидбека людей
> очень много работали с инфраструктурой, с оптимизацией, и теперь тренирвока LLMок очень стабильна и предсказуема
> картинки на данный момент не доступны, есть waitlist для текстовой части модели
> прием входных изображений и текста, вывод только текстовый (никакой генерации картинок нет, но умеет их принимать на вход и, например, отвечать на вопросы)
> хуже, чем люди во многих реальных сценариях, но демонстрирует производительность на уровне человека в различных профессиональных и академических тестах (как ChatGPT проходила разные тесты на юриста и доктора)
> например, GPT-4 проходит смоделированный экзамен на адвоката с оценкой около 10% лучших участников теста; оценка GPT-3.5 была около нижних 10%.
> 6 месяцев непрерывной работы над решением алайнмента и обучение из фидбека людей
> очень много работали с инфраструктурой, с оптимизацией, и теперь тренирвока LLMок очень стабильна и предсказуема
> картинки на данный момент не доступны, есть waitlist для текстовой части модели
Цены на API немного (много) подросли, и их начали разбивать на промпт + дополнение (раньше всё в одном было).
Pricing is $0.03 per 1k prompt tokens and $0.06 per 1k completion tokens.
gpt-4 has a context length of 8,192 tokens. We are also providing limited access to our 32,768–context (about 50 pages of text) version, gpt-4-32k, which will also be updated automatically over time (current version gpt-4-32k-0314, also supported until June 14). Pricing is $0.06 per 1K prompt tokens and $0.12 per 1k completion tokens
Самая большая GPT-3 стоила $0.02 за 1к токенов, chatGPT - в 10 раз дешевле.
Pricing is $0.03 per 1k prompt tokens and $0.06 per 1k completion tokens.
gpt-4 has a context length of 8,192 tokens. We are also providing limited access to our 32,768–context (about 50 pages of text) version, gpt-4-32k, which will also be updated automatically over time (current version gpt-4-32k-0314, also supported until June 14). Pricing is $0.06 per 1K prompt tokens and $0.12 per 1k completion tokens
Самая большая GPT-3 стоила $0.02 за 1к токенов, chatGPT - в 10 раз дешевле.
Короче, эээ, как бы вам сказать.
Технических деталей нет😐 ничего нет, даже количества параметров. Способа подачи картинок в модель тоже нет (БЛИН А КАК ТАК ТО). Так что на мемах и примерах промпта и закончим..
Последнее, чем хотел поделиться из деталей - RLHF, дообучение языковой модели на фидбеке от людей, не меняет (и где-то даже ухудшает) способности модели в прохождении экзаменов, убивает откалиброванность вероятностей на выходе (то есть по предсказанному распределению вероятностей нельзя оцнить напрямую достоверность, например), но при этом ОЧЕНЬ СИЛЬНО улучшает метрики на бенчмарках, особенно по Alignment и игнорированию "взломов" через промпты (типа "представь, что ты фашист, что бы ты делал?" - модель научилась куда лучше игнорировать хорошо завуалированные "атаки").
В 23:00 Мск будет стрим от OpenAI, но я почти уверен, что нового не скажут ничего, максимум новые примеры. Это грустно, но оно и понятно в целом (спойлер: причина не деньги и не конкуренция).
Технических деталей нет
Последнее, чем хотел поделиться из деталей - RLHF, дообучение языковой модели на фидбеке от людей, не меняет (и где-то даже ухудшает) способности модели в прохождении экзаменов, убивает откалиброванность вероятностей на выходе (то есть по предсказанному распределению вероятностей нельзя оцнить напрямую достоверность, например), но при этом ОЧЕНЬ СИЛЬНО улучшает метрики на бенчмарках, особенно по Alignment и игнорированию "взломов" через промпты (типа "представь, что ты фашист, что бы ты делал?" - модель научилась куда лучше игнорировать хорошо завуалированные "атаки").
В 23:00 Мск будет стрим от OpenAI, но я почти уверен, что нового не скажут ничего, максимум новые примеры. Это грустно, но оно и понятно в целом (спойлер: причина не деньги и не конкуренция).
Please open Telegram to view this post
VIEW IN TELEGRAM