Сиолошная
51.2K subscribers
944 photos
172 videos
1 file
1.12K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

Работа от команды исследователей Microsoft, предлагающая объединить ChatGPT и множество моделей, работающих с другой модальностью - изображениями.

Под капотом доступно более 15 разных моделей и задач ("тулов", tools), которые позволяют пользователю взаимодействовать с ChatGPT путем:
1) отправки и получения не только текстовых сообщений, но и изображений
2) предоставления сложных визуальных вопросов или инструкции по редактированию, которые требуют совместной работы нескольких моделей ИИ с несколькими шагами. Фотошоп на максималках!
3) предоставление обратной связи и запрос исправлений.

Никакого дообучения не производится, всё делается исключительно промптами, то есть текстовыми командами, которые либо были созданы людьми и подаются в ChatGPT, либо были созданы ChatGPT и подаются в другие модели (то есть она ими как бы управляет).

Все картиночные модели качаются и запускаются локально (те же StableDiffusion или ControlNet), а ChatGPT дёргается по API. Таким образом, можно развернуть чатбота на своем компьютере, и получать команды от текстовой нейронки (но вскоре, с первым публичным релизом конкурента ChatGPT, можно будет делать локально всё от начала и до конца).

Самый понятный юзкейс - это заменить дизайнера на правках от заказчика 🙂, хех, когда говорят "ну давайте поиграем со шрифтами и цветами" или "поменяем объект А на Б?"

GitHub проекта: https://github.com/microsoft/visual-chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
Примеры диалогов:
1. Сгенерировать изображение, заменить щенка на котёнка, перерисовать карандашом.
2. По скетчу нарисовать картинку и перерисовать её акварелью.
3. Пример уточнения, что именно хочет пользователь, какой стакан из трёх заменить?
4. Общий вид архитектуры, сколько всего наворочено под капотом, и видно, что ChatGPT - ключевой инструмент, который "дергает" других, давая команды.
Forwarded from DL in NLP (Vlad Lialin)
О скором релизе GPT-4

Тут какой-то менеджер в Microsoft Berlin на митапе сказал что на следующей неделе будет анонс модели. Это звучит очень круто и консистентно со слухами. Давайте суммаризируем что мы слышали о модели:

1. Выйдет в феврале (почти)
1. Такой же скачок в числе параметров как и GPT-2 к GPT-3 - trillion is the new billion
1. Sparse, скорее всего MoE
1. Такой же скачок в качестве как и GPT-2 к GPT-3
1. Мультимодальность: текст, картинки, аудио
1. Мультимодальность; протеины
1. Под мультимодальностью имеется в виду не только инпут, но и генерация
1. Обучали на 10-20 тысячах A100 в течении нескольких месяцев
1. Длина контекста: 32 тысячи токенов

Хайп по OpenAI лишь набирает обороты
На прошлой работе я предупредил босса, что в день выхода статьи по GPT-4 я беру отгул, чтобы погрузиться, разобраться и понять, ну шо там как и у кого.

А теперь я безработный после сокращений, так что...сидим мониторим 😋👍
Please open Telegram to view this post
VIEW IN TELEGRAM
Позавчера в комментариях отвечал про варианты опен-сурсных ChatGPT, и что появится их несколько уже в ближайшие полгода.

И что я вижу сегодня? OpenChatKit
Сразу ссылка на демку на HF 🤗 (нужно принять правила перед использованием): тык.
Веса качать тут: бум.

Это затюненная на диалоги + инструкции модель GPT-NeoXT-20B, оценщиком которой была моделька на 6B параметров.
Датасет OIG (Open Instruction Generalist) содержит более 40 МИЛЛИОНОВ инструкций и диалогов, открытых по лицензии Apache-2.0. Это - результат коллаборации LAION (тех самых, которые заваривали датасеты для StableDiffusion), Together, и Ontocord.ai

Скрипты для тренировки (даже в 8 бит) и инференса - в наличии в репозитории.

В переводе на простой язык это означает: через 2-3 месяца будет ещё больший бум чатботов/ассистентов/etc. во всех местах. Прямо как было с SD, когда релизнули скрипты и веса с датасетами.

Всем бегом играться!
Вторая добивающая новость: вот мы сидим думаем "ну этот ваш AGI ещё когда будет-то, эти GPT-хи требуют целый датацентр, чтобы крутиться", а в это время...

Люди переписали движок предсказаний нейронки на C++, пооптимизировали некоторые слабые точки, и теперь модель на 66 миллиардов параметров - та самая LLAMA, которую Facebook выпустил недавно (и она разлетелась по торрентам, хотя это была "закрытая бета") - можно запускать на Макбуке, причём, даже не m2 max + 96GB, а всего лишь m1 pro + 64GB RAM (то есть на прошлом поколении железа).

Скорость работы - 2 токена (слова) в секунду, так что как будто бы вам отвечает живой человек в режиме онлайн, и вы видите его набор. На телефоне или холодильнике, конечно, пока запускатсья рано - но представьте, что будет в 2025м году 😐

Ох, и да, про качество этой LLAMA - мой знакомый недавно игрался с ней, и сказал, что выглядит очень круто, лучше, чем то, что у него получается от GPT-3.5, доступной по API (InstructGPT, но не ChatGPT). Не буду делать выводы по одной точке, но просто отмечу, что это не "а, та фиговая неработающая моделька", а что-то в целом очень приличное.

UPD: пост с описанием того, что и как
Please open Telegram to view this post
VIEW IN TELEGRAM
Что там все хайпят? LLAMA? А может быть лучше...ALPACA?

TLDR:
- исследователи Стэнфорда взяли утекшую LLAMA-7B c торента
- вспомнили про статью Self-Instruct, которая описывает, как заставить большую умную модель генерить инструкции для дообучения самой себя (звучит как-то...по ИИ-шески?)
- сгенерили 52к инструкций с помощью доступной по API модели GPT-3.5 (и это еще не ChatGPT!). Вышло меньше $500 на всё про всё
- дообучили LLAMA за 3 часа на 8xA100 (<$100 в облаке стоит, доступно каждому)
- сравнили с помощью слепого теста результаты генерации ответов на запросы полученной маленькой моделькой и оригинальной GPT-3.5

И получили сравнимый результат, 90 голосов против 89 за GPT-3.5. По сути с помощью $600, смекалки и чьей-то матери ребята "дистиллировали" закрытую модель OpenAI в свою локальную LLMку поменьше, хех (на некотором пуле задач и на английском языке). Можно ставить клеймо "СЛИТО".

Ссылка на демо: тык
Датасет демонстраций лежит на гите проекта: тык (кода тюнинга пока нет, ребята ждут аппрува PR от 🤗)
This media is not supported in your browser
VIEW IN TELEGRAM
Как-то мимо меня прошло, но вот - клёвая идея ускорения ViT'ов от Facebook

Ссылка на блогпост, статья и код.

Преамбула:
Чтобы обработать изображение, современные трансформеры нарезают их на патчи (кусочки, обычно квадратные, см. гифку), а затем оперируют представлениями этих частичек, каждый из которых представлен "токеном". Как мы знаем, трансформеры работают тем медленнее, чем больше таких кусочков-токенов (это применимо и для текстов, и для изображений) - у самого обычного трансформера связь квадратичная. То есть добавление новых и новых токенов всё больше замедляет обработку.

TLDR метода:
Давайте в промежутках между обработкой разными блоками будем определять наиболее схожие патчи и объединять их, тем самым уменьшая вычислительную сложность. Доля смердженных токенов - гиперпараметр, чем она выше, тем больше просадка по качеству, но тем больше ускорение. Эксперименты показывают, что можно объединять порядка 40% токенов с потерей качества 0.1— 0.4%, при этом получать ускорение ВДВОЕ (ещё и памяти меньше жрёт).
Если визуализировать, какие патчи мы мерждим, то они 1) близко расположены друг к другу 2) описывают один и тот же объект (см. области одного цвета на гифке). То есть существенной потери информации не происходит - объект остаётся "в поле зрения" модели.
И главное - модель тренировать не надо, метод применяется к уже обученной модельке 🤯

Обожаю такие инженерные подходы, основанные на смекалке и понимании принципа работы чего-либо.

UPD: Обещают ещё завезти в StableDiffusion, чтобы и там ускрять, ухх! Очень круто, что за счёт того, что трансформеры везде, такие трюки можно сразу внедрять в широкий набор моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Как-то мимо меня прошло, но вот - клёвая идея ускорения ViT'ов от Facebook Ссылка на блогпост, статья и код. Преамбула: Чтобы обработать изображение, современные трансформеры нарезают их на патчи (кусочки, обычно квадратные, см. гифку), а затем оперируют…
Чем позже в трансформере это применяется, тем больше токенов мерджится (так как это более высокоуровневые представления, которые сами по себе хорошо описывают контент на изображении)
🏃🏃‍♂️🏃‍♂️ это я бегу за энергетиками чтобы не спать всю ночь и не пропустить анонс

🚨🚨🚨🚨🚨
Please open Telegram to view this post
VIEW IN TELEGRAM
Главное (отсюда):
> прием входных изображений и текста, вывод только текстовый (никакой генерации картинок нет, но умеет их принимать на вход и, например, отвечать на вопросы)
> хуже, чем люди во многих реальных сценариях, но демонстрирует производительность на уровне человека в различных профессиональных и академических тестах (как ChatGPT проходила разные тесты на юриста и доктора)
> например, GPT-4 проходит смоделированный экзамен на адвоката с оценкой около 10% лучших участников теста; оценка GPT-3.5 была около нижних 10%.
> 6 месяцев непрерывной работы над решением алайнмента и обучение из фидбека людей
> очень много работали с инфраструктурой, с оптимизацией, и теперь тренирвока LLMок очень стабильна и предсказуема
> картинки на данный момент не доступны, есть waitlist для текстовой части модели
модель не то что смотрит на картинки, но и спокойно воспринимает мелкий текст. Ещё не дошел до этого, но подозреваю, что на OCR (распознавание) отдельно не учили
Цены на API немного (много) подросли, и их начали разбивать на промпт + дополнение (раньше всё в одном было).
Pricing is $0.03 per 1k prompt tokens and $0.06 per 1k completion tokens.
gpt-4 has a context length of 8,192 tokens. We are also providing limited access to our 32,768–context (about 50 pages of text) version, gpt-4-32k, which will also be updated automatically over time (current version gpt-4-32k-0314, also supported until June 14). Pricing is $0.06 per 1K prompt tokens and $0.12 per 1k completion tokens

Самая большая GPT-3 стоила $0.02 за 1к токенов, chatGPT - в 10 раз дешевле.
в голос (скрин из научной работы, расскажете)
Короче, эээ, как бы вам сказать.

Технических деталей нет 😐 ничего нет, даже количества параметров. Способа подачи картинок в модель тоже нет (БЛИН А КАК ТАК ТО). Так что на мемах и примерах промпта и закончим..
Последнее, чем хотел поделиться из деталей - RLHF, дообучение языковой модели на фидбеке от людей, не меняет (и где-то даже ухудшает) способности модели в прохождении экзаменов, убивает откалиброванность вероятностей на выходе (то есть по предсказанному распределению вероятностей нельзя оцнить напрямую достоверность, например), но при этом ОЧЕНЬ СИЛЬНО улучшает метрики на бенчмарках, особенно по Alignment и игнорированию "взломов" через промпты (типа "представь, что ты фашист, что бы ты делал?" - модель научилась куда лучше игнорировать хорошо завуалированные "атаки").

В 23:00 Мск будет стрим от OpenAI, но я почти уверен, что нового не скажут ничего, максимум новые примеры. Это грустно, но оно и понятно в целом (спойлер: причина не деньги и не конкуренция).
Please open Telegram to view this post
VIEW IN TELEGRAM
И ТАКИ ДА, Bing-Sydney всё это время была...*барабанная дробь*

НА GPT-4

пруф в официальном блоге