Нейродайджест за неделю (#27)
LLM
- Suck Up! Игрушка, где нужно обмануть нпс с прикрученной ллм.
- MobileLLM. Мощнейший способ оптимизировать модельки под мобилы.
- MathΣtral и Codestral Mamba Свежий подгон от Mistral для матеши и кода. Правда последняя сыпется после пары тысяч токенов. И еще вот мем обзор.
- NeMo. Еще один релиз Мистраль - мини (на 12B лол) мультиязычная модель.
- GPT-4o mini. Супер дешевая и эффективная модель, эх ушла эпоха gpt 3.5
- Claude for Android. Простенькое приложение для мобилок.
Гайды
- Workspace Labs. Гугл начали раскатывать представленные на последней презентации фичи.
- Воркшопы Nvidia. Гайды ну прям для самых прошаренных, так как обойдутся в копеечку. Но зато какая там инфа!
- Очередной ШЭДЭЭВР от Эндрю Ына. Небольшой курс по промпт-инжинирингу LLaMa для самых маленьких.
Прочее
- CloneRobotics. Терминатор все ближе, поляки строят анатомически точный клон человека, пока есть только рука.
- Виртуальный аватар с нейрорендером. Чел прикрутил геймпад от плойки к простенькой 3д модельке персонажа и прогнал через img2img.
- PixArt 900M 1024x1024. Расширенная txt2img модель. Интересно, как стакают слои в DiT диффущиях. Радует, что опенсорс не стоит на месте.
Я провел юбилейный стрим в честь 50К, посвещенный учебе и карьере в AI.
Релевантные посты, про которые я говорил на стриме:
– Как я запромоутился на Staff Research Scientist (тык)
– Инженерные грейды в Big Tech (ч1)
– Инженерные грейды в Big Tech (ч2)
– Как я вкатывался в AI:
– Часть 1
– Часть 2
– Что я делал в первые месяцы PhD (из письма от моего научника)
– Нетворкинг или как я познакомился со свом интерн-менеджером из Faсebook (тык)
– Мои ресерч проекты на стыке Истории Искусств и Computer Vision (тык)
> Читать дайджест #26
#дайджест
@ai_newz
LLM
- Suck Up! Игрушка, где нужно обмануть нпс с прикрученной ллм.
- MobileLLM. Мощнейший способ оптимизировать модельки под мобилы.
- MathΣtral и Codestral Mamba Свежий подгон от Mistral для матеши и кода. Правда последняя сыпется после пары тысяч токенов. И еще вот мем обзор.
- NeMo. Еще один релиз Мистраль - мини (на 12B лол) мультиязычная модель.
- GPT-4o mini. Супер дешевая и эффективная модель, эх ушла эпоха gpt 3.5
- Claude for Android. Простенькое приложение для мобилок.
Гайды
- Workspace Labs. Гугл начали раскатывать представленные на последней презентации фичи.
- Воркшопы Nvidia. Гайды ну прям для самых прошаренных, так как обойдутся в копеечку. Но зато какая там инфа!
- Очередной ШЭДЭЭВР от Эндрю Ына. Небольшой курс по промпт-инжинирингу LLaMa для самых маленьких.
Прочее
- CloneRobotics. Терминатор все ближе, поляки строят анатомически точный клон человека, пока есть только рука.
- Виртуальный аватар с нейрорендером. Чел прикрутил геймпад от плойки к простенькой 3д модельке персонажа и прогнал через img2img.
- PixArt 900M 1024x1024. Расширенная txt2img модель. Интересно, как стакают слои в DiT диффущиях. Радует, что опенсорс не стоит на месте.
Я провел юбилейный стрим в честь 50К, посвещенный учебе и карьере в AI.
Релевантные посты, про которые я говорил на стриме:
– Как я запромоутился на Staff Research Scientist (тык)
– Инженерные грейды в Big Tech (ч1)
– Инженерные грейды в Big Tech (ч2)
– Как я вкатывался в AI:
– Часть 1
– Часть 2
– Что я делал в первые месяцы PhD (из письма от моего научника)
– Нетворкинг или как я познакомился со свом интерн-менеджером из Faсebook (тык)
– Мои ресерч проекты на стыке Истории Искусств и Computer Vision (тык)
> Читать дайджест #26
#дайджест
@ai_newz
Принес вам сборку компьютера для Deep Learning в 2024, и рассказ о работе ML инженера
Еще можете глянуть забавное видео "День из жизни ML инжинера (в маленьком стартапе)", откуда я и взял эту сборку.
По стоимости комп вышел $3900, не учитывая Nvidia RTX 4090 24GB, которая сейчас стоит примерно $1800. Итого $5700 (но это в Америке).
Есть подозрение, что чел просто взял самые дорогие компоненты без раздумий, поэтому принимать этот пример нуднсо щепоткой соли. Но такой машины хватит, чтобы файнтюнить большинство СОТА моделей и гонять инференс почти всего что есть в опенсорс с достойной скоростью.
Самое важное что чел в видео сказал, так это то что на построение самой модели у него как у ML инженера уходит не так много времени, и большую часть времени они заняты данными. Думаю, это особенно актуально для маленьких стартапов, где обычно нет moat в плане моделей, но есть премущество в том, что они затачивают существующие модели под эффективное решение определенных задач. В условном Mistral архитектурой модели, я уверен, тоже не так много людей занимается, и очень много ресурсов уходит именно на "правильную готовку" данных и на инжиниринг пайплайнов обучения.
Делитесь своими сборками для Deep Learning в комментах.
#карьера
@ai_newz
Еще можете глянуть забавное видео "День из жизни ML инжинера (в маленьком стартапе)", откуда я и взял эту сборку.
По стоимости комп вышел $3900, не учитывая Nvidia RTX 4090 24GB, которая сейчас стоит примерно $1800. Итого $5700 (но это в Америке).
Есть подозрение, что чел просто взял самые дорогие компоненты без раздумий, поэтому принимать этот пример нуднсо щепоткой соли. Но такой машины хватит, чтобы файнтюнить большинство СОТА моделей и гонять инференс почти всего что есть в опенсорс с достойной скоростью.
Самое важное что чел в видео сказал, так это то что на построение самой модели у него как у ML инженера уходит не так много времени, и большую часть времени они заняты данными. Думаю, это особенно актуально для маленьких стартапов, где обычно нет moat в плане моделей, но есть премущество в том, что они затачивают существующие модели под эффективное решение определенных задач. В условном Mistral архитектурой модели, я уверен, тоже не так много людей занимается, и очень много ресурсов уходит именно на "правильную готовку" данных и на инжиниринг пайплайнов обучения.
Делитесь своими сборками для Deep Learning в комментах.
#карьера
@ai_newz
Купил билеты на ECCV, которая пройдет в конце сентября в Милане.
European Conference on Computer Vision или ECCV – это топовая конференция по компьютерному зрению. Она проходит раз в два года, обычно в Европе. Но 2020 конфа была в Израиле, мне тогда там очень понравилось (пост1, пост2).
Билеты в кармане, так что теперь я точно в деле! Будем устраивать тусы, как я обычно это делаю на конференциях.
Ведь одна из основных целей посещения конференций для меня, если не самая главная – это нетворкинг (пост про это)!
Кто-то из вас тоже планирует поехать?
#конфа
@ai_newz
European Conference on Computer Vision или ECCV – это топовая конференция по компьютерному зрению. Она проходит раз в два года, обычно в Европе. Но 2020 конфа была в Израиле, мне тогда там очень понравилось (пост1, пост2).
Билеты в кармане, так что теперь я точно в деле! Будем устраивать тусы, как я обычно это делаю на конференциях.
Ведь одна из основных целей посещения конференций для меня, если не самая главная – это нетворкинг (пост про это)!
Кто-то из вас тоже планирует поехать?
#конфа
@ai_newz
XAI построили крупнейший тренировочный кластер в мире
Но самый большой построенный не значит самый большой работающий. Питаться кластеру пока что не от чего: из рассчитанных 200 мегаватт, в датацентр поступает всего лишь 8. То есть из ста тысяч GPU энергии хватает примерно на четыре тысячи. В начале следующего месяца ситуация должна поправиться - подстанция, питающая датацентр заработает на полную. Это даст на него 50 мегаватт и позволит выйти на уровень производительности одного из двух кластеров, которые Meta запустила в марте. Полностью запустить кластер удастся только в конце этого года/начале следующего.
Затык в тренировке ИИ всё больше и больше не в чипах, а в энергии. Это приведёт в ближайшие годы к куче странных феноменов: мы всё больше будем видеть компании, сбрасывающие GPU прошлого поколения за бесценок, просто потому что их нечем питать. Так и в реакторы синтеза от Альтмана начинаешь верить.
Кажется, Grok 3 всё-таки релизнется по Elon time, а не в декабре
@ai_newz
Но самый большой построенный не значит самый большой работающий. Питаться кластеру пока что не от чего: из рассчитанных 200 мегаватт, в датацентр поступает всего лишь 8. То есть из ста тысяч GPU энергии хватает примерно на четыре тысячи. В начале следующего месяца ситуация должна поправиться - подстанция, питающая датацентр заработает на полную. Это даст на него 50 мегаватт и позволит выйти на уровень производительности одного из двух кластеров, которые Meta запустила в марте. Полностью запустить кластер удастся только в конце этого года/начале следующего.
Затык в тренировке ИИ всё больше и больше не в чипах, а в энергии. Это приведёт в ближайшие годы к куче странных феноменов: мы всё больше будем видеть компании, сбрасывающие GPU прошлого поколения за бесценок, просто потому что их нечем питать. Так и в реакторы синтеза от Альтмана начинаешь верить.
Кажется, Grok 3 всё-таки релизнется по Elon time, а не в декабре
@ai_newz
эйай ньюз
XAI построили крупнейший тренировочный кластер в мире Но самый большой построенный не значит самый большой работающий. Питаться кластеру пока что не от чего: из рассчитанных 200 мегаватт, в датацентр поступает всего лишь 8. То есть из ста тысяч GPU энергии…
Апдейт: кластер хоть запитан не весь, но работает там сильно больше GPU, чем можно подумать по его потреблению из электросети. А именно ~32 тысячи H100, треть кластера.
Секрет успеха - генераторы, которые подвезли прямо к кластеру. Если количество генераторов останется константным, то в августе может заработать уже больше половины кластера.
А вот в четвёртом квартале энергии будет уже с избытком - подведено к датацентру будет 200 мегаватт, тогда как кушать он будет всего ~150.
@ai_newz
Секрет успеха - генераторы, которые подвезли прямо к кластеру. Если количество генераторов останется константным, то в августе может заработать уже больше половины кластера.
А вот в четвёртом квартале энергии будет уже с избытком - подведено к датацентру будет 200 мегаватт, тогда как кушать он будет всего ~150.
@ai_newz
Знаю, что многие из вас интересуются не только ресерчем, но и AI с продуктовой точки зрения.
Поэтому, вот, ловите список книг для вкатывания в тему, где сливается AI и бизнес: https://t.me/ainastia/23
#книги
@ai_newz
Поэтому, вот, ловите список книг для вкатывания в тему, где сливается AI и бизнес: https://t.me/ainastia/23
#книги
@ai_newz
Telegram
Anastasia.ai – Tech Entrepreneur in🇨🇭
Топ 11 книг для начинающих Data/AI продакт менеджеров
Как я уже писала в предыдущем посте, сфера Data/AI продакт менеджмента на данный момент очень востребована и состоит из четырех областей: данные/ИИ, юзер-дизайн, технологии (софт) и бизнес.
Чтобы уверенно…
Как я уже писала в предыдущем посте, сфера Data/AI продакт менеджмента на данный момент очень востребована и состоит из четырех областей: данные/ИИ, юзер-дизайн, технологии (софт) и бизнес.
Чтобы уверенно…
Meta выпустила Llama 3.1
Версии на 8B, 70B и наконец на 405B! Размер контекста увеличился до 128к токенов.
https://llama.meta.com/
@ai_newz
Версии на 8B, 70B и наконец на 405B! Размер контекста увеличился до 128к токенов.
https://llama.meta.com/
@ai_newz
эйай ньюз
Meta выпустила Llama 3.1 Версии на 8B, 70B и наконец на 405B! Размер контекста увеличился до 128к токенов. https://llama.meta.com/ @ai_newz
Доступные для скачивания модели LLaMa 3.1
Pretrained:
Meta-Llama-3.1-8B
Meta-Llama-3.1-70B
Meta-Llama-3.1-405B
Meta-Llama-3.1-405B-MP16
Meta-Llama-3.1-405B-FP8
Fine-tuned:
Meta-Llama-3.1-8B-Instruct
Meta-Llama-3.1-70B-Instruct
Meta-Llama-3.1-405B-Instruct
Meta-Llama-3.1-405B-Instruct-MP16
Meta-Llama-3.1-405B-Instruct-FP8
Llama-Guard-3-8B
Llama-Guard-3-8B-INT8
Llama-Guard-2-8B
Llama-Guard-8B
Prompt-Guard-86M
Примечание для 405B:
Выпустили несколько версий модели 405B, чтобы уместить ее большой размер и обеспечить различные варианты деплоя:
– MP16 (Model Parallel 16) - это полная версия весов BF16. Эти веса можно деплоить только на нескольких нодах с использованием pipelined parallel инференса. Минимально требуется 2 ноды с 8 GPU для деплоя.
– MP8 - это также полная версия весов BF16, но может быть задеплоена на одном ноде с 8 GPU с использованием динамического квантования FP8 (Floating Point 8). Выложили код для этого.
– FP8 (Floating Point 8) - это квантованная версия весов. Эти веса можно деплоить на одном ноде с 8 GPU с использованием статической квантования FP. Есть код и для этого.
– Модель 405B требует примерно 750 ГБ и минимум двух нод (по 8 GPU) для инференса в MP16.
@ai_newz
Pretrained:
Meta-Llama-3.1-8B
Meta-Llama-3.1-70B
Meta-Llama-3.1-405B
Meta-Llama-3.1-405B-MP16
Meta-Llama-3.1-405B-FP8
Fine-tuned:
Meta-Llama-3.1-8B-Instruct
Meta-Llama-3.1-70B-Instruct
Meta-Llama-3.1-405B-Instruct
Meta-Llama-3.1-405B-Instruct-MP16
Meta-Llama-3.1-405B-Instruct-FP8
Llama-Guard-3-8B
Llama-Guard-3-8B-INT8
Llama-Guard-2-8B
Llama-Guard-8B
Prompt-Guard-86M
Примечание для 405B:
Выпустили несколько версий модели 405B, чтобы уместить ее большой размер и обеспечить различные варианты деплоя:
– MP16 (Model Parallel 16) - это полная версия весов BF16. Эти веса можно деплоить только на нескольких нодах с использованием pipelined parallel инференса. Минимально требуется 2 ноды с 8 GPU для деплоя.
– MP8 - это также полная версия весов BF16, но может быть задеплоена на одном ноде с 8 GPU с использованием динамического квантования FP8 (Floating Point 8). Выложили код для этого.
– FP8 (Floating Point 8) - это квантованная версия весов. Эти веса можно деплоить на одном ноде с 8 GPU с использованием статической квантования FP. Есть код и для этого.
– Модель 405B требует примерно 750 ГБ и минимум двух нод (по 8 GPU) для инференса в MP16.
@ai_newz
Первые API провайдеры начали предлагать Llama 3.1 405B в своих сервисах. И это теперь самая дешёвая фронтирная модель!
fireworks.ai продаёт токены по цене в $3 за миллион и input и output токенов (у 3.5 Sonnet - $3 input/$15 output, 4o - $5 input/$15 output). При этом цена может упасть ещё больше, по мере того как провайдеры конкурируют друг с другом.
Ждём чтобы context caching и batch API предоставляло больше провайдеров
@ai_newz
fireworks.ai продаёт токены по цене в $3 за миллион и input и output токенов (у 3.5 Sonnet - $3 input/$15 output, 4o - $5 input/$15 output). При этом цена может упасть ещё больше, по мере того как провайдеры конкурируют друг с другом.
Ждём чтобы context caching и batch API предоставляло больше провайдеров
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Llama 3.1 405B, квантизированная до 4 бит, запущенная на двух макбуках (128 гиг оперативки у каждого). Возможно это с помощью exo - тулы, позволяющей запускать модельку распределённо на нескольких девайсах. Поддерживаются практически любые GPU, телефоны, планшеты, макбуки и почти всё о чём можно подумать.
Запустить ламу на домашнем кластере
@ai_newz
Запустить ламу на домашнем кластере
@ai_newz
День за днём новости все жарче!
Kling раскатили на весь мир. Регистрация просто по почте. Ожидаются кратковременные лежащие сервера. Хотя интересно как китайцы подготовились к наплыву.
В бесплатном режиме каждый день дают кредитов, которых хватит чтобы сгенерить 6 видео.
Бегом тестить на klingai.com
@ai_newz
Kling раскатили на весь мир. Регистрация просто по почте. Ожидаются кратковременные лежащие сервера. Хотя интересно как китайцы подготовились к наплыву.
В бесплатном режиме каждый день дают кредитов, которых хватит чтобы сгенерить 6 видео.
Бегом тестить на klingai.com
@ai_newz
⚡️Файнтюним LLaMa 3.1 8B бесплатно в Google Collab
Принес вам колабчик от Unsloth-ai, в котором можно бесплатно зафайнтюнить LLaMa 3.1 8B и еще кучу других моделей в 4 bit. Всё дело влазит в 8GB VRAM. Вот блогпост об этом.
Если хотите, то можно и Llama-3.1 70b затюнить c помощью QLoRA – потребуется 48GB VRAM.
https://colab.research.google.com/drive/1Ys44kVvmeZtnICzWz0xgpRnrIOjZAuxp?usp=sharing
@ai_newz
Принес вам колабчик от Unsloth-ai, в котором можно бесплатно зафайнтюнить LLaMa 3.1 8B и еще кучу других моделей в 4 bit. Всё дело влазит в 8GB VRAM. Вот блогпост об этом.
Если хотите, то можно и Llama-3.1 70b затюнить c помощью QLoRA – потребуется 48GB VRAM.
https://colab.research.google.com/drive/1Ys44kVvmeZtnICzWz0xgpRnrIOjZAuxp?usp=sharing
@ai_newz
Unsloth - Open source Fine-tuning for LLMs
Finetune Llama 3.1 with Unsloth
Fine-tune and run Meta's updated Llama 3.1 model with 6x longer context lengths via Unsloth!
Эта арена сломалась, несите новую
Что-то GPT-4o mini слишком высоко на арене. Видимо, OpenAI начали слишком сильно тюнить модели для арены (если кто не знал, lmsys публикует 20% чатов, которые случаются на арене, OpenAI этого было достаточно). Что ж, закон Гудхарта в действии.
Кстати, с последнего раза, когда я писал об арене, топ-1 опенсорс модель успела смениться несколько раз. Сначала Nemotron 340B от Nvidia обошёл Llama 3.0 70B, после этого его уже обскакала Gemma 2, а сейчас лидирует новая версия DeepSeek V2. Llama 3.1 там ещё нет, но результаты должны быть уже скоро.
Узнать подробнее, что за Арена можно в этом посте.
@ai_newz
Что-то GPT-4o mini слишком высоко на арене. Видимо, OpenAI начали слишком сильно тюнить модели для арены (если кто не знал, lmsys публикует 20% чатов, которые случаются на арене, OpenAI этого было достаточно). Что ж, закон Гудхарта в действии.
Кстати, с последнего раза, когда я писал об арене, топ-1 опенсорс модель успела смениться несколько раз. Сначала Nemotron 340B от Nvidia обошёл Llama 3.0 70B, после этого его уже обскакала Gemma 2, а сейчас лидирует новая версия DeepSeek V2. Llama 3.1 там ещё нет, но результаты должны быть уже скоро.
Узнать подробнее, что за Арена можно в этом посте.
@ai_newz
AlphaProof - нейросеть Google решает задачи с IMO (международной олимпиады по математике) на уровне серебряного медалиста
Модель идеально решила 4 проблемы из 6, набрав 28 баллов из 42. Для золотой медали нужно 29 баллов. Единственная проблема - на некоторые задачи уходило больше 60 часов, тогда как у человека на все задачи в сумме 9 часов.
Подход концептуально относительно простой - зафайнтюненная Gemini переводит условие задачи в формат Lean (инструмент доказательства теорем такой). Дальше в дело вступает знакомый алгоритм AlphaZero, который научили решать формальные проблемы.
Если вы не знакомы с Lean и интересно что это такое - попробуйте natural numbers game, это прекрасное введение в Lean, которое прошёл даже Терри Тао.
Блогпост
@ai_newz
Модель идеально решила 4 проблемы из 6, набрав 28 баллов из 42. Для золотой медали нужно 29 баллов. Единственная проблема - на некоторые задачи уходило больше 60 часов, тогда как у человека на все задачи в сумме 9 часов.
Подход концептуально относительно простой - зафайнтюненная Gemini переводит условие задачи в формат Lean (инструмент доказательства теорем такой). Дальше в дело вступает знакомый алгоритм AlphaZero, который научили решать формальные проблемы.
Если вы не знакомы с Lean и интересно что это такое - попробуйте natural numbers game, это прекрасное введение в Lean, которое прошёл даже Терри Тао.
Блогпост
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI запустили превью своего поиска!
Это временный прототип, функции из которого планируют интегрировать в обычный ChatGPT. Поиск будет давать ссылки на источники. Ему можно будет задавать наводящие вопросы.
Отмечают, что они работают с издателями и криейторами чтобы лицензировать их контент. Это важно, ведь текущий лидер по ИИ поиску Perplexity (я, кстати, и сам им пользуюсь), недавно попал в скандал из-за игнорирования robots.txt.
Моя догадка: Скорее всего они будут покупать поисковые запросы у Бинга.
Записаться в вейтлист
@ai_newz
Это временный прототип, функции из которого планируют интегрировать в обычный ChatGPT. Поиск будет давать ссылки на источники. Ему можно будет задавать наводящие вопросы.
Отмечают, что они работают с издателями и криейторами чтобы лицензировать их контент. Это важно, ведь текущий лидер по ИИ поиску Perplexity (я, кстати, и сам им пользуюсь), недавно попал в скандал из-за игнорирования robots.txt.
Моя догадка: Скорее всего они будут покупать поисковые запросы у Бинга.
Записаться в вейтлист
@ai_newz
Слили список видео, на которых тренировали Runway GEN-3.
Спойлер: конечно же, там куча пиратского контента. Также выкачивали красивые блогерскик видео с Ютуба.
Хз, правда кого в 2024-м можно этим удивить.
404media ссылается на бывшего сотрудника, который слил целый документ со ссылками на избранные плейлисты и каналы в ютубе для парсинга видео в датасет. Кроме того, документ содержит ссылки на сайты с пиратскими фильмами.
Примечательно, что такие сливы обычно опираются на "чьи-то слова" и притянутые за уши примеры похожих генераций, а тут прям целый документ с конкретными ссылками и тегами.
Смешно, что до обращения 404media runway спокойно генерала видосы с именами Ютуберов в промпте, а сейчас говорят, отказывается работать, лол.
Интересно, чем этот скандал закончится. Я не удивлюсь, если и OpenAI тренились на видео из Ютуба, и поэтому сейчас они особенно боятся давать доступ к SORA (вы ещё помните, что такая была?).
Источник
Документ
@ai_newz
Спойлер: конечно же, там куча пиратского контента. Также выкачивали красивые блогерскик видео с Ютуба.
Хз, правда кого в 2024-м можно этим удивить.
404media ссылается на бывшего сотрудника, который слил целый документ со ссылками на избранные плейлисты и каналы в ютубе для парсинга видео в датасет. Кроме того, документ содержит ссылки на сайты с пиратскими фильмами.
Примечательно, что такие сливы обычно опираются на "чьи-то слова" и притянутые за уши примеры похожих генераций, а тут прям целый документ с конкретными ссылками и тегами.
Смешно, что до обращения 404media runway спокойно генерала видосы с именами Ютуберов в промпте, а сейчас говорят, отказывается работать, лол.
Интересно, чем этот скандал закончится. Я не удивлюсь, если и OpenAI тренились на видео из Ютуба, и поэтому сейчас они особенно боятся давать доступ к SORA (вы ещё помните, что такая была?).
Источник
Документ
@ai_newz
In-Context Reinforcement Learning for Variable Action Spaces (ICML 2024, T-Bank AI Research и AIRI)
In-context learning - это способность больших языковых моделей (LLM) выполнять новые задачи, основываясь на нескольких примерах, предоставленных в промпте, без необходимости дополнительного обучения или файнтюнинга параметров модели. ChatGPT или LLaMa 3.1 так умеет, описываете пару примеров в запросе, и задача решается (например, задача классификации настроения).
А есть ли что-то аналогичное для Reinforcement Learning? Например, я показываю боту несколько примеров, как играть в новую игру на PS5, и он проходит всю игру сам после этого. Ну вот такого еще особо нет, но мы (как комьюнити AI ресерчеров) к этому стремимся, пока на более простых задачах.
В 2022 году в DeepMind-е представил метод под названием Algorithm Distillation. Суть метода в том, чтобы "перегнать" алгоритмы обучения с подкреплением (RL) в нейронку на базе трансформера. Вот как это работает:
1. Сначала обычный RL алгоритм учиться решать разные задачи.
2. Вся история его обучения записывается - состояния, действия, награды.
3. Затем эту историю обучения "скармливают" трансформеру, который учится предсказывать действия агента. То есть получают условный ChatGPT, который работает на траекториях действий агента и выдает следующее действие.
Самое интересное, что получившийся трансформер может сам решать "новые задачи" обучения с подкреплением, причем иногда даже лучше, чем исходный алгоритм. И делает он это "на лету", не меняя свои веса. "Новые задачи" я взял в кавычки, потому что реальной генерализации там не было, и модель училась решать только задачи, очень похожие на те, что ей показали во время обучения (например, находить заданную клетку на 2D поле размером 9x9, как в бенчмарке DarkRoom) и список доступных действий после завершения обучения менять нельзя. То есть если бота в Doom2 учили только убегать от монстров, то стрелять по ним он уже не сможет, даже если показать ему пример такой последовательности действий.
В свежей статье "In-Context RL for Variable Action Spaces" с ICML 2024 парни улучшили метод Дипмайнда так, что бы он мог на лету адаптироваться к гораздо бóльшим изменения условий решаемой задачи. Например они позволили модели работать с новыми типами экшенов во время теста, причем их может быть в разы больше чем во время трейна. Модель по заданному контексту (история взаимодействия с окружением) понимает какой смысл имеет каждое новое действие и может их использовать.
В качестве трансформера, в который кормится контекст с последовательностями действий, ревордов и состояния мира, тут использовали архитектуру на базе TinyLLaMA. Технический трюк был в том, чтобы не учить трансформер работать с фиксированными экшенами, а представлять их на входе случайными ортогональными векторами. Таким образом новые действия всегда можно представить новыми векторами, а на выходе модели получать эмбеддинг и выбор действия делать, используя nearest neighbour вектор из доступных действий.
В этой работе, конечно, тестили только простенькие задачи вроде однокурих бандитов и движения по 2d лабиринту, где метод показывал хорошую генерализация. Ожидаю, что в будущем вы увидим и более сложные задачи, которые будут решаться через in-context learning в том или ином виде. Без этого роботам за нами будет не угнаться🔫 .
@ai_newz
In-context learning - это способность больших языковых моделей (LLM) выполнять новые задачи, основываясь на нескольких примерах, предоставленных в промпте, без необходимости дополнительного обучения или файнтюнинга параметров модели. ChatGPT или LLaMa 3.1 так умеет, описываете пару примеров в запросе, и задача решается (например, задача классификации настроения).
А есть ли что-то аналогичное для Reinforcement Learning? Например, я показываю боту несколько примеров, как играть в новую игру на PS5, и он проходит всю игру сам после этого. Ну вот такого еще особо нет, но мы (как комьюнити AI ресерчеров) к этому стремимся, пока на более простых задачах.
В 2022 году в DeepMind-е представил метод под названием Algorithm Distillation. Суть метода в том, чтобы "перегнать" алгоритмы обучения с подкреплением (RL) в нейронку на базе трансформера. Вот как это работает:
1. Сначала обычный RL алгоритм учиться решать разные задачи.
2. Вся история его обучения записывается - состояния, действия, награды.
3. Затем эту историю обучения "скармливают" трансформеру, который учится предсказывать действия агента. То есть получают условный ChatGPT, который работает на траекториях действий агента и выдает следующее действие.
Самое интересное, что получившийся трансформер может сам решать "новые задачи" обучения с подкреплением, причем иногда даже лучше, чем исходный алгоритм. И делает он это "на лету", не меняя свои веса. "Новые задачи" я взял в кавычки, потому что реальной генерализации там не было, и модель училась решать только задачи, очень похожие на те, что ей показали во время обучения (например, находить заданную клетку на 2D поле размером 9x9, как в бенчмарке DarkRoom) и список доступных действий после завершения обучения менять нельзя. То есть если бота в Doom2 учили только убегать от монстров, то стрелять по ним он уже не сможет, даже если показать ему пример такой последовательности действий.
В свежей статье "In-Context RL for Variable Action Spaces" с ICML 2024 парни улучшили метод Дипмайнда так, что бы он мог на лету адаптироваться к гораздо бóльшим изменения условий решаемой задачи. Например они позволили модели работать с новыми типами экшенов во время теста, причем их может быть в разы больше чем во время трейна. Модель по заданному контексту (история взаимодействия с окружением) понимает какой смысл имеет каждое новое действие и может их использовать.
В качестве трансформера, в который кормится контекст с последовательностями действий, ревордов и состояния мира, тут использовали архитектуру на базе TinyLLaMA. Технический трюк был в том, чтобы не учить трансформер работать с фиксированными экшенами, а представлять их на входе случайными ортогональными векторами. Таким образом новые действия всегда можно представить новыми векторами, а на выходе модели получать эмбеддинг и выбор действия делать, используя nearest neighbour вектор из доступных действий.
В этой работе, конечно, тестили только простенькие задачи вроде однокурих бандитов и движения по 2d лабиринту, где метод показывал хорошую генерализация. Ожидаю, что в будущем вы увидим и более сложные задачи, которые будут решаться через in-context learning в том или ином виде. Без этого роботам за нами будет не угнаться
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Если вы прочитали пост выше и ничего не поняли, то вот вам подборка курсов и материалов, чтобы вкатиться в Reinforcement Learning (RL).
1️⃣ Библия Reinforcement Learning от Ричарда Саттона, хардкорная книга со всей базой.
2️⃣ Курс по Deep Reinforcement Learning от HuggingFace, с практикой.
3️⃣ Spinning Up in Deep RL - мини-курс от OpenAI. База за 3 часа, с кодом.
4️⃣ Пример как в гугле обучали мультизадачных робо-руки с помощью Offline RL. Довольно старая статья, но это интересный и понятный кейс.
Вперед к новым знаниям!
#ликбез
@ai_newz
Вперед к новым знаниям!
#ликбез
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
эйай ньюз
На рождество получил отличный подарок. Это библия Reinforcement Learning от Ричарда Саттона. Второе дополненное издание — особенно крутое.
Собираюсь за праздники подтянуть базу по RL. Советую эту книгу всем, кто хочет реально разобраться, на каких принципах…
Собираюсь за праздники подтянуть базу по RL. Советую эту книгу всем, кто хочет реально разобраться, на каких принципах…
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Вышел убийца Kling! Генерит за 30 секунд!
Ну почти...
Тут чуваки из Zhipu AI (это AI-стартап, китайский аналог Open AI со своим блэкджеком и ChatGPTGLM) выпустили свою Sora. Штука генерит 6-секундные видео за 30 секунд, что ну очень быстро, согласитесь (в Клинге я ждал больше часа, у Лумы 5 сек генерится 2 минуты). Так быстро работает, насколько я понял, из-за их хитрого 3D автоэнкодера, который сжимает представление видео в latent space до 2% от оригинального размера.
Вот промпты для видосиков из примера с голливудской адаптацией на английский язык от Google переводчика:
Остальные без инструкций, так, для примера.
Качество ну не синематик, видно, что тренили на стоках и каких-то странных китайских видео. Назвали Qingying или Ying. Пока кредиты безлимитные. Я хотел потестить, но похоже, мы снова столкнулись с новым феноменом: paywall по-китайски. Опять нужен китайский номер :( Может, у кого из вас выйдет вот ссылка.
Как же китайцы дрючат!
Источник
Пытаемся вломиться здесь
@ai_newz
Ну почти...
Тут чуваки из Zhipu AI (это AI-стартап, китайский аналог Open AI со своим блэкджеком и Chat
Вот промпты для видосиков из примера с голливудской адаптацией на английский язык от Google переводчика:
In a lush forest, some sunlight shines through the gaps between leaves, creating a Tyndall effect, giving the light shape.
When the tsunami roared in like a raging monster, the entire village was instantly swallowed up by the sea, just like a classic scene in a doomsday movie.
In the neon-lit city night scene, a little monkey full of cyber beauty holds high-tech tools and repairs equally flashing, futuristic electronic equipment.
Changing the style of painting, the kitten opened its mouth wide, showing a human-like confused expression, with question marks written all over its face.
Остальные без инструкций, так, для примера.
Качество ну не синематик, видно, что тренили на стоках и каких-то странных китайских видео. Назвали Qingying или Ying. Пока кредиты безлимитные. Я хотел потестить, но похоже, мы снова столкнулись с новым феноменом: paywall по-китайски. Опять нужен китайский номер :( Может, у кого из вас выйдет вот ссылка.
Источник
Пытаемся вломиться здесь
@ai_newz