я обучала одну модель
OpenAI релизнули (и вроде даже можно дергать через API) InstructGPT – сетку, которая должна лучше считывать интент пользователя, то есть генерировать что-то более специфичное вроде объяснения/саммари/парафраза/что попросят. До это уже можно было колдовать…
но примеры в статье забавные есть
Forwarded from DL in NLP (Vlad Lialin)
DeepMind выпустил AlphaCode, который прогает лучше половины твоих знакомых.
Во многом похож на Codex, но есть отличия.
Основной подход:
1. Encoder-decoder, 41B параметров
1. Декодер обучается предсказывать следующее слово, а энкодер делает MLM. Всё end2end.
1. Заскрапили датасет задачек с Codeforces и зафайнтюнили на нём модель
1. Во время тестирования семплили очень большое количество решения (до миллиона) и потом выбирали из них с помощью кластеризации, эвристик и, самое главное, проходят ли они открытые тесты которые приложены к задачке. Сабмитили на финальную проверку только топ-10.
По результатам: AlphaCode решает задачки лучше, чем 54% пользовалетей Codeforces (не очень альфа пока что, но стремится туда).
Небольшие технические отличия от Codex:
1. Максимальная длина для энкодера 1536, для декодера 768
1. Использовали Multi-query attention, модификацию attention, которая использует одни и те же K и V для разныех голов – позволило улучшить потребление памяти и скорость декодирования
1. Очень маленький словарь токенизатора, 8К.
1. Во время файтнюнинга использовали температуру 0.2, которая делает распределение более острым. При тесте температура не использовалась, назвали это tempering.
1. Файнтюнились и на правильных и на неправильных решениях, при этом моделе заранее сообщается сигнал корректное ли это решения.
1. Для файнтюнинга использовали лосс, который называется GOLD. По сути это взвешенная кросс-энтропия, несмотря на то, что выглядит как RL.
Вот тут можно посмотреть на визуализацию attention, а ещё есть популярно написанный блогпост
Во многом похож на Codex, но есть отличия.
Основной подход:
1. Encoder-decoder, 41B параметров
1. Декодер обучается предсказывать следующее слово, а энкодер делает MLM. Всё end2end.
1. Заскрапили датасет задачек с Codeforces и зафайнтюнили на нём модель
1. Во время тестирования семплили очень большое количество решения (до миллиона) и потом выбирали из них с помощью кластеризации, эвристик и, самое главное, проходят ли они открытые тесты которые приложены к задачке. Сабмитили на финальную проверку только топ-10.
По результатам: AlphaCode решает задачки лучше, чем 54% пользовалетей Codeforces (не очень альфа пока что, но стремится туда).
Небольшие технические отличия от Codex:
1. Максимальная длина для энкодера 1536, для декодера 768
1. Использовали Multi-query attention, модификацию attention, которая использует одни и те же K и V для разныех голов – позволило улучшить потребление памяти и скорость декодирования
1. Очень маленький словарь токенизатора, 8К.
1. Во время файтнюнинга использовали температуру 0.2, которая делает распределение более острым. При тесте температура не использовалась, назвали это tempering.
1. Файнтюнились и на правильных и на неправильных решениях, при этом моделе заранее сообщается сигнал корректное ли это решения.
1. Для файнтюнинга использовали лосс, который называется GOLD. По сути это взвешенная кросс-энтропия, несмотря на то, что выглядит как RL.
Вот тут можно посмотреть на визуализацию attention, а ещё есть популярно написанный блогпост
Вышла интересная модель MIDI-DDSP для контролируемой генерации музыки. Если вы не следите за этой темой, то в области генерации музыки все пока не очень радужно, и даже jukebox от OpenAI иногда выдает звуки из ада
Тут сетка продуцирует MIDI-дорожки, то есть последовательность разных нот в исполнении разных инструментов. Дальше для каждой ноты отдельно устанавливается Synthesis, то есть тембр и высота звука, и Expression – параметры того, как звук играется, например, его громкость, ‘зашумленность’, вибрато и так далее. В colab demo вам дают огромную таблицу со всеми этими параметрами, чтобы можно потвикать, как на синтезаторе
Учили это с помощью human-in-the-loop, то есть сначала более простая сетка генерировала последовательности звуков на основе тренировочных данных, а далее эксперты уже так или иначе ее меняли, например, повышая октавы в каких-то местах, или делая более резкий переход, и на таких размеченных измененных данных учили уже MIDI-DDSP
Вообще я не видела пока похожих экспериментов в плане настолько контролируемого звучания. Конечно, такая сетка может генерить только классику или в теории джаз, возможно что-то электронное, – так или иначе жанры, где инструменты относительно легко разложить. И, конечно, она не может в осмысленный текст. Очень интересно было бы увидеть, можно ли пофьюзить языковые модели с моделями для генерации музыки, чтобы с этим стало лучше
🤗spaces | git | blogpost
Тут сетка продуцирует MIDI-дорожки, то есть последовательность разных нот в исполнении разных инструментов. Дальше для каждой ноты отдельно устанавливается Synthesis, то есть тембр и высота звука, и Expression – параметры того, как звук играется, например, его громкость, ‘зашумленность’, вибрато и так далее. В colab demo вам дают огромную таблицу со всеми этими параметрами, чтобы можно потвикать, как на синтезаторе
Учили это с помощью human-in-the-loop, то есть сначала более простая сетка генерировала последовательности звуков на основе тренировочных данных, а далее эксперты уже так или иначе ее меняли, например, повышая октавы в каких-то местах, или делая более резкий переход, и на таких размеченных измененных данных учили уже MIDI-DDSP
Вообще я не видела пока похожих экспериментов в плане настолько контролируемого звучания. Конечно, такая сетка может генерить только классику или в теории джаз, возможно что-то электронное, – так или иначе жанры, где инструменты относительно легко разложить. И, конечно, она не может в осмысленный текст. Очень интересно было бы увидеть, можно ли пофьюзить языковые модели с моделями для генерации музыки, чтобы с этим стало лучше
🤗spaces | git | blogpost
Вспомнила про один из моих любимых залипательных сайтов synesthesia, где можно миксовать биты, и изменения ритма визуализируются с помощью point clouds ✨
https://synesthesia.rikard.io/
https://synesthesia.rikard.io/
synesthesia.rikard.io
Synesthesia - A realtime music and graphic experiment by Rikard Lindstrom (deskop only)
Synesthesia is an experiment combining real-time graphics and audio to create visual and musical phrases. Playable on your computer keyboard.
Arendt_Khanna_Otvetstvennost_i_suzhdenie.pdf
18 MB
Фан фект, но когда-то очень давно это был канал с моими околполитологическими измышлениями. С тех пор я, очевидно, больше ушла в матешу, ML и вот это все, но сейчас на удивление помогает перечитывать то, что я читала тогда
Может быть, кому-то из вас это тоже будет интересно – Арендт много осмысляет опыт нацистской Германии, вопрос коллективной вины, политического насилия, и это сильно не исчерпывающий список. ‘Ответственность и суждение’ и глава про личную ответственность при диктатуре на меня очень сильно повлияла в свое время, и сейчас (увы) кажется очень уместной.
Эйхмана в Иерусалиме стоит читать только за то, как она выстебывает, собственно, банальность зла, с ее отговоркой про простое выполнение приказов и ‘мне не оставили иного выбора’
Можете накидать в коменты, что вы сейчас читаете, например!
Может быть, кому-то из вас это тоже будет интересно – Арендт много осмысляет опыт нацистской Германии, вопрос коллективной вины, политического насилия, и это сильно не исчерпывающий список. ‘Ответственность и суждение’ и глава про личную ответственность при диктатуре на меня очень сильно повлияла в свое время, и сейчас (увы) кажется очень уместной.
Эйхмана в Иерусалиме стоит читать только за то, как она выстебывает, собственно, банальность зла, с ее отговоркой про простое выполнение приказов и ‘мне не оставили иного выбора’
Можете накидать в коменты, что вы сейчас читаете, например!
👍3
Тем временем, как сообщают в заблокированном твиттере, нейронка научилась неплохо определять пол человека по фотке зрачка. При чем, никакой гипотезы, чем так различаются зрачки мужчин и женщин, пока что нет
Это на моей памяти первый такой яркий кейс неинтерпретируемости нейросетей – да, свертки и до этого могли выучивать какие-то не слишком очевидные человеку паттерны, но тут похоже они видят какие-то различия, о которых мы сами вообще ничего не знаем (прикольно!)
Есть как оказалось похожий кейс, когда нейронки по рентгеновским снимкам тела могли определить расу человека, но тут какие-то корреляции еще можно предположить
Это на моей памяти первый такой яркий кейс неинтерпретируемости нейросетей – да, свертки и до этого могли выучивать какие-то не слишком очевидные человеку паттерны, но тут похоже они видят какие-то различия, о которых мы сами вообще ничего не знаем (прикольно!)
Есть как оказалось похожий кейс, когда нейронки по рентгеновским снимкам тела могли определить расу человека, но тут какие-то корреляции еще можно предположить
❤20👍3
успокаивающий генеративный воздушный хлеб 🍞☁️
автор говорит, что модель на основе CLIP-guided diffusion, но самого кода пока нет увы
автор говорит, что модель на основе CLIP-guided diffusion, но самого кода пока нет увы
❤29
This media is not supported in your browser
VIEW IN TELEGRAM
У Майкрософт какое-то время назад вышла статья про µTransfer – эффективную технику подбора гиперпараметров для гигантских нейросетей
In a nutshell, сначала они придумали, как более эффективно скейлить веса моделей при инициализации и апдейте, так, чтобы не взрывались и не затухали градиенты. Потом оказалось, что при такой параметризации можно ‘переносить’ гиперпараметры – сначала найти наилучшие значения для тренировки модели поменьше, и потом перенести их на большую модель. И теоретически, и эмпирически оказывается, что оптимальные значения гиперпараметров для обучения будут +- близки при таком скейлинге, то есть, например, оптимальные значения learning rate для большой и маленькой модели будут совпадать. В частности это хорошо работает при увеличении width сетки (числа нейронов в одном слое), но и для глубины, батчсайза и sequence length работает тоже
Авторы так перенесли параметры обучения GPT 40M на GPT 6B, и их модель побила качество модели такого же размера на NLU задачах
In a nutshell, сначала они придумали, как более эффективно скейлить веса моделей при инициализации и апдейте, так, чтобы не взрывались и не затухали градиенты. Потом оказалось, что при такой параметризации можно ‘переносить’ гиперпараметры – сначала найти наилучшие значения для тренировки модели поменьше, и потом перенести их на большую модель. И теоретически, и эмпирически оказывается, что оптимальные значения гиперпараметров для обучения будут +- близки при таком скейлинге, то есть, например, оптимальные значения learning rate для большой и маленькой модели будут совпадать. В частности это хорошо работает при увеличении width сетки (числа нейронов в одном слое), но и для глубины, батчсайза и sequence length работает тоже
Авторы так перенесли параметры обучения GPT 40M на GPT 6B, и их модель побила качество модели такого же размера на NLU задачах
👍23
Forwarded from DL in NLP (Vlad Lialin)
OpenAI выпустил DALL-E 2
openai.com/dall-e-2
vimeo.com/692375454
Основная идея: использовать эмбеддинги CLIP для генерации вектора текста, обсуславливаться на этот эмбеддинг при генерации изображения. Для генерации используют не VAE а диффузию (GLIDE).
Судя по промо-материалам, модель будет доступна по API.
openai.com/dall-e-2
vimeo.com/692375454
Основная идея: использовать эмбеддинги CLIP для генерации вектора текста, обсуславливаться на этот эмбеддинг при генерации изображения. Для генерации используют не VAE а диффузию (GLIDE).
Судя по промо-материалам, модель будет доступна по API.
Openai
DALL·E 2
DALL·E 2 is an AI system that can create realistic images and art from a description in natural language.
DL in NLP
OpenAI выпустил DALL-E 2 openai.com/dall-e-2 vimeo.com/692375454 Основная идея: использовать эмбеддинги CLIP для генерации вектора текста, обсуславливаться на этот эмбеддинг при генерации изображения. Для генерации используют не VAE а диффузию (GLIDE). Судя…
jesus christ какая красота, скоро снова можно будет генерить обложки пост-панк альбомов
👍20🤯8🔥4❤3
Forwarded from эйай ньюз
Создать шум из данных – легко, создание же данных из шума есть генеративное моделирование.
Кулибин lucudrains, известный чемпион по скоростной имплементации статей без кода, уже начал в открытую реализовывать DALLE-2 на питорче. Это ваш звездный час, чтобы кинуть пул-реквест, и стать успешным. Любой вклад будет оценен научным комьюнити.
https://github.com/lucidrains/DALLE2-pytorch
Кулибин lucudrains, известный чемпион по скоростной имплементации статей без кода, уже начал в открытую реализовывать DALLE-2 на питорче. Это ваш звездный час, чтобы кинуть пул-реквест, и стать успешным. Любой вклад будет оценен научным комьюнити.
https://github.com/lucidrains/DALLE2-pytorch
👍13🤮2
Недавно вышла статья Large Language Models are Zero-Shot Reasoners, где авторы показывают, что просто добавление «Let’s think step by step» в промт большой языковой модели позволяет ей бустить качество на многих задачах в несколько раз без файнтюна в zero-shot 🤡 И внезапно модель обретает способности к математике и логике, с которыми у LM обычно дикие проблемы. В частности на арифметических задачках датасета MultiArith точность поднимается с 17.7% до 78.7%
🔥41