я обучала одну модель

OpenAI релизнули (и вроде даже можно дергать через API) InstructGPT – сетку, которая должна лучше считывать интент пользователя, то есть генерировать что-то более специфичное вроде объяснения/саммари/парафраза/что попросят. До это уже можно было колдовать…

но примеры в статье забавные есть

2.15K views21:42

я обучала одну модель

Forwarded from DL in NLP (Vlad Lialin)

DeepMind выпустил AlphaCode, который прогает лучше половины твоих знакомых.

Во многом похож на Codex, но есть отличия.

Основной подход:
1. Encoder-decoder, 41B параметров
1. Декодер обучается предсказывать следующее слово, а энкодер делает MLM. Всё end2end.
1. Заскрапили датасет задачек с Codeforces и зафайнтюнили на нём модель
1. Во время тестирования семплили очень большое количество решения (до миллиона) и потом выбирали из них с помощью кластеризации, эвристик и, самое главное, проходят ли они открытые тесты которые приложены к задачке. Сабмитили на финальную проверку только топ-10.

По результатам: AlphaCode решает задачки лучше, чем 54% пользовалетей Codeforces (не очень альфа пока что, но стремится туда).

Небольшие технические отличия от Codex:
1. Максимальная длина для энкодера 1536, для декодера 768
1. Использовали Multi-query attention, модификацию attention, которая использует одни и те же K и V для разныех голов – позволило улучшить потребление памяти и скорость декодирования
1. Очень маленький словарь токенизатора, 8К.
1. Во время файтнюнинга использовали температуру 0.2, которая делает распределение более острым. При тесте температура не использовалась, назвали это tempering.
1. Файнтюнились и на правильных и на неправильных решениях, при этом моделе заранее сообщается сигнал корректное ли это решения.
1. Для файнтюнинга использовали лосс, который называется GOLD. По сути это взвешенная кросс-энтропия, несмотря на то, что выглядит как RL.

Вот тут можно посмотреть на визуализацию attention, а ещё есть популярно написанный блогпост

1.64K views19:20

я обучала одну модель

Вышла интересная модель MIDI-DDSP для контролируемой генерации музыки. Если вы не следите за этой темой, то в области генерации музыки все пока не очень радужно, и даже jukebox от OpenAI иногда выдает звуки из ада

Тут сетка продуцирует MIDI-дорожки, то есть последовательность разных нот в исполнении разных инструментов. Дальше для каждой ноты отдельно устанавливается Synthesis, то есть тембр и высота звука, и Expression – параметры того, как звук играется, например, его громкость, ‘зашумленность’, вибрато и так далее. В colab demo вам дают огромную таблицу со всеми этими параметрами, чтобы можно потвикать, как на синтезаторе

Учили это с помощью human-in-the-loop, то есть сначала более простая сетка генерировала последовательности звуков на основе тренировочных данных, а далее эксперты уже так или иначе ее меняли, например, повышая октавы в каких-то местах, или делая более резкий переход, и на таких размеченных измененных данных учили уже MIDI-DDSP

Вообще я не видела пока похожих экспериментов в плане настолько контролируемого звучания. Конечно, такая сетка может генерить только классику или в теории джаз, возможно что-то электронное, – так или иначе жанры, где инструменты относительно легко разложить. И, конечно, она не может в осмысленный текст. Очень интересно было бы увидеть, можно ли пофьюзить языковые модели с моделями для генерации музыки, чтобы с этим стало лучше

🤗spaces | git | blogpost

0:21

2.48K views02:39

я обучала одну модель

Вспомнила про один из моих любимых залипательных сайтов synesthesia, где можно миксовать биты, и изменения ритма визуализируются с помощью point clouds ✨
https://synesthesia.rikard.io/

synesthesia.rikard.io

Synesthesia - A realtime music and graphic experiment by Rikard Lindstrom (deskop only)

Synesthesia is an experiment combining real-time graphics and audio to create visual and musical phrases. Playable on your computer keyboard.

3.46K views04:29

я обучала одну модель

0:34

This media is not supported in your browser

VIEW IN TELEGRAM

как же хорошо

8.74K views17:24

я обучала одну модель

Forwarded from ∏ρØƒuñçτØρ Øπτµç∑ | 👁‍🗨››››

2.86K views14:35

я обучала одну модель

Arendt_Khanna_Otvetstvennost_i_suzhdenie.pdf

18 MB

Фан фект, но когда-то очень давно это был канал с моими околполитологическими измышлениями. С тех пор я, очевидно, больше ушла в матешу, ML и вот это все, но сейчас на удивление помогает перечитывать то, что я читала тогда

Может быть, кому-то из вас это тоже будет интересно – Арендт много осмысляет опыт нацистской Германии, вопрос коллективной вины, политического насилия, и это сильно не исчерпывающий список. ‘Ответственность и суждение’ и глава про личную ответственность при диктатуре на меня очень сильно повлияла в свое время, и сейчас (увы) кажется очень уместной.
Эйхмана в Иерусалиме стоит читать только за то, как она выстебывает, собственно, банальность зла, с ее отговоркой про простое выполнение приказов и ‘мне не оставили иного выбора’

Можете накидать в коменты, что вы сейчас читаете, например!

👍3

3.63K viewsedited 14:47

я обучала одну модель

Тем временем, как сообщают в заблокированном твиттере, нейронка научилась неплохо определять пол человека по фотке зрачка. При чем, никакой гипотезы, чем так различаются зрачки мужчин и женщин, пока что нет

Это на моей памяти первый такой яркий кейс неинтерпретируемости нейросетей – да, свертки и до этого могли выучивать какие-то не слишком очевидные человеку паттерны, но тут похоже они видят какие-то различия, о которых мы сами вообще ничего не знаем (прикольно!)

Есть как оказалось похожий кейс, когда нейронки по рентгеновским снимкам тела могли определить расу человека, но тут какие-то корреляции еще можно предположить

❤20👍3

3.37K viewsedited 17:47

я обучала одну модель

успокаивающий генеративный воздушный хлеб 🍞☁️

автор говорит, что модель на основе CLIP-guided diffusion, но самого кода пока нет увы

❤29

5.1K views19:40

я обучала одну модель

This media is not supported in your browser

VIEW IN TELEGRAM

У Майкрософт какое-то время назад вышла статья про µTransfer – эффективную технику подбора гиперпараметров для гигантских нейросетей

In a nutshell, сначала они придумали, как более эффективно скейлить веса моделей при инициализации и апдейте, так, чтобы не взрывались и не затухали градиенты. Потом оказалось, что при такой параметризации можно ‘переносить’ гиперпараметры – сначала найти наилучшие значения для тренировки модели поменьше, и потом перенести их на большую модель. И теоретически, и эмпирически оказывается, что оптимальные значения гиперпараметров для обучения будут +- близки при таком скейлинге, то есть, например, оптимальные значения learning rate для большой и маленькой модели будут совпадать. В частности это хорошо работает при увеличении width сетки (числа нейронов в одном слое), но и для глубины, батчсайза и sequence length работает тоже

Авторы так перенесли параметры обучения GPT 40M на GPT 6B, и их модель побила качество модели такого же размера на NLU задачах

👍23

8.07K views09:29

я обучала одну модель

На stackoverflow тем временем появились темы в честь первого апреля, некоторые даже ничего 😳

2.9K viewsedited 00:56

я обучала одну модель

Очень крутой визуализатор для команд git

https://learngitbranching.js.org/

🥰6

5.37K viewsedited 18:33

я обучала одну модель

Forwarded from DL in NLP (Vlad Lialin)

OpenAI выпустил DALL-E 2
openai.com/dall-e-2
vimeo.com/692375454

Основная идея: использовать эмбеддинги CLIP для генерации вектора текста, обсуславливаться на этот эмбеддинг при генерации изображения. Для генерации используют не VAE а диффузию (GLIDE).
Судя по промо-материалам, модель будет доступна по API.

Openai

DALL·E 2

DALL·E 2 is an AI system that can create realistic images and art from a description in natural language.

2.23K views14:25

я обучала одну модель

DL in NLP

OpenAI выпустил DALL-E 2 openai.com/dall-e-2 vimeo.com/692375454 Основная идея: использовать эмбеддинги CLIP для генерации вектора текста, обсуславливаться на этот эмбеддинг при генерации изображения. Для генерации используют не VAE а диффузию (GLIDE). Судя…

jesus christ какая красота, скоро снова можно будет генерить обложки пост-панк альбомов

👍20🤯8🔥4❤3

3.07K views14:27

я обучала одну модель

Forwarded from эйай ньюз

Создать шум из данных – легко, создание же данных из шума есть генеративное моделирование.

Кулибин lucudrains, известный чемпион по скоростной имплементации статей без кода, уже начал в открытую реализовывать DALLE-2 на питорче. Это ваш звездный час, чтобы кинуть пул-реквест, и стать успешным. Любой вклад будет оценен научным комьюнити.

https://github.com/lucidrains/DALLE2-pytorch

👍13🤮2

2.49K views12:35

я обучала одну модель

Недавно вышла статья Large Language Models are Zero-Shot Reasoners, где авторы показывают, что просто добавление «Let’s think step by step» в промт большой языковой модели позволяет ей бустить качество на многих задачах в несколько раз без файнтюна в zero-shot 🤡 И внезапно модель обретает способности к математике и логике, с которыми у LM обычно дикие проблемы. В частности на арифметических задачках датасета MultiArith точность поднимается с 17.7% до 78.7%

🔥41

3.11K views12:28

About

Blog

Apps

Platform