Градиент обреченный

🔺 StyleDrop

Помните крутую сетку для генерации изображений MUSE от Google, которую нельзя нигде потрогать?

Так вот на днях авторы дообучили её на перенос стилей и говорят, что это лучше чем StableDiffusion+DreamBooth или Imagen.

Весов и модели снова нет, только статья и примеры. В статье однако есть ссылка на Colab с SD+textual inversion finetuning, который дает схожий по смыслу результат.

👉 Статья | Сайт

🔥11🤔4👍3⚡1😁1🆒1

3.62K viewsSergei Averkiev, edited 06:01

Градиент обреченный

🔺 Transformer models: an introduction and catalog

Что ни день, то новая трансформерная модель. Чтобы не запутаться, можно воспользоваться обзором, который периодически обновляется.

🔸 Для каждой модели есть описание, отражающее её суть. Например, Vicuna — это LLaMA, дообученная на человеческих инструкциях, собранных из ShareGPT.
🔸 Также есть описание основных деталей архитектуры и информация по задачам, на которых модель обучалась (objective).
🔸 У каждой модели есть ссылка на оригинальную статью, если захочется погрузиться в детали.

👉 Читать | Таблица с моделями

🔥15👍9⚡2

6.21K viewsSergei Averkiev, 09:08

Градиент обреченный

#language_facts

Разбираю старые научно-полуярные книжки по лингвистике, поэтому вот вам пара забавных фактов про языки и восприятие цвета.

🔸 Синие светофоры в Японии

В Японии часто можно встретить светофоры, в которых привычный нам зелёный сигнал будет с оттенком синего. Связано это с тем, что оттенки синего и зелёного цветов в японском языке раньше обозначались одним словом ао (青, あお). И когда в 1930-е годы в Японию были импортированы первые светофоры, зелёный свет на них назывался aoshingō (青信号, あおしんごう).

Со временем, слово ao стало обозначать "синий", а значение "зелёный" сохранилось только относительно зелени и овощей — зелёные яблоки и сейчас это "ao ringo", а непосредственно зелёный цвет стал обозначаться словом midori ( 緑, みどり). Чтобы не переименовывать разрешающий сигнал в midori shingō ("зеленый сигнал"), 1973 году японцы подогнали реальность под язык и сделали светофоры более синими.

🔸 Синий и голубой

В 2008 году в Стенфорде провели следующий эксперимент. Испытуемым предлагалось три квадрата в сине-голубой гамме (как на картинке) и нужно было определить, какой из двух нижних квадратов того же цвета, что и верхний. Замеряли время ответа, о чём, для чистоты эксперимента, испытуемым не сообщали.

Интересным оказался результат для носителей русского языка. Когда верхний квадрат был на границе синего и голубого цветов, но ближе к синему, а нижний неправильный квадрат был на пару оттенков ближе к голубому, то время ответа было существенно меньше чем то же задание, сдвинутое в чисто синюю или чисто голубую гамму. У носителей английского такого эффекта не наблюдалось. Этот эффект связали с тем, что в русском языке это отдельные цвета, а в английском оба обозначаются словом blue.

Таким образом, восприятие мира во многом связано с языком и культурой, в которой мы живем. И вообще я задумался, представляем ли мы в своей голове один и тот же цвет, когда говорим, что небо синее, а трава зеленая?

👍32🔥12❤2🆒2

4.18K viewsSergei Averkiev, 09:34

Градиент обреченный

Мне тут в очередной раз пишут, что фраза "внутре у ней неонка" правильно будет "внутри у неё неонка".

Волнуюсь, что такие люди могут пойти в AI-тренеры выравнивать наши с вами нейросеточки.

👉 Кстати, видео с датафеста подъехали, можно смотреть.

😁55🔥13❤4👏2😱2🎉1

4.6K viewsSergei Averkiev, 18:36

Градиент обреченный

Посетил Армению, поэтому вот вам пара заметок про армянский язык.

🔸 Алфавит придумал Месроп Маштоц ещё в 405 году, за 4-5 веков до кириллицы. С тех пор добавились три буквы, остальные не менялись (сейчас их 39).
🔸 Если в Ереване обращать внимание на вывески и дорожные указатели, то через пару дней можно научиться писать ԹՌԱՆՍԼԻԹՈՄ. Но только заглавными буквами.
🔸 За городом есть прекрасное место, под названием Аллея букв. Можно погулять и поискать буквы своего имени.
🔸 Полезные фразы, которые посоветовал запомнить экскурсовод — «барев дзес» (здравствуйте), «шноракалутюн» (спасибо) и на всякий случай «погх чка» (денег нет).

#отпуск

👍26😁14🔥5❤2🥰1

4.34K viewsSergei Averkiev, 11:38

Градиент обреченный

Когда меня не станет,
Я буду кодить руками
Моих джунов.

😁124🔥30👍5👾5💯4✍2⚡1

6.94K viewsSergei Averkiev, 19:17

Градиент обреченный

🔺 XGen 7b

Salesforce обучили и выложили очередную LLM. Она, как водится, бьёт все предыдущие аналогичные модели в своей весовой категории, включая LLaMA и Falcon.

🔸 Обучали на датасете RedPajama (там русского нет), на 22 википедиях, включая русскую. И на почищенном Commom Crawl (оставляли только похожие на вики статьи), про фильтрацию языков не пишут, значит русский там тоже должен быть.
🔸 На первом этапе показали 1.37T токенов, затем взяли код из The Stack и показали еще 110B токенов, чтобы улучшить понимание кода.
🔸 Изначальный контекст был 2048 токенов, затем дообучили на 4k и 8k токенов. За архитектуру взяли аналогичную LLaMA.
🔸 Есть отдельная версия на инструкциях XGen-7B-{4K,8K}-inst. Инструкции из датасетов OpenAssistant, Dolly и других публичных.

P.S. График лосса слишком уж красивый, в конце даже ускоряться начал.

👉 Пост | github | xgen-7b-8k-inst

👍20🔥9❤3🤔3

4.21K viewsSergei Averkiev, 12:34

Градиент обреченный

В последнее время удалось немного доработать lingtrain-aligner и позаниматься бурятским, а также попробовали с сообществом повыравнивать хакасский и карачаево-балкарский.

🔸 Для хакасского получилось довольно неплохо на текстах от Ани @Kartoshkina. Скорее всего благодаря родственным языкам, которые видела LaBSE.

🔸 Для карачаево-балкарского попробовали с @ali_berberov повыравнивать балкарскую поэзию Кулиева. Тоже пока получается хорошо, так как во многих случаях перевод подстрочный, лучше передающий смысл.

🔸 С бурятским все сложнее. Как раз поэтому случаю пришлось повозиться и добавить в lingtrain выравнивание по сегментам. Теперь, если расставить в текстах спецальные метки, то выравнивание будет идти независимо в соответствующих парах сегментов и не брать во внимание лишние варианты. Чем больше сегментов, тем точнее.

Тимур @TBaturov, носитель языка, расставил метки в текстах на русском и бурятском примерно через каждые 150 строк, так удалось значительно улучшить качество выравнивания.

Затем дообучил LaBSE на корпусе монгольского (родственника бурятского), что тоже дало прирост в качестве. Тут будем двигаться дальше и набирать корпус параллельных кандидатов.

Кому интересны языки и кто хочет помочь с корпусами или любит параллельные книги, то присоединяйтесь.

👉 Чатик | GitHub | A-Studio

Lingtrain Chat

Creating parallel books and learning languages

🔥28👍8❤‍🔥7✍1👻1

4.05K viewsSergei Averkiev, edited 08:10

Градиент обреченный

🔺 Kandinsky 2.2

Тут коллеги выложили Кандинского в открытый доступ. Попробовал, картинки получаются прикольнее чем было до этого, плюс увеличилось выходное разрешение.

Кроме того, всё это теперь можно запустить через библиотеку diffusers!

А Арсений Шахматов, один из авторов, обещает сегодня выложить Colab'ы с примерами дообучения модели на LoRA. Ждём.

👉 Upd 1. Colab для генераций.
👉 Upd 2. Примеры промптов на lexica.art.

🔥 Upd 3. Дообучаем Кандинского в Colab'е через LoRA

—
👉 Хабр | hf | телеграм-бот

🔥29👍8❤3🦄1

4.73K viewsSergei Averkiev, edited 14:37

Градиент обреченный

SD-XL 0.9

Попробовал порисовать картинки при помощи новой модели SD-XL (надо заполнить форму, чтобы дали доступ).

Иллюстрации получаются достойные. Кажется, что стало ближе к Midjourney — промпт можно сильно не уточнять, все равно получается красиво.

〰️ Как запустить

Собрал небольшой colab для запуска. Сначала надо получить доступ и согласиться с условиями, затем отсюда взять токен и прописать его в colab'e в переменной TOKEN, после этого все должно заработать.

👉 Colab

👍18🔥8🤯3😎1

3.03K viewsSergei Averkiev, 08:32

Градиент обреченный

🔺 LLaMA 2

Вышла вторая версия LLaMA от Meta — 7B, 13B, 34B и 70B.

🔸 Есть Chat версии, дообученные под диалог на инструкциях, затем с RLHF, все как положено. Большая модель выигрывает у ChatGPT-0301 по SBS. На MMLU показывает 68.9.

🔸 Токенов модели увидели больше чем в первой версии — по 2T каждая. Язык данных в претрейне преимущественно английский (89.7%). Остальные по остаточному принципу (de 0.17%, ru 0.13%, unknown 8.38%, etc.)

🔸 Контекст увеличен до 4k. Токенизатор тот же.

🔸 Для 34B и 70B моделей использовали Grouped-Query Attention для оптимизации инференса. Так же в статье пишут, как и с какими гиперпараметрами обучали, так что очень полезно почитать.

🔸 Веса моделей тоже релизят (вместе с Chat версиями), опять-таки надо заполнить формочку. Затем запросить доступ на HF. Интересно, когда появятся на торрентах?

Upd. Коммерческое использование на этот раз бесплатное!

👉 Статья

🔥22👍10❤4👾2😁1

9.89K viewsSergei Averkiev, edited 17:01

About

Blog

Apps

Platform