Градиент обреченный
7.97K subscribers
834 photos
20 videos
8 files
453 links
Download Telegram
Следующую серию языковых моделей предлагаю называть по видам пальмовых.

#TrahykarpusGPT
😁35🔥1031🤯1
🔺 StyleDrop

Помните крутую сетку для генерации изображений MUSE от Google, которую нельзя нигде потрогать?

Так вот на днях авторы дообучили её на перенос стилей и говорят, что это лучше чем StableDiffusion+DreamBooth или Imagen.

Весов и модели снова нет, только статья и примеры. В статье однако есть ссылка на Colab с SD+textual inversion finetuning, который дает схожий по смыслу результат.

👉 Статья | Сайт
🔥11🤔4👍31😁1🆒1
🔺 Transformer models: an introduction and catalog

Что ни день, то новая трансформерная модель. Чтобы не запутаться, можно воспользоваться обзором, который периодически обновляется.

🔸 Для каждой модели есть описание, отражающее её суть. Например, Vicuna — это LLaMA, дообученная на человеческих инструкциях, собранных из ShareGPT.
🔸 Также есть описание основных деталей архитектуры и информация по задачам, на которых модель обучалась (objective).
🔸 У каждой модели есть ссылка на оригинальную статью, если захочется погрузиться в детали.

👉 Читать | Таблица с моделями
🔥15👍92
#language_facts

Разбираю старые научно-полуярные книжки по лингвистике, поэтому вот вам пара забавных фактов про языки и восприятие цвета.

🔸 Синие светофоры в Японии

В Японии часто можно встретить светофоры, в которых привычный нам зелёный сигнал будет с оттенком синего. Связано это с тем, что оттенки синего и зелёного цветов в японском языке раньше обозначались одним словом ао (青, あお). И когда в 1930-е годы в Японию были импортированы первые светофоры, зелёный свет на них назывался aoshingō (青信号, あおしんごう).

Со временем, слово ao стало обозначать "синий", а значение "зелёный" сохранилось только относительно зелени и овощей — зелёные яблоки и сейчас это "ao ringo", а непосредственно зелёный цвет стал обозначаться словом midori ( 緑, みどり). Чтобы не переименовывать разрешающий сигнал в midori shingō ("зеленый сигнал"), 1973 году японцы подогнали реальность под язык и сделали светофоры более синими.

🔸 Синий и голубой

В 2008 году в Стенфорде провели следующий эксперимент. Испытуемым предлагалось три квадрата в сине-голубой гамме (как на картинке) и нужно было определить, какой из двух нижних квадратов того же цвета, что и верхний. Замеряли время ответа, о чём, для чистоты эксперимента, испытуемым не сообщали.

Интересным оказался результат для носителей русского языка. Когда верхний квадрат был на границе синего и голубого цветов, но ближе к синему, а нижний неправильный квадрат был на пару оттенков ближе к голубому, то время ответа было существенно меньше чем то же задание, сдвинутое в чисто синюю или чисто голубую гамму. У носителей английского такого эффекта не наблюдалось. Этот эффект связали с тем, что в русском языке это отдельные цвета, а в английском оба обозначаются словом blue.

Таким образом, восприятие мира во многом связано с языком и культурой, в которой мы живем. И вообще я задумался, представляем ли мы в своей голове один и тот же цвет, когда говорим, что небо синее, а трава зеленая?
👍32🔥122🆒2
Мне тут в очередной раз пишут, что фраза "внутре у ней неонка" правильно будет "внутри у неё неонка".

Волнуюсь, что такие люди могут пойти в AI-тренеры выравнивать наши с вами нейросеточки.

👉 Кстати, видео с датафеста подъехали, можно смотреть.
😁55🔥134👏2😱2🎉1
Посетил Армению, поэтому вот вам пара заметок про армянский язык.

🔸 Алфавит придумал Месроп Маштоц ещё в 405 году, за 4-5 веков до кириллицы. С тех пор добавились три буквы, остальные не менялись (сейчас их 39).
🔸 Если в Ереване обращать внимание на вывески и дорожные указатели, то через пару дней можно научиться писать ԹՌԱՆՍԼԻԹՈՄ. Но только заглавными буквами.
🔸 За городом есть прекрасное место, под названием Аллея букв. Можно погулять и поискать буквы своего имени.
🔸 Полезные фразы, которые посоветовал запомнить экскурсовод — «барев дзес» (здравствуйте), «шноракалутюн» (спасибо) и на всякий случай «погх чка» (денег нет).

#отпуск
👍26😁14🔥52🥰1
Когда меня не станет,
Я буду кодить руками
Моих джунов.
😁124🔥30👍5👾5💯421
🔺 XGen 7b

Salesforce
обучили и выложили очередную LLM. Она, как водится, бьёт все предыдущие аналогичные модели в своей весовой категории, включая LLaMA и Falcon.

🔸 Обучали на датасете RedPajama (там русского нет), на 22 википедиях, включая русскую. И на почищенном Commom Crawl (оставляли только похожие на вики статьи), про фильтрацию языков не пишут, значит русский там тоже должен быть.
🔸 На первом этапе показали 1.37T токенов, затем взяли код из The Stack и показали еще 110B токенов, чтобы улучшить понимание кода.
🔸 Изначальный контекст был 2048 токенов, затем дообучили на 4k и 8k токенов. За архитектуру взяли аналогичную LLaMA.
🔸 Есть отдельная версия на инструкциях XGen-7B-{4K,8K}-inst. Инструкции из датасетов OpenAssistant, Dolly и других публичных.

P.S. График лосса слишком уж красивый, в конце даже ускоряться начал.

👉 Пост | github | xgen-7b-8k-inst
👍20🔥93🤔3
В последнее время удалось немного доработать lingtrain-aligner и позаниматься бурятским, а также попробовали с сообществом повыравнивать хакасский и карачаево-балкарский.

🔸 Для хакасского получилось довольно неплохо на текстах от Ани @Kartoshkina. Скорее всего благодаря родственным языкам, которые видела LaBSE.

🔸 Для карачаево-балкарского попробовали с @ali_berberov повыравнивать балкарскую поэзию Кулиева. Тоже пока получается хорошо, так как во многих случаях перевод подстрочный, лучше передающий смысл.

🔸 С бурятским все сложнее. Как раз поэтому случаю пришлось повозиться и добавить в lingtrain выравнивание по сегментам. Теперь, если расставить в текстах спецальные метки, то выравнивание будет идти независимо в соответствующих парах сегментов и не брать во внимание лишние варианты. Чем больше сегментов, тем точнее.

Тимур @TBaturov, носитель языка, расставил метки в текстах на русском и бурятском примерно через каждые 150 строк, так удалось значительно улучшить качество выравнивания.

Затем дообучил LaBSE на корпусе монгольского (родственника бурятского), что тоже дало прирост в качестве. Тут будем двигаться дальше и набирать корпус параллельных кандидатов.

Кому интересны языки и кто хочет помочь с корпусами или любит параллельные книги, то присоединяйтесь.

👉 Чатик | GitHub | A-Studio
🔥28👍8❤‍🔥71👻1
🔺 Kandinsky 2.2

Тут коллеги выложили Кандинского в открытый доступ. Попробовал, картинки получаются прикольнее чем было до этого, плюс увеличилось выходное разрешение.

Кроме того, всё это теперь можно запустить через библиотеку diffusers!

А Арсений Шахматов, один из авторов, обещает сегодня выложить Colab'ы с примерами дообучения модели на LoRA. Ждём.

👉 Upd 1. Colab для генераций.
👉 Upd 2. Примеры промптов на lexica.art.

🔥 Upd 3. Дообучаем Кандинского в Colab'е через LoRA


👉 Хабр | hf | телеграм-бот
🔥29👍83🦄1
SD-XL 0.9

Попробовал порисовать картинки при помощи новой модели SD-XL (надо заполнить форму, чтобы дали доступ).

Иллюстрации получаются достойные. Кажется, что стало ближе к Midjourney — промпт можно сильно не уточнять, все равно получается красиво.

〰️ Как запустить

Собрал небольшой colab для запуска. Сначала надо получить доступ и согласиться с условиями, затем отсюда взять токен и прописать его в colab'e в переменной TOKEN, после этого все должно заработать.

👉 Colab
👍18🔥8🤯3😎1