Unsolicited Disclosures

Channel created

21:10

Политический спектр в 2021

240 views19:37

Тот день, когда трансформаторы достигли размера в триллион параметров (это в 10 раз больше, чем OpenAI GPT-3) https://arxiv.org/abs/2101.03961 #AI

244 viewsedited 20:27

Unsolicited Disclosures

Подумал, что как только в социальной сети начинаешь блокировать больше десятка людей в день - это означает, что скоро оттуда уйдешь; так уже было несколько раз.

238 viewsedited 20:45

Unsolicited Disclosures

a large unsupervised language models can be considered sophisticated enough when it successfully deanonymizes a particular well-known pseudonymous person (e.g. SA) given a carefully crafted prompt

242 views22:24

Unsolicited Disclosures

К вопросу о том, сколько ресурсов потреблял Parler. Удачи с поиском такого за пределами AWS. (Также говорит о качестве из кода) #AltTech

255 viewsedited 08:02

Unsolicited Disclosures

This media is not supported in your browser

VIEW IN TELEGRAM

Сегодня Aydao (aydao.ai) выпустил апдейт своей модели, котрая генерирует аниме. Можно посмотреть здесь: https://thisanimedoesnotexist.ai #AI

269 viewsedited 18:57

Unsolicited Disclosures

(детали у Гверна: https://www.gwern.net/Faces#extended-stylegan2-danbooru2019-aydao ; модель выложена на MEGA саму модель можно скачать по ссылке https://mega.nz/file/nUkWFZgS#EHHrqILumjpTppSXG-QlCOdWaUIVLTDnqPxsXPrI3UQ, а)

gwern.net

Making Anime Faces With StyleGAN

A tutorial explaining how to train and generate high-quality anime faces with StyleGAN 1+2 neural networks, and tips/scripts for effective StyleGAN use.

290 viewsedited 18:59

Unsolicited Disclosures

Unsolicited Disclosures pinned «(детали у Гверна: https://www.gwern.net/Faces#extended-stylegan2-danbooru2019-aydao ; модель выложена на MEGA саму модель можно скачать по ссылке https://mega.nz/file/nUkWFZgS#EHHrqILumjpTppSXG-QlCOdWaUIVLTDnqPxsXPrI3UQ, а)»

18:59

Unsolicited Disclosures

Aydao работал над этим проектом почти полгода. Предыдущая версия аниме-StylegGAN2 (TWNDE, https://www.thiswaifudoesnotexist.net) генерировала портреты; версия Aydao же создает фигуры. Интересная деталь, модель "избегает" показывать ладони - пока еще никому не удалось создать генеративную модель, которая синтезирует фигуры и при этом хорошо справляется с руками и ладонями.

271 viewsedited 19:09

Unsolicited Disclosures

Есть такая команда - EleutherAI. Они работают над репликацией модели GPT-3, которую OpenAI не выпустил (и не планирует выпускать) в открытый доступ. Их цель - сделать публично доступную модель размеров в 100 миллиардов параметров. С первым этапом - собрать большой и качественный датасет - они уже справились. Для репликации GPT-3 будет использоваться The Pile (https://github.com/EleutherAI/the-pile) объемом 1.25Tb (для сравнения, OpenWebText, на котором тренировали GPT-2, был всего 50Gb). Вторая задача - найти способ тренировать модель большого размера (100B) на большом количестве процессоров (GPU или TPU), каждый с 16..32Gb памяти. Задача была решена с использованием Mesh TensorFlow. Они выпустили GPT-Neo (https://github.com/EleutherAI/gpt-neo), который был протестирован на TPUv3-32 (это кластер из 32 процессоров с 32Gb памяти каждый).

Однако использовать Mesh TensorFlow на GPU было всегда проблематично (это разработка Google Brain и поэтому он сделан больше под TPU). И буквально несколько дней назад эта же команда выпустила GPT-Neox (https://github.com/EleutherAI/gpt-neox), который использует фреймворк Deepspeed by Microsoft для тех же целей, что и Mesh TensorFlow (не только паралеллизовать вычисления, но и распределить большую модель между многими процессорами с ограниченной памятью).

GPT-Neox еще не готов полностью к использованию, однако вполне функционален - у меня ушла пара часов, чтобы поставить все необходимое и запустить тренировку модели размером 8.6B на четырех GPU с 32Gb каждый.

(Стоит отметить, что известная российская команда в настоящее время тоже тренирует русскоязычную GPT-3 точно такого же масштаба, как и самая большая модель OpenAI - 175B) #AI

294 viewsedited 17:29

Unsolicited Disclosures

(К написанному выше: долгое время не было простого способа распределить модель по нескольким GPU. Фреймворки наподобие Horovod и Distributed Tensorflow решали задачу параллелизации вычислений, когда в процессе тренировки в каждом GPU размещалась полная копия модели. Это ускоряло обучение модели, однако никак не помогало в случае, если памяти одного GPU не хватало для размещения переменных модели, оптимизатора и пр. Необходимость использовать GPU с большим объемом памяти приводила к дополнительным расходам; такие алгоритмы, как gradient checkpointing, отчасти помогали решать эту проблему, экономя память, зачастую за счет производительности. И сейчас наконец-то появились более-менее универсальные решения (Deepspeed), которые за счет распределения компонентов одной копии модели по всем доступным устройствам, позволяют тренировать очень большие модели, не требуя узкоспециализированного железа) #AI #Hardware

302 views20:36

Unsolicited Disclosures

(И снова к написанному выше: буквально на днях авторы Deepspeed выпустили статью "ZeRO-Offload: Democratizing Billion-Scale Model Training", где описывают, как это работает. Помимо прочего, авторы утверждают, что достигли десятикратного (!) увеличения размера модели, которую можно тренировать на одном GPU - до 13 миллиардов параметров, без изменения архитектуры модели и без значительных потерь в скорости. Достигается это за счет новой технологии гетерогенной тренировки, при которой задействует как память, так и вычислительные ресурсы CPU - в дополнение к GPU. Я еще не вчитывался, но это выглядит как один из главных прорывов за последние полгода! Ссылка на arxiv https://arxiv.org/abs/2101.06840)

321 viewsedited 00:21

About

Blog

Apps

Platform