Unsolicited Disclosures
1.57K subscribers
14 photos
24 links
AI, Tech, иногда шитпостинг
Download Telegram
Channel created
Политический спектр в 2021
Тот день, когда трансформаторы достигли размера в триллион параметров (это в 10 раз больше, чем OpenAI GPT-3) https://arxiv.org/abs/2101.03961 #AI
Подумал, что как только в социальной сети начинаешь блокировать больше десятка людей в день - это означает, что скоро оттуда уйдешь; так уже было несколько раз.
a large unsupervised language models can be considered sophisticated enough when it successfully deanonymizes a particular well-known pseudonymous person (e.g. SA) given a carefully crafted prompt
К вопросу о том, сколько ресурсов потреблял Parler. Удачи с поиском такого за пределами AWS. (Также говорит о качестве из кода) #AltTech
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня Aydao (aydao.ai) выпустил апдейт своей модели, котрая генерирует аниме. Можно посмотреть здесь: https://thisanimedoesnotexist.ai #AI
Unsolicited Disclosures pinned «(детали у Гверна: https://www.gwern.net/Faces#extended-stylegan2-danbooru2019-aydao ; модель выложена на MEGA саму модель можно скачать по ссылке https://mega.nz/file/nUkWFZgS#EHHrqILumjpTppSXG-QlCOdWaUIVLTDnqPxsXPrI3UQ, а)»
Aydao работал над этим проектом почти полгода. Предыдущая версия аниме-StylegGAN2 (TWNDE, https://www.thiswaifudoesnotexist.net) генерировала портреты; версия Aydao же создает фигуры. Интересная деталь, модель "избегает" показывать ладони - пока еще никому не удалось создать генеративную модель, которая синтезирует фигуры и при этом хорошо справляется с руками и ладонями.
Есть такая команда - EleutherAI. Они работают над репликацией модели GPT-3, которую OpenAI не выпустил (и не планирует выпускать) в открытый доступ. Их цель - сделать публично доступную модель размеров в 100 миллиардов параметров. С первым этапом - собрать большой и качественный датасет - они уже справились. Для репликации GPT-3 будет использоваться The Pile (https://github.com/EleutherAI/the-pile) объемом 1.25Tb (для сравнения, OpenWebText, на котором тренировали GPT-2, был всего 50Gb). Вторая задача - найти способ тренировать модель большого размера (100B) на большом количестве процессоров (GPU или TPU), каждый с 16..32Gb памяти. Задача была решена с использованием Mesh TensorFlow. Они выпустили GPT-Neo (https://github.com/EleutherAI/gpt-neo), который был протестирован на TPUv3-32 (это кластер из 32 процессоров с 32Gb памяти каждый).

Однако использовать Mesh TensorFlow на GPU было всегда проблематично (это разработка Google Brain и поэтому он сделан больше под TPU). И буквально несколько дней назад эта же команда выпустила GPT-Neox (https://github.com/EleutherAI/gpt-neox), который использует фреймворк Deepspeed by Microsoft для тех же целей, что и Mesh TensorFlow (не только паралеллизовать вычисления, но и распределить большую модель между многими процессорами с ограниченной памятью).

GPT-Neox еще не готов полностью к использованию, однако вполне функционален - у меня ушла пара часов, чтобы поставить все необходимое и запустить тренировку модели размером 8.6B на четырех GPU с 32Gb каждый.

(Стоит отметить, что известная российская команда в настоящее время тоже тренирует русскоязычную GPT-3 точно такого же масштаба, как и самая большая модель OpenAI - 175B) #AI
(К написанному выше: долгое время не было простого способа распределить модель по нескольким GPU. Фреймворки наподобие Horovod и Distributed Tensorflow решали задачу параллелизации вычислений, когда в процессе тренировки в каждом GPU размещалась полная копия модели. Это ускоряло обучение модели, однако никак не помогало в случае, если памяти одного GPU не хватало для размещения переменных модели, оптимизатора и пр. Необходимость использовать GPU с большим объемом памяти приводила к дополнительным расходам; такие алгоритмы, как gradient checkpointing, отчасти помогали решать эту проблему, экономя память, зачастую за счет производительности. И сейчас наконец-то появились более-менее универсальные решения (Deepspeed), которые за счет распределения компонентов одной копии модели по всем доступным устройствам, позволяют тренировать очень большие модели, не требуя узкоспециализированного железа) #AI #Hardware
(И снова к написанному выше: буквально на днях авторы Deepspeed выпустили статью "ZeRO-Offload: Democratizing Billion-Scale Model Training", где описывают, как это работает. Помимо прочего, авторы утверждают, что достигли десятикратного (!) увеличения размера модели, которую можно тренировать на одном GPU - до 13 миллиардов параметров, без изменения архитектуры модели и без значительных потерь в скорости. Достигается это за счет новой технологии гетерогенной тренировки, при которой задействует как память, так и вычислительные ресурсы CPU - в дополнение к GPU. Я еще не вчитывался, но это выглядит как один из главных прорывов за последние полгода! Ссылка на arxiv https://arxiv.org/abs/2101.06840)