Unsolicited Disclosures
1.57K subscribers
14 photos
24 links
AI, Tech, иногда шитпостинг
Download Telegram
Вышеупомянутая модель CLIP может быть использована в сочетании с генеративными моделями (GANs). В первом сценарии можно сгенерировать большое количество изображений и просто ранжировать их с помощью CLIP, отобрав топовые результаты по категориям. Попробуйте, например, сделать это с StyleGAN2 FFHQ, и тремя категорями ("a blonde", "a redhead", "a brunette"). А потом попрбуйте ("a cute girl", "an ordinary person") - это тоже работает!

Второй сценарий основан на том, что "функция сходства" CLIP является дифференцируемой относительно параметров GAN, и мы можем получить вектор направления изменения параметров, который будет максимизировать сходство сгенерированных изображений с текстовым описанием. Мы делаем композитный дискриминатор, который будет возвращать оценку и градиенты, используя существующий дискриминатор GAN и функцию сходства (CLIP + текстовое описание), с настраиваемыми коэффициентами, и проходимся этим композитным дискриминатором по латентному пространству GAN, оптимизируя выводы генератора. Это напоминает то, как работает проецирование изображения на латентное пространство (GAN back-projection), только вместо классификатора сходства с изображением (типа VGG16) мы используем CLIP в качестве классификатора сходства с произвольным текстовым описанием.

Здесь http://www.counterengineer.com/art/what_clip_sees/ есть несколько примеров, сгенерированных Anime StyleGAN2 (TANDE) по фразам. А вот ноутбук для Colab, где можно попробовать самому https://colab.research.google.com/github/nagolinc/notebooks/blob/main/CLIP_%2B_TADNE_(pytorch)_v2.ipynb

#AI
Очень интересная работа: "Brain2Pix: Fully convolutional naturalistic video reconstruction from brain activity" (https://www.biorxiv.org/content/10.1101/2021.02.02.429430v1.full.pdf). Авторы (Le et al.) взяли данные из сканов функциональной МРТ (фМРТ) головного мозга и реконструировали из них изображения и кадры видео. Это было достигнуто путем представления регионов активности мозга как тензоров в пространстве пикселей (вокселей), и последующей генерации изображений на основе этих представлений.

Это напоминает предыдущую работу двухлетней давности "End-to-end deep image reconstruction from human brain activity" (https://www.biorxiv.org/content/10.1101/272518v1.full.pdf), где авторы (Shen et al.), добивались похожих результатов, используя, грубо говоря, данные из fMRI в качестве входных данных для генератора GAN.

Успехи таких работ свидетельствуют о быстром прогрессе в области интерфейсов "мозг-компьютер" (brain-machine interface, BMI). На мой взгляд, это вполне ожидаемо. Техническое обеспечение непрервыно прогрессирует - от примитивных средств наподобие полиграфа (детектора лжи), который косвенно и с ограниченной точностью фиксирует реакцию мозга в ответ на стимулы, мы перешли к фМРТ, позволяющей непосредственно визуализировать активность мозга, с разрешением до единиц миллиметров и долей секунд; прототипы инвазивных интерфейсов наподобие Neuralink (https://www.biorxiv.org/content/10.1101/703801v2.full.pdf) дают еще большую полосу пропускания между мозгом и компьютером. С другой стороны, ML алгоритмы, развивающиеся последние 10 лет, позволяют обрабатывать эти данные. Так что эти успехи - неизбежное следствие конвергенции развивающихся технологий.

Практический потенциал (и рынок) тоже впечатляет, в первую очередь это, конечно, медицина - диагностика заболеваний и перманентное решение различных disabilities; далее, использование BMI для управления разными процессами, моделированием, профессиональной тренировки и т.д. И конечно же, технологии, которые позволяют визуализировать недавно пережитое найдут применение как инструмент слежки и угнетения.

#AI #BMI
(картинка из статьи Neuralink просто невыносимо хороша)
Пару недель назад вышла статья (https://www.sciencedaily.com/releases/2021/02/210208161927.htm), где утверждается, что авторы (Hussain et al) впервые (!) научились обманывать детекторы дипфейков ("DF"). Меня заинтересовала такая подача; оказалось, что работе Hussain et al ("Adversarial Deepfakes: Evaluating Vulnerability of Deepfake Detectors to Adversarial Examples", https://arxiv.org/abs/2002.12749) уже год, и никакого "впервые" там нет, просто авторы обращают внимание на то, что в предыдущих работах, посвященным состязательным (adversarial) атакам на дискриминативные сети, конкретно DF внимание не уделялось.

Статья довольно интересная; помимо прочего, там описано построение whitebox и blackbox атак на дискриминативные сети (whitebox - это сценарий, когда в распоряжении атакущего есть сама модель (веса); blackbox - когда модели нет, и добавить ее как классификатор в loss функцию для тренировки adversarial сети невозможно, но есть доступ например через API, по результатам запросов в который можно примерно оценивать градиенты). Похожие техники подойдут и для манипуляции другими дискриминативными сетями, например, используемых при распознавании лиц и тд.

Вообще тема состязательных атак на дискриминативные сети достаточно популярная. Просматривая, например, материалы прошлогодней CVPR я обратил внимание на работу Xu et al "Adversarial T-shirt! Evading Person Detectors in A Physical World" (https://arxiv.org/abs/1910.11099), в которой авторы успешно продемонстрировали, что человек, который носит майку со специально сгенерированным изображением, в 75% случае перестает опознаваться как человек такими популярными детекторами объектов, как YOLO и R-CNN.

Ожидаемо, что эти методики были опробованы против детекторов DF, и продемонстировали некоторый успех. Можно ожидать, что помимо состязательных атак, генеративные сети сами по себе будут становиться более совершенными, и будут создавать более качественные DF, которые будут обходить детекторы. Вспоминается странная работа Hu et al "Exposing GAN-generated faces using incosistent corneal specular highlights" (https://arxiv.org/abs/2009.11924), авторы которой демонстрируют, что можно успешно идентифицировать синтезированные изображения лиц, сравнивая искажения бликов от света (фотовспышки) в левом и правом глазах - однако они делают эти заключения на основе анализа изображений, сгенерированных StyleGAN2 FFHQ, в то время как известно, что использование более совершенных сетей (хотя бы той же StyleGAN2, но с большей емкостью), значительно улучшает симметрию этих бликов, делая их абсолютно реалистичными.

В целом уязвимость детекторов DF представляется довольно важной темой, принимая во внимание усилия, направленные на автоматизацию борьбы с "fake news"

(продолжение следует)

#AI #DeepFakes
Касательно совершенстования алгоритмов обнаружения DF: Das et al улучшили результаты классификатора, используя процесс динамеческой аугментацию датасета для тренировки - подход, который был успешно применен в ряде работ в прошлом году на тему совершенствования GANs, в частности Adaptive Discriminator Augmentation (ADA) в StyleGAN2.

https://deepai.org/publication/improving-deepfake-detection-using-dynamic-face-augmentation

#AI #DeepFakes
(а, похоже, что это только encoder и decoder. transformer отсутствует :( )
(да. это не оно. хотя encoder и decoder вполне работоспособны!)
"Moscow never sleeps"

Advadnoun сделал colab notebook (https://colab.research.google.com/drive/1Q-TbYvASMPRMXCOQjkxxf72CXYjR_8Vp), где декодер от DALL-E используется для синтеза изображений из латентного вектора, который оптимизируется CLIP по критерию текстового промпта. Можно дать на вход текст и поэкспериментировать.
Выпустили DALL-E paper "Zero-Shot Text-to-Image Generation" (Ramesh et al) https://arxiv.org/abs/2102.12092
Видео из известного TikTok аккаунта с дипфейками Тома Круза выглядит очень впечатляюще, однако это не демонстрация новейших достижений, state of the art, в дипфейк-технологиях. 90% успеха обусловлено тем, что имперсонатор (Miles Fisher) реально похож на Тома Круза. Очень похоже, что Faceswap (или что-то подобное) было использовано для финальной доработки, и создание этих видео требовало очень серьезной ручной работы.

#DeepFakes

https://www.facebook.com/jamesmilesfisher/posts/10112778420265151
OpenAI выложили еще несколько моделей CLIP, а также опубликовали статью (https://distill.pub/2021/multimodal-neurons/), в которой, помимо прочего, делается смелое утверждение "In 2005, a letter published in Nature described human neurons responding to specific people. We report the existence of similar multimodal neurons in artificial neural networks" и приводятся наглядные визуализации "искуственных нейронов" (sic). В статье есть ссылки на какой-то невероятный инструмент визуализации - OpenAI Microscope (например, https://microscope.openai.com/models/contrastive_4x/image_block_4_5_Add_6_0/34)

#AI
Мой первый опыт создания чего-либо в Google Colab. Это скрипт, который берет синтезированный StyleGAN2 портрет, и использует CLIP с текстовой строкой как loss функцию, чтобы найти наиболее подходящий латентный вектор. Таким образом делается делается тюнинг по текстовому описанию.

Также работает с котиками!

https://twitter.com/l4rz/status/1367853921427984390
Тема с NFT часто вызывает непонимание, поэтому придумался небольшой эксплайнер:

1) Предметы коллекционирования ("Collectibles") - редкие или уникальные вещи, имеющие значительную ценность - зачестую являются объектом подделок, поэтому они обычно идут с сертификатом подлинности, в той или ной форме (начиная от серийного номера и голограммы, до документа, который может быть зарегистрирован в специальном реестре). Такой сертификат сам по себе, без предмета, имеет (почти) нулевую ценность, однако его отсутствие может сильно повлиять на стоимость предмета, либо затруднить перепродажу.

2) Появление совеременных инструментов, в частности, блокчейна и токенов стандарта ERC-721, позволяет довольно непринужденно перевести сертификаты подлинности физичеких объектов коллекционирования в цифровой вид. В частности, этим воспользовался Nike, который еще в 2019 зафайлил патент (1) с громким названием "System and method for providing cryptographically secured digital assets" для, грубо говоря, переноса кастомизированных кросовок на блокчейн. То есть, при покупке в магазине, помимо передачи пары сникерсов еще и делается трансфер уникального токена ("CryptoKick") в специальный wallet app. Далее, при перепродаже (а рынок редких кроссовок это большое дело!), владелец может подтвердить аутентичность трансфером CryptoKick следующему владельцу. Продать кроссовки без CryptoKick конечно можно, но, наверное, со скидкой, или с привлечением отдельной экспертизы. Данные на блокчейне публично доступны и верифицируемы, его невозможно "взломать", и так далее. Сплошные преимущества! (Wiv.io реализовал подобную концепцию для коллекционных вин)

3) С цифровыми объектами коллекционирования ("Digital collectibles") история совсем другая. Их можно неограниченно копировать (DRM notwithstanding), при этом копии полностью идентичны оригиналу. Как владелец JPG с фурри-артом может доказать, что именно его экземпляр получен от автора, и является "оригинальным"? Подобно физическим объектам, автор может создать ("To mint") сертификат, в виде того же ERC-721 токена, в метаданные которого поместить ссылку на цифровой объект (или сам объект, если блокчейн подходит для хранения объектов) - например, в виде URL (2)

4) Выходит, что в случае digital collectibles отношение ценности объекта и сертификата оказывается перевернутым; в самом деле, если объект может существовать в скольки угодно экземплярах, единстванное, что является уникальным (и, ergo, имеет ценность) - это сертификат. То есть, токен, NFT. Так NFT и становится собственно предметом коллекционирования; он является инструментом привнесения редкости, как экономического понятия в реальность, где физическая редкость отсутствует. Получается, что NFT для physical collectibles и для digital collectibles работают совершенно по-разному.

---

1) https://pdfpiw.uspto.gov/.piw?PageNum=0&docid=10505726&IDKey=&HomeUrl=%2F Патент стоит прочитать; авторы были явно вдохновлены темой CryptoKitties: "In some cases, the CryptoKick may not be originally linked to a physical product...", "In one embodiement, it may be possible to breed or mashup two CryptoKicks to creat an offspring CryptoKick)".

2) NFT-маркетплейс, типа Opensea или Rarible, упрощенно, является браузероми релевантной информации на блокчейне, с функциями вызова смарт-контрактов для создания (minting) NFT, трансфера и т.д. Сами digital collectibles могут храниться где угодно; Opensea, например, при создании через его интерфейс хранит картинки в Google CDN; в более продвинутых случаях может быть использован IPFS URL (так делают некоторые обскурные NFT-маркетплейсы, например, Hicetnunc.xyz, работающий на Tezos). Перманентность существования токена (при условии существовании его блокчейна) совершенно не обеспечивает перманентность хостинга самого digital collectible.

#Crypto
Пара обращающих на себя внимание вещей из области brain-machine interfaces:

1. Обезьяна, которая играет в пинг понг через Neuralink https://neuralink.com/blog/

"We are pleased to reveal the Link’s capability to enable a macaque monkey, named Pager, to move a cursor on a computer screen with neural activity using a 1,024 electrode fully-implanted neural recording and data transmission device, termed the N1 Link"

2. Подход к декодированию активности мозга, регистрируемой при помощи магнитоэнцефалографии: Deep Recurrent Encoder: A scalable end-to-end network to model brain signals https://arxiv.org/abs/2103.02339

"We propose an end-to-end deep conv net, trained to predict brain responses from the experimental conditions and using *all* the data (continuous recordings and multiple subjects)"

Твиттер-тред https://twitter.com/jrking0/status/1379775034579947520 и код на GitHib https://github.com/facebookresearch/deepmeg-recurrent-encoder

#AI #BMI
Узнал, что новый китайский УК, принятый 1 марта, запрещает "нелегальные врачебные практики", к которым относится, помимо прочего, модификация человеческого генокода.

"The new section is an amendment to Article 336 of China’s Criminal Law, and officially outlaws “the implantation of genetically-edited or cloned human embryos into human or animal bodies, or the implantation of genetically edited or cloned animal embryos into human bodies,” — with penalties ranging from fines to seven years imprisonment"

Надежды на появление синтетических кошкодевочек в ближайшее время тают 🙁

https://biohackinfo.com/news-china-gene-editing-criminal-law-article-336-march-2021/

#Bioengineering
На днях команда Huawei анонсировала создание языковой модели ("PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation", https://arxiv.org/abs/2104.12369), превосходящей по количеству параметров известный OpenAI GPT-3 в 2 раза ("up to 200 billion parameters"). Архитектура модели - вариация на тему привычных трансформаторов (sparse attention не применялся), авторы использовали датасет на китайском языке размером в 1.1Tb (и довольно подробно описали детали сборки в статье).

На первый взгляд, ничего необычного. За исключением того, что тренировка модели такого размера была выполнена полностью на специализированном железе Huawei, без задействования привычных акселераторов NVidia Tesla, Google TPU и т.д. Авторы использовали 2048 акселераторов Huawei Ascend 910, каждый из которых внешне напоминает Tesla V100 - с похожим энергопотреблением (350W), HBM2 памятью на чипе, и двойной (по сравнению с V100) заявленной производительностью при вычислениях с половинной точностью. (В статье это не указно, но из кода видно, что модель считалась в FP16). Силикон для Ascend 910 разработан Huawei вместе с HiSilicon, архитектура фигурирует под названием Davinci, и производится по технологии 7nm (TSMC N7+). Единственным существенным импортным компонентом платформы остаются процессоры Intel Xeon. Поскольку существующие фрэймворки (Tensorflow, Pytorch, JAX) не поддерживают Ascend/Davinci, Huawei сделал свой, чем-то походий на Pytorch - Mindspore, который поддерживает CPU, GPU (NVidia CUDA) и Ascend/Davinci.

Создание полного стэка - выглядищих конкурентноспособными акселераторов и собственного ML фрэймворка - который работает настолько неплохо, что с его использованием можно выполнить тренировку модели в 200B параметров - это, конечно, замечательные результаты. Это примерно как Google со своим стэком TF+TPU. Остается заменить процессоры Xeon и можно это называть примером успешного импортозамещения.

код и релизы моделей (пока самая большая из выложенных - 13B): https://git.openi.org.cn/PCL-Platform.Intelligence/PanGu-Alpha
про DaVinci: https://www.anandtech.com/show/14756/hot-chips-live-blogs-huawei-da-vinci-architecture
Mindspore: https://www.mindspore.cn/doc/note/en/master/design/mindspore/architecture.html
некоторые детали по Ascend: https://www.servethehome.com/huawei-ascend-910-provides-a-nvidia-ai-training-alternative/

#AI