Градиент обреченный
7.98K subscribers
837 photos
20 videos
8 files
457 links
Download Telegram
Forwarded from shonenkov AI
Сделал релиз, теперь можно с помощью моделей ruDALLE генерить изображения с произвольным соотношением сторон

Обучать не нужно, все работает в zero-shot

Идея супер-простая: динамически менять размер контекстного окна пропорционально текущей позиции, чтобы попытаться хоть как-то сохранить правильную геометрию. Работает, черри-пикать тоже нужно, как и всю рудалю. А для горизонтальных картинок (из-за низкой скорости) пришлось оставить статическое контекстное окно - но получается тоже весьма неплохо - генерил себе шапки для NFT коллекций

Также, чтобы немного сгладить геометрию, затюнил модельку на сюрреализме, веса прикладываю ruDALLE Surrealist XL

Kaggle и Colab рабочие тоже собрал 🤝

Paper | Github | Weights | Colab | Kaggle | Twitter
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
#friday

🤖 Почувствуй силу робототехники.
🔥7😁31
Forwarded from Пресидский залив (Nadia Zueva)
Фичи google colab, о которых стоит знать 🤓
как достать P100 бесплатно и учить в бекграунде

Основная беда колабов это медленные cpu даже на Pro+, поэтому учить на них сложно. Но если вы хотите сделать какой-нибудь предобученный гибрид или годное демо, то это самое то.

1. подключение google drive
Можно подмаунтить свой или шареный drive через google.colab.drive Правда, диск там будет супер медленный, поэтому большие датасеты лучше так не маунтить. А вот тестсеты вполне можно.
2. скрытие кода
Допустим, вы кидаете inference ноутбук и хотите скрыть код. Добавьте два текстовых раздела, код между ними скроется
3. открытие ноутбука из github по ссылке
При создании нового ноутбука можно выбрать github и вставить ссылку, откроется ноутбук из публичного репозитория
UPD: если авторизоваться в гх через колаб, то и приватные открывать можно
4. Forms
Это блоки, куда можно вписывать значения переменных. Очень удобно, если показываете промежуточный результат, особенно кому-то из неразработчиков
5. Виджеты
Можно вставить кучу всего. Например, запись с микрофона, аплоад файла или отображение видео по ссылке
6. Еще разный html
Кроме виджетов, можно вставлять бегущие строки, красивые схемы и вообще что хотите

Кстати, примеры про jupyter notebook (не colab) в большом количестве здесь
Пишите, если что-то крутое тоже вспомните)
4
#news #big #gpt #nlp

🔥 Сбербанк натренировал и выложил мультиязычную GPT3 модель!

GPT — это модели, способные генерировать тексты. Одной из их крутых способностей является генерация ответа на какую-нибудь "затравку" (так называемый few shot learning). То есть можно подать ей на вход текст "Переведи с русского на английский: стол => table, девушка => girl, кошка => " и модель сгенерирует ответ "кошка". Также ее можно дообучать на свои таски, делать QA системы, генерировать стихи и т.д.

Среди языков есть и много языков России, что лично меня очень радует — татарский, башкирский, осетинский, бурятский, якутский и несколько других. Всего языков 60.

Пойду пробовать. Тоже присоединяйтесь.

https://huggingface.co/sberbank-ai/mGPT
👍5🔥3
#colab #cv #gen

Рисуем пейзажи нейросетью

🎨 По сети гуляет множество Colab'ов (интерактивных страничек с кодом на python), в которых можно генерировать изображение по текстовой подсказке. Я перепробовал много таких, особенно мне нравились картинке в стиле pixel art. Минусом было то, что никак не получалось рисовать картинку произвольного размера за один раз, так как картинка сильно искажалась.

🔮 Недавно исследователь Александр Шоненков выложил замечательный репозиторий на GitHub и собрал к нему Colab, в котором можно рисовать вот такую красоту. В качестве весов используется сберовская RuDalle, дообученная на картинах в стиле сюрреализма. Генерация идет окном, что позволяет вытягивать изображения, сохраняя геометрию.
2👍2🔥1
#data #nlp

MASSIVE — новый мультиязыковой NLU датасет от Amazon

🌗 Amazon запустил соревнование по NLU (natural language understanding) и, в связи с этим, расшарил параллельный датасет.

51 язык
• Всего порядка 1 миллиона строк.

🌗 Посмотрел на него, — похоже, что это всё команды для голосового помощника alex'ы.

• Есть разметка типа "можешь создать событие [time : в ночь] на [date : пятницу] с [person : аллой пугачёвой] и [person : киркоровым]"
• Почти все тексты короткие, до 20 слов.
• Попадаются различия в переводе названий. Русский — "включи игру танки онлайн", немецкий "lass uns ein trivia spiel spielen".

Что ж, появился новый параллельный корпус на 51 язык, хотя и немного специфичный. И то хорошо.

GitHub
👍5
Сюрреализм онлайн

🐌 Попробовал новую демку по генерации картинок. Дообучена на работах в стиле Сальвадора Дали, поэтому по запросу "улитка на склоне" может выдать вот такое художество (лучше попробовать несколько раз). Работает быстро, так что рекомендую попробовать.
👍32
#notes #tools #useful

Заметка. Парсинг веб-страниц

🐤 Если вам время от времени требуется спарсить ту или иную страничку в интернете (мне тут понадобилось вытащить список русских фразеологизмов из википедии), то в простом случае (без переходов по ссылкам) это можно сделать одной строчкой в консоли браузера (та, что открывается по F12). В моем случае вот такой командой:

copy($$('table.wikitable tbody tr').map((e,i) => {a = e.querySelectorAll('td'); let desc = a.length > 1 ? a[1].outerText.replaceAll('\n',' ') : ""; return a[0].outerText.replaceAll('\n',' ') + " | " + desc}).join('\n'))

• Через $$ получаем все элементы, соответствующие css селектору
• В map пишем логику, которая применится к каждому найденному элементу
• Объединяем все в одну строку и копируем
• Profit

...
как гром среди ясного неба | неожиданно
как два пальца об асфальт | сделать просто
...
👍3🔥2
#nlp #gpt #news #big

Встречайте OPT, брата GPT-3

🌗 В полку больших генеративных сетей прибыло, — несколько часов назад Meta выложила на github свою балалайку по генерации текстов под названием Open Pre-trained Transformers.

🌗 Что мы об этом знаем:

• Максимальная модель на 175B параметров (ровно столько же у большой GPT-3, которую OpenAI раздает через API). Недавняя мультиязычная имплементация GPT от Сбера была на 13B параметров (и 1.3B в открытом доступе).
• Всего потренировали 9 размеров сеток. Выложили веса для английской версии на 30B параметров.
• Тренировали месяц на 1024 штуках A100 (80GB). GPT-3 тренилась 15 дней на 10000 (десять тысяч) V100 🤯.
• Пишут, то по качеству почти сошлось к GPT-3.

⚠️ Не пытайтесь повторить у себя дома.

Статья | Github
🔥4😱2
#useful #cv

Google репозиторий и CV исследования

🌗 Еще одно прекрасное open source начинание. На этот раз Google создал репозиторий на github, в который будет выкладывать результаты своих исследований и модели. В readme пишут, что будут добавлять в ближайшее время:

• ImageNet-21k in TFDS.
• Loading misc public models used in our publications (NFNet, MoCov3, DINO).
• "Patient and consistent" distillation.
• Contrastive Image-Text model training and evaluation as in LiT and CLIP.

Это все исследования на тему компьютерного зрения, поэтому всем заинтересованным будет очень любопытно.

Github
👍5
#useful #cv #gen

Пайплайн генерации картинок с HITL (human in the loop)

🌗 Jina AI зарелизили пайплайн для генерации картинок в высоком разрешении. Попробовать можно прямо у себя на компе, потому что вся генерация идет на сервере разработчиков. Потыкал его, работает так:

• Задаем текстовую подсказку (например, "космонавт читает книгу в космосе") и получаем какое-то количество вариантов. Картинки генерируются при помощи сетки DALL·E Mega (реплика DALL·E от WanDB.ai, которая на этой неделе доучилась до 50%).
• Выбираем понравившуюся картинку и отправляем на следующий шаг. Получаем уже 16 вариантов нашей картинки, причем можно выбирать коэффициент импровизации.
• На последнем шаге выбираем еще раз и делаем upscale в высокое разрешение.

🌗 Работает достаточно быстро, по качеству не DALL·E 2, но тут все зависит от модели бэкенда. Сам пайплайн рабочий, сервер можно поднять у себя, инструкции есть в репозитории.

Github
🔥3👍1
akutagawa.pdf
653.2 KB
#lingtrain #books #pet

DIY. Делаем книги

🌗 Продолжаю экспериментировать с созданием параллельных книг на иностранных языках. Повозился на майских праздниках с библиотекой weasyprint, чтобы сверстать выровненную при помощи моего хобби-проекта книгу в PDF.

Очень кропотливое занятие, которое, однако можно автоматизировать. На выходе получается вот такая замечательная книга.

🌗 Выравнивание идет при помощи LaBSE, которая обучалась на 100+ языках, можно дообучать и на другие, более редкие языки (про это можно почитать тут). Пока что можно сделать себе книжку в html.

Github
🔥9👍31
#news #tools

Python в браузере, теперь ты можешь. Но зачем?

🔮 Наткнулся на свежую библиотеку py-script, которая позволяет писать код на python в браузере. Для этого нужна только одна зависимость, и вуаля.

🚲 Сначала я подумал, что это какая-то очередная фигня, транслирующая код в JS. Но после беглого просмотра оказалось, что код выполняется при помощи pyodide, порта CPython в WebAssembly. Это значит, что будет работать функционал из стандартной библиотеки. Плюс пишут, что работает numpy, pandas, sklearn и т.д.

🤷‍♂️ Я все равно не до конца понимаю зачем это надо, кроме, может, поворочать какие-то клиентские данные сразу в браузере и сделать визуализацию. Может у вас есть какие-то идеи.

PyScript
😱2
#articles #nlp

Gato — взгляд в сторону сильного ИИ

🧿 Вышла статья от DeepMind о том как они тренировали сеть решать мультимодальные задачи — играть в компьютерные игры, управлять роботом, а кроме этого расставлять подписи к картинкам и чатиться.

Вроде бы ничего особенного относительно SOTA результатов в каждой конкретной задаче, но суть на самом деле в следующем:

• Большая часть тренировочного датасета (85%) — это сценарии от игровых агентов.
• Остальная часть (15%) — это текстовые и графические данные, т.е данные другого типа нежели первые.
• В статье описываются эксперименты как претрейн на данных другой модальности влияет на обучение основного агента.

И вот это очень интересно, — во-первых, обучение на новых задачах может влечь Negative transfer (ухудшение качества в общем). Во-торых, возможен ли Positive transfer?

🧿 Если да, то значит сети можно обобщать (хорошо уметь делать все) и где-то вдалеке маячит возможность обучения того самого сильного ИИ, он же AGI (artificial general intelligence).

Статья
🤔2