эйай ньюз
56K subscribers
1.36K photos
704 videos
7 files
1.67K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
Сбер выпустил свою имплементацию сети DALL-E для русского языка, ruDALL-E.

DALL-E - это очень мощная сетка для генерации изображения по текстовому описанию, представленная OpenAI в начале года. Как и в случае ruGPT-3, репродукция не полностью повторяет оригинал, но старания ребят из Сбера заслуживают похвалы, ведь OpenaAI так и не опубликовали свой исходный код. Оригинальная модель DALL-E имеет 12 миллиардами параметров, а вариант от Сбера всего 1.2 миллиарда. Жаль, нет кода для тренировки.

Результаты генерации кайфовые. Смотрите, что генерится по запросу "Лучшая картина Васи Ложкина"!

Вообще Сбер приятно удивляет своими инициативами по воспроизведению статей от OpenAI. Прибыли это, конечно, не приносит, да и научных публикаций тоже, но, думаю, помогает позитивно пиарить свой бренд и проще хайрить новых людей.

Код ruDALL-E
Колаб ноутбук для поиграться
⚡️А если хотите получше разобраться в оригинальной архитектуре DALL-E, то вот вам отличный блог пост.
​​Дуров подрубил рекламу. Настолько ненавязчивую, что она постоянно теперь висит последним постом 🤡.

"Дуров, верни стену, блэт!"

Ну, и прикрепляю скрин из комментариев к посту Паши.
This media is not supported in your browser
VIEW IN TELEGRAM
Гугел выкатил новый метод для автоматического выбора и группировки задач, которые нужно тренировать вместе в одной нейронке для улучшения точности на каждой отдельной задаче.

Подробнее в блогпосте.
Ухх, бля. Это не AI, но выращивание мяса из клеток в промышленных масштабах взбудоражит даже вегана!

Завод Upside Foods уже производит 25 тонн искусственного мяса в год, и в планах увеличить отгрузку мяса до 400 тонн в год. При этом доя работы завода нужно всего 50 кожаных мешков.

Поразительно, как из полного скепсиса в 2015, когда была основана Upside Foods, первая компания задумавшая производить синтетическое мясо из клеток животных, и до 25 тонн в год прошло не так много времени.

Подсмотрел у @techsparks

Сама новость https://www.foodbusinessnews.net/articles/19980-upside-foods-opens-cultivated-meat-production-facility
This media is not supported in your browser
VIEW IN TELEGRAM
Новая работа о Panoptic 3D Scene Reconstruction
от Нисснера (известный чувак из Technical University Munich)

Понимание трехмерных сцен из одного изображения имеет фундаментальное значение для широкого спектра задач, таких как робототехника, планирование движения или дополненная реальность. Существующие работы в 3D-восприятии из одного изображения, как правило, сосредоточены только на геометрической реконструкции, а в этой работе решаются три задачи сразу: реконструкция геометрии, семантическая сегментация и instance сегментация (это когда для каждого стула в кадре будет своя маска, вместо одной общей маски на все стулья, как в случае семантической сегментации).

По одной RGB картинке они предсказывают 2D фичи и глубину, затем переводят фичи 3D пространство с помощью предсказанной глубины, по которым одновременно предсказывают геометрию, сегментируют отдельные объекты и предсказывают их семантические классы.

2.5 min Youtube video | Arxiv
Forwarded from ExMuffin
This media is not supported in your browser
VIEW IN TELEGRAM
✍️ Text2PixelAnimation 👾

Всегда восхищался пиксельартом и поэтому, в свое время, был очень рад появлению нейросети, которая создавала его по текстовому описанию. Ранее я публиковал Колаб, где можно было поиграться с генерацией картинок. Теперь настала пора генерировать видео. Колаб опубликовал автор канала @pathetic_low_freq. Я, как обычно, чуть пересобрал, добавив текст на любом языке и простые настройки. Запаситесь временем, ибо его потребуется не мало. Прикрепленное видео я генерировал чуть больше 3 часов с текстовым описанием «Горящий огонь».

https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/Text2PixelAnimation.ipynb
Снизу – генерация с помощью ruDALL-E.

Выглядит эффектно. Но, кажется, модели не хватает какой-то регуляризации либо праеров, чтобы генерировать более реалистичные картинки.

Издалека кажется круто, приблизишь – кашка.
Уютные транспортные нейроебеня
This media is not supported in your browser
VIEW IN TELEGRAM
Круть! Робо-рука для барабанщика.

Барабанщик попал в аварию и лишился руки. Чтобы парень мог продолжать заниматься любовью всей своей жизни, ученые из Geogia Tech создали для него робо-протез, который снимает мышечные импульсы с предплечья и дает фантастический контроль над барабанной палочкой с минимальной задержкой. Без диплернинга, конечно, не обошлось.

Полное видео.
Forwarded from DL in NLP (nlpcontroller_bot)
​​Мультиязычная модель машинного перевода от FAIR превзошла двуязычные модели на соревновании WMT-21.
Статья: arxiv.org/abs/2108.03265
Блог: ai.facebook.com/blog/the-first-ever-multilingual-model-to-win-wmt-beating-out-bilingual-models/

Мультиязычный перевод сложно делать. Несмотря на то, что за последние годы научились обучать большие модели, которые улучшают качество перевода на низкоресурсных языках, с высокоресурсными языками это долгое время не работало и двуязычные модели продолжали работать лучше мультиязычных.

FAIR (Meta AI?) в новой статье наконец-то преодолели этот порог. Их модель превосходит двуязычные, чего добились с помощью более умного (и объемного) майнинга обучающих данных - как параллельных так и непараллельных и использования mixture of experts (MoE) для скейлинга модели до 52B параметров.
Если вы интересуетесь большими генеративными нейросетями (привет, GPT-3 и YaLM), то уже могли читать статью на arxiv про новый подход к их настройке: P-Tuning. Это решение хорошо экономит время для инженера и вычислительные ресурсы.

Более доступно и на примере реальных продуктов про новое решение можно почитать в статье Яндекса на Хабре: habr.com/ru/company/yandex/blog/588214/
​​О Нейронном Рендеринге

Что такое Нейронный Рендеринг? Если немного сумбурно, то нейронный рендеринг это когда мы берем классические алгоритмы синтеза изображений из компьютерной графики и заменяем часть пайплайна нейронными сетями (тупо, но эффективно). Нейронный рендеринг учится рендерить и представлять сцену из одной или нескольких реальных фотографий, имитируя физический процесс камеры, которая фотографирует сцену. Ключевая особенность нейронного рендеринга — разделение процесса фотографирования (т.е. проекции и формирования изображения) и представления трехмерной сцены во время обучения. То есть мы учим отдельное представление трехмерной сцены в явном (воксели, облака точек, параметрически заданные поверхности) либо в неявном виде (signed distance function), из которого рендерятся наблюдаемые изображения. Чтобы всё это обучать, важно чтобы весь процесс рендеринга был дифференцируемым.

Может вы не заметили, но тема нейронного рендеринга, включая всякие нерфы-шмерфы, сейчас хайпует в компьютерном зрении. Вы скажете, что нейронный рендеринг — это очень медленно, и вы будете правы. Обычная тренировка на небольшой сцене с ~50 фотографиями занимает у самого быстрого метода около 5.5 часов на одной GPU, но прогресс не стоит на месте и методы очень активно развиваются. Чтобы охватить все недавние наработки в этом направлении, очень советую прочитать этот SOTA репорт "Advances in Neural Rendering".