эйай ньюз
55.9K subscribers
1.34K photos
704 videos
7 files
1.66K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
R2L: Distilling Neural Radiance Field to Neural Light Field for Efficient Novel View Synthesis

Немного о последних "сотах" в нейронном рендеринге. Неявное представление сцены, которое учит NeRF, печально известно тем, что из него очень долго рендерить. На каждый пиксель картинки нужно сделать десятки или сотни прогонов сети (ray marching). Недавние работы научились это дело ускорять, запекая неявное представление, например кэшированием выходов сетки в трехмерный грид. Но эффективная имплементация таких методов зачастую требует низкоуровневых оптимизаций кода и знаний CUDA.

В этой работе, Снэп показал более элегантный трюк. После обучения нерфа, они дистиллируют информацию (teacher-student подход) в глубокий MLP со скип-соедмнениями. Самое главное – новый MLP на вход принимает координату пикселя и расположение камеры и выдает RGB значение за один прогон, без богопротивного ray marching. Это даёт изи ускорение в 30 раз, при этом сохраняя качество рендеринга.

❱❱ Сайт
❱❱ Код

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
NUWA-Infinity: новая авторегресионная модель для генерации картинок большого размера

Микромягкие выкатили новую модельку, улучшение NUWA. По сравнению с DALL·E, Imagen и Parti, микрософтовсккая модель генерит в высоком разрешении длинные картинки произвольного размера, да ещё в image-2-video умеет.

Модель авторегресионная, без диффузии. Результаты на видео. Кода пока нет,но, кажется, планируют выкатить.

📜 Статья
🌐 Сайт проекта (там есть интерактивные визуализации)

@ai_newz
Я перестал регулярно слушать AI подкасты, зачастую хочется послушать что-то не напрямую связанное с моей работой. Но время от времени, все же уделяю время для выпусков с топовыми учёными в нашей области.

Например, сейчас слушаю подкаст от Боза, нашего CTO, который взял интервью у Яна ЛеКуна. Пока только на половине, но могу рекомендовать. Там вдохновляющие разговоры об аналогиях между обучением нейросетей и людей, и рассуждения о том, куда мы хотим прийти на нашем следующем витке развития AI. Я люблю такое.

Кенты, если у вас есть рекомендации интересных подкастов про AI - пишите в комментариях.

Эпизод с ЛеКуном:
🎙Спотифай
🎙Эпл
🎙На сайте

@ai_newz
Эта детка получает слишком много внимания

@ai_newz
Наткнулся на любопытную статью с MICCAI 2021 (это крупнейшая конференция по AI в медицине). Оказывается, нейросеть довольно точно (ошибка 4-6 лет, в зависимости от датасета) может предсказать возраст пациента по рентгеновскому снимку кисти.

@ai_newz
После провала с Google Glass, Гугел, видя хайп вокруг VR/AR, решил опять попробовать заскочить в этот поезд. Они объявили о том, что работают над новым прототипом AR-очков.

Прототип будет оснащен дисплеями, встроенными в линзы, микрофонами и камерами. Но гугл клянется, что на камеры и микрофоны будут наложены жэстачайшие ограничения. Например, фото- и видеосъемка будет заблокирована, хотя данные с камер будут использоваться для включения таких функций, как перевод меню перед вами или указание направления к ближайшей кофейне. Вообще, я считаю, в современном мире очень сложно контролировать, куда твои данные текут и как используются, остается только доверять и надеяться, что регуляторы будут это проверять, выявляя нарушения. Я, кстати, поэтому и не пользуюсь никакими голосовыми помощниками.

На видео — пример того, как компания планирует встроить гугл- транслейт в свои новые очки. При разговоре с иностранцем, очки будут выводить на экран субтитры на твоем родном языке. Что довольно круто все-таки. "Стираем языковые барьеры!"
#чтивонаночь

Bf16 или fp16 здорового человека

Начнем с базы: числа в компуктере записываются в виде знак числа_n знаков экспоненты_k знаков мантиссы.

FP32
Использует 8 знаков на экспоненту , 23 на мантиссу

FP16
Использует 5 знаков на экспоненту, 10 на мантиссу

BF16 (читать как Google brain fp16)
Использует 8 бит на экспоненту и 7 на мантиссу

Что это даёт
- Диапазон значений идентичен fp32, сетка точно не разойдется при таком квантовании(даже очень глубокая)

- Можно выкинуть loss.scale при обучении в смешанной точности, теперь у нас диапазон значений между fp32 и bf16 идентичен, разницы только в количестве знаков после запятой

- Просто делай torch.bfloat16 каждое утро и видеопамять болеть не будет

- Из минусов нативно работает только с Nvidia amper и выше (х2 ускорение к обучению/инференсу) и с TPUv3 и выше

клёвая статья на медиум

Дока Nvidia про тоже самое, но с графиками и более техническое
Хорошие новости падения крипты в том, что видеокарты действительно существенно подешевели за последние несколько месяцев. Еще это, возможно, связано с тем, что производители электроники, в ожидании кризиса полупроводников, забили под завязку свои склады.

Например, цена на GeForce RTX 3090 упала в два раза со времен пика (теперь она продается за 1100-1200 фунтов), а RTX 3070 подешевела вообще почти в 3 раза.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Тут челик в твиттере сделал просто божественный ролик с помощью DALLE-2. Делая интерполяцию и последовательно подавая 57 текстовых запросов в нейросеть, он производит зум-аут от масштаба протонов, до масштаба галактики.

И качество картинки поразительное. Обалденно!

Нейросети прогрессируют у нас на глазах.

@ai_newz
Решил освежить свои знания по multiple-view geometry. Очень хотел посмотреть курс от Стэнфорда CS231A: Computer Vision, From 3D Reconstruction to Recognition, долго искал лекции по всем торрентам, даже на китайски били-били заглянул. Ничего не нашел (поделитесь если у вас вдруг есть).

В итоге смотрю набор коротеньких лекций "Camera Calibration | Uncalibrated Stereo" от челика из Columbia University. Каждая лекция от 5 до 15 минут, коротко и по делу, как раз чтобы освежить в памяти.

У него целый канал по основам классического компьютерного зрения. Уверен, кому-то из подписчиков пригодится.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
PyMAF-X – это очередная СОТАчка от китайцев по 3d реконструкции меши и позы человека по монокулярному видео. Тут даже руки прикрутили. Но пайплайн просто адский, как и обычно впрочем. Кода пока нет.

@ai_newz
У нетфликса вышел документальный мини-сериал про грядущий киберпанк, эйай и новые технологии. В одной из серий, когда говорят про 3д аватары, даже фигурирует стартап моего товарища Димы Ульянова, in3d.io.

Сорри за пиар нетфликса, знаю, что сейчас снимают много мусора. Но бывают и норм выпуски. В общем, если есть нетфликс, можете глянуть на выходных.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
📣 𝐌𝐨𝐛𝐢𝐥𝐞𝐍𝐞𝐑𝐅: exploiting the polygon rasterization pipeline for efficient neural field rendering on mobile architectures

Ух, бля! Гугел удивил новым методом "запекания" нерфа. Новые риал-тайм приложения для мобильных устройств - Unlocked!

Даже у меня на стареньком Pixel 3 рендерит со скоростью 15fps.
На сайте проекта сами можете открыть лайв демо у себя на телефоне. Это прям крууто!

Основная идея в том, чтобы запечь нерф в виде традиционной для пайплайнов компьютерной графики текстурированной меши и использовать все наработки старичков из CG для ускорения. Изюминка – тесктура кодирует не цвет, а нейронные фичи, и во время рендеринга шейдер с маленькой нейронной сетью быстро конвертирует каждый пиксель в цвет и прозрачность. Молниеносно быстро.

❱❱ Статья

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Нипс 2022 be like*.

Считаю, что нужно для каждой конфы такое сделать. Неизменно будет только одно - ролик со Шмидхубером. Ещё бы кто приправил менее толерантными шутками.

*Для нубов. Это крупнейшая конференции по AI и нейронным сетям в мире.

@ai_newz
Ну кайф же! Многие хотели поиграть на фортепиано вживую, но не у всех есть усидчивость учиться с очень пологой learning curve, когда ты играешь как имбецил первые несколько месяцев.

Казалось бы идея для AR игры на поверхности. И вот, наконец сделали. Тебе через passthrough подсвечивают куда ляпать пальцами, и вот ты уже с ходу не хуже Моцарта лол.

О, этот дивный новый мир!

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
OWL-ViT by GoogleAI

Давно не говорили о детекции, друзья.

Гугел сделал уверенный шаг в сторону open-vocabulary detection. Это когда у модели нет набора фиксированных классов, но она умеет реагировать на текстовые запросы. Вы вводите в промпт названия нужных объектов, и модель их находит. Попробовать демку можно на хагинфейсе.

По сути, это предобученный CLIP, где к картиночному энкодеру присобачили голову для предсказания координат баундинг боксов. То есть для каждому токена, полученного из картинки, мы предсказываем координаты и эмбеддинг. Далее этот эмбеддинг сравнивает с эмбеддингом заданного имени класса, и мы получаем similarity для класса. Дополнительные головы файнтюнятся лоссом в стиле DETR. Все подробности в статье.

Внизу схема архитектуры и минимальный код для инференса.

@ai_newz
Архитектура OWL-ViT и минимальный код для запуска инференса модели с предобученыии весами.

📋Документация: https://huggingface.co/docs/transformers/model_doc/owlvit

@ai_newz