эйай ньюз – Telegram

эйай ньюз

55.9K subscribers

1.34K photos

704 videos

7 files

1.66K links

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426

Download Telegram

About

Blog

Apps

Platform

эйай ньюз

55.9K subscribers

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

R2L: Distilling Neural Radiance Field to Neural Light Field for Efficient Novel View Synthesis

Немного о последних "сотах" в нейронном рендеринге. Неявное представление сцены, которое учит NeRF, печально известно тем, что из него очень долго рендерить. На каждый пиксель картинки нужно сделать десятки или сотни прогонов сети (ray marching). Недавние работы научились это дело ускорять, запекая неявное представление, например кэшированием выходов сетки в трехмерный грид. Но эффективная имплементация таких методов зачастую требует низкоуровневых оптимизаций кода и знаний CUDA.

В этой работе, Снэп показал более элегантный трюк. После обучения нерфа, они дистиллируют информацию (teacher-student подход) в глубокий MLP со скип-соедмнениями. Самое главное – новый MLP на вход принимает координату пикселя и расположение камеры и выдает RGB значение за один прогон, без богопротивного ray marching. Это даёт изи ускорение в 30 раз, при этом сохраняя качество рендеринга.

❱❱ Сайт
❱❱ Код

@ai_newz

10.7K views10:52

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

NUWA-Infinity: новая авторегресионная модель для генерации картинок большого размера

Микромягкие выкатили новую модельку, улучшение NUWA. По сравнению с DALL·E, Imagen и Parti, микрософтовсккая модель генерит в высоком разрешении длинные картинки произвольного размера, да ещё в image-2-video умеет.

Модель авторегресионная, без диффузии. Результаты на видео. Кода пока нет,но, кажется, планируют выкатить.

📜 Статья
🌐 Сайт проекта (там есть интерактивные визуализации)

@ai_newz

9.6K views17:54

эйай ньюз

Я перестал регулярно слушать AI подкасты, зачастую хочется послушать что-то не напрямую связанное с моей работой. Но время от времени, все же уделяю время для выпусков с топовыми учёными в нашей области.

Например, сейчас слушаю подкаст от Боза, нашего CTO, который взял интервью у Яна ЛеКуна. Пока только на половине, но могу рекомендовать. Там вдохновляющие разговоры об аналогиях между обучением нейросетей и людей, и рассуждения о том, куда мы хотим прийти на нашем следующем витке развития AI. Я люблю такое.

Кенты, если у вас есть рекомендации интересных подкастов про AI - пишите в комментариях.

Эпизод с ЛеКуном:
🎙Спотифай
🎙Эпл
🎙На сайте

@ai_newz

10.1K views11:44

эйай ньюз

Эта детка получает слишком много внимания

@ai_newz

11.4K views19:06

эйай ньюз

Наткнулся на любопытную статью с MICCAI 2021 (это крупнейшая конференция по AI в медицине). Оказывается, нейросеть довольно точно (ошибка 4-6 лет, в зависимости от датасета) может предсказать возраст пациента по рентгеновскому снимку кисти.

@ai_newz

10.0K views18:08

эйай ньюз

После провала с Google Glass, Гугел, видя хайп вокруг VR/AR, решил опять попробовать заскочить в этот поезд. Они объявили о том, что работают над новым прототипом AR-очков.

Прототип будет оснащен дисплеями, встроенными в линзы, микрофонами и камерами. Но гугл клянется, что на камеры и микрофоны будут наложены жэстачайшие ограничения. Например, фото- и видеосъемка будет заблокирована, хотя данные с камер будут использоваться для включения таких функций, как перевод меню перед вами или указание направления к ближайшей кофейне. Вообще, я считаю, в современном мире очень сложно контролировать, куда твои данные текут и как используются, остается только доверять и надеяться, что регуляторы будут это проверять, выявляя нарушения. Я, кстати, поэтому и не пользуюсь никакими голосовыми помощниками.

На видео — пример того, как компания планирует встроить гугл- транслейт в свои новые очки. При разговоре с иностранцем, очки будут выводить на экран субтитры на твоем родном языке. Что довольно круто все-таки. "Стираем языковые барьеры!"

Breaking down language barriers with augmented reality | Google

Augmented reality allows us to spend more time focusing on what matters in the real world, in our real lives. It can break down communication barriers — and help us better understand each other by making language visible. Watch what happens when we bring…

9.2K viewsedited 13:27

эйай ньюз

Forwarded from Love. Death. Transformers.

#чтивонаночь

Bf16 или fp16 здорового человека

Начнем с базы: числа в компуктере записываются в виде знак числа_n знаков экспоненты_k знаков мантиссы.

FP32
Использует 8 знаков на экспоненту , 23 на мантиссу

FP16
Использует 5 знаков на экспоненту, 10 на мантиссу

BF16 (читать как Google brain fp16)
Использует 8 бит на экспоненту и 7 на мантиссу

Что это даёт
- Диапазон значений идентичен fp32, сетка точно не разойдется при таком квантовании(даже очень глубокая)

- Можно выкинуть loss.scale при обучении в смешанной точности, теперь у нас диапазон значений между fp32 и bf16 идентичен, разницы только в количестве знаков после запятой

- Просто делай torch.bfloat16 каждое утро и видеопамять болеть не будет

- Из минусов нативно работает только с Nvidia amper и выше (х2 ускорение к обучению/инференсу) и с TPUv3 и выше

клёвая статья на медиум

Дока Nvidia про тоже самое, но с графиками и более техническое

FP64, FP32, FP16, BFLOAT16, TF32, and other members of the ZOO

There are many floating point formats you can hear about in the context of deep learning. Here is a summary of what are they about and…

8.5K views21:43

эйай ньюз

Хорошие новости падения крипты в том, что видеокарты действительно существенно подешевели за последние несколько месяцев. Еще это, возможно, связано с тем, что производители электроники, в ожидании кризиса полупроводников, забили под завязку свои склады.

Например, цена на GeForce RTX 3090 упала в два раза со времен пика (теперь она продается за 1100-1200 фунтов), а RTX 3070 подешевела вообще почти в 3 раза.

@ai_newz

9.8K views13:59

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Тут челик в твиттере сделал просто божественный ролик с помощью DALLE-2. Делая интерполяцию и последовательно подавая 57 текстовых запросов в нейросеть, он производит зум-аут от масштаба протонов, до масштаба галактики.

И качество картинки поразительное. Обалденно!

Нейросети прогрессируют у нас на глазах.

@ai_newz

36.7K views12:50

эйай ньюз

Решил освежить свои знания по multiple-view geometry. Очень хотел посмотреть курс от Стэнфорда CS231A: Computer Vision, From 3D Reconstruction to Recognition, долго искал лекции по всем торрентам, даже на китайски били-били заглянул. Ничего не нашел (поделитесь если у вас вдруг есть).

В итоге смотрю набор коротеньких лекций "Camera Calibration | Uncalibrated Stereo" от челика из Columbia University. Каждая лекция от 5 до 15 минут, коротко и по делу, как раз чтобы освежить в памяти.

У него целый канал по основам классического компьютерного зрения. Уверен, кому-то из подписчиков пригодится.

@ai_newz

14.0K views10:01

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

PyMAF-X – это очередная СОТАчка от китайцев по 3d реконструкции меши и позы человека по монокулярному видео. Тут даже руки прикрутили. Но пайплайн просто адский, как и обычно впрочем. Кода пока нет.

@ai_newz

11.6K views16:57

эйай ньюз

У нетфликса вышел документальный мини-сериал про грядущий киберпанк, эйай и новые технологии. В одной из серий, когда говорят про 3д аватары, даже фигурирует стартап моего товарища Димы Ульянова, in3d.io.

Сорри за пиар нетфликса, знаю, что сейчас снимают много мусора. Но бывают и норм выпуски. В общем, если есть нетфликс, можете глянуть на выходных.

@ai_newz

Watch The Future Of | Netflix Official Site

With the help of industry experts, this innovative docuseries examines new and emerging technological trends to imagine revolutionary possibilities.

14.5K views18:30

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

📣 𝐌𝐨𝐛𝐢𝐥𝐞𝐍𝐞𝐑𝐅: exploiting the polygon rasterization pipeline for efficient neural field rendering on mobile architectures

Ух, бля! Гугел удивил новым методом "запекания" нерфа. Новые риал-тайм приложения для мобильных устройств - Unlocked!

Даже у меня на стареньком Pixel 3 рендерит со скоростью 15fps.
На сайте проекта сами можете открыть лайв демо у себя на телефоне. Это прям крууто!

Основная идея в том, чтобы запечь нерф в виде традиционной для пайплайнов компьютерной графики текстурированной меши и использовать все наработки старичков из CG для ускорения. Изюминка – тесктура кодирует не цвет, а нейронные фичи, и во время рендеринга шейдер с маленькой нейронной сетью быстро конвертирует каждый пиксель в цвет и прозрачность. Молниеносно быстро.

❱❱ Статья

@ai_newz

35.4K views11:42

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Нипс 2022 be like*.

Считаю, что нужно для каждой конфы такое сделать. Неизменно будет только одно - ролик со Шмидхубером. Ещё бы кто приправил менее толерантными шутками.

*Для нубов. Это крупнейшая конференции по AI и нейронным сетям в мире.

@ai_newz

11.9K viewsedited 10:08

эйай ньюз

Ну кайф же! Многие хотели поиграть на фортепиано вживую, но не у всех есть усидчивость учиться с очень пологой learning curve, когда ты играешь как имбецил первые несколько месяцев.

Казалось бы идея для AR игры на поверхности. И вот, наконец сделали. Тебе через passthrough подсвечивают куда ляпать пальцами, и вот ты уже с ходу не хуже Моцарта лол.

О, этот дивный новый мир!

@ai_newz

Ладно, дополненная реальность не настолько убогая и бесполезная хуита, как я всегда писал.

PianoVision научит вас играть на пианино поможет вам думать, что вы умеете играть на пианино. Нужны только две веши: собственно пианино и VR-шлем (знаю точно, что…

11.4K viewsedited 09:16

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

OWL-ViT by GoogleAI

Давно не говорили о детекции, друзья.

Гугел сделал уверенный шаг в сторону open-vocabulary detection. Это когда у модели нет набора фиксированных классов, но она умеет реагировать на текстовые запросы. Вы вводите в промпт названия нужных объектов, и модель их находит. Попробовать демку можно на хагинфейсе.

По сути, это предобученный CLIP, где к картиночному энкодеру присобачили голову для предсказания координат баундинг боксов. То есть для каждому токена, полученного из картинки, мы предсказываем координаты и эмбеддинг. Далее этот эмбеддинг сравнивает с эмбеддингом заданного имени класса, и мы получаем similarity для класса. Дополнительные головы файнтюнятся лоссом в стиле DETR. Все подробности в статье.

Внизу схема архитектуры и минимальный код для инференса.

@ai_newz

13.2K viewsedited 19:54

эйай ньюз

Архитектура OWL-ViT и минимальный код для запуска инференса модели с предобученыии весами.

📋Документация: https://huggingface.co/docs/transformers/model_doc/owlvit

@ai_newz

11.2K views19:54