эйай ньюз
51.8K subscribers
1.29K photos
658 videos
7 files
1.6K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy
Download Telegram
Хорошие новости падения крипты в том, что видеокарты действительно существенно подешевели за последние несколько месяцев. Еще это, возможно, связано с тем, что производители электроники, в ожидании кризиса полупроводников, забили под завязку свои склады.

Например, цена на GeForce RTX 3090 упала в два раза со времен пика (теперь она продается за 1100-1200 фунтов), а RTX 3070 подешевела вообще почти в 3 раза.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Тут челик в твиттере сделал просто божественный ролик с помощью DALLE-2. Делая интерполяцию и последовательно подавая 57 текстовых запросов в нейросеть, он производит зум-аут от масштаба протонов, до масштаба галактики.

И качество картинки поразительное. Обалденно!

Нейросети прогрессируют у нас на глазах.

@ai_newz
Решил освежить свои знания по multiple-view geometry. Очень хотел посмотреть курс от Стэнфорда CS231A: Computer Vision, From 3D Reconstruction to Recognition, долго искал лекции по всем торрентам, даже на китайски били-били заглянул. Ничего не нашел (поделитесь если у вас вдруг есть).

В итоге смотрю набор коротеньких лекций "Camera Calibration | Uncalibrated Stereo" от челика из Columbia University. Каждая лекция от 5 до 15 минут, коротко и по делу, как раз чтобы освежить в памяти.

У него целый канал по основам классического компьютерного зрения. Уверен, кому-то из подписчиков пригодится.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
PyMAF-X – это очередная СОТАчка от китайцев по 3d реконструкции меши и позы человека по монокулярному видео. Тут даже руки прикрутили. Но пайплайн просто адский, как и обычно впрочем. Кода пока нет.

@ai_newz
У нетфликса вышел документальный мини-сериал про грядущий киберпанк, эйай и новые технологии. В одной из серий, когда говорят про 3д аватары, даже фигурирует стартап моего товарища Димы Ульянова, in3d.io.

Сорри за пиар нетфликса, знаю, что сейчас снимают много мусора. Но бывают и норм выпуски. В общем, если есть нетфликс, можете глянуть на выходных.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
📣 𝐌𝐨𝐛𝐢𝐥𝐞𝐍𝐞𝐑𝐅: exploiting the polygon rasterization pipeline for efficient neural field rendering on mobile architectures

Ух, бля! Гугел удивил новым методом "запекания" нерфа. Новые риал-тайм приложения для мобильных устройств - Unlocked!

Даже у меня на стареньком Pixel 3 рендерит со скоростью 15fps.
На сайте проекта сами можете открыть лайв демо у себя на телефоне. Это прям крууто!

Основная идея в том, чтобы запечь нерф в виде традиционной для пайплайнов компьютерной графики текстурированной меши и использовать все наработки старичков из CG для ускорения. Изюминка – тесктура кодирует не цвет, а нейронные фичи, и во время рендеринга шейдер с маленькой нейронной сетью быстро конвертирует каждый пиксель в цвет и прозрачность. Молниеносно быстро.

❱❱ Статья

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Нипс 2022 be like*.

Считаю, что нужно для каждой конфы такое сделать. Неизменно будет только одно - ролик со Шмидхубером. Ещё бы кто приправил менее толерантными шутками.

*Для нубов. Это крупнейшая конференции по AI и нейронным сетям в мире.

@ai_newz
Ну кайф же! Многие хотели поиграть на фортепиано вживую, но не у всех есть усидчивость учиться с очень пологой learning curve, когда ты играешь как имбецил первые несколько месяцев.

Казалось бы идея для AR игры на поверхности. И вот, наконец сделали. Тебе через passthrough подсвечивают куда ляпать пальцами, и вот ты уже с ходу не хуже Моцарта лол.

О, этот дивный новый мир!

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
OWL-ViT by GoogleAI

Давно не говорили о детекции, друзья.

Гугел сделал уверенный шаг в сторону open-vocabulary detection. Это когда у модели нет набора фиксированных классов, но она умеет реагировать на текстовые запросы. Вы вводите в промпт названия нужных объектов, и модель их находит. Попробовать демку можно на хагинфейсе.

По сути, это предобученный CLIP, где к картиночному энкодеру присобачили голову для предсказания координат баундинг боксов. То есть для каждому токена, полученного из картинки, мы предсказываем координаты и эмбеддинг. Далее этот эмбеддинг сравнивает с эмбеддингом заданного имени класса, и мы получаем similarity для класса. Дополнительные головы файнтюнятся лоссом в стиле DETR. Все подробности в статье.

Внизу схема архитектуры и минимальный код для инференса.

@ai_newz
Архитектура OWL-ViT и минимальный код для запуска инференса модели с предобученыии весами.

📋Документация: https://huggingface.co/docs/transformers/model_doc/owlvit

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Тут статейка вышла: 3D реконструкция по дизайнерским скетчам. Интересные результаты, местами выглядит как магия из Гарри Поттера.

После беглого осмотра статьи и кода становится понятно, что в методе нет никаких нейронок. Кажется, все работает на дифф-геометрии и оптимизации (целочисленное программирование).

❱❱ Сайт проекта
❱❱ Код

@ai_newz
Привет, мои ботаники! Новая рубрика: "Минутка ликбеза".

Вообще никто:

Я: вот вам список с тысячами страниц текста и десятки часов лекции про Диффузионные Моделиhttps://github.com/heejkoo/Awesome-Diffusion-Models

@ai_newz
Недавно наткнулся на новость о том, что в ЕС впервые сертифицировали автономный алгоритм для выявления аномалий на рентгеновских снимках — нейросетку ChestLink. Ее обучили на датасете из 500 тысяч реальных изображений. В пилоте она показала чувствительность в районе 99% процентов и не допускала клинически важных ошибок. ChestLink уже может диагностировать заболевания легких самостоятельно — системе больше не требуется надзор и проверка со стороны опытного врача.

Перед учеными теперь стоит новая задача — заглянуть внутрь ML-алгоритмов, чтобы сделать их работу более прозрачной и понять, как именно они принимают те или иные решения. В этой проблеме пробуют разобраться специалисты по всему миру, в России ей активно занимается команда Yandex Research. Рекомендую прочитать их статью на N+1 — в ней ребята рассказывают, как они исследуют логику нейросетей и почему прогресс в ML нужно измерять прозрачностью алгоритмов, а не только их эффективностью.

#промо
Media is too big
VIEW IN TELEGRAM
Нвидиа порадовала крутой статьей (SIGGRAPH 2022). Тут сетки учатся реалистично и эффективно управлять мечником, что довольно нелегкая задача. Чтобы умело махать мечом и щитом нужно очень хорошо владеть своим телом. И это решается с помощью Imitation Learning и RL (подробности в посте ниже).

Чтобы быть в тренде, также прикрутили текстовые промпты. Можно написать "делай сальто назад и в полете бей мечом", и персонаж повинуется.

Ух, какие реалистичные игры нас скоро ожидают!

Видео со звуком 🔉.
Советую посмотреть еще полное видео (8 м) с описанием метода, очень интересно!

❱❱ Сайт проекта

@ai_newz
ASE: Large-Scale Reusable Adversarial Skill Embeddings for Physically Simulated Characters

Продолжение предыдущего поста. Как устроена эта модель?

Так вот, сначала учат первую low-level policy network с помощью Imitation Learning и дискриминатора имитировать реальные действия из датасета. На вход этой сети -- случаный скрытый код, как в обычном гане, на выходе -- действия персонажа.

Затем учится сетка high-level policy, которая с помощью генерации нужных скрытых кодов для первой сетки управляет персонажем. Тут уже не используют никакие датасеты, а просто учат выполнять поставленную задачу в Gym энвайронменте с помощью RL. Например, быстро встать при потере баланса, либо сбить объект мечём. Таким образом сеть может научиться выполнять сложные действия, которых не было в датасете.

Тренируется персонаж 10 лет в симуляции, что примерно 10 дней реального времени.

Короче, мой лайк идет этой статье!

@ai_newz
Продолжаем про детекцию.

Mask-RCNN-подобные архитектуры теперь обзавелись новенькими бэкбонами на Трансформерах. Всё же Трансформеры по-тихоньку вытесняют обычные конволюции во многих задачах.

В репе лежат и предобученные веса.

https://github.com/facebookresearch/detectron2/tree/main/projects/ViTDet

@ai_newz
Опачки! Яндекс запустил потоковый перевод трансляций в своем Браузере в открытую бету.

Ранее Яндекс писал о своей технологии перевода обычных YouTube-видео, и уже тогда перевод и озвучка трансляций заявлялись как следующий шаг – круто, что от идеи до открытой беты прошло меньше года. Только задумайтесь: уже доступен автоматический голосовой перевод в реальном времени! Интересно, куда инженерная мысль полетит дальше.

В отличие от уже загруженного целиком видео, где нейросеть получает сразу весь текст и может оперативно его обработать и озвучить, трансляции нужно переводить в режиме реального времени – примерно так, как работают синхронные переводчики. В итоге команда браузера разработала новую архитектуру перевода, за него отвечают аж 5 нейросетей:

1. Одна нейросеть распознает аудиодорожку и превращает её в текст.
2. Вторая нейросеть по биометрии понимает пол спикера.
3. Третья нарезает текст на предложения — расставляет знаки препинания и выделяет из текста части, содержащие законченную мысль. Это помогает делать правильную интонацию при озвучке и переводить быстро, близко к режиму синхронного перевода
4. Четвертая нейросеть переводит полученные куски текста с исходного языка на русский,
5. A пятая синтезирует речь на русском языке

Конечно, происходит это все равно с задержкой, пока она составляет от 30 до 50 секунд. В будущем команда планирует работать над ее уменьшением.

Чтобы протестить бету, нужно через Яндекс браузер на компьютере, например, эту трансляцию, которая идет постоянно. Технология сейчас работает для перевода стримов не на всех YouTube-каналах. Далее планируют добавлять новые языки и расширять список доступных для перевода трансляций.
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Тамагоччи на стероидах.
Многие сегодня написали, про симметричный ответ Маску от Xiaomi.
Они анонсировали конкурента Тесла Бота - робота-гуманоида CyberOne.

Однако самое интересное остается, похоже за кадром.
Пусть он неуклюжий и ходит как слегка парализованный, но его основная фишка в распознавании окружающей действительности (некой классификации ея) и, что совсем уж интересно, в распознавании эмоций окружающих его кожаных мешков.

Политкорректный рост ростом 177 см, вес 52 кг (немного!), размах рук 168 см. 21 степень свободы в движении и скорость отклика в реальном времени 0.5 мс для каждой степени свободы.
Про крутящиеся моменты и прочие инженерные подробности почитайте по ссылке.

А я еще раз акцентирую, что эта тварь может реконструировать окружающий аналоговый мир у себя в башке (чувствуете проброс в метаверсик). Для этого у нее под капотом есть собственная система распознавания семантики окружающей среды MiAI и система распознавания голосовых эмоций MiAI, что позволяет ему распознавать 85 типов звуков окружающей среды и 45 классификаций человеческих эмоций. Это пока.
Маркетологи уже пишут, что тварюга может определять позитив или грусть и даже утежать кожаных бедняг в моменты духопадения.

Вместо лица у него изогнутый OLED module to display real-time interactive information.

В общем с робособаками разобрались (ибо китайцы уже научились их копировать), теперь разбираемся с робогуманоидами, ибо за дело взялись китайцы, а не только Илончик.

Киберпанк is coming.
https://www.mi.com/global/discover/article?id=2754