эйай ньюз

Google наконец-то решил пристрелить TensorFlow. Ну и слава богу, один из худших фреймворков (хуже только был Caffe 1).

Гугел понял, что с Питорчем тягаться трудно 😂. Теперь они будут олл-ын в JAX, который по сути очень похож на Питорч.

@ai_newz

10.8K viewsedited 16:00

эйай ньюз

1:17

This media is not supported in your browser

VIEW IN TELEGRAM

Ничего особенного, просто Dalle-2 указывает дизайнерам на дверь (на самом деле, нет, они еще нужны, чтобы промпты писать 🤔)

Впервые в мире издательств журнал Cosmopolitan использовал генеративную нейросеть для генерации обложки для своего бумажного выпуска. Это взаимный пиар журнала и OpenAI, и возможно заразительный пример для других изданий. На обложке написали, что генерация фото заняла 20 секунд. Наглое вранье, ведь сама генерациях может и заняла пару секунд, но на reels создательницы видно, что она потратила несколько часов подбирая нужный запрос.

Так что, господа дизайнеры, учитесь подбирать фразы-запросы к нейросетям. По возможности, читайте больше литературы.

Сейчас я уже на грани того, чтобы считать Dalle-2 мейнстримом и попсой. Но это всего лишь мой пузырь — на самом деле, в большом мире еще много людей даже и не слышали об этой нашей Далле и не знают, на что она способна.

@ai_newz

13.6K views11:38

эйай ньюз

Новость для практиков.

Резнеты переобучили на Imagenet по новым рецептам, теперь если взять веса из нового торчвижена, то можно нахаляву получить прирост к точности.

Например, ResNet50:
acc@1 (on ImageNet-1K): 76.13 -> 80.858
acc@5 (on ImageNet-1K): 92.862 -> 95.434

https://pytorch.org/vision/main/models.html

@ai_newz

Градиентное погружение

Торчвижен обновился (и уже давно)

👉 И это довольно важно, так как многие любят использовать модели из их хаба, а тут выкатили сразу кучу, так ещё и с более крутым качеством.

🔥Что нового:

1️⃣ Добавили веса IMAGENET1K_V2, улучшив метрику:

ResNet50:
acc@1…

11.7K views18:02

эйай ньюз

⚡️Яндекс подарил миру самую большую на текущий момент публичную языковую модель: YALM 100B.

- 65 дней тренировки на 800 A100
- 1.7 TB текста на русском и английском
- требует 200GB VRAM для инференса

https://github.com/yandex/YaLM-100B

@ai_newz

GitHub

GitHub - yandex/YaLM-100B: Pretrained language model with 100B parameters

Pretrained language model with 100B parameters. Contribute to yandex/YaLM-100B development by creating an account on GitHub.

14.3K views10:11

эйай ньюз

⚡️Яндекс подарил миру самую большую на текущий момент публичную языковую модель: YALM 100B. - 65 дней тренировки на 800 A100 - 1.7 TB текста на русском и английском - требует 200GB VRAM для инференса https://github.com/yandex/YaLM-100B @ai_newz

В соседнем телеграм канале подняли YaLM-100B и во всю ее тестируют.

Модель в пассивно-агрессивной манере говорит, что она разумна 🌚.

10.3K viewsedited 17:35

эйай ньюз

1:07

This media is not supported in your browser

VIEW IN TELEGRAM

Привет, друзья! Воскресенье - хороший день, чтобы изучить что-то новое.

Для социальной коммуникации человек использует свое тело, лицо, глаза и руки. Как научить машину понимать все это в трехмерном пространстве?

А вот как! Посмотрите лекцию о параметрической модели человека SMPL (A Skinned Multi-Person Linear Model) от ее создателя Майкла Блэка.
Из лекции вы узнаете, как по картинке или видео восстанавливается 3Д поза и форма человека, и много подробностей об устройстве модели SMPL.

Несколько ключевых тем из лекции:
- История методов для моделирования человека.
- Что за данные нужны для обучения
- Как устроена модель SMPL, и как из нее получается полигональная 3Д сетка человека
- Что такое Linear Blend Skinning, и какие проблемы скиннинга решает SMPL
- Модели SMPL-X и FLAME и др.

▶️ SMPL made Simple -- Introduction (1ч 20мин)
📝 SMPL сайт проекта

@ai_newz

11.5K views12:29

эйай ньюз

Я и сам часто замечал, что фичи выдранные сетками, которые не до конца сошлись лучше подходят для всяких downstream задач, вроде поиска и ранжирования. А теперь пацаны из Гугла и Баиду официально оформили (и эмпирически доказали) эту гипотезу в статьях*.

Поразительно, но ResNet-6 затыкает за пояс двухсотслойный ResNet на бенчмарке по perceptual similarity после 6 эпох обучения на ImageNet. Главное не передержать.

Но (из статьи Баиду): если хотите дальше файнтюнить сеть на другом датасете, то все же лучше сначала дообучить ее до сходимости на первом датасете. Тогда точность будет выше.

❱❱ On the surprising tradeoff between ImageNet accuracy and perceptual similarity [Google]
❱❱ Inadequately Pre-trained Models are Better Feature Extractors [Baidu]

@ai_newz

AbstractDL

Недообученные нейросети — лучшие feature экстракторы

К удивительному выводу пришли две независимые группы исследователей из Google и Baidu — чем дольше учить нейронную сеть, тем хуже выразительная способность её фичей. То есть, не смотря на рост top-1 accuracy…

10.8K viewsedited 13:52

эйай ньюз

Когда два бота не смогли договориться, а кожаному мешку заблокировали карту.

До AGI ещё далековато.

@ai_newz

10.8K views04:00

эйай ньюз

Теперь не только ты, но и боты будут фармить голду в Minecraft

OpenAI обучили нейронку играть в Minecraft с помощью тренировки на огромном неразмеченном наборе стримов. В итоге RL модель оказалась (не удивлен) эффективнее человека. Она научилась изготавливать алмазную кирку за 5 минут (4.8к действий), что обычно занимает более 20 минут (24к действий) у опытных игроков.

Как?
Чтобы хорошо инициализировать модель, ей мало смотреть реплеи игр людей, нужно знать какие действия были совершены в каждый момент времени (клавиатура + мышь). Поэтому, ученые собрали небольшой набор данных от подрядчиков, где они записывали не только видео процесса игры, но и действия (нажатия клавиш и движения мыши). С помощью этих данных они обучили модель обратной динамики (IDM), которая предсказывает действия, предпринимаемые на каждом кадре видео.

Ну а теперь, в модель можно запихнуть терабайты видео с реплеями игр с ютуба и твича, заранее предсказав действия игроков с помощью IDM. А затем сетку немного зафайнтюнили с помощью Reinforcement Learning, с целью научиться быстро добывать алмазную кирку.

В итоге, агент создает алмазную кирку за 5 минут. И это всё благодаря претрейну на неразмеченных видео. Ведь, если обучать модель с нуля с помошью RL, то агент вообще не способен случайно выучить как создавать сложные объекты.

На видео в посте ниже - процесс создания ботом каменной кирки.

@ai_newz

10.1K viewsedited 16:34

Процесс создания каменной кирки ботом из поста выше.

9.6K viewsedited 16:34

эйай ньюз

Свежее интервью с Яном Лекуном (20 мин) с парижской конфы Viva Trchnology.

В нем он коротко прошелся по своему вижену AGI и немного унизил DALL-E, GPT-3 и прочие хайповые сетки, сказав что в них нет нужного ингредиента, чтобы стать реально умными. Масштабировать размер моделей и закидывать их ресурсами – это неверный путь.

Посмотрите, интервью короткое и не напряжное.

@ai_newz

13.2K viewsedited 21:52

эйай ньюз

Привет, друзья!

Собрал для вас список лекций и туториалов про 3D Human Understanding от топовых ученых из этой сферы.
Рекомендасион для всех, кто хочет основательно погрузиться в тему.

1. Andreas Geiger. Diverse Topics in Computer Vision: Human Body Models [video]
2. Michael Black. SMPL made Simple -- Introduction [video]
3. Dimitris Tzionas. SMPL from Images via Optimization [video]
4. Michael Black. SMPL: Frequently Asked Questions [video]
2. Angjoo Kanazawa. Perceiving Humans in the 3D World [video]
3. Iasonas Kokkinos. Humans, hands, and horses [video]
4. Michael Black. Meta-commerce in the Age of Avatars [video]
5. Ahmed Osman. Problems with SMPL and fixing them with STAR [video]
6. Gerard Pons-Moll. Clothing SMPL [video]
7. Siyu Tang. Putting SMPL into Scenes [video]
8. Joachim Tesch. SMPL-X Application Integrations. Using SMPL-X in Blender, Unity and Unreal [video]
9. Datasets of and for SMPL and related models [video]
10. SMPLpix: Combining SMPL and Neural Rendering [video]

@Artem
#ликбез

11.4K viewsedited 18:21

эйай ньюз

Привет, друзья! Собрал для вас список лекций и туториалов про 3D Human Understanding от топовых ученых из этой сферы. Рекомендасион для всех, кто хочет основательно погрузиться в тему. 1. Andreas Geiger. Diverse Topics in Computer Vision: Human Body Models…

Посмотрев все эти лекции, и закодив все описываемые методы, сразу смело пишите Майклу Блэку по поводу вакансии в его лабе 😏.

эйай ньюз

ICCV в 1990 году - как оно было?

Michael J. Black (MJB) - известный профессор по CV, который занимается оценкой геометрии и поз людей в 3D. Мне посчастливилось быть с ним лично знакомым (однажды я делал доклад в его лабе). Человек он очень незаурядного…

9.3K views18:29

Бесконечная красота с DALLE-2

Я обалдел от того, какие офигенные штуки можно сделать с Dalle-2. Можно бесконечно долго уменьшать кадр, и подавать его после преобразования на вход сети опять. Получаются такие сочные красивые анимации, как на видео (автор @too_motion).

@ai_newz

11.8K views10:25

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

6DRepNet: 6D Rotation representation for unconstrained head pose estimation

Статейка о распознавании 3Д позы головы в дикой природе. Основной трюк метода в "удобном для нейросети" 6D представлении матрицы поворота.

Есть репозиторий с кодом, весами и демкой для веб -камеры.

@ai_newz

17.0K views13:00

эйай ньюз

0:42

This media is not supported in your browser

VIEW IN TELEGRAM

Охренеть просто! Тут State-of-The-Art модель для Pose Estimation подвезли.

Обратите внимание на когерентность во времени!

Код и веса моделей скоро обещают выложить.

@ai_newz

10.1K viewsedited 15:01

эйай ньюз

⚡️Эксклюзив. Избранные доклады по NLP с ODS DataFest 2022

Недавно тихо и без лишнего шума прошел 3.5-недельный датафест от open data science.

Подписчик (@seeyouall) собрал список интересных докладов по NLP. Многие видео еще не опубликованы и доступны только по ссылке, так что это эксклюзив, если хотите.

🔺 Корпус RuCoLA: бенчмарк и способ сравнить языковые модели по-новому (link)
🔺 A small BERT towards Large Medical Models (link)
🔺 Современные техники обучения retrieval based моделей для поддержания диалога виртуальных ассистентов (link)
🔺 mGPT: мультиязычная генеративная модель для 61 языков и ее применения (link)
🔺 Делаем суммаризацию текстов на русском языке (link)
🔺 Трансформеры для обобщения поведения пользователей Яндекс Такси (link)
🔺 Трансформеры для персонализации в Яндексе (link)
🔺 Nearest Neighbors Language Models (part1 + part2)

На фесте были доклады не только по NLP, всю программу можно посмотреть на сайте дата-феста (нужна регистрация).

@ai_newz

15.3K viewsedited 16:35

эйай ньюз

Мы все тут очень следим за похождениями Иана Хорошего Паренька. Так вот после ухода из Эпле он перешёл в DeepMind и будет работать с другим топовым ресерчером – Ориолом Виньялсом.

@ai_newz

11.3K views14:48

3D трекинг игроков и автоматическая детекция офсайдов в FIFA

На видео показывают как в FIFA теперь трекают ~~кожаных мешков~~ игроков на поле. Да не просто трекают, а восстанавливают реальные 3D координаты скелета каждого игрока на поле и автоматически засекают, если был офсайд.

По технологиям, там 2D pose detection + триангуляция за счет того, что игроки видны сразу с нескольких камер. Вот и получается точная 3D позиция даже левого мизинца. Блин, они даже встроили датчик внутрь мяча!

@ai_newz

10.0K views18:06

About

Blog

Apps

Platform