эйай ньюз
60.2K subscribers
1.42K photos
744 videos
7 files
1.74K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
Очень толковый арт с помощью VQGAN+CLIP. Один из таких не грех и на стену повесить.

Авторство NerdyRodent, RiversHaveWings.
This media is not supported in your browser
VIEW IN TELEGRAM
Это видео прислал один из наших читателей, Boz, VP of FRL.
This media is not supported in your browser
VIEW IN TELEGRAM
Тут Boz (VP of Facebook Reality Labs) опять понтуется.
А вот и новые умные очечи от Ray-Ban + Facebook. Буду скромен с описанием, чтобы не взболтнуть лишнего. Очки называются Ray-Ban Stories. В них имеются две встроенные кармеры по бокам, с помощью которых можно снимать классные видео от первого лица, процессор Snapdragon, набор микроспикеров, три микрофона, оптимизированные для аудиозвонков, и даже маленький тачпад. Из технологий для улучшения звука и видео: стабилизация видео, HDR, улучшение освещения, деноизинг и подавление фонового шума, видео и фото энхансинг с помощью ML. В дополнение к очкам идет отдельное приложение Facebook View, которое помогает все настраивать и управлять записываемых контентом.

Есть варианты в нескольких классических оправах. Радует, что выглядят они очень стильно, в отличие от уродцев Spectacles 3 от Снэпа. Также стоит отметить вполне дотупную цену девайса - всего $299. Насчет AR/VR - пока функционал очков ограничен, но, очевидно, что все движется в этом направлении и будут выходить софтверные обновления.

Тех описание на блоге ФБ.
Media is too big
VIEW IN TELEGRAM
А это сама презентация очков Ray-Ban Stories 😎
This media is not supported in your browser
VIEW IN TELEGRAM
Нихеровая AR примерка кроссовок в снепчате.
This media is not supported in your browser
VIEW IN TELEGRAM
🏆 GSLM - Безтекстовое NLP от Facebook AI, и это Новая Эра

Facebook AI gпредсавил GSLM, первую языковую модель, которая полностью избавляет от текста при обучении. Этот подход «бестекстового НЛП» способен генерировать выразительную речь, обучаясь только на сырых аудиозаписях.

Ян ЛеКун уже написал в своем twitter:
«В естественных языках есть гораздо больше, чем текст: тон, акцент, выражение, просодия, тембр, высота ... «Бестекстовое НЛП» представляет речь через поток дискретных токенов. Речавая модель, обученная в self-supervised режиме, напрямую из звуковой волны! Это Новая Эра.»

В видео в этом посте 3 примера продолжения (генерации) по аудио prompt.

📇Blog 💻 Code 📰 GSLM paper
Совет для начинающих датасаентистов: еще в школе начинать откладывать деньги с обедов на девбокс с GPU.

Свои советы в комменты.
По мотивам статьи Large-Scale Self- and Semi-Supervised Learning for Speech Translation HuggingFace вместе с FB опубликовали четыре претрейнд модели для end-to-end перевода из речи в текст на разных языках.
Например, речь на английском напрямую переводится в текст на арабском. Также есть пары английский-немецкий, английский-турецкий и английский-каталанский.

Инференс можно запустить в пару строк кода!

Модели уже доступны в каталоге HuggingFace.
Сгенерированных женщин-кошек вам на ночь.

Метод: StyleGAN2
Автор: twitter.com/l4rz
This media is not supported in your browser
VIEW IN TELEGRAM
Итак, Xiaomi, долго не думая, выпустили показали прототип своих умных очков. Судя по презе, у них есть даже какой-то AR, но почему-то только в зелёной палитре, прям как в матрице.

Подробнее в блоге Xiaomi.
Колаб для CLIP guided diffusion в разрешении 512x512.

Одна генерация в 1000 итераций занимает примерно 50 минут. Тут нужно, чтобы вам выпала либо видеокарта T4 либо P100 с 16 GB VRAM.

1. Magnificent mountains by Nicholas Roerich
2. My girlfriend by Pablo Picasso in Cubist style
3. Female portrait by Pablo Picasso

Да, Пикассо не очень удался что-то.
#чтивонаночь
Многи мои подписчики обучают разные модели на основе ruGPT, многие из них не в курсе как воткнуть FP16 в коллабе. Короче мы в Пушкине(Я и моя НекоТян) выкатили ноутбук с простым трейном ругптшки
Мы еще не готовы узнать, что P=NP. А если это доказательство будет еще и конструктивным, то это приведет к коллапсу криптографических систем. Биток тоже обесценится, да, ребята.

К счастью, один молодой парень лет семидесяти трёх доказал что P NOT EQUAL NP... Сердечко нерда вздрогнуло и затаилось в ожидании. Но, можно расслабиться, это одно из многих сотен доказательств, которое не выдержит экспертной рецензии. Завсегдатые Реддита уже нашли несколько маркеров того, что это доказательство - очередной мираж. Вот несколько из них: 1. У автора емейл на домене @aol.com. 2. Доказательство проблемы тысячелетия - всего на 6 страниц. 3. В тексте есть опечатки. В общем, не выглядит эта статья как серьезный труд, с заявкой перевернуть нашу жизнь.

За решение любой из проблем тысячелетия автор получит $1млн. Забавно, как много людей это привлекает. В мои студенческие годы в БГУ, ФПМИ наш препод по дискретной математике лет тридцать грезил получить приз и потрать его на красную феррари. Свое доказательство он рассылал по всем математическим институтами, но везде отказывались его принимать. Бедняга обещал поставить экзамен автоматом тому, кто сможет вычитать его доказательство и убедить самого автора, что там ошибка. Вот как он верил в свою правоту.

Ну, а тем временем, мы все также ждем реального доказательства либо опровержения.
🌄 Новый GAN от Facebook Research IC-GAN: Instance-Conditioned GAN

Новый conditional GAN (instance-conditioned), да ещё в бонус к нему нативно прикрутили CLIP, дабы zero-shot’ил по-честному, а не только по классам генерил свой мультимодальный перевод.

GAN есть, код есть, CLIP сами прикрутили, и даже colab есть. А что это значит? Значит, что fb красавцы. Го тестить сеть? Сравним с biggan и diffusion.

📰 paper 💻 git 🔮colab
Мне уже неактуально, но для всех подписчиков, кому интересна магистратура по Computer Science за бугром.

Есть очень подробный гайд по поступлению в Европейские маги от выпускницы МФТИ и TU Delft.
This media is not supported in your browser
VIEW IN TELEGRAM
Главная визуализация дня: эксперт по большим данным Тайлер Морган-Уолл показал, как выглядит невидимая инфраструктура Интернета. Это наглядная демонстрация подводных кабелей, которые помогают нам кричать с мемов и смотреть видосы на Ютубе. Работа действительно фантастическая — выглядит очень красиво. В такие моменты вспоминаешь, что данные не передаются по воздуху — это просто куча оптоволокна от твоего подъезда до океана.

Кстати, на эту тему есть хорошая книга от Эндрю Блама — «Как устроен и как работает Интернет». Это гуманитарий, который решил разобраться, как физически устроен Интернет. Советую почитать, популярным языком написана.
This media is not supported in your browser
VIEW IN TELEGRAM
Тренируете сетки? А один мужик натренировал сорок собирать мусор в обмен на орешки.

С помощью Raspberry Pi и Adruino шведсикй AI инженер Ганс
Форсберг собрал агрегат, который выдает орешки, если птица забрасывает в контейнер металлическую крышку от бутылки. Чтобы сороки поняли взаимосвязь между сбором крышечек и поступлением едs, была подстроена сцена, где лежало много крышечек, и птицы случайно толкали их, забрасывая в приемник, после чего высыпались орехи. Через некоторое время сороки поняли, что к чему и начали сами искать и приносить крышечки, чтобы получить награду.

Известно, что птицы из семейства врановых обладают неплохим интеллектом. Но я не ожидал, что их можно так выдрессировать. Круто!