DLStories
15K subscribers
283 photos
36 videos
4 files
608 links
Что-то про AI Research и AI образование от Танечки

Сотрудничество/предложения: @atmyre
Download Telegram
Машинное обучение без строчки кода
#tech

Смотрите, это lobe: приложение для Windows/Mac, в котором можно натренировать модельку машинного обучения, не написав ни строчки кода.

Механика проста: допустим, вы хотите сделать нейросеть, которая может классифицировать эмоции на лице. Вам нужно загрузить в приложение фото (или даже сделать фото с веб-камеры прямо на месте) и задаеть каждому фото его label (грусть, радость, ..). И приложение сразу начнет обучать нейросеть.

Когда нейросеть обучится, можно ее улучшить: посмотреть, в на каких фото она ошибается (выдает неверный ответ) и отметить эти фото как "неверные". Тогда модель сразу дообучится и будет работать лучше. Также можно дообучить модель, если у вас появятся новые фото для обучающей выборки.

Обученную модель можно экспортировать в формат CoreML, Tensorflow или Tensorflow Lite. Эту модель потом можно интегрировать в ваше мобильное приложение. Таким образом, lobe может быть действительно полезен мобильным разработчикам, которые хотят создать свое приложение на основе несложной нейронки, но не умеют эту нейронку готовить.

Сейчас приложение работает только для классификации, но это уже мощный инструмент. И кто знает, что будет дальше..

Посмотрите этот видео-туториал по работе с lobe: тут парень расказывает, как создать модельку для детекции того, что человек пьет воду. На основе этой модельки он создал приложение, которое считает, сколько воды вы выпили за день.
И интерфейс lobe зацените — оочень красиво 🔥
OpenAI сделали публичным API GPT-3
#tech

Теперь можно генерировать текст с помощью разных моделей GPT-3 через официальное API. Можно насоздавать пет-проектов и приложенек на основе этой нейронки) Цены не особо кусаются: цена использования самой большой модель DaVinci — 6 центов за 1000 токенов. При регистрации дают халявные 18$: хватит, чтобы нагенерить 300 тысяч токенов (~50 тысяч английских слов).

Документация у API тоже классная: с примерами использования и советами, как оптимизировать модель и защитить от атак. А примеры проектов, созданных на основе API, заставляют пускать слюни пробовать самому)

Скоро обещают также API Copilot подвезти.

Все хорошо, одно но: API не работает в России😕. Можно схитрить и регистрировать через VPN, но тоже не поможет: для регистрации нужно указать номер телефона. Русский с +7 не прокатывает(( Надеюсь, все же откроют и для России скоро, обидно(
ИИ дизайнер процессоров
#tech

TPU (Tensor Processing Unit) — процессор от Google, который позволяет эффективно производить вычисления над тензорами и, как следствие, эффективно обучать нейросети. По сути, это чуть проапгрейдженная версия GPU.

Дизайн процессоров — сложный процесс. Под дизайном подразумевается поиск оптимального расположения частей процессора на кремниевой микросхеме для достижения наибольшей эффективности и скорости процессора. (на англ этот процесс называется “floorplanning"). Обычно этим занимаются люди, и процесс создания нового, улучшенного дизайна занимает месяцы.

В Гугле решили поручить этот процесс ИИ =) Они натренировали алгоритм RL (обучения с подкреплением) на датасете из 10,000 чипов с известными показателями их эффективности. Эти показатели эффективности чипов выступали в качестве reward function для алгоритма RL.

Результат получился прикольный: обученный алгоритм стал предлагать совершенно неожиданные варианты расположения частей процессора: довольно нелогичные с точки зрения человека, но при этом рабочие! Люди до такого сами вряд ли бы додумались. На картинке к посту вы видите два варианта расположения деталей чипа: слева — предложенный человеком-дизайнером; справа — предложенный ИИ (картинки заблюрены из-за NDA). Видно, что логика расположений сильно отличается.

Некоторые считают, что такое повышение эффективности процессоров с помощью ИИ поможет нам сохранить выполнимость закона Мура в ближайшем будущем.

Штош, теперь ИИ решает задачу, которая занимает у людей месяцы, за 6 часов =) Авторы говорят, что следующее поколение гугловских TPU уже будет основано на дизайне от ИИ. Это что, опять кому-то пора искать новую работу?

Ссылки:
Новость
Статья в Nature
Умное зеркало для занятий спортом
#tech

Baidu анонсировали новый продукт: зеркало с AI для домашних занятий спортом. В выключенном состоянии это просто зеркало, во включенном — личный фитнес-тренер. Зеркало способно отслеживать движения пользователя и корректировать ошибки. Видео движений человека записывается с 60 FPS и качеством 2k, поэтому даже очень быстрые движения вроде прыжков или ударов будут хорошо проанализированы. Также у зеркала широкий угол обзора — 144°; и улучшенное качество изображения в условиях низкой освещенности, поэтому занятия спортом с помощью девайса должны быть комфортны.

В зеркало можно загружать различные программы с виртуальными тренерами и все упражнения будут видны на экране. А представьте, что будет, когда завезут виртуальные аватары, как на презентации Меты! Будет круто🙂

Работает это с помощью AI. Девелопер девайса — подразделение DuerOS, которое разрабатывает и другие AI-based решения и девайсы для Baidu

Стоит такое чудо $662-$740 в зависимости от версии.
Купили бы? =)
Meta AI представили улучшенную версию AI-алгоритма борьбы с фейками и дезинформацией.
#tech

AI давно используется для выявления нежелательного контента в сети: спама, фейк ньюз и информации, вводящей в заблуждение. Но у AI-based подходов есть большой недостаток. Вот в чем он состоит:

Вредный контент в сети постоянно меняется, "эволюционирует". Во-первых, постоянно появляются новые поводы для новых типов фейк ньюз: например, коронавирус, вакцинация, политические события в мире. Во-вторых, спамеры постоянно меняют тип подачи информации, подстраиваясь под то, как работают алгоритмы определения спама, чтобы избежать блокировки. Стандартные подходы к поиску вредного контента, основанные на AI, плохо справляются с такими изменениями: чтобы заставить их работать с меняющимся типом контента, нужно сначала собрать и разметить много примеров этого нового контента. На это уходят месяцы и куча сил. Ну а когда новая обученная система выкатывается в прод, спамеры меняют тип подачи информации и опять остаются безнаказанными.

Meta подошла к решению этой проблемы, построив AI-систему, которая способна очень быстро дообучаться под новый тип вредного контента: на основе всего небольшого количества примеров этого контента. Систему назвали Few-Shot Learner (FSL): от теормина few-shot learning, что значит обучение на малом количестве данных. Подробнее о few-shot learning и о подходах, которые используются для обучения нейросетей на малом количестве данных, можно почитать тут.

Результаты FSL впечатляют: эта система может быстро подстраиваться под меняющийся контент в сети: на обучение под новый тип спама/фейк ньюз у нее уходят недели, а не месяцы, как раньше. Причем FSL можно использовать, даже совсем не дообучая ее на новых данных (т.е. в zero-shot режиме). И даже это будет работать достаточно хорошо: тесты показывают, что FSL помечат как "harmful" посты, которые система предыдущего поколения пропускала.

Более того, внедрение FSL в системы для обнаружения hate speech также дало профит. Разработчики ожидают, что со временем идея, на которой основана FSL, будет использоваться и в других похожих сервисах компании.

Подробнее про систему и ее результаты:
Блогпост Meta
Блогпост Meta AI (тут больше подробностей об устройстве системы)
У Microsoft на NeurIPS 2021 вышла интересная статья: AI-модель BugLab для поиска и исправления багов в коде.
#paper #tech

Microsoft натренировали GAN-подобную модель для поиска и исправления багов в программном коде. Модель состоит из двух нейросетей и обучается в unsupervised режиме: без размеченных данных. Первая нейросеть берет код и внедряет в него баг: изменяет какую-нибудь строчку. Вторая модель берет измененный код, старается найти в нем баг и исправить его. На фото к посту показан код из open source проекта на GitHub, в котором обученная модель нашла баг и исправила его.

Разработчики говорят, что такая система сможет повысить производительность разработчиков и переключить их внимание с поиска мелких багов на более сложные и интересные задачи. Что ж, теперь Copilot будет за нас писать код, а BugLab — исправлять его ошибки😄

Пока что BugLab работает только с языком Python и с простыми багами, вроде перепутанных знаков сравнения ("<=" вместо ">="), логических операторов ("or", "and") и названий переменных ("j" вместо "i").

Но самое интересное — это архитектура модели. Обычно нейросети, которые работают с кодом, воспринимают код как набор токенов. По сути, работа с кодом ведется как работа с текстом в NLP. Но BugLab — графовая нейросеть. Она использует графовую структуру, чтобы лучше отразить взаимосвязи между переменными, выражениями и смысловыми частями кода. Эту идею восприятия кода не как текста, а как графа, Microsoft уже предлагали в своей прошлой работе.
В экспериментах c BugLab Microsoft сравнили две архитектуры сетей, которые имеют graph-like структуру: это GNN (graph neural network) и Relational Transformers. Обе архитектуры показали хорошие результаты.

Подробнее о модели:
Блогпост Microsoft c гифками
Статья на arxiv
Meta недавно открыла доступ жителям США и Канады к платформе Horizon Worlds — это VR-соцсеть, где можно сделать себе аватар и зависать в компании друзей — играть в игры, чатиться, перемещаться по виртуальной вселенной и т.д.
#tech

При этом у виртуальных аватаров есть только верхняя часть тела, но нет ног) Катя вот считает, что причина в том, что Oculus могут работать только с головой и руками. Но есть другая версия — что таким образом Цукерберг хочет избежать применений VR в сексуальных целях, чтобы не було новых скандалов.

Но первые инциденты с херрасментом в Horizon Words уже происходят: недавно вышла статья в MIT Tech review с историей девушки, к которой в VR-реальности приставал другой игрок. На такие случаи в Horizon Words придусмотрен "Safe Zone" — это такой защитный пузырь для аватара, находясь в котором с игроком нельзя никак взаимодействовать. Однако несмотря на наличие Safe Zone, инциденты все равно есть, и это не очень хорошо.

За новость спасибо Кате. А мы ждем, пока доберется до России 🙂
Понемногу возвращаемся к AI-новостям =) Давно вот эту новость задолжали:
#tech

Помните, как в Сбере запилили русскую версию DALL-E? Если вдруг пропустили, то мы об этом писали тут, а вот тг-бот, где можно играться: вводить текстовое описание на русском и получать картинки от ruDALL-E.

В этом посте расскажу о двух новых модельках, которые натренировали в Сбере:

✔️ ruDALL-E Emojich — тг-бот с версией ruDALL-E, которая умеет генерировать стикеры. Пользоваться просто: вводите текстовое описание на русском языке, бот выдает вам на него 36 вариантов стикеров. Далее вы можете выбрать лучшие картинки и сделать из них стикерпак =)
Ссылки:
- тг-бот
- статья на Хабре о том, как обучали модель

✔️ruCLIP — в Сбере обучили и русскоязычную версию CLIP. CLIP — это нейросеть, которая выучивает общее пространство эмбеддингов для изображений и текста. Это позволяет ей, в частности, оценивать, насколько текстовое описание соответствует изображению. Подробно о CLIP мы писали тут.
ruCLIP — отличное дополнение к ruDALL-E. Если вы уже игрались с ruDALL-E, вы знаете, что ruDALL-E генерирует несколько изображений на каждый текстовый запрос (обычно 16 штук). Из этих 16 сгенерированных картинок некоторые — огонь🔥, а некоторые — треш и стыд). И раньше отделять классные картинки от страшных нужно было самому. Теперь же ruCLIP может помочь в этом: после генерации 16 изображений с помощью ruDALL-E нужно просто прогнать эти картинки и текст, по которому они сгенерированы, через CLIP. CLIP поставит каждой паре (картинка, описание) оценку: чем оценка выше, тем более, по мнению CLIP, картинка соответствует описанию. А значит, тем более эта картинка "адекватная".
Как говорят в Сбере, "если ruDALL-E - это художник, то ruCLIP - это критик".
Ссылки:
- статья на Хабре о ruCLIP (с объяснениями принципов работы CLIP)
- еще статья на Хабре о ruCLIP и некоторых версиях ruDALL-E
- GitHub с кодом и моделями ruCLIP
This media is not supported in your browser
VIEW IN TELEGRAM
Зацените: neural.loveсайт, где с помощью нейронок можно улучшать изображения и видео. Только посмотрите на гифку к посту: как круто работает модель для генерации реалистичных портретов! Судя по результатам, известной проблемы high-resolution подходов, что при улучшении изображений теряется семантика (например, меняется цвет кожи или что-то подобное) у сервиса не наблюдается.

Сейчас на сайте можно делать high-res изображений, high-res видео и генерировать реалистичные портреты (например, "осовременить" черно-белое смазанное фото или сгенерировать реалистичный портрет на основе картины, как на гифке к посту). Обратите внимание, что бесплатные только несколько первых генераций.

Сайт делают ребята из @MLArt. Думаю, в скором времени выкатят еще больше моделек на сайт (или еще лучшие версии существующих моделей), так что следим 🙂
#tech
Тут Landing AI открыл набор на бета-тестирование своей платформы для MLOps Landing Lens.
#tech

Landing AI помогает компаниям быстрее проделывать путь от концепции AI-продукта до его полной разработки и деплоя. Основатель компании — Эндрю Ын, один из самых видных людей в области AI и AI Education.

Landing Lens — главный продукт компании. Это data-centric MLOps платформа. Она позволяет проделать весь путь от загрузки и обработки данных до обучения AI-модели и ее деплоя. Все это — не выходя из красиво оформленного приложения с приятным интерфейсом. У Landing Lens много возможностей работы с данными и мониторинга работы финального решения — не просто загрузить, обучить нейронку и получить модельку в .tar.gz на выходе, а полноценный MLOps.

Подробнее о data-centric AI и о том, какие проблемы помогает решать платформа, читайте на сайте. А видео с примером работы платформы смотрите тут.

Зарегистироваться в бета-тестеры и получить бесплатный доcтуп к платформе можно тут (до 14 мая)
Сбер выкатил две новые нейронки: Рерайтер и Суммаризатор.

Первая (Рерайтер) переписывает заданный текст другими словами, стараясь при этом сохранить его смысл. Вот пример работы:

Исходный текст:
""Вася Пупкин довольно скептично отнесся к выставке арта, сгенерированного с помощью искуственного интеллекта. Вася считает, что машина не может творить, ведь у нее нет души, а все, что она делает — это копирует шедевры человека""

На выход Рирайтер дает пять вариантов переформулировки. Вот один из них:
""Вася Пупкин не одобряет арт-проект, созданный с помощью искуственного интеллекта. Вася считает, что машина не может творить : у нее нет души и она копирует только шедевры человека.""

Вторая нейронка (Суммаризатор) пытается сократить поданный на вход текст, опять же, не теряя при этом смысл. "Пытается", потому что выдаваемый ею текст не всегда получается короче, а иногда даже и длиннее) Но, может быть, это мне с моими запросами так не повезло, а вам повезет больше.

В целом, отправив запросов пять в каждую из моделей, я не могу сказать, что восхищена. Хотя, Рерайтер довольно неплох: действительно переписывает текст немного другими словами. Может быть полезно, если нужно переформулировать пару предложений в тексте, а идей как-то нет.

Потыкать в них можно тут:
Рерайтер
Суммаризатор
На странице нажимаете на зеленую плашку "Post", затем "Try it out", в окне вписываете в поле "text" свой запрос, жмете "Execute" и ждете. Через пару секунд получаете ответ в поле ниже.
#tech
This media is not supported in your browser
VIEW IN TELEGRAM
Я залипла🤯

Я обычно не постю тут картинки-результаты генерации с помощью DALL-E-подобных моделек: этого в других каналах без меня полно. Но это — не просто красивая генерация. Это открывает новые грани того, что умеет DALL-E 2.

Что это:
Автор канала @too_motion сгенерировал картинку с помощью DALL-E 2, а затем последовательно дополнял ее с помощью unpainting'а:
- немного уменьшал размер картинки и чуть поворачивал ее
- снова подавал картинку на вход DALL-E 2 и просил дополнить ее.

В результате получилось такое видео. Это не просто абстрактные мазки: посмотрите, как в процессе возникают все новые сущности.

Новость взяла из канала @abstractDL
#tech
This media is not supported in your browser
VIEW IN TELEGRAM
В аэропорту Детройта запускают кастомизированное табло, в котором каждый пассажир видит информацию только о своем рейсе.
#tech

Работает это на технологии распознавания лиц. Приходите в аэропорт, камеры распознают ваше лицо. И когда вы подходите к табло с рейсами, то видите информацию только о своем рейсе крупными буквами. Табло вас даже приветствует по имени, вот милота ☺️

Одновременно сто человек могут смотреть на табло и видеть разную информацию. Все благодаря технологии Parallel Reality Displays: экрану, который может одновременно проецировать миллионы световых лучей в разных направлениях. Когда камера распознает ваше лицо, экран проецирует лучи с информацией лично для вас туда, где вы стоите.

Новость: businessinsider
Сайт технологии Parallel Reality Displays: тут описана идея работы супер-экрана, но подробностей нет. Подробнее технологию можно изучить в патенте компании.
Новость нашла в канале Нейродвиж

Ну как вам идея?
Жаль, в Шереметьево мы такого не дождемся с его толпами в тысячи человек 😆
Meta* AI представляет Side: AI-помощник для верификации ссылок и цитирований в Википедии.
#tech #paper

Википедия — масштабный ресурс знаний, который создается руками его же пользователей. И часто случается, что информация в статье неточна: не та дата, неточная цитата, или же вообще фейковая информация. Вообще, все факты в Википедии должны быть снабжены ссылками на первоисточники, но часто ссылки отсутствуют или нужной информации не содержат. Волонтеры помогают эти проблемы решать: верифицируют ссылки и удаляют неподтвержденную инфу, но , разумеется, на всю Википедию их не хватит.

Side должен помочь справиться с этой проблемой. Вот что делает Side:
- Ищет в статьях на Вики утверждения/цитаты, которые потенциально требуют факт-чекинга;
- Ищет в интернете страницы, которые содержат информацию об этом утверждении.
- Ранжирует эти страницы по степени того, насколько ссылка может являться пруфом для утверждения из Википедии.
- Если Side находит страницу, которая лучше подходит на роль пруфа к утверждению, Side предлагает заменить ссылку в Википедии на эту страницу. Ну или если ссылки вообще не было, то предлагает добавить самую релевантную из найденных.

По сути, модель Side совмещает два алгоритма: retrieval (нахождение страниц, в которых есть нужна инфа) и verification (понимание того, насколько инфа на странице релевантна)

Кроме Side Meta* представили еще Sphere: базу данных из 134 миллионов страниц из интернета. Именно в базе Sphere модель Side ищет релевантные веб-страницы для подтверждения верности фактов из Вики.
В Meta говорят, что создали Sphere, чтобы исследователям со всего мира было проще работать над retrievlal-based алгоритмами, такими, как Side. Такие алгоритмы часто используют API поисковиков типа Гугла, чтобы искать информацию, но никто не гарантирует, что Гугл в один прекрасный день не закроет к нему доступ.

Сейчас с Side можно поиграться в демо режиме. "Демо" означает, что изменения, предложенные Side, в Википедию вноситься не будут. Если будете играться, не забудьте оценить качество работы Side: это поможет Meta в будущем улучшить алгоритм.

Ах да, к чему же это я. Теперь Шмидхубер может расслабиться: у нас скоро будет AI, который автоматически будет проставлять все ссылки ко всем статьям за человека🙃
P.S. Тут еще подумала: из этого можно классный антиплагиат сделать!

Ссылки:
Блогпост Meta о Side (в России нужен VPN)
Блогпост Meta о Sphere (тоже VPN)
Демка Side
Статья на openreview
Код Side на GitHub

*Организация признана экстремистской и ее деятельность запрещена на территории РФ
Mood Board Search: ML-powered тулза от Google для создания мудбордов.
#tech

Мудборд — это набор изображений, которые отражают какую-либо идею или концепт. Например, это могут быть картинки, подходящие под ваше понимание "свободы", "умиротворенности" или "дуализма". Мудборды часто используют фотографы для подготовки к съемкам: ищут в интернете фотографии, которые наиболее соответствуют их задумке.

И Гугл придумал тулзу, которая поможет найти больше картинок для вашего мудборда.

Работает это так:
- загружаете несколько картинок, подходящих под ваш концепт. При этом можно отранжировать картинки по значимости, а также добавить "антикартинки": те, которые отражают противоположность нужному концепту. Это сделает поиск точнее.
- система ищет картинки, концептуально наиболее похожие на ваши;
- далее вы можете добавить какие-то из найденных картинок в ваш мудборд и снова запустить поиск. Так он станет еще точнее.

Работает это чудо на эмбеддингах из предобученных нейросетей для классификации картинок GoogLeNet/MobileNet и такой штуке, как Concept Activation Vectors (CAVs).
CAV — это такой способ анализа эмбеддингов предобученной нейросети, способ анализа того, как нейросеть "думает". С помощью CAV можно понимать, насколько присутствие того или иного паттерна на картинке влияет на результат классификации картинки нейросетью. Например, насколько сильно наличие черно-белых полос подталкивает нейросеть к тому, чтобы классифицировать картинку, как Зебру.

И вот, оказывается, как идею для interpretability можно использовать для создания полезного инструмента =)

Ссылки:
Блогпост о Mood Board Search в Google AI Blog
Демка
Код на GitHub (тут есть интро в то, как CAV работает)
Статья о CAV на arxiv
Кто там вот под этим постом хотел такой же ИИ-шлем для авто? А вот же он:
#tech

Xiaomi анонсирует разработку обруча для головы, который способен считывать мозговую активность.
Предполагаемые сферы применения две:
- управление домашней техникой силой мысли (smart home нового поколения)
- помощь в управлении авто, когда по мозговой активности видно, что водитель перегружен и не справляется.

Думаю, в будущем такие штуки будут использоваться повсеместно. AI-алгоритмы действительно можно обучить детектить много всякого по мозговой активности. В МФТИ даже как-то проводили исследование, где по мозговой активности людей реконструировали картинку, которую эти люди видели перед собой. И получалось неплохо!
А если соединить эти фичи с какими-нибудь smart glasses, то получится штука, которую люди будут носить 24/7, я уверена)
Я тут решила погуглить, не делает ли еще кто-то зачем-то шлемы для считывания мозговой активности. Пока что нашла только пару не взлетевших странных стартапов. Но еще я нашла вот это. И это очень смешно))

В Китае запрещено порно. И правительство нанимает людей, которые отсматривают фото и видео в инете и находят нелегальный контент. Да, ИИ алгоритмы для детекции порно тоже используют, но они часто допускают ошибки (те, кто порно в инет выкладывает, все же учатся обходить цензуру ИИ). Поэтому человеки-детекторы порно все еще востребованы.

Но и люди часто допускают ошибки, особенно когда устают и у них замыливается глаз. Поэтому исследователи сделали вот что:
Взяли шлем, который детектит мозговую активность человека. Посадили людей перед монитором и стали показывать им картинки с порно и без. И обнаружили, что всегда, когда человек видит перед собой sensitive картинку, в его мозговых волнах появляются характерные всплески. Причем это случается даже если картинка была перед глазами долю секунды, и реально человек даже не успел ее осознать.

Конечно, мозговой сингал людей зашумлен, и с первого взгляда суперточно определить, вызван всплеск активности порно-контентом или чем-то другим, нельзя. Но ученые планируют обучить на данных мозговой активности людей AI-алгоритм, который бы умел хорошо понимать, в каком случае человек видит порно-контент, а в каком — нет.

Получается, такой шлем поможет людям сильно точнее, да еще и быстрее заниматься фильтрацией контента в сети.
Тупо сидишь и пялишься в монитор, перед тобой мелькают картинки. Ты ничего не понимаешь, но работу делаешь)))

Ссылка на статью (она свежая, кстати, от июня 2022)

Что думаете по этому поводу? 🙃
#tech #ai_fun
Media is too big
VIEW IN TELEGRAM
Бесполезный пост, но сегодня ничего другого все равно не придумала.

Смотрите, чел сделал музыку из графика стоимости биткоина с 2015 по 2022 годы.

Просто написал на Питоне прогу, которая переводит цену в частоту, тембр и музыкальный инструмент. Музыка ничего такая вышла, приятно!

О своей идее и о том, как писал код, чел написал статью на towardsdatascience.

Но к чему это я. Казалось бы, такая простая и тупая идея: перевести график цены битка в музыку. А известность чувак получил: нашла я эту новость на канале бумеры смотрят телек. Охват постов там ничего такой.

Короче, если хотите себе классный пет-проект, то вот вам вдохновение. Можно сделать что-то простое, но эффектное. Главное, чтобы выглядело/звучало красиво.
#tech
Google запускает приложение AI Test Kitchen. Это приложение на Android (скоро и на iOS). Оно призвано, с одной стороны, дать широкому кругу людей понимание, на что способен современный ИИ, а с другой — помочь Гуглу тестировать новые AI-модели.
#tech

В приложение будут добавляться демки разных AI-моделей. Сейчас туда уже внедрили LaMDA. Сценарии взаимодействия пока такие:
- “Imagine it”. Задаете любое место (например, дно океана), и модель описывает, что вы видите вокруг себя. Вы можете задавать вопросы (например, “есть ли вокруг осьминоги?”), и модель дополнит ответ. Говорят, развивает воображение =)
- “List it”. Задаете цель, и LaMDA помогает разбить эту цель на небольшие шаги
- “Talk about it”. Тут можно просто общаться с LaMDA. Правда, пока только о собаках…

Идея крутая: так больше людей смогут “потрогать страшный ИИ” и понять, на что он способен на самом деле. И для Гугла есть польза: по мере общения с LaMBA пользователи будут оценивать ее ответы по нескольким критериям, помогая Гуглу улучшать модель.
Сегодня я целый день на бегущем городе, времени писать что-то сложное нет (этот пост писала в машине на трассе Москва-Волоколамск =). Держите поэтому список недавних хороших постов из других каналов:
#news #learning #tech

✔️ BEiT-3: Image as a Foreign Language. Новая мультимодальная модель от Microsoft, которая родила сразу 12 рекордов!

✔️ Идея, лежавшая на поверхности: ребята из University of Maryland попробовали обучать диффузионные модели не с гаусовским шумом, а с другими деструктивными операциями на картинках: блюр, маскирование и т.д. И это работает на практике! Хотя теоретических доказательств работоспособности модели ни в одном из этих случаев нет.

✔️ Начинаются первые попытки в text-to-3Dimage. Пока что работает так себе, но работает же!

✔️ А с помощью наших любимых tetx-to-image можно создавать вот такие шедевры в дизайне одежды! Вообще, ИИ-одежда — это не новость, шить одежду по дизайну ИИ начали уже давно. Об этом писала тут. Но с новыми tetx-to-image модельками будет еще круче!

✔️ Meta* выпустили новую языковую модель для протеинов. Работает по качеству похоже на AlphaFold, но по скорости сильно быстрее. Есть статья, код и веса.

✔️ В Сберлоге в четверг пройшел очередной семинар. На нем Татьяна Шаврина (AIRI, Sberdevices) рассказала о том, как они в AIRI учили mGPT (многоязычную модель GPT-3 для 61 языка мира).

✔️ Статья в блоге Толоки на Медиуме о том, как они реализовали автоматический блюр лиц на фотографиях. Блюр нужен, чтобы собирать фото-данные с помощью Толокеров и использовать фото для обучения алгоритмов. Блюр лиц не нарушает privacy людей, которые на фото попали.

✔️ Один разраб создал “умный дверной звонок” для котов. Кот подходит к звонку, мяукает, звонок распознает мяуканье и отправляет человеку на телефон инфу, что кот хочет домой. Код есть, если вдруг хотите себе такой же)

✔️ Ну и напоследок: кто-то зафайнтюнил text-to-image модель для генерации обнаженных девушек. Выходит неплохо, проверяли всем чатом. Не благодарите)

*Организация признана экстремистской и ее деятельность запрещена на территории РФ