AI Для Всех
12.8K subscribers
1.16K photos
151 videos
10 files
1.37K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
AMA Stanford x Silicon Valley

Ask me anything про Стенфорд, Долину, исследования и всякое разное
This media is not supported in your browser
VIEW IN TELEGRAM
TAP-Vid - эталон в области анализа движения на видео

DeepMind формализовали задачу долгосрочного отслеживания любой точки на видео (TAP, track any point), включая деформацию, ускорения, повороты, перекрытие другими объектами.

Но главное - проделали ювелирную работу по созданию и разметке датасета для решения таких задач.
По дороге подняли планку для уже существующих моделей, собрав TAP-Net.

Зачем это: делать выводы о форме объектов, их физических свойствах и возможных взаимодействиях.

Датасет состоит из реальных видео с точными человеческими аннотациями и синтетических видео с истинными значениями.

Чтобы зафиксировать бейслайн, проверили RAFT, но он не справляется с перекрытием объектов и накапливает ошибки при интерполяции по многим кадрам;
CORT теряет информацию о деформации;
Kubric-VFS-Like слабо полезен при переходе от синтетических данных к реальным видео.
TAP-Net пока лучшая, но с таким датасетом - ненадолго.

Следующий шаг - освоить с жидкости и прозрачности.

📖Статья
🗂Датасет
@GingerSpacetail
Хочу сделать хороший сайт визитку для себя, подскажите кто на каких сервисах делал? Что почем?
Media is too big
VIEW IN TELEGRAM
Multi-layered Mapping of Brain Tissue via Segmentation Guided Contrastive Learning

В
прошлом году в Google оцифровали 1 мм³ ткани коры головного мозга получив 3d карту высокого разрешения объемом 1,4 Пбайт. Для подробного изучения такой карты сначала нужно идентифицировать типы клеток и их синаптические связи, но разметить такое количество данных вручную невозможно (привет).

Для решение проблемы авторы предложили новую сеть SegCLR (модификация SimCLR). Она способна различать элементы меньше 10 µm с высокой точностью, тогда как эксперты уже не справляются.

Благодаря self-supervised (#SSL) подходу авторам удалось извлечь 8 млрд эмбеддингов без ручной аннотации. Далее, они были сгруппированы в кластеры и используя лишь небольшое количество размеченных данных, кластерам был присвоен лейбл. Кроме того, сеть понижает размерность данных до 64-мерных векторов, что облегчает обучение моделей для downstream задач.

Таким образом был получен размеченный датасет, который был вложен в открытый доступ.

🔬Блог
📖Статья
@karray
Forwarded from Earth&Climate Tech
Работа в climate-tech

#📢Вакансия

Компании из портфолио Breakthrough Ventures набирают обороты. По ссылке список вакансий в 77 climate-energy-tech компаниях: водород, геотермалка, цемент, разведка металлов, захоронение СО2, квантовые компьютеры и многое другое.
Восхитительная эмерджентность модели EMSFold

Вы же знаете, что GPT-3 обучена просто предсказывать следующее слово в предложении, а в итоге пишет стихи, помогает читать научные статьи, писать и понимать код?

Это явление называется эмерджентность (emergence) - когда после обучения на простой задаче, модель умеет делать гораздо больше.

Эмерджентость - одно из ключевых свойств фундаментальных моделей, таких как DALL-E, BERT, GPT-3 и теперь - представленной в ноябре EMSFold.

Изначально Meta AI обучали языковую модель заполнять пробелы в последовательности белков, а оказалось, чтобы хорошо выполнить задачу, она должна узнать, какая у белка функция, и как ориентированы аминокислоты в пространстве.

Почему это восхитительно: эволюционная изменчивость белков не произвольная - их биологические свойства играют роль ограничителей на мутации в последовательности. Но головоломка в том, что свойства белка зависят от его 3D формы.

И EMSFold - новая SOTA модель, решающая эту головоломку.

📖Статья
🖇Код
@GingerSpacetail
Пять ошибок, которые допускают менеджеры при внедрении искусственного интеллекта, и как их исправить

Искусственный интеллект способен изменить процесс принятия корпоративных решений - увеличить доходы, снизить затраты и повысить качество. Если только сотрудники смогут его правильно применять.

Ошибка 1: концентрация на том, где алгоритмы будут иметь наибольшее влияние

Ошибка 2: Когда менеджеры внедряют алгоритмические технологии, они в основном устраняют технические трения и страхи перед инновациями.

Ошибка 3: акцент только на том, как алгоритмы могут помочь максимизировать доход и рентабельность

Ошибка 4: Использование алгоритмических технологий для предоставления работникам обратной связи в реальном времени об их работе

Ошибка 5: чрезмерное объяснение того, как работает алгоритм

Расписать каждую ошибку не хватит лимитов, так что подробности читайте в статье

🍬 Статья (возможен paywall)
Forwarded from AbstractDL
MinD-Vis: диффузия для чтения мыслей

Представлена диффузионная модель, которая умеет декодировать то, что видит человек по его мозговой активности (fMRI).

Сначала авторы обучили self-supervised модель для получения универсальных эмбеддингов мозговой активности (одинаковых для разных людей). Далее они взяли предобученную Latent Diffusion и добавили к ней cross-attention на эти мысленные репрезентации. После короткого файнтюна на 1.5к парах картинка-fMRI модель смогла полноценно декодировать то, что видит перед собой человек!

Данные для обучения и код выложены в открытый доступ, веса моделей дают по запросу.

Статья, GitHub, блог
Focal Modulation Networks

Когда мы рассматриваем что-то, наши глаза совершают быстрые движения, называемые саккадами, фокусируясь на интересных деталях и мысленно строя сцену, учитывая глобальный контекст. Self-attention (SA) в ViT работает похожим образом, но проблема в том, что нужно вычислять attention между всеми частями изображения.

В Microsoft представили FocalNet, которая является развитием предыдущей идеи - авторы предложили вокруг каждого query-вектора создать зону из трех уровней: ближний - самый детальный и состоит из отдельных векторов, тогда как дальний - объединяет вектора в группу. В FocalNet развили эту идею, упростив вычисления при достижении SOTA результатов.

Восхитительно и то, что замена SA фокальной модуляцией позволяет не только упростить вычисления, но также локализовывать объекты без обращения к картам активации и вычисления градиент через backpropagation (как в Grad-CAM). Кроме того, полученные тепловые карты более консистентны в сравнении с SA (демо).

📖Статья
👨‍💻Код
@karray
This media is not supported in your browser
VIEW IN TELEGRAM
🪐 "Galactica". Большая языковая модель для науки.

Galactica может обобщать научную литературу, решать математические задачи, генерировать статьи Wiki, писать научный код, аннотировать молекулы и белки и многое другое.

Модель была выпущена компанией Meta (в принципе, с такой моделью действительно можно уволить часть сотрудников).

Попробовал ее на своей довольно специфичной области - работает на ура!

🪐 Онлайн демо
🫣 Модель
🦭 Статья
Аугментация сейсмических данных

У меня есть своя библиотека для аугментации сейсмических данных (с точки зрения модальности - аудио/звук). Буду рад, если вы туда что-нибудь законтрибьютите!

На языке вертится frequency и time masking, но буду супер рад любым идеям!

P.S.: можно просто документацию пописать и примеры поделать

📻 Библиотека для аугментации сейсмических данных

P.S.: Sinkovics, прикинь, там уже 17 звёзд 🌟
AI для подкастов

Я тут изучил тему, оказывается, появился уже целый ряд ИИ продуктов для редактирования и производства подкастов:

Podcastle, Descript - транскрибация, редактирование звука по тексту, клонирование голоса и последующий нейродубляж

Podcast.co - хостинг и продвижение подкастов

Zencastr - обещают все в одном :)

И как оказалось там еще целое поле не паханое.

Пишите в коментах какие бы вы хотели фичи с ИИ?
This media is not supported in your browser
VIEW IN TELEGRAM
Wordcraft - NLG ассистент писателя, сфокусированный на полезности для пользователя

Google Research попросили 13 профессиональных писателей, поэтов и комиков в течение 8 недель использовать созданный на основе языковой модели LaMDA инструмент Wordcraft как партнера для мозговых штурмов, соавтора, помощника-исследователя и бета-читателя.

Пока Wordcraft с этим справляется на уровне, подходящем любителям и новичкам, но не тем, у кого есть свой стиль и почерк.

Топ 5 проблем:
1. Неоригинальность (в этом смысле модели поменьше типа GPT-2 лучше вдохновляют своими безбашенными курьезами)
2. Плагиат или нарушение авторских прав
3. Короткая "память", не умещающая сюжетную линию (в LaMDA последовательности из 1024 токенов, но даже 4к GPT-3 будет недостаточно)
4. Wordcraft отказывался создавать отрицательных персонажей (файнтьюнинг на грубости)

И вишенка на торте:
5. Wordcraft пока преувеличивает свои возможности, обещая, например, перезвонить через несколько дней🌚

📖Статья
📚Произведения
@GingerSpacetail
This media is not supported in your browser
VIEW IN TELEGRAM
Magic3D - модель text-to-3D от NVIDIA. Теперь мы знаем как выглядит волшебство.

Кажется, NVIDIA наняли эльфа Бадди (который из фильма 2003 с Уиллом Ферреллом). Во-первых, это умопомрачительная text-to-3D высокого разрешения. А во-вторых, дизайн инструмента в лучших традициях 90х со шрифтом comic sans. Комик санс, Карл!

Про диффузию вы и так знаете. А кода все равно ещё нет.


📖Статья
🪄Страница инструмента
@GingerSpacetail
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ победил в игру Дипломатия

Сегодня META объявила о прорыве на пути к созданию ИИ, овладевшего навыками использовать язык для ведения переговоров, убеждения и работы с людьми для достижения стратегических целей.

Они создали агента - CICERO (агент Цицерон) - который стал первым ИИ, достигшим уровня человека в популярной стратегической игре Diplomacy*. Работу опубликовали в журнале Science.

CICERO продемонстрировал свои возможности, играя на webDiplomacy.net, онлайновой версии игры, где CICERO набрал более чем в два раза больше очков, чем человеческие игроки, и вошел в 10 процентов лучших участников, сыгравших более одной игры.

В блог-посте подробнейшее описание задумки и исполнения. МЕТА в этом году прям в ударе по интересным статьям связанным с AI. Начинаю подозревать что метаверс строиться совсем не для людей.

😌 Блог-пост
🤩 Статья
🙃 Сайт CICERO
@crimeacs
Forwarded from Syncrets
🧠 Молекулярный мозг.

Нейроны, аксоны, синапсы — всё это клеточный уровень. А как насчёт отдельных молекул?

Международная группа учёных совместно с коллегами из Бернальского института университета Лимерика в Ирландии открыли «динамический молекулярный переключатель», который имитирует синаптическое поведение и демонстрирует все функции математической логики, необходимые для глубокого обучения.

Команда разработала двухнанометровый молекулярный слой, объединяющий быстрый перенос электронов (по аналогии с потенциалами действия и деполяризации в биологии) с медленным связыванием протонов, ограниченным диффузией (сродни роли ионов кальция или нейротрансмиттеров). Так как этапы переноса электрона и связывания протона в материале происходят с очень разными временными масштабами, трансформация делает возможной эмуляцию пластичного поведения синаптических связей, Павловское обучение и цифровые логические вентили — просто изменяя напряжение и продолжительность импульсов — и это революционная альтернатива обычным бинарным кремниевым переключателям, по словам профессора Томпсона, руководителя проекта.

Применение этого метода в будущем к динамическим молекулярным системам с иными стимулами (например, светом) и с различными типами формирования ковалентных связей открывает путь к созданию новых реконфигурируемых систем, органических материалов для вычислений, сверхплотной упаковки данных, энергетики и т. д.

Интересно, если на подобную искусственную синаптическую базу развернуть уже готовый коннектом, что получится? 🫥
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Clippit (известный под именами Clippy, Скрепа и Скрепыш) - ML помощник из Microsoft Office, работавший на байесовских алгоритмах

После поста про Wordcraft накрыло ностальгией по Скрепышу. Помните такого помощника в Ворде?

Оказалось, он был ML ассистентом, опередившим свое время. Его действия инициировались серией байесовских алгоритмов, оценивающих вероятность того, что пользователю нужна помощь, а ответы, естественно, основывались на правилах и шаблонах из базы знаний Microsoft.
И уже тогда, в далёком 1993, у него были несовершенства лучших AI помощников и чат-ботов современности: назойливость, короткая память, предложения в духе Капитана Очевидность и беспардонное нарушение социальных норм.

Под натиском критики его убрали в 2007 (2008 из Mac), но в 2021 он нашел новую работу в виде эмоджи, а в 2022 ему просвещен традиционный ugly-свитер Майкрософт.

📼Видео похищено отсюда. И оно с теми самыми звуками
📎Код для встраивания js Скрепы в любой сайт
@GingerSpacetail
Stable Diffusion 2.0

SD2 предоставляет ряд значительных улучшений и возможностей по сравнению с оригинальной версией V1:

🌟 Depth-to-Image Diffusion Model
Новинка! Depth2img, расширяет предыдущую функцию "изображение-изображение", предоставляя совершенно новые возможности для творческого применения. Depth2img определяет глубину входного изображения (используя существующую модель), а затем генерирует новые изображения, используя как текст, так и информацию о глубине.

Новый Text-to-Image
Новые модели обучали с помощью нового OpenCLIP и эстетичного сабсета LAION-5B.

Super-resolution Upscaler
Повышает разрешение изображений в 4 раза. Теперь Stable Diffusion 2.0 может генерировать изображения с разрешением 2048x2048 или даже выше.

Updated Inpainting Diffusion Model
новая модель инпейнтинга, которая позволяет очень легко и быстро менять местами части изображения.

Еще больше подробностей тут
This media is not supported in your browser
VIEW IN TELEGRAM
Следующий ивент Neuralink будет через неделю!

Nov 30, 6 pm PT

Судя по видео-приглашению нам покажут как кто-то печатает с помощью нейроимпланта. Было бы круто если бы печатали обезьяны, но с человеком тоже хорошо.

Источник