AI Для Всех
12.8K subscribers
1.16K photos
151 videos
10 files
1.37K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Stability AI запускает API для увеличения изображений

Компания Stability AI объявила о выпуске своего революционного API для увеличения изображений, который позволяет пользователям увеличивать размер любого изображения без ущерба для его резкости и детализации. Этот инновационный инструмент на базе ИИ станет ценным дополнением к набору API для создания и редактирования изображений.

API увеличения изображения использует две современные модели с открытым исходным кодом, Real-ESRGAN и Stable Diffusion 4x Upscaler. Теперь пользователи могут легко увеличивать изображения, независимо от того, созданы они с использованием Stability AI или нет, получая исключительные результаты.

🦾 Документация
🐕 Анонс
Поваренная книга Self-supervised Learning (#SSL) от Meta.

Meta выпустили новую "Поваренную книгу самоконтролируемого обучения" - практическое руководство для исследователей и практиков ИИ о том, как сориентироваться в рецептах SSL (self-supervised learning), понять его различные “ручки и рычаги” и получить ноу-хау, необходимые для экспериментов с SSL.

Self-supervised learning (SSL), которое называют "темной материей интеллекта", является ключевым ингредиентом недавних прорывов в области ИИ.

Оно расширило границы глубокого обучения во многих областях, позволяя обучаться на огромных объемах немаркированных данных, а не полагаться на тщательно аннотированные наборы данных. Сегодня SSL лежит в основе передовых моделей для всех модальностей - язык (например, перевод и большие языковые модели), аудио (например, data2vec) и зрение (например, модель SEER, обученная на одном миллиарде изображений, и DINOv2).

Но обучение SSL похоже на приготовление изысканного блюда - это сложное искусство с высоким барьером для входа. Хотя многие ингредиенты могут быть знакомы, успешный рецепт SSL включает в себя головокружительный набор вариантов, от выбора правильных задач до обучения с тщательно подобранными и выдержанными гиперпараметрами.

Вы также найдете советы и рекомендации от более чем десятка авторов из различных университетов, включая Нью-Йоркский университет, Университет Мэриленда, Калифорнийский университет в Дэвисе, Университет Монреаля, а также ведущих исследователей Meta AI, таких как Янн ЛеКун.

📕 Книга
🐕 Анонс
Media is too big
VIEW IN TELEGRAM
Wonder Dymanics демократизирует создание компьютерной графики в кино

Представьте, что вы хотите включить друга робота в свой киберпанк ютуб сериал. До сегодняшнего дня вы бы отказалась от идеи примерно сразу, потому что качественная работа по визуальным эффектам (VFX) обоходится в $20 000 за секунду. {Поэтому реалистичные анимированные персонажи остаются прерогативой высокобюджетных проектов}

Из чего складывается эта сумма. Самый первый шаг - сделать модель, текстуры самого персонажа. Если не хотите анимировать его вручную, вам понадобится студия захвата движения или съемочное оборудование, отражающие шары, зеленые экраны и всякое такое. Из них к каркасу компьютерной графики необходимо применить примитивы движения, а актера заменить персонажем. Интегрированная в сцену 3D-модель должна соответствовать направлению и цвету освещения, оттенку и зернистости пленки и многому другому. Это много ресурсов и дней работы.

Wonder Dynamics стремится изменить это с помощью web платформы, которая позволяет создателям буквально перетаскивать персонажа компьютерной графики в любую сцену, как если бы он был профессионально снят и отредактирован.

Звучит многообещающе, надо поиграться: +1 пункт вейтлистов.

🖥 Присоединиться к закрытому бета-тестированию здесь
▶️ Посмотреть на красивое
🗞 Почитать статью на techcrunch

@GingerSpacetail
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
WhaleGPT 🐋

Сможет ли ИИ нам помочь разговаривать с китами?

Киты, как и люди, являются социальными существами со сложной системой коммуникации. Их общение состоит из коротких кликов и щелчков, которые используются для различных целей.

Исследователи обратились к искусственному интеллекту (ИИ), чтобы помочь расшифровать язык китов. Проект CETI (Cetacean Translation Initiative) направлен на использование ИИ и методов машинного обучения для анализа и перевода общения китов. Используя передовые методы обработки естественного языка, ученые надеются понять грамматику и смысл издаваемых звуков.

Для достижения этой цели необходимо больше данных. CETI планирует использовать различные технологии, такие как буйковые решетки, записывающие устройства, прикрепленные к китам, водные дроны и воздушные дроны, для сбора аудио- и видеозаписей поведения и общения китов. Собранные данные будут обработаны и проанализированы алгоритмами машинного обучения для обнаружения и классификации коды китов.

Цель проекта CETI - не только понять язык китов, но и общаться с ними. Поскольку исследователи продолжают изучать глубины общения китов, остается только гадать, что думают эти величественные существа о наших начинаниях и сможем ли мы когда-нибудь спросить их об этом.

Видео снял мой друг вчера в Monterey Bay

Ссылка
Связь между self-supervised learning и теорией информации

ИИ может делать удивительные вещи, но ему обычно требуется много помеченных данных. На помощь приходит self-supervised learning (#SSL) - способ, позволяющий ИИ обучаться без меток. В новой статье Яна Лекуна и Равида Швартца авторы глубоко погружаются в мир self-supervised learning и теории информации.

При supervised learning обучении мы сохраняем полезную информацию и выкидываем все остальное. Но в случае self-supervised обучения все сложнее: как сильно мы должны сжать данные, чтобы обучение было эффективным?

Для ответа на этот вопрос необходимо найти баланс между сжатием и максимизацией информации. Авторы вводят "предположение о многоракурсности", чтобы помочь справиться с этой проблемой.

В статье рассматриваются:

* пересечение теории информации, self-supervised learning и глубоких нейронных сетей.
* Единая структура для понимания self-supervised learning
* Роль предположения о многоракурсности и его ограничения
* Современные алгоритмы self-supervised learning
* Измерение информации в нейронных сетях

📕Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
Mojo - новый язык программирования для ML

Крис Латтнер, известный по LLVM и Swift, только что анонсировал новый язык программирования для ML, высокопроизводительный и обратно совместимый с Python (работает с библиотеками Python).

Может быть новый Kotlin, а может и не взлетит. Будем посмотреть, как говорится.

🔥 Про Mojo
📹 Видео-демо
🪪 TLDR видео
Ускоряем инференс моделей на cpu

Обычно я вам что-нибудь рассказываю, но в этот раз попрошу совета.

Расскажите пожалуйста про лучшие практики ускорения инференса обученной модели на cpu? И еще интересуют практики по распараллеливанию инференса
Google возможно работает над интеграцией Bard в Pixel

Журналисты из 9to5Google декомпилировали приложение виджета домашнего экрана для пикселей и нашли в нём строки, намекающие на интеграцию языковой модели Bard.

На данный момент не ясно, на что именно будет способен Bard и будет ли он вообще интегрирован, но на основе доступного кода журналисты делают вывод, что это будет больше чем просто чат бот для беседы.

10 мая пройдёт Google I/O, где помимо раскладного пикселя, могут быть анонсированы дополнительные детали.

Новость
@karray
Guanaco - Конкурс LLM

Денежный приз в размере $1 млн.
Стартует 10 июня 2023 года

Первый в мире открытый конкурс сообщества с оценками реальных пользователей. Предложите свою модель и сравните свой рейтинг с другими командами.

Запись в waitlist
Каналы которые я сам читаю

Я читаю довольно много каналов, но позвольте поделиться несколькими которые мне прям нравятся:

@denissexy авторский канал который рассказывает про современные тренды в IT с шутками-прибаутками.

@polnybespilot еще один авторский канал, на этот раз про беспилотники. Там все самое свеженькое про то как и где покататься на беспилотном такси и как у них вообще дела.

@earth_climate_tech канал стенфордского выпускника, про то, как можно использовать нейросети в различном геоинжинеринге (например для разведки геотермальных ресурсов).

@unboxing_america авторский канал про другую сторону машинного обучения, а именно про жизнь в Сан Франциско. Порой совершенно неожиданные там вещи пишут.

А еще есть вот такая чудесная папочка (подписан на многих, но не на всех)

📂 Посмотреть каналы в подборке
Forwarded from Earth&Climate Tech
Иногда появляется ощущение, что жизнь вокруг ИИ происходит в режиме быстрой перемотки. Меньше месяца назад Мета выпустила SAM для сегментации любых объектов на изображении, но такое ощущение, что это было всегда. Только за последние 2 дня я уже прочитал около десятка документов, описывающих прототипы использования SAM для изучения недр.

Например, на первых двух картинках (из этого поста) - берем шлиф(срез породы) -> пропускаем через SAM -> выделяем все зерна пород -> автоматически получаем распределение размера зерен (гранулометрия).

На последней картинке я просто кликнул мышкой и выделил все пыльцевые зерна на изображении полученном с помощью электронного микроскопа. Автоматически выделенные зерна можно классифицировать и использовать палеотнологами для определения геологического возраста породы.

#machinelearning #Geo
Дежа вю у моделей self-supervised learning (#SSL)

Еще одно исследование по SSL от Meta AI, где авторы исследуют проблему оверфиттинга SSL моделей, которую они называют Дежа вю. В исследование обсуждается риски связанные с тем, что SSL модели могут с высокой точностью извлекать или даже визуально реконструировать объекты из обучающей выборки только по фрагменту изображения (например, воду, небо, траву), что создает риски конфиденциальности для изображений с чувствительной информаций.

Дело в том, что для обучения SSL моделей чаще всего создают несколько представлений одного и того же изображения, используя аугментации (например, crop), где лосс минимизирует расстояние между эмбуддингами этих представлений (подробнее об SSL). Таким образом, эмбеддинг фона изображения может находиться близко к эмбеддингу интересующего нас объекта и, имея только фрагмент фона, можно идентифицировать целевой объект (в статье используют фрагмент озера в качестве фона и черного лебедя в качестве целевого объекта).

Поскольку SSL не требует никакой разметки, нет простого способа тестирования таких моделей, как например, Grad-CAM для supervised-learning. В статье авторы описывают способы идентификации оверфиттинга и предлагают набор техник для его минимизации.

📜 Сатья
🖥 Код
@karray
CLIP можно учить на ресурсах доступных людям.

CLIP, первая фундаментальная модель, связывающая изображения и текст, позволила совершить множество прорывов в компьютерном зрении (и не только в нем). Однако затраты на ее обучение непомерно высоки, что является серьезным препятствием для ее широкого применения.

В этой статье авторы представляют удивительный факт существования обратного закона масштабирования (inverse scaling law) для обучения CLIP, согласно которому чем больше размер энкодера изображения/текста, тем меньше длина последовательности токенов изображения/текста, которые можно использовать в обучении.

Более того, авторы показали, что стратегия сокращения длины последовательности токенов изображения/текста играет решающую роль в определении качества этого закона масштабирования.

Благодаря этому выводу исследователи показали как можно обучать CLIP даже с использованием академических ресурсов. Например, на сервере A100 с восемью графическими процессорами их модели CLIP zero-shot top-1 accuracy on ImageNet в 63,2% за ~2 дня, 67,8% за ~3 дня и 69,3% за ~4 дня.

Снизив вычислительный барьер, связанный с CLIP, авторы надеются вдохновить академические коллективы на дальнейшие исследования в этой области.

📇 Статья
🐙 Код
Ask Me Anything с организаторами Guanaco: LLM Competition

Как я уже писал ранее, стартап Chai Research организовывает хакатон с призовым фондом $1М. Хакатон будет происходить в несколько этапов: supervised finetuning, reward modeling, RLHF, etc.

В первом этапе, который начнётся 10ого июня участникам предстоит подготовить датасет и натренировать диалоговую модель для role-play (RPG-style) с помощью партнера соревнования together.xyz (авторы RedPajama).

Оценивать модели будут >1М активных пользователей приложения.

Так как по поводу соревнования возникло много вопросов, вот вам Ask me anything (AMA) с одним из разработчиков стартапа в комментариях.

Лёша (@goodimpression) готов ответить на любые вопросы:
- откуда столько денег?
- зачем проводить хакатон?
- кому принадлежат модели после сабмита?
- и другие

Оставляйте свои вопросы в комментариях, в течение суток вы получите на них ответы от @goodimpression.
Forwarded from DLStories
Новая работа на тему реконструкции текста на основе сигналов МРТ головного мозга

Ребята из Техасского университета предложили новый метод реконструирования текста, который слышит человек, на основе МРТ-сигнала мозга. Причем декодирование происходит в связный текст, который семантически близок к реальному.

Как обычно, дислеймер: я мало понимаю в методах нейробиологии и том, как оценивать качество таких исследований. Также из-за этого не могу разобраться в некоторых нюансах работы. Если я где-то ошиблась, пишите об этом в комментарии.

Итак, задача реконструкции текста на основе сигналов головного мозга:

Задачу декодирования текста, которую слышит (или даже мысленно произносит) человек, пытались решать и раньше. Подходы тут делятся на два вида по тому, как извлекается сигнал из мозга. Первый вид — инвазивные методы извлечения сигнала. Это когда в голову человеку вживается чип, который считывает сигналы непосредственно с нейронов в мозга. Эти подходы, понятно, дорогие и сложные. Второй вид — неинвазивные методы извлечения сигнала, такие как МРТ, М/ЭЭГ. Эти подходы дешевле и проще, голову никому сверлить не надо.

Но у неинвазивных методов получения сигналов мозга есть большой недостаток. Когда человек подвергается какому-то стимулу (например, слышит слово), этот стимул влияет на показатели МРТ примерно в течение 10 секунд. Человек, который бегло говорит на английском языке, произносит примерно 2 слова в секунду. Получается, если записывать сигнал МРТ во время прослушивания английской речи, каждая МРТ-картинка будет содержать информацию об обработке мозгом примерно двадцати слов.

Из-за этого точно восстановить текст, который слышит человек, по МРТ не получается. И многие прошлые работы по теме восстановления текста по сигналам мозга, полученным неинвазивными методами, умели хорошо восстанавливать только отдельные слова и фразы.

А ребята из Техаса придумали, как по МРТ восстанавливать (почти) связный текст. Этот текст не будет точно таким же, что в реальности слышал человек. Но он будет семантически похож, т.е. будет отражать в целом правильный смысл.

Очень общая идея метода:
Сначала обучаем сеть-энкодер, которая учится по куску текста восстанавливать МРТ-картину могза, соответствующую этому куску текста. Затем берем предобученную языковую модель (например, GPT), и делаем следующее:
Каждые две секунды просим GPT сгенерировать несколько вариантов продолжения текста. Эти несколько вариантов подаем на вход сети-энкодеру, который по ним пытается обратно восстановить текущую МРТ-картину. Тот вариант текста, по которому удалось получить наиболее похожий на реальный МРТ-сигнал, считаем верным.

Таким нехитрым способом авторы получают (почти) связный текст по сигналам МРТ со смыслом, в основном отражающим смысл оригинала. Конечно, есть семантические ошибки, но статистически сгенерированные тексты по нескольким метрикам действительно ближе к оригиналу, чем случайный текст.

Вот пример:
Оригинал: I didn't know whether to scream cry or run away instead I said leave me alone I don't need your help adam disappeared and I cleaned up alone crying
Генерация: Started to scream and cry and then she just said I told you to leave me alone you can't hurt me anymore I'm sorry and then he stormed off thought he had left I started to cry

Если применить эту идею к воображаемой речи, а не к прослушиванию чужих записей, то у такой технологии будет масса применений. Авторы этой статьи даже провели эксперимент по реконструкции воображаемой речи. Опять же, полученные тексты оказались более близкими к оригиналам, чем случайные. Т.е. метод как-то работает.

А еще с помощью подобных моделей можно исследовать функции разных частей мозга. В этой работе МРТ сигнал брался с трез разных частей мозга, которые обрабатывают слышимую речь. Добавляя и убирая сигналы с разных частей мозга из входа модели, можно что-то понимать о том, какую часть информации обрабатывает какая часть мозга. А еще можно сравнивать реконструкции модели-энкодера на основе сигналов из разных частей.

📄 Статья
Инфу о ней прочитала у Дениса
Forwarded from Сиолошная
OpenAI спустя всего 6 месяцев сделали iOS приложения для доступа к ChatGPT, чтобы не нужно было бегать в браузер. Пока — только в США, но другие страны, если верить анонсу, на подходе; то же верно и для Android-версии.

Существенное отличие по сути одно: к языковой модели сбоку пришили Whisper — нейронку от тех же OpenAI, которая переводит речь в текст. Так что по сути это Siri на максималках, вот! Жаль, что одновременно с этим не презентовали text-to-speech, был бы очень интересный коллаб.

Если у вас американский аккаунт, то скачать можно тут.
Forwarded from TechSparks
Intel последнее время как-то чуть ушел в тень: все увлеклись ИИ и железом для машинного обучения. Но именно на эти темы Intel и сделал только что крутые анонсы.
Собственная генеративная модель на триллион параметров Aurora genAI заточена под нужды научного сообщества, обучаться будет не только на текстах общего назначения, но и на научных (причем не только текстах, но и даных и коде для научных исследований).
Диапазон применений планируется впечатляюще широкий: from the design of molecules and materials to the synthesis of knowledge across millions of sources to suggest new and interesting experiments in systems biology, polymer chemistry and energy materials, climate science, and cosmology.
А железо для всего этого — суперкомпьютер Aurora, на основе интеловских же процессоров: 21 248 шт. Xeon CPU и 63 744 GPU.
https://wccftech.com/intel-aurora-genai-chatgpt-competitor-generative-ai-model-with-1-trillion-parameters/
Преобразование речи в текст, текста в речь и многое другое для 1100+ языков

Оснащение машин способностью распознавать и воспроизводить речь может сделать информацию доступной для гораздо большего числа людей, включая тех, кто полностью полагается на голос при получении информации. Однако для создания качественных моделей машинного обучения для этих задач требуется большое количество размеченных данных - многие тысячи часов аудиозаписей вместе с транскрипцией. Для большинства языков таких данных просто не существует.

В новой работе Massively Multilingual Speech (MMS) исследователи из Meta преодолевают некоторые из этих проблем, объединив wav2vec 2.0 и новый набор данных, который предоставляет размеченные данные для более чем 1100 языков и не размеченные данные для почти 4000 языков. Некоторые из них, такие как язык татуйо, насчитывают всего несколько сотен носителей, и для большинства этих языков не существует вообще никаких речевых технологий.

Результаты показывают, что модели Massively Multilingual Speech превосходят существующие модели и охватывают в 10 раз больше языков.

✌️ Блог
🗞️ Статья
🐙 Код