Flash Diffusion — ускорение любой диффузионной модели генерации изображений в несколько шагов
Так называется работа, которую на днях опубликовали Clément Chadebec, Onur Tasar и их коллеги.
Это метод дистилляции для создания быстрых диффузионных моделей.
При обучении модели таким методом на наборах данных COCO2014 и COCO2017 показатели FID и CLIP-Score достигают хороших значений; при этом требуется всего несколько часов обучения на GPU и меньшее количество параметров модели, чем требуют существующие методы.
🟡 Страничка Flash Diffusion
🖥 GitHub
🤗 Flash SD
🤗 Flash SDXL
@ai_machinelearning_big_data
Так называется работа, которую на днях опубликовали Clément Chadebec, Onur Tasar и их коллеги.
Это метод дистилляции для создания быстрых диффузионных моделей.
При обучении модели таким методом на наборах данных COCO2014 и COCO2017 показатели FID и CLIP-Score достигают хороших значений; при этом требуется всего несколько часов обучения на GPU и меньшее количество параметров модели, чем требуют существующие методы.
🤗 Flash SD
🤗 Flash SDXL
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27👍18❤2
This media is not supported in your browser
VIEW IN TELEGRAM
—
npm install -g @builder.io/micro-agent
Micro Agent — это маленький AI-агент, который заточен под одно применение: агент пишет тест, а потом пишет под этот тест код.
По задумке, такой подход должен гарантировать как минимум валидность кода, а как максимум — код будет решать все поставленные задачи
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🔥15❤4🤔4🥰2🤣2
—
pip install xlstm
Не так давно был пост со статьёй Arxiv об архитектуре xLSTM, и вот команда исследователей xLSTM опубликовала код на GitHub.
xLSTM — это новая архитектура рекуррентной нейронной сети, основанная на идеях привычной нам LSTM. Благодаря экспоненциальному гейтингу с соответствующими методами нормализации и стабилизации и новой матричной памяти она преодолевает ограничения оригинальной LSTM и демонстрирует производительность при обработке естественного языка по сравнению с трансформерами или другими архитектурами.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤26👍26🔥7
git clone https://github.com/Josh-XT/AGiXT
cd AGiXT
./AGiXT.ps1
AGiXT — это платформа для эффективного управления AI-системами с помощью различных инструментов. Наши агенты оснащены адаптивной памятью, и это универсальное решение предлагает мощную систему плагинов, поддерживающую широкий спектр команд, включая просмотр веб-страниц.
AGiXT имеет множество удобных плагинов для создания эффективных AI-решений
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥6❤4
Siri превратили в ИИ-помощника, теперь она сможет использовать ваши приложения, объяснять информацию на экране и искать то, что вам нужно практически в любых приложениях и заметках;
Что инетресно, Apple еще в апреле опубликовала статью о своей модели машинного обучения Ferret-UI для распознавания элементов пользовательского интерфейса, в которой раскрыто гораздо больше деталей, чем мы обычно ожидаем от Apple.
"Ferret-UI", мультимодальная модель визуального языка, которая распознает иконки, виджеты и текст на экране мобильного устройства iOS, а также объясняет их расположение и функциональное значение.
Примеры вопросов, которые вы можете задать Ferret-UI:
- Предоставьте краткое описание этого скриншота;
- Для интерактивного элемента укажите фразу, которая наилучшим образом описывает его функциональность;
- Определите, можно ли использовать элемент пользовательского интерфейса.
и тд
В статье даже рассказывается о деталях созданиях датасета и бенчмарка для тестов Apple. Редкая открытость со стороны яблочников!
Они по-настоящему переосмысливают свое направление исследований в области искусственного интеллекта.
Статья была опубликована в апреле без особой пиар-шумихи: https://arxiv.org/abs/2404.05719
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🥱12❤8🔥8
Новая модель Intel- L-MAGIC может создавать качественные панорамные сцены на основе одного входного изображения и текстового промпта!
Многочисленные тесты показывают, что модель генерирует панорамные сцены с лучшим расположением сцен и качеством рендеринга по сравнению с аналогичными моделями.
▪Github: https://github.com/IntelLabs/MMPano
▪Paper: https://arxiv.org/abs/2406.01843
▪Project: https://zhipengcai.github.io/MMPano/
▪Video: https://youtu.be/XDMNEzH4-Ec
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥5❤4🥱2
This media is not supported in your browser
VIEW IN TELEGRAM
📖 В Букмейте появился виртуальный рассказчик, умеющий читать книги в реальном времени
Разработан рассказчик на базе комплекса речевых технологий Яндекса с привлечением профессиональных дикторов. При этом воспроизведение текста максимально приближено к естественной речи, поэтому читатели могут с комфортом слушать произведения на протяжении долгого времени.
На Хабре разработчик функции описал процесс адаптации речевых технологий для книг. Сложность состояла в том, что в литературных произведениях есть необычные сокращения и редкие термины — нужно было обучить модель правильному произношению.
▪️ Habr: https://habr.com/ru/companies/yandex/news/820525/
@ai_machinelearning_big_data
Разработан рассказчик на базе комплекса речевых технологий Яндекса с привлечением профессиональных дикторов. При этом воспроизведение текста максимально приближено к естественной речи, поэтому читатели могут с комфортом слушать произведения на протяжении долгого времени.
На Хабре разработчик функции описал процесс адаптации речевых технологий для книг. Сложность состояла в том, что в литературных произведениях есть необычные сокращения и редкие термины — нужно было обучить модель правильному произношению.
▪️ Habr: https://habr.com/ru/companies/yandex/news/820525/
@ai_machinelearning_big_data
🔥45👍17🤔2🎅2☃1❤1
This media is not supported in your browser
VIEW IN TELEGRAM
SF-V — это метод генерации видео, который позволяет генерировать динамические и согласованные видео за 1 проход.
В исследовании команда из Snapchat берёт обычную многошаговую диффузионную модель, и обучает её улавливать как временные, так и пространственные зависимости в видеоданных для получения цельных видео.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍11❤2
🗣 VALLEY 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers
В этой статье Microsoft представили VALL-E 2, новейшее достижение в области языковых моделей , которое знаменует собой важную веху в области синтеза текста в речь (TTS), впервые достигая человеческого уровня.
Эксперименты с датасетами
▪Подробности: https://arxiv.org/abs/2406.05370
▪Демо VALL-E 2 будети доступна здесь: https://www.bing.com/?ref=aka&shorturl=valle2
@ai_machinelearning_big_data
В этой статье Microsoft представили VALL-E 2, новейшее достижение в области языковых моделей , которое знаменует собой важную веху в области синтеза текста в речь (TTS), впервые достигая человеческого уровня.
Эксперименты с датасетами
LibriSpeech
и VCTK
показали, что VALL-E 2 превосходит все предыдущие модели по качеству сгенерированной речи и ее естественности. ▪Подробности: https://arxiv.org/abs/2406.05370
▪Демо VALL-E 2 будети доступна здесь: https://www.bing.com/?ref=aka&shorturl=valle2
@ai_machinelearning_big_data
🔥23👍12❤2
—
pip install deepxde
В DeepXDE реализовано множество алгоритмов и поддерживается множество функций:
— DeepXDE позволяет писать код очень лаконично, практически как математическую формулировку
— очень простая работа с геометрическими объектами; примитивами являются — треугольник, прямоугольник, многоугольник, эллипс, звезда, куб, сфера, гиперкуб и гиперсфера; поддерживается работа с облаком точек
— можно учитывать 5 типов граничных условий: Дирихле, Неймана, Робина, периодические и общие, которые могут быть заданы на произвольной области или на множестве точек
В целом, отличная библиотека для PINN и подобных приложений
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35🔥3❤2
С её помощью можно ускорить обучение больших языковых моделей с открытым исходным кодом до 25%, в зависимости от архитектуры и параметров нейросети.
YaFSDP лучше оптимизирует ресурсы графических процессоров на всех этапах обучения: pre-training (предварительное обучение), supervised fine-tuning (обучение с учителем), alignment (выравнивание модели). Благодаря этому библиотека стала использовать ровно столько памяти GPU, сколько нужно для обучения, а коммуникацию между графическими процессорами теперь ничто не замедляет.
▪️GitHub: https://github.com/yandex/YaFSDP
▪️Habr: https://habr.com/ru/companies/yandex/articles/817509/
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥15❤6💅2
This media is not supported in your browser
VIEW IN TELEGRAM
🔈 Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language
Исследователи Массачусетского технологического университета CSAIL и Google разработали алгоритм DenseAV, который предсказывает то, что он видит, исходя из того, что он слышит.
Он совершенно не контролируется и не использует текст во время обучения.
Алгоритм может соотносить объекты с видео со звуками, которые они издают.
Возможности DenseAV в области локализации основаны на новом методе dense contrastive loss, который наделяет его мощной способность запоминать и локализовывать слова и звуки по сравнению с широко распространенными методами.
DenseAV значительно превосходит известные методы семантической сегментации по речи и звуку.
▪Paper: https://arxiv.org/abs/2406.05629
▪Website: https://mhamilton.net/denseav
▪Code: https://github.com/mhamilton723/DenseAV
▪Video: https://youtu.be/wrsxsKG-4eE
@ai_machinelearning_big_data
Исследователи Массачусетского технологического университета CSAIL и Google разработали алгоритм DenseAV, который предсказывает то, что он видит, исходя из того, что он слышит.
Он совершенно не контролируется и не использует текст во время обучения.
Алгоритм может соотносить объекты с видео со звуками, которые они издают.
Возможности DenseAV в области локализации основаны на новом методе dense contrastive loss, который наделяет его мощной способность запоминать и локализовывать слова и звуки по сравнению с широко распространенными методами.
DenseAV значительно превосходит известные методы семантической сегментации по речи и звуку.
▪Paper: https://arxiv.org/abs/2406.05629
▪Website: https://mhamilton.net/denseav
▪Code: https://github.com/mhamilton723/DenseAV
▪Video: https://youtu.be/wrsxsKG-4eE
@ai_machinelearning_big_data
❤22👍18🔥9🥰2