Группа исследователей из Гонконгского университета науки и технологий (HKUST) совместно с Huawei Noah’s Ark Lab разработали принципиальной новую методику создание изображений в сверхвысоком разрешении (до 6000 px).
Новая архитектура основана на совокупности диффузионных патчей, принципов технологии ScaleCrafter для управления расширением сверточных блоков, ResAdapter для точной настройки базовой модели T2I и адаптация энтропии внимания на уровне внимания сети шумоподавления.
В качестве исходной генеративной модели используется StableCascade
На сегодняшний день, исследователи дорабатывают механизм сохранения детализации для достижения максимального фотореалистичного результата. В ближайшее время планируется публикация кода и необходимых сопутствующих моделей для инференса и самостоятельной тренировки.
О требуемых вычислительных ресурсах для запуска пайплайна не сообщается.
@machinelearning_ru
#Text2Image #UltraHiRes #Diffusion #Ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤1🔥1
Мощный инструмент командной строки, который генерирует качественные промпты и предназначен для упрощения взаимодействия между разработчиками и LLM для генерации и анализа кода, документирования и выполнения задач по улучшению существующего кода.
Ключевые особенности:
- Поддержка нескольких языков программирования
- Интеграция с .gitignore
- Настраиваемое форматирование вывода с помощью шаблонов Jinja2
- Автоматический обход каталогов
Code2Prompt упрощает создание информативных комментариев по коду, что делает его ценным инструментом для разработчиков, желающих улучшить документацию и совместную работу по своим проектам.
▪ Github
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1🔥1
🔥 Fine-tuning Llama-3 to get 90% of GPT-4’s performance at a fraction of the cost
Новая усовершенствованная модель small 8B, которая превзошла базовую модель почти на 20%, превзошла топовую модель OSS LLama-3-70B и достигла точности GPT-4o более чем на 90%.
▪Project
▪ Github
@machinelearning_ru
Новая усовершенствованная модель small 8B, которая превзошла базовую модель почти на 20%, превзошла топовую модель OSS LLama-3-70B и достигла точности GPT-4o более чем на 90%.
▪Project
▪ Github
@machinelearning_ru
👍5🔥2🤩2❤1
https://dev-discuss.pytorch.org/t/meta-pytorch-team-2024-h2-roadmaps/2226
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
PyTorch Developer Mailing List
Meta PyTorch Team 2024 H2 Roadmaps
We’ve been thinking about how to share the roadmaps for the work we are doing on PyTorch here at Meta. We do planning on a half-year basis so these are some public versions of our 2024 H2 OSS plans for a number of key areas within PyTorch. Compiler Core…
🔥6❤2👍1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
EchoMimic - проект инновационного подхода, комбинирующий использование аудиодорожки и маркеры лиц для создания динамичных портретов сохраняя реалистичность исходного иpображения.
Mетод EchoMimic построен на моделях Stable Diffusion и использует модули Reference U-Net, Landmark Encoder и Audio Encoder для кодирования референсных изображений, характеристик лиц и аудио соответственно. На финальном этапе, Attention Layers декодирует временную динамику для создания последовательностей согласованных по времени видео.
Согласно проведенным в ходе разработки бенчмаркам, EchoMimic демонстрирует лучшие результаты по сравнению с другими проектами, такими как: SadTalker, AniPortrait, V-Express и Hallo в различных наборах данных, достигая высоких показателей по метрикам FID, FVD, SSIM и E-FID.
Рекомендованные ресурсы - от 16 GB VRAM, но EchoMimic работает и на 8 GB VRAM (увеличивается время инференса).
⚠️ В процессе установки скачиваются дополнительные модели:
⚖️ Лицензирование: Apache-2.0
@ai_machinelearning_big_data
#Image2Animate #LipSync #ML #Diffusers #EchoMimic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3
🤗 Все что нужно знать о работе с Hugging Face за 10 минут!
В этом ролике мы разыгрываем 3 крутые книги по МАШИННОМУ ОБУЧЕНИЮ, нужно всего лишь оставить любой осмысленный коммент и лайк и быть подписанным на наш канал!
https://www.youtube.com/watch?v=4B_foZbWh2c
@machinelearning_ru
В этом ролике мы разыгрываем 3 крутые книги по МАШИННОМУ ОБУЧЕНИЮ, нужно всего лишь оставить любой осмысленный коммент и лайк и быть подписанным на наш канал!
https://www.youtube.com/watch?v=4B_foZbWh2c
@machinelearning_ru
👍9❤3🔥2
🌟 ai-renamer
Это великолепно. Кто-то разработал интерфейс командной строки, который использует Lms (Ollama) для переименования ваших файлов по их содержимому.
🎓 Github
@machinelearning_ru
Это великолепно. Кто-то разработал интерфейс командной строки, который использует Lms (Ollama) для переименования ваших файлов по их содержимому.
🎓 Github
@machinelearning_ru
👍10🔥3❤2
Forwarded from Machinelearning
FP8- это формат квантования, предоставляющий для моделей баланс между точностью и эффективностью. Он обеспечивает нерегулярное представление диапазона и масштабирование для каждого тензора на GPU, что позволяет достичь прироста производительности и сокращения потребления памяти.
Этот современный формат обещает революцию в развертывании LLM, значительно улучшая эффективность инференеса без ущерба для качества модели:
Реализация поддержки FP8 стала возможна благодаря усилиям сервисов Neuralmagic.com и Anyscale.com, которые активно поддерживают open-soure сообщество.
В репозитории выложены Instruct FP8 версии моделей:
⚠️ Представленный набор моделей предназначен для запуска в среде vLLM (версии от 0.5 и выше) и ее реализациях, поддерживающих технологии разреженности и быстрого инференса:
vLLM - open-source среда для быстрого вывода и использования LLM, основанная на методе PagedAttention.
PagedAttention - алгоритм внимания, вдохновленный классической идеей виртуальной памяти и подкачки в операционных системах. Его использование снижает нагрузку на VRAM, связанную со сложными алгоритмами выборки. Экономия памяти может достигать до 55%.
Более подробно про vLLM и алгоритм PagedAttention можно прочитать на странице проекта
@ai_machinelearning_big_data
#FP8 #LLM #vLLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤2
—
pip install git+https://github.com/ManuelFay/colpaliМетод ColPali опирается на такие VLM (Vision Language Models) как модель PaliGemma от команды Google Zürich, и использует улучшенный векторный поиск, предложенный в модели ColBERT.
🤗 Hugging Face
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
SmolLM: новые модели SOTA, 135M, 360M и 1.7B, которые идеально подходят для работы на эйдж девайсах! 🔥
▪Модели: huggingface.co/blog/smollm
▪Demo: https://huggingface.co/spaces/HuggingFaceTB/SmolLM-360M-Instruct-WebGPU
@machinelearning_ru
▪Модели: huggingface.co/blog/smollm
▪Demo: https://huggingface.co/spaces/HuggingFaceTB/SmolLM-360M-Instruct-WebGPU
@machinelearning_ru
👍6❤3🔥2
На базовом уровне Mathstral опирается на модель Mistral 7B, но больше заточена по STEM-задачи.
В различных стандартных отраслевых тестах Mathstral демонстрирует отличные результаты в своей размерной категории (7B). В частности, модель достигает показателя 56.6% в MATH и 63.47% в MMLU.
🤗 Hugging Face
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3🔥3