Hard Prompts Made Easy: Discrete Prompt Tuning for Language Models
From a given image, we first optimize a hard prompt using the PEZ algorithm and CLIP encoder.
Модель для преобразование изображений в текстовые подсказки для стабильной диффузии.
Автоматически генерирует текстовые подсказки как для преобразования текста в изображение, так и для преобразования текста в текст.
🖥 Github: https://github.com/YuxinWenRick/hard-prompts-made-easy
🖥 Colab: https://colab.research.google.com/drive/1VSFps4siwASXDwhK_o29dKA9COvTnG8A?usp=sharing
✅️ Paper: hhttps://arxiv.org/abs/2302.03668v1
⭐️ Dataset: https://paperswithcode.com/dataset/ag-news
ai_machinelearning_big_data
From a given image, we first optimize a hard prompt using the PEZ algorithm and CLIP encoder.
Модель для преобразование изображений в текстовые подсказки для стабильной диффузии.
Автоматически генерирует текстовые подсказки как для преобразования текста в изображение, так и для преобразования текста в текст.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍6🔥3👏1
This media is not supported in your browser
VIEW IN TELEGRAM
The core idea is to represent the face in a video using two neural radiance fields, one for in-distribution and the other for out-of-distribution data, and compose them together for reconstruction.
Новая модель от Adobe Research, для редактирования видео с поддержкой 3D, позволяет манипулировать объектами в условиях сдвига данных. (OOD generalization).
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥4❤2🖕2
UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models
Унифицированный корректор (UniC) для диффузионных моделей для улучшения качества генераций, который работает значительно лучше, по сравнению с предыдущими методами.
🖥 Github: https://github.com/wl-zhao/unipc
💨 Project: https://unipc.ivg-research.xyz/
✅️ Paper: https://arxiv.org/abs/2302.04867v1
⭐️ Dataset: https://paperswithcode.com/dataset/lsun
ai_machinelearning_big_data
Унифицированный корректор (UniC) для диффузионных моделей для улучшения качества генераций, который работает значительно лучше, по сравнению с предыдущими методами.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🥰2❤1
🤗 PEFT: Parameter-Efficient Fine-Tuning of Billion-Scale Models on Low-Resource Hardware
Parameter-Efficient Fine-Tuning (PEFT) methods enable efficient adaptation of pre-trained language models (PLMs) to various downstream applications without fine-tuning all the model's paramete
PEFT позволяют добиться высокой производительности моделей на слабом железе, с небольшым количество обучаемых данных, .
🖥 Github: https://github.com/huggingface/peft
💨 Hugging Face: https://huggingface.co/blog/peft
🖥 Colab: https://colab.research.google.com/drive/1jCkpikz0J2o20FBQmYmAGdiKmJGOMo-o
ai_machinelearning_big_data
Parameter-Efficient Fine-Tuning (PEFT) methods enable efficient adaptation of pre-trained language models (PLMs) to various downstream applications without fine-tuning all the model's paramete
PEFT позволяют добиться высокой производительности моделей на слабом железе, с небольшым количество обучаемых данных, .
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥5❤2🗿1
💭 Speech Synthesis, Recognition, and More With SpeechT5
Новая модель для синтеза и распозновании речи SpeechT5 от huggingface.
▪преобразование речи в текст для автоматического распознавания речи и идентификации говорящего
▪преобразование текста в речь для синтеза звука
▪речь в речь для преобразования речи в разные голоса или улучшения речи.
🖥 Github: https://huggingface.co/blog/speecht5
💨 Demo: https://huggingface.co/spaces/Matthijs/speecht5-asr-demo
🗣 Voice Conversion: https://huggingface.co/spaces/Matthijs/speecht5-vc-demo
🗳Automatic Speech Recognition: https://huggingface.co/spaces/Matthijs/speecht5-asr-demo
ai_machinelearning_big_data
Новая модель для синтеза и распозновании речи SpeechT5 от huggingface.
▪преобразование речи в текст для автоматического распознавания речи и идентификации говорящего
▪преобразование текста в речь для синтеза звука
▪речь в речь для преобразования речи в разные голоса или улучшения речи.
🗣 Voice Conversion: https://huggingface.co/spaces/Matthijs/speecht5-vc-demo
🗳Automatic Speech Recognition: https://huggingface.co/spaces/Matthijs/speecht5-asr-demo
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥6❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🧩 LEGO-Net: Learning Regular Rearrangements of Objects in Rooms
Model takes an input messy scene and attempts to clean the scene via iterative denoising.
LEGO-Net итеративный метод обучения регулярной перестановке объектов в захламленных комнатах.
💨 Project: https://ivl.cs.brown.edu/#/projects/lego-net
✅️ Paper: https://arxiv.org/pdf/2301.09629.pdf
ai_machinelearning_big_data
Model takes an input messy scene and attempts to clean the scene via iterative denoising.
LEGO-Net итеративный метод обучения регулярной перестановке объектов в захламленных комнатах.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤4🥰3
🚀 Universal Guidance for Diffusion Models
Algorithm successfully generates quality images with guidance functions including segmentation, face recognition, object detection, and classifier signals.
Универсальный алгоритм, который позволяет управлять диффузионными моделями без необходимости повторного обучения каких-либо компонентов.
🖥 Github: https://github.com/arpitbansal297/universal-guided-diffusion
💨 Paper: https://arxiv.org/abs/2302.07121v1
🗳Dataset: https://paperswithcode.com/dataset/imagenet
ai_machinelearning_big_data
Algorithm successfully generates quality images with guidance functions including segmentation, face recognition, object detection, and classifier signals.
Универсальный алгоритм, который позволяет управлять диффузионными моделями без необходимости повторного обучения каких-либо компонентов.
🗳Dataset: https://paperswithcode.com/dataset/imagenet
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤4🔥4
The model bridges the gap between vision and natural language modalities by adding a transformer between pre-trained models.
BLIP-2 — это новая модель визуального языка, которую можно использовать для нескольких задач преобразования изображения в текст. Это эффективный подход, который можно применять для получения качественных промптов.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥4❤2
🌐 Как организовать работу над ML-экспериментами с помощью MLflow
MLOps — набор практик и инструментов, которые помогают стандартизировать и повысить эффективность процессов работы с машинным обучением. Эксперты VK Cloud и Karpov.Courses выпустили на Хабре полезную статью, где показали последовательность действий по выстраиванию MLOps-подхода в облаке с помощью JupyterHub и MLflow. Подробнее тут.
ai_machinelearning_big_data
MLOps — набор практик и инструментов, которые помогают стандартизировать и повысить эффективность процессов работы с машинным обучением. Эксперты VK Cloud и Karpov.Courses выпустили на Хабре полезную статью, где показали последовательность действий по выстраиванию MLOps-подхода в облаке с помощью JupyterHub и MLflow. Подробнее тут.
ai_machinelearning_big_data
👍8
T2I-Adapter
Network that can provide extra guidance to pre-trained text-to-image models while freezing the original large text-to-image models.
T2I-Adapter набор aдаптеров для диффузионных моделей(~ 70 млн параметров ).Подходит для широкого спектра задач text-to-image, генерация скетчей, редактирование изображений по тексту, объединение нескольких адаптеров вместе и многое другое.
🖥 Github: https://github.com/TencentARC/T2I-Adapter
🤗 Hugging Face: https://huggingface.co/TencentARC/T2I-Adapter
⭐️ Paper: https://arxiv.org/abs/2302.08453v1
💻 Dataset: https://paperswithcode.com/dataset/coco
ai_machinelearning_big_data
Network that can provide extra guidance to pre-trained text-to-image models while freezing the original large text-to-image models.
T2I-Adapter набор aдаптеров для диффузионных моделей(~ 70 млн параметров ).Подходит для широкого спектра задач text-to-image, генерация скетчей, редактирование изображений по тексту, объединение нескольких адаптеров вместе и многое другое.
🤗 Hugging Face: https://huggingface.co/TencentARC/T2I-Adapter
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
3D-aware Conditional Image Synthesis (pix2pix3D)
Model synthesizes a 3d photo from different viewpoints.
3D генеративная модель для управляемого синтеза фотореалистичных изображений.
🖥 Github: https://github.com/dunbar12138/pix2pix3D
⭐️ Project: https://huggingface.co/TencentARC/T2I-Adapter
⭐️ Paper: https://arxiv.org/abs/2302.08509
💻 Dataset: https://paperswithcode.com/dataset/coco
ai_machinelearning_big_data
Model synthesizes a 3d photo from different viewpoints.
3D генеративная модель для управляемого синтеза фотореалистичных изображений.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🥰2❤1
EdgeYOLO reaches 34FPS with 50.6% AP in COCO2017 dataset and 25.9% AP in VisDrone2019 (image input size is 640x640, batch=16, post-process included).
Новый детектор обнаружения небольших объектов с высокой точностью, не требующий больших вычислительных мощностей.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍7❤2😁1🤣1