SEED-Story - это инструмент на базе проекта SEED-Х для создания истории из изображений и текстов в заранее определенном стиле. Такая история может содержать до 25 эпизодов.
Методика, используемая в SEED-Story основана на комбинации из предварительно обученных моделей, которые помогают создавать реалистичные изображения и текст, специальной адаптации, чтобы обеспечивать согласованность персонажей и стилей в изображениях и мультимодальном механизме внимания, для сохранения важных деталей текста и изображений.
SEED-Story обучалась на специальном детализированном датасете StoryStream, который основан на нескольких мультипликационных сериалах.
⚠️ Для использования SEED-Story потребуется 40GB VRAM (с учетом возможности самостоятельной тренировки) м набор дополнительных моделей:
⚠️ GradioUI к SEED-Story находится в разработке, и, по словам разработчиков будет представлен в ближайшее время (сроки не сообщаются).
⚖️ Лицензирование кода: Apache-2.0 license
@ai_machinelearning_big_data
#MLLM #VisualStorytelling #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
MINT-1T — это мультимодальный чередующийся набор данных с открытым исходным кодом, содержащий один триллион текстовых токенов и 3,4 миллиарда изображений.
Помимо этого, в него включены ранее неиспользованные источники: PDF-файлы и документы из ArXivOrg.
Состав и структура датасета :
Процесс обработки длился более 6 месяцев, затрачено 4.2 млн процессорных часов и использовано порядка 2350 процессорных ядер вычислительной мощности.
Датасет был отфильтрован от документов низкого качества и дубликатов, очищен от персональных данных (e-mail, IP-адреса, другие идентификаторы), удален NSFW-контент.
Перед публикацией проведена дополнительная проверка фильтром качества текста из Huggingface Datatrove.
В этом команде разработки помогли инструменты:
Эксперименты показали, что модели, обученные на MINT-1T, превосходят аналоги на существующих датасетах, особенно в задачах визуальных вопросов-ответов и обработки изображений.
@ai_machinelearning_big_data
#AI #Dataset #ML #MLLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
MiniCPM-V новое семейство MLLM. Набор состоит из 3 моделей и их квантованных версий в int4 и GGUF:
MiniCPM-V 2.6: самая производительная модель в серии MiniCPM-V, построена на основе SigLip-400M и Qwen2-7B и имеет 8 миллиардов параметров.
Эта модель улучшена новыми возможностями для понимания нескольких изображений и видео и поддерживает работу в режиме реального времени на сторонних устройствах, таких как iPad.
MiniCPM-Llama3-V-2_5: построена на основе SigLip-400M и Llama3-8B-Instruct и имеет 8 миллиардов параметров.
Модель ориентирована на задачи OCR, производительность, надежность и поддерживает 30 языков. Она способна работать на устройствах с ограниченными ресурсами, например, на смартфоне.
MiniCPM-V 2: самая легкая модель в серии MiniCPM-V с 2 миллиардами параметров. Она обрабатывает изображения с любым соотношением сторон и разрешением до 1,8 Mpx, например, 1344x1344.
# Clone this repository and navigate to the source folder:
git clone https://github.com/OpenBMB/MiniCPM-V.git
cd MiniCPM-V
# Create conda environment:
conda create -n MiniCPM-V python=3.10 -y
conda activate MiniCPM-V
#Install dependencies.
pip install -r requirements.txt
## For NVIDIA GPUs, run::
python web_demo_2.6.py --device cuda
@ai_machinelearning_big_data
#AI #MLLM #ML #MiniCPM #MobileVLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Hugging Face представила новую модель Idefics3-8B-Llama3, созданную на базе siglip-so400m и Llama 3.1-8B-Instruct , которая может работать с произвольными последовательностями изображений и текста.
Эта модель умеет отвечать на вопросы об изображениях, описывать визуальный контент, создавать истории на основе нескольких изображений и даже работать как чистая языковая модель без визуальных входных данных.
Idefics3 значительно улучшает возможности своих предшественников, Idefics1 и Idefics2, особенно в области распознавания текста на изображениях (OCR), понимания документов и визуального рассуждения.
Новая модель использует 169 визуальных токенов для кодирования изображения размером 364x364 пикселей. Каждое изображение делится на несколько блоков, которые затем кодируются отдельно.
Для тонкой настройки модели использовались датасеты: The Cauldron и Docmatix. В бенчмарках MMMU, MathVista и DocVQA Idefics3 показывает лучшие результаты по сравнению с Idefics2.
⚠️ Idefics3 поддерживает только английский язык и не подвергалась этапу RLHF alignment, поэтому она может не всегда следовать промпту или справляться с СoT-задачами самостоятельно.
Однако это не значит, что она не способен на это. Добавление префикса к assistant's response, например, "Let's think step" для рассуждения или <html> для генерации HTML-кода, может значительно улучшить инференс на практике.
Также имеет практический смысл поиграть с параметром "температура" в non-greedy mode.
@ai_machinelearning_big_data
#AI #MLLM #ML #Idefics3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Mini-Omni2 одна из первых MMLM с открытым исходным кодом, которая наиболее близко воспроизводит функциональность GPT-4o.
Mini-Omni2 может понимать визуальные, аудио и текстовые модальности на входе и генерировать речевые ответы, интерактивно взаимодействуя с пользователями.
Модель основана на архитектуре Qwen2 и использует предварительно обученные кодировщики CLIP и Whisper для обработки визуальных и аудио данных.
Mini-Omni2 отличается от других моделей тем, что не требует отдельных моделей ASR или TTS. В Mini-Omni2 применяется алгоритм
Text-Instruct Delay Parallel Decoding
, который позволяет генерировать текстовые и аудио токены параллельно, используя синтез речи из текста для вывода аудио в режиме реального времени.⚠️ Mini-Omni2 обучена только на английском языке. Однако, поскольку в качестве аудиокодера используется whisper, модель может понимать и другие языки, которые поддерживает whisper, но инференс будет только на английском.
# Create conda env
conda create -n omni python=3.10
conda activate omni
# Clone repo & install requirements
git clone https://github.com/gpt-omni/mini-omni2.git
cd mini-omni2
pip install -r requirements.txt
# Start server first
sudo apt-get install ffmpeg
conda activate omni
cd mini-omni2
python3 server.py --ip '0.0.0.0' --port 60808
# Run streamlit UI
pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py
@ai_machinelearning_big_data
#AI #ML #MLLM #MiniOmni2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
VideoLLaMA - это серия мультимодальных моделей (MLLM), разработанных для различных задач понимания изображений и видео!
Модели подойдут для создания универсальных приложений, способных решать широкий спектр задач, связанных с анализом визуальной информации.
🖐️Результаты 7B модели: DocVQA: 94,9, MathVision: 26,2, VideoMME: 66,2/70,3, MLVU: 73,0
🤏 Результаты 2B-модели для мобильных устройств: MMMU: 45.3, VideoMME: 59.6/63.4
▪ Github: https://github.com/DAMO-NLP-SG/VideoLLaMA3
▪Image Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image
▪Video Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3
@ai_machinelearning_big_data
#video #MLLM #opensource #VideoLLaMA #VideoUnderstanding
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM