194K subscribers
3.56K photos
543 videos
17 files
4.3K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 SEED-Story: Мультимодальная генерация иллюстрированных историй.

SEED-Story - это инструмент на базе проекта SEED-Х для создания истории из изображений и текстов в заранее определенном стиле. Такая история может содержать до 25 эпизодов.

Методика, используемая в SEED-Story основана на комбинации из предварительно обученных моделей, которые помогают создавать реалистичные изображения и текст, специальной адаптации, чтобы обеспечивать согласованность персонажей и стилей в изображениях и мультимодальном механизме внимания, для сохранения важных деталей текста и изображений.

SEED-Story обучалась на специальном детализированном датасете StoryStream, который основан на нескольких мультипликационных сериалах.

⚠️ Для использования SEED-Story потребуется 40GB VRAM (с учетом возможности самостоятельной тренировки) м набор дополнительных моделей:
🟢SDXL Base 1.0
🟢QwenVL-Chat

⚠️ GradioUI к SEED-Story находится в разработке, и, по словам разработчиков будет представлен в ближайшее время (сроки не сообщаются).

⚖️ Лицензирование кода: Apache-2.0 license


🟡 Модель на HF
🟡 Demo Video
🟡 Arxiv
🖥 Github [Stars: 382 | Issues: 9 | Forks: 24]


@ai_machinelearning_big_data

#MLLM #VisualStorytelling #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 MINT-1T: мультимодальный датасет размером 1 триллионом токенов.

MINT-1T — это мультимодальный чередующийся набор данных с открытым исходным кодом, содержащий один триллион текстовых токенов и 3,4 миллиарда изображений.
Помимо этого, в него включены ранее неиспользованные источники: PDF-файлы и документы из ArXivOrg.

Состав и структура датасета :

🟢HTML-документы: 1029,4 миллиона шт.из дампов CommonCrawl WARC с 2017 по 2024 год;
🟢PDF-документы: 26,8 миллиона шт. из дампов CommonCrawl WAT за 2023-2024 годы;
🟢ArXiv-документы: 0,87 миллиона шт. были получены напрямую из S3-хранилищ ArXiv.

Процесс обработки длился более 6 месяцев, затрачено 4.2 млн процессорных часов и использовано порядка 2350 процессорных ядер вычислительной мощности.

Датасет был отфильтрован от документов низкого качества и дубликатов, очищен от персональных данных (e-mail, IP-адреса, другие идентификаторы), удален NSFW-контент.
Перед публикацией проведена дополнительная проверка фильтром качества текста из Huggingface Datatrove.
В этом команде разработки помогли инструменты:

🟠Детекция NSFW контента - https://github.com/GantMan/nsfw_model
🟠Определение языка - https://fasttext.cc/
🟠Фильтр качества текста - https://github.com/huggingface/datatrove
🟠Дедупликация - https://github.com/allenai/bff
🟠Парсинг PDF-файлов - https://github.com/pymupdf/PyMuPDF
🟠Парсинг HTML - https://github.com/huggingface/OBELICS

Эксперименты показали, что модели, обученные на MINT-1T, превосходят аналоги на существующих датасетах, особенно в задачах визуальных вопросов-ответов и обработки изображений.


📌Лицензирование : CC-BY-4.0


🟡Страница проекта
🟡Датасет на HF
🟡Arxiv
🖥Github [ Stars: 356 | Issues: 1 | Forks: 4]


@ai_machinelearning_big_data

#AI #Dataset #ML #MLLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Mini CPM-V: Семейство MLM для работы с изображениями и видео, в том числе на портативных устройствах.

MiniCPM-V новое семейство MLLM. Набор состоит из 3 моделей и их квантованных версий в int4 и GGUF: 

MiniCPM-V 2.6: самая производительная модель в серии MiniCPM-V, построена на основе SigLip-400M и Qwen2-7B и имеет 8 миллиардов параметров. 
Эта модель улучшена новыми возможностями для понимания нескольких изображений и видео и поддерживает работу в режиме реального времени на сторонних устройствах, таких как iPad. 

🟠MiniCPM-V 2.6 (16.2 Gb)
🟠MiniCPM-V 2.6 Int4 (5.95GB)
🟠MiniCPM-V 2.6 GGUFs в 4-bit (4.68GB) и 16-bit (15.2GB)

MiniCPM-Llama3-V-2_5:  построена на основе SigLip-400M и Llama3-8B-Instruct и имеет 8 миллиардов параметров. 
Модель ориентирована на задачи OCR, производительность, надежность и поддерживает 30 языков. Она способна работать на устройствах с ограниченными ресурсами, например, на смартфоне.

🟠MiniCPM-Llama3-V 2.5 (~17GB)
🟠MiniCPM-Llama3-V 2.5 Int4 (6.16GB)
🟠MiniCPM-Llama3-V 2.5 GGUF от 2-bit до 16-bit (от 3.18Gb до 16.1 соответственно)

MiniCPM-V 2: самая легкая модель в серии MiniCPM-V с 2 миллиардами параметров. Она обрабатывает изображения с любым соотношением сторон и разрешением до 1,8 Mpx, например, 1344x1344.

🟠MiniCPM-V 2

▶️Локальный запуск c GradioUI:

# Clone this repository and navigate to the source folder:
git clone https://github.com/OpenBMB/MiniCPM-V.git
cd MiniCPM-V

# Create conda environment:
conda create -n MiniCPM-V python=3.10 -y
conda activate MiniCPM-V

#Install dependencies.
pip install -r requirements.txt

## For NVIDIA GPUs, run::
python web_demo_2.6.py --device cuda


📌Лицензирование:

🟢код - Apache-2.0;
🟠модели - свободно для любых академических исследований. Коммерция - соблюдение этого соглашения.



🟡Tech Report MiniCPM-Llama3-V 2.5
🟡Коллекция моделей на HF
🟡Demo MiniCPM-V 2.6
🟡Demo MiniCPM-Llama3-V 2.5
🟡Demo MiniCPM-V 2
🖥Github [ Stars: 8.3K | Issues: 27 | Forks: 583]


@ai_machinelearning_big_data

#AI #MLLM #ML #MiniCPM #MobileVLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Idefics3: обновление мультимодальной модели от Huggingface.

Hugging Face представила новую модель Idefics3-8B-Llama3, созданную на базе siglip-so400m и Llama 3.1-8B-Instruct , которая может работать с произвольными последовательностями изображений и текста.
Эта модель умеет отвечать на вопросы об изображениях, описывать визуальный контент, создавать истории на основе нескольких изображений и даже работать как чистая языковая модель без визуальных входных данных.
Idefics3 значительно улучшает возможности своих предшественников, Idefics1 и Idefics2, особенно в области распознавания текста на изображениях (OCR), понимания документов и визуального рассуждения.

Новая модель использует 169 визуальных токенов для кодирования изображения размером 364x364 пикселей. Каждое изображение делится на несколько блоков, которые затем кодируются отдельно.
Для тонкой настройки модели использовались датасеты: The Cauldron и Docmatix. В бенчмарках MMMU, MathVista и DocVQA Idefics3 показывает лучшие результаты по сравнению с Idefics2.


⚠️ Idefics3 поддерживает только английский язык и не подвергалась этапу RLHF alignment, поэтому она может не всегда следовать промпту или справляться с СoT-задачами самостоятельно.
Однако это не значит, что она не способен на это. Добавление префикса к assistant's response, например, "Let's think step" для рассуждения или <html> для генерации HTML-кода, может значительно улучшить инференс на практике.
Также имеет практический смысл поиграть с параметром "температура" в non-greedy mode.


📌Лицензирование : Apache 2.0


🟡Модель
🟡Demo

@ai_machinelearning_big_data

#AI #MLLM #ML #Idefics3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Mini-Omni2: MMLM с возможностью обработки изображений, речи и текста.

Mini-Omni2 одна из первых MMLM с открытым исходным кодом, которая наиболее близко воспроизводит функциональность GPT-4o.

Mini-Omni2 может понимать визуальные, аудио и текстовые модальности на входе и генерировать речевые ответы, интерактивно взаимодействуя с пользователями.

Модель основана на архитектуре Qwen2 и использует предварительно обученные кодировщики CLIP и Whisper для обработки визуальных и аудио данных.

Mini-Omni2 отличается от других моделей тем, что не требует отдельных моделей ASR или TTS. В Mini-Omni2 применяется алгоритм Text-Instruct Delay Parallel Decoding, который позволяет генерировать текстовые и аудио токены параллельно, используя синтез речи из текста для вывода аудио в режиме реального времени.

▶️ Архитектура Mini-Omni2:

🟢Визуальный кодировщик: ViT-B/32 из модели CLIP, он преобразует входные изображения в последовательность длиной до 50 токенов, которая подается в однослойный LlamaMLP.

🟢Аудио кодировщик: используется модель Whisper-small, с ее помощью извлекается семантика из входного аудио.

🟢Языковая модель: Qwen2-0.5B с расширенным словарем за счет добавления дополнительных 7 LM-голов.


⚠️ Mini-Omni2 обучена только на английском языке. Однако, поскольку в качестве аудиокодера используется whisper, модель может понимать и другие языки, которые поддерживает whisper, но инференс будет только на английском.

▶️ Локальная установка и запуск в Streamlit Ui:

# Create conda env
conda create -n omni python=3.10
conda activate omni

# Clone repo & install requirements
git clone https://github.com/gpt-omni/mini-omni2.git
cd mini-omni2
pip install -r requirements.txt

# Start server first
sudo apt-get install ffmpeg
conda activate omni
cd mini-omni2
python3 server.py --ip '0.0.0.0' --port 60808

# Run streamlit UI
pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py


📌Лицензирование : MIT License.


🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MLLM #MiniOmni2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 VideoLLaMA 3: Frontier Multimodal Foundation Models for Video Understanding


VideoLLaMA - это серия мультимодальных моделей (MLLM), разработанных для различных задач понимания изображений и видео!

🌟 Модели поддерживают возможности обработки текста, изображений и видео.

Модели подойдут для создания универсальных приложений, способных решать широкий спектр задач, связанных с анализом визуальной информации.

🖐️Результаты 7B модели: DocVQA: 94,9, MathVision: 26,2, VideoMME: 66,2/70,3, MLVU: 73,0
🤏 Результаты 2B-модели для мобильных устройств: MMMU: 45.3, VideoMME: 59.6/63.4

🔐 Лицензирование: Apache-2.0

Github: https://github.com/DAMO-NLP-SG/VideoLLaMA3
Image Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image
Video Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3

@ai_machinelearning_big_data

#video #MLLM #opensource #VideoLLaMA #VideoUnderstanding
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM