🔥 SmolVLM — маленький, но мощный мультимодальный прорыв.
Сегодня вышел технический отчёт о SmolVLM — ультра-компактной VLM-модели (всего 256M параметров), которая работает в менее чем 1 ГБ ОЗУ и обходит старые модели 80B, выпущенные полтора года назад!
📏 Контекст — это наше всё: Увеличение длины контекста с 2K до 16K дало +60% к качеству. Даже маленькие модели выигрывают от увелечения памяти.
🔬 SigLIP: меньше — лучше: Вместо классического 400M SigLIP авторы использовали базовую 80M версию — и получили тот же результат при 20% размера.
🧩 Pixel shuffling : Аggressive pixel shuffling помог сократить длину последовательностей в 16 раз без потери качества.
📍 Learnable positional tokens > raw tokens: В маленьких моделях обучаемые позиционные токены дали значительный прирост точности.
🎬 Спец-токены: Специальные "intro/outro" токены и системные промпты дали буст особенно для задач работы видео.
🧠 CoT — с умом: Слишком много Chain-of-Thought данных ухудшает результаты маленьких моделей. Меньше = умнее.
📽 Длиннее видео = лучше: Увеличение длины видео во время обучения улучшило понимание и изображений, и видео.
🚀 SmolVLM — это:
Три версии: 256M, 500M, 2.2B — каждая задаёт новую планку для low-resource inference.
Real-time inference на iPhone 15 — прямо с камеры, без серверов.
В браузере? Да! 40–80 токенов/сек — напрямую в вебе, без ухищрений.
📄 Подробности в репорте
#SmolVLM #EfficientAI #Multimodal #VLM #EdgeAI #SigLIP #AIonMobile
Сегодня вышел технический отчёт о SmolVLM — ультра-компактной VLM-модели (всего 256M параметров), которая работает в менее чем 1 ГБ ОЗУ и обходит старые модели 80B, выпущенные полтора года назад!
📏 Контекст — это наше всё: Увеличение длины контекста с 2K до 16K дало +60% к качеству. Даже маленькие модели выигрывают от увелечения памяти.
🔬 SigLIP: меньше — лучше: Вместо классического 400M SigLIP авторы использовали базовую 80M версию — и получили тот же результат при 20% размера.
🧩 Pixel shuffling : Аggressive pixel shuffling помог сократить длину последовательностей в 16 раз без потери качества.
📍 Learnable positional tokens > raw tokens: В маленьких моделях обучаемые позиционные токены дали значительный прирост точности.
🎬 Спец-токены: Специальные "intro/outro" токены и системные промпты дали буст особенно для задач работы видео.
🧠 CoT — с умом: Слишком много Chain-of-Thought данных ухудшает результаты маленьких моделей. Меньше = умнее.
📽 Длиннее видео = лучше: Увеличение длины видео во время обучения улучшило понимание и изображений, и видео.
🚀 SmolVLM — это:
Три версии: 256M, 500M, 2.2B — каждая задаёт новую планку для low-resource inference.
Real-time inference на iPhone 15 — прямо с камеры, без серверов.
В браузере? Да! 40–80 токенов/сек — напрямую в вебе, без ухищрений.
📄 Подробности в репорте
#SmolVLM #EfficientAI #Multimodal #VLM #EdgeAI #SigLIP #AIonMobile
🚀 MiniCPM4 — компактная LLM нового поколения
Модель от OpenBMB, которая работает в 5 раз быстрее на конечных устройствах. Отлично подходит для edge-решений и встраивания.
🔧 Что нового:
🏗️ InfLLM v2 — обучаемое разреженное внимание
🧠 Model Wind Tunnel 2.0 — масштабирование с предсказуемой эффективностью
🔢 BitCPM — ультракомпактная тернарная квантизация
📚 UltraClean + UltraChat v2 — чистые датасеты для преобучения и fine-tuning
⚡ CPM.cu + ArkInfer — лёгкий фреймворк для быстрого инференса на GPU и в проде
📖 Technical Report: https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf
🤗 Models: https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b
⭐ GitHub: https://github.com/OpenBMB/MiniCPM
@data_analysis_ml
#LLM #AI #MiniCPM4 #EdgeAI
Модель от OpenBMB, которая работает в 5 раз быстрее на конечных устройствах. Отлично подходит для edge-решений и встраивания.
🔧 Что нового:
🏗️ InfLLM v2 — обучаемое разреженное внимание
🧠 Model Wind Tunnel 2.0 — масштабирование с предсказуемой эффективностью
🔢 BitCPM — ультракомпактная тернарная квантизация
📚 UltraClean + UltraChat v2 — чистые датасеты для преобучения и fine-tuning
⚡ CPM.cu + ArkInfer — лёгкий фреймворк для быстрого инференса на GPU и в проде
📖 Technical Report: https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf
🤗 Models: https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b
⭐ GitHub: https://github.com/OpenBMB/MiniCPM
@data_analysis_ml
#LLM #AI #MiniCPM4 #EdgeAI