Machinelearning

🌟 Janus: унифицированная MMLM от DeepSeek

Janus - уникальная мультимодальная модель, которая способна выполнять как задачи понимания, так и генерации изображений. В отличие от других GenAI моделей, Janus использует раздельные пути кодирования визуальной информации, оптимизированные под каждую задачу, находясь в единой архитектуре на основе трансформера.

Это разделение позволяет Janus точно извлекать семантическую информацию из изображений для задач понимания, одновременно сохраняя детализацию и целостность для задач генерации.

Janus имеет 1.3 млрд. параметров с длиной последовательности в 4096.

▶️ Архитектура Janus состоит из 3 компонентов:

🟢Энкодер понимания: извлекает семантические характеристики из изображений, используя SigLIP;

🟢Энкодер генерации: преобразует изображения в последовательность дискретных идентификаторов с помощью VQ-токенизатора;

🟢Унифицированный авторегрессионный трансформер: обрабатывает текстовые и визуальные характеристики.

Процесс обучения Janus проходил в несколько этапов: сначала тренировались адаптеры и Image Heads для связывания визуальных и лингвистических эмбедингов. Затем - предварительное обучение задачам понимания и генерации и, в конце - инструктивная специализация модели при помощи SFT.

▶️ Оценка производительности Janus выполнялась на бенчмарках:

🟠Понимание: MMBench, SEED-Bench, POPE, MME, VQAv2, GQA, MMMU, MM-Vet.

🟠Генерация: MSCOCO-30K, MJHQ-30K, GenEval

Результаты оценки показали, что Janus превосходит предыдущие унифицированные MMLM и демонстрирует конкурентоспособность с некоторыми моделями большего размера.

На MMBench, SEED-Bench и POPE, Janus (1.3B) превзошла LLaVA-v1.5 (7B)12 и Qwen-VL-Chat (7B)13.
На MSCOCO-30K и GenEval Janus превзошла DALL-E 214 и SDXL

Инференс модели пока поддерживается только в CLI на Transformers. Примеры запуска в режимах Multimodal Understanding и Text-to-Image Generation приведены в репозитории проекта.

Способ запуска в GradioUI в коммитах. По отзывам - модель запускается на T4 (16 Gb) в free-tier Google Collab.

📌Лицензирование кода : MIT License.

📌Лицензирование модели: DeepSeek Model License.

🟡

Модель

🟡

Arxiv

🟡

Demo

🖥

Github

@ai_machinelearning_big_data

#AI #ML #MMLM #GenAI #Janus #DeepSeek

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤19👍14🔥4

10.7K views17:36

Machinelearning

⚡️ JanusFlow: унифицированная MMLM понимания и генерации изображений от DeepSeekAI.

JanusFlow - уникальная комбинация LLM с Rectified Flow и SDXL-VAE для задач понимания и генерации изображений.

Архитектура JanusFlow построена на улучшенной версии DeepSeek-LLM-1.3B, дополненной двумя специализированными энкодерами изображений: SigLIP для задач понимания и ConvNeXt для задач генерации. Разделение энкодеров предотвращает интерференцию задач и повышает эффективность модели.

JanusFlow обучалась в 3 этапа. На первом этапе адаптировались линейные слои, энкодер и декодер генерации.

На втором этапе - унифицированное предварительное обучение всей модели, за исключением визуального энкодера.

На третьем этапе - SFT с использованием инструкций, диалогов и примеров генерации изображений.

В тестах генерации изображений MJHQ FID-30k, GenEval и DPG-Bench, JanusFlow превосходит SD1.5 и SDXL. В тестах понимания MMBench, SeedBench и GQA, JanusFlow превосходит LLaVA-v1.5 и Qwen-VL-Chat.

Локальный запуск возможен в CLI на Transformers и с webUI на Gradio. Примеры CLI-инференса для задач понимания и генерации можно найти в репозитории проекта.

▶️Установка и запуск с GradioUI:

# install the necessary dependencies
pip install -e .
pip install diffusers[torch]

# run local gradio demo
pip install -e .[gradio]

python demo/app_janusflow.py

📌Лицензирование кода : MIT License.

📌Лицензирование модели: DeepSeek Model License.

🟡

Модель

🟡

Arxiv

🟡

Demo

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #MMLM #Deepseek #JanusFlow

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍21❤5🔥5👾2🎉1

18.7K views12:02

Machinelearning

0:40

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Magma-8B – это экспериментальная модель от Microsoft, которая объединяет обработку текста и изображений в одном решении для ИИ-агентов.

Чем полезен инструмент:

- Мультимодальность: Возможность работать с изображениями, видео и текстом позволяет строить комплексные системы – от навигации по пользовательским интерфейсам до управления робототехникой.
Агентские возможности: Модель не просто описывает содержимое картинки, а умеет генерировать план действий, что особенно ценно для интерактивных приложений.
- ИспользованиеSet-of-Mark и Trace-of-Mark, помогает связать визуальные элементы с текстовыми командами, обеспечивая более точное понимание и планирование.

Magma-8B специально разработан для сценариев работы с агентами – акцент не только на генерации текста, но и на взаимодействии с реальными объектами (например, интерфейсами).

Модель обучалась на разнообразных источниках, включая неразмеченные видео, в результате этого удалось добиться понимания динамики и пространственных отношений в видео.

Современные технические решения и масштабируемость, что позволяет адаптировать модель под разные задачи.

Минусы:

- На данном этапе модель ориентирована на исследовательские проекты, поэтому может требовать доработки перед использованием в боевых условиях.
- Ограничения по языкам: основной фокус сделан на английском, что может усложнить работу с другими языками.

Возможны нестабильные результаты - в некоторых сценариях, особенно если задача выходит за рамки обучающих данных, что требует осторожности при внедрении в реальные приложения.

В целом, Magma-8B – это интересный экспериментальный инструмент, который может стать отправной точкой для создания новых, более «умных» агентных систем, объединяющих восприятие и действие в одном флаконе.

pip install torchvision Pillow open_clip_torch

https://huggingface.co/microsoft/Magma-8B

#microsoft #magma #multimodal

👍32❤11🔥8

12.8K views16:30

Machinelearning

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

✔️ Deep Think в 2.5 Pro — интеллект, который учится думать по-настоящему.

Это не просто новая версия — это качественный скачок в способности ИИ к рассуждению.
Благодаря технологиям параллельного мышления, Deep Think анализирует сразу несколько возможных решений, прежде чем выбрать лучшее. Он размышляет не линейно, а как человек — сомневается, сравнивает, проверяет гипотезы.

📊 Результаты впечатляют:
Модель справляется с задачами, которые долгое время считались недостижимыми для машин.
Она набирает высокие баллы на USAMO 2025 — одном из самых сложных математических соревнований,
лидирует в LiveCodeBench — бенчмарке для кодинга уровня олимпиад,
и уверенно проходит MMMU, показывая 84% на тесте мультимодального мышления.

Gemini 2.5 Pro уже доступен в Jules — асинхронном агенте для кодинга, который справляется со сложными задачами в больших кодовых базах, на которые раньше уходили часы.

Он может планировать шаги, вносить изменения в файлы и многое другое — всего за несколько минут. ⏱️

Jules уже в публичной бета-версии → jules.google

✔️Еще команда DeepMind представила Gemini Diffusion: новый, подход в генерации текста. Вместо предсказания слов напрямую, модель создаёт ответы путём поэтапного уточнения шума — работает как искусственный «ремесленник», постепенно шлифуя результат.

Такой итеративный процесс особенно эффективен для задач программирования и математики, где требуется не просто единичный ответ, а быстрый цикл проб и корректировок. Модель способна многократно уточнять решения, улучшая их на каждом шаге, и демонстрирует впечатляющие результаты в этих областях.

Можно подать заявку в лист ожидания → https://goo.gle/44MwCW3

✔️ Google представили генератор видео Veo 3 — он генерирует видео сразу со звуком и даже с озвучкой э и липсинком.

Доступен с сегодняшнего дня в Gemini!

@ai_machinelearning_big_data

#GoogleIO #AI #DeepThink #Reasoning #Math #Code #Multimodal

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍87❤41🔥35🎄1

22.4K views17:46

Machinelearning

🖼️ GPT-Image-Edit-1.5M — крупнейший и полностью открытый датасет для редактирования изображений по тексту!

🚀 1.5 миллиона триплетов:
инструкция + оригинальное изображение + отредактированное по запросу

Как мы это сделали?
Мы переосмыслили и усилили три известных датасета (OmniEdit, HQ-Edit, UltraEdit) с помощью новой GPT-Image API.

📊 Результаты впечатляют:
Модель FluxKontext, дообученная на этом наборе, показывает:
▫️ 7.24 на GEdit-EN
▫️ 3.80 на ImgEdit-Full
▫️ 8.78 на Complex-Edit
— на уровне с топовыми проприетарными решениями!

🎯 Инструкции выполняются точно, а изображения выглядят реалистично.
Цель — сократить разрыв между open-source и закрытыми системами редактирования.

🔗 Подробнее:
🌐 Проект: https://ucsc-vlaa.github.io/GPT-Image-Edit/
💻 Код: https://github.com/wyhlovecpp/GPT-Image-Edit
📦 Датасет: https://huggingface.co/datasets/UCSC-VLAA/GPT-Image-Edit-1.5M
🤖 Модель: https://huggingface.co/UCSC-VLAA/gpt-image-edit-training
📄 Статья: https://arxiv.org/abs/2507.21033

@ai_machinelearning_big_data

#AI #ImageEditing #OpenSource #GPT4V #Multimodal

1❤95👍40🔥18👏2

20.2K views14:01

Machinelearning

🚀 Hunyuan-Large-Vision: новая мощная мультимодальная модель от Tencent

🔹 MoE-архитектура — 389B параметров (52B активных) для оптимального баланса мощности и эффективности.
🔹 Лидер в рейтингах — 1256 баллов в LMArena Vision, #1 в Китае, на уровне GPT-4.5 и Claude-4-Sonnet.
🔹 Глубокое понимание — визуальное рассуждение, анализ видео и 3D-пространства, 79,5 баллов в среднем по бенчмарку OpenCompass.

📌 Модель дополняет линейку Hunyuan-TurboS-Vision и Hunyuan-T1-Vision, доступных через Tencent Cloud для задач в самых разных отраслях.

🟢

Попробовать: https://hunyuan.tencent.com/modelSquare/home/list?modelKey=VisionUnderstand

🟢

Блог: https://vision.hunyuan.tencent.com

🟢

API: https://cloud.tencent.com/document/product/1729/104753

@ai_machinelearning_big_data

#AI #Multimodal #MachineLearning #MoE #VisionAI #Tencent #Hunyuan #LLM #ComputerVision #3DVision

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍39❤13🔥11

12.5K views12:50

About

Blog

Apps

Platform