195K subscribers
3.56K photos
543 videos
17 files
4.3K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Janus: унифицированная MMLM от DeepSeek

Janus - уникальная мультимодальная модель, которая способна выполнять как задачи понимания, так и генерации изображений. В отличие от других GenAI моделей, Janus использует раздельные пути кодирования визуальной информации, оптимизированные под каждую задачу, находясь в единой архитектуре на основе трансформера.

Это разделение позволяет Janus точно извлекать семантическую информацию из изображений для задач понимания, одновременно сохраняя детализацию и целостность для задач генерации.

Janus имеет 1.3 млрд. параметров с длиной последовательности в 4096.

▶️ Архитектура Janus состоит из 3 компонентов:

🟢Энкодер понимания: извлекает семантические характеристики из изображений, используя SigLIP;

🟢Энкодер генерации: преобразует изображения в последовательность дискретных идентификаторов с помощью VQ-токенизатора;

🟢Унифицированный авторегрессионный трансформер: обрабатывает текстовые и визуальные характеристики.

Процесс обучения Janus проходил в несколько этапов: сначала тренировались адаптеры и Image Heads для связывания визуальных и лингвистических эмбедингов. Затем - предварительное обучение задачам понимания и генерации и, в конце - инструктивная специализация модели при помощи SFT.

▶️ Оценка производительности Janus выполнялась на бенчмарках:

🟠Понимание: MMBench, SEED-Bench, POPE, MME, VQAv2, GQA, MMMU, MM-Vet.

🟠Генерация: MSCOCO-30K, MJHQ-30K, GenEval

Результаты оценки показали, что Janus превосходит предыдущие унифицированные MMLM и демонстрирует конкурентоспособность с некоторыми моделями большего размера.

На MMBench, SEED-Bench и POPE, Janus (1.3B) превзошла LLaVA-v1.5 (7B)12 и Qwen-VL-Chat (7B)13.
На MSCOCO-30K и GenEval Janus превзошла DALL-E 214 и SDXL

Инференс модели пока поддерживается только в CLI на Transformers. Примеры запуска в режимах Multimodal Understanding и Text-to-Image Generation приведены в репозитории проекта.

Способ запуска в GradioUI в коммитах. По отзывам - модель запускается на T4 (16 Gb) в free-tier Google Collab.


📌Лицензирование кода : MIT License.

📌Лицензирование модели: DeepSeek Model License.


🟡Модель
🟡Arxiv
🟡Demo
🖥Github


@ai_machinelearning_big_data

#AI #ML #MMLM #GenAI #Janus #DeepSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ JanusFlow: унифицированная MMLM понимания и генерации изображений от DeepSeekAI.

JanusFlow - уникальная комбинация LLM с Rectified Flow и SDXL-VAE для задач понимания и генерации изображений.

Архитектура JanusFlow построена на улучшенной версии DeepSeek-LLM-1.3B, дополненной двумя специализированными энкодерами изображений: SigLIP для задач понимания и ConvNeXt для задач генерации. Разделение энкодеров предотвращает интерференцию задач и повышает эффективность модели.

JanusFlow обучалась в 3 этапа. На первом этапе адаптировались линейные слои, энкодер и декодер генерации.

На втором этапе - унифицированное предварительное обучение всей модели, за исключением визуального энкодера.

На третьем этапе - SFT с использованием инструкций, диалогов и примеров генерации изображений.

В тестах генерации изображений MJHQ FID-30k, GenEval и DPG-Bench, JanusFlow превосходит SD1.5 и SDXL. В тестах понимания MMBench, SeedBench и GQA, JanusFlow превосходит LLaVA-v1.5 и Qwen-VL-Chat.

Локальный запуск возможен в CLI на Transformers и с webUI на Gradio. Примеры CLI-инференса для задач понимания и генерации можно найти в репозитории проекта.

▶️Установка и запуск с GradioUI:

# install the necessary dependencies
pip install -e .
pip install diffusers[torch]

# run local gradio demo
pip install -e .[gradio]

python demo/app_janusflow.py


📌Лицензирование кода : MIT License.

📌Лицензирование модели: DeepSeek Model License.


🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #Deepseek #JanusFlow
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Magma-8B – это экспериментальная модель от Microsoft, которая объединяет обработку текста и изображений в одном решении для ИИ-агентов.

Чем полезен инструмент:

- Мультимодальность: Возможность работать с изображениями, видео и текстом позволяет строить комплексные системы – от навигации по пользовательским интерфейсам до управления робототехникой.
Агентские возможности: Модель не просто описывает содержимое картинки, а умеет генерировать план действий, что особенно ценно для интерактивных приложений.
- ИспользованиеSet-of-Mark и Trace-of-Mark, помогает связать визуальные элементы с текстовыми командами, обеспечивая более точное понимание и планирование.

Magma-8B специально разработан для сценариев работы с агентами – акцент не только на генерации текста, но и на взаимодействии с реальными объектами (например, интерфейсами).

Модель обучалась на разнообразных источниках, включая неразмеченные видео, в результате этого удалось добиться понимания динамики и пространственных отношений в видео.


Современные технические решения и масштабируемость, что позволяет адаптировать модель под разные задачи.

Минусы:

- На данном этапе модель ориентирована на исследовательские проекты, поэтому может требовать доработки перед использованием в боевых условиях.
- Ограничения по языкам: основной фокус сделан на английском, что может усложнить работу с другими языками.

Возможны нестабильные результаты - в некоторых сценариях, особенно если задача выходит за рамки обучающих данных, что требует осторожности при внедрении в реальные приложения.

В целом, Magma-8B – это интересный экспериментальный инструмент, который может стать отправной точкой для создания новых, более «умных» агентных систем, объединяющих восприятие и действие в одном флаконе.

pip install torchvision Pillow open_clip_torch

https://huggingface.co/microsoft/Magma-8B

#microsoft #magma #multimodal
✔️ Deep Think в 2.5 Pro — интеллект, который учится думать по-настоящему.

Это не просто новая версия — это качественный скачок в способности ИИ к рассуждению.
Благодаря технологиям параллельного мышления, Deep Think анализирует сразу несколько возможных решений, прежде чем выбрать лучшее. Он размышляет не линейно, а как человек — сомневается, сравнивает, проверяет гипотезы.

📊 Результаты впечатляют:
Модель справляется с задачами, которые долгое время считались недостижимыми для машин.
Она набирает высокие баллы на USAMO 2025 — одном из самых сложных математических соревнований,
лидирует в LiveCodeBench — бенчмарке для кодинга уровня олимпиад,
и уверенно проходит MMMU, показывая 84% на тесте мультимодального мышления.

Gemini 2.5 Pro уже доступен в Jules — асинхронном агенте для кодинга, который справляется со сложными задачами в больших кодовых базах, на которые раньше уходили часы.

Он может планировать шаги, вносить изменения в файлы и многое другое — всего за несколько минут. ⏱️

Jules уже в публичной бета-версии → jules.google

✔️Еще команда DeepMind представила Gemini Diffusion: новый, подход в генерации текста. Вместо предсказания слов напрямую, модель создаёт ответы путём поэтапного уточнения шума — работает как искусственный «ремесленник», постепенно шлифуя результат.

Такой итеративный процесс особенно эффективен для задач программирования и математики, где требуется не просто единичный ответ, а быстрый цикл проб и корректировок. Модель способна многократно уточнять решения, улучшая их на каждом шаге, и демонстрирует впечатляющие результаты в этих областях.

Можно подать заявку в лист ожиданияhttps://goo.gle/44MwCW3

✔️ Google представили генератор видео Veo 3 — он генерирует видео сразу со звуком и даже с озвучкой э и липсинком.

Доступен с сегодняшнего дня в Gemini!

@ai_machinelearning_big_data


#GoogleIO #AI #DeepThink #Reasoning #Math #Code #Multimodal
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM