LLM бумажки
5 subscribers
1 photo
3 links
Download Telegram
Channel created
Channel photo updated
This media is not supported in your browser
VIEW IN TELEGRAM
😳 Kimi K2.5: Visual Agentic Intelligence (part 1)

Базовая архитектура

🔺Kimi K2 MoE (1T parameters / 32b active / 384 experts)
🔺MoonViT-3D в качестве visual encoder

Joint Optimization of Text and Vision

🔺Early fusion beats late fusion. Добавили vision токены с самого начала претрейна в пропорции 10%:90% -> получили понимание текста выше, чем при mid- / late-fusion благодаря отсутствию “dip-and-recover” - эффекта резкой просадки качества на текстах на первых шагах подмешивания картинок

🔺Zero-vision SFT. При подмешивании заданий с картинками на SFT видели просадку качества на текстах -> заменили их на аналогичные текстовые задания, где таргет - код обработки изображений -> избавились от просадки на текстах и одновременно выучили общее понимание vision задач

🔺Visual RL improves text. Первым этапом RL учили только различные задачи с изображениями -> неожиданно получили заметный прирост на текстовых бенчах. “Visual RL enhances calibration in areas requiring structured information extraction, improving textual reasoning without observable degradation of language capabilities

🔺Joint Multimodal RL. Учили RL на двух модальностях, разбивая задачи по необходимым способностям (knowledge, reasoning, coding, agentic) вместо деления по домену + добавили специфичные реворды для задач с картинками -> получили Visual Agentic Intelligence

📖 Статья | Блог с красивыми примерами и бенчами
Please open Telegram to view this post
VIEW IN TELEGRAM
1
😍 Kimi K2.5: Visual Agentic Intelligence (part 2)

Параллельная агентность

🔺 Agent Swarm. Научили оркестратора не просто последовательно решать задачу через агентов и тулы, но еще и звать до 100 агентов параллельно на одном шаге. При обучении оркестратора веса суб-агентов зафрижены, а их ответы - просто observation среды, чтобы градиент через них не тек и обучении было стабильнее. Начинают с слабых суб-агентов, постепенно заменяя их на более сильных в процессе обучения оркестратора

🔺PARL. Чтобы заставить оркестратора параллелить агентов добавили явный реворд за количество параллельных суб-агентов, но сбалансировали его ревордом за успешность суб-агентов, чтобы избежать хака с бесконечным бесполезным спавном

Что получили?

🔺SoTA на Agentic Search задачах - Agent Swarm прекрасно справляется и с deep search задачами, и с wide search задачами

🔺Сильное преимущестов на Image & Video бенчах (фактически выучили добротного фронтендера, воспроизводящего и дебагающего сайты по картинке или видео)

🔺Совсем не выдающееся качество на Reasoning & Knowledge и Coding бенчах - сайт напишет, но claude 4.6 для остального кодинга точно не заменит :(

📖 Статья | Блог с красивыми примерами и бенчами
Please open Telegram to view this post
VIEW IN TELEGRAM
1