LLM бумажки

Channel created

23:34

LLM бумажки

Channel photo updated

23:46

LLM бумажки

This media is not supported in your browser

VIEW IN TELEGRAM

😳

Kimi K2.5: Visual Agentic Intelligence (part 1)

Базовая архитектура

🔺Kimi K2 MoE (1T parameters / 32b active / 384 experts)
🔺MoonViT-3D в качестве visual encoder

Joint Optimization of Text and Vision

🔺

Early fusion beats late fusion. Добавили vision токены с самого начала претрейна в пропорции 10%:90% -> получили понимание текста выше, чем при mid- / late-fusion благодаря отсутствию “dip-and-recover” - эффекта резкой просадки качества на текстах на первых шагах подмешивания картинок

🔺

Zero-vision SFT. При подмешивании заданий с картинками на SFT видели просадку качества на текстах -> заменили их на аналогичные текстовые задания, где таргет - код обработки изображений -> избавились от просадки на текстах и одновременно выучили общее понимание vision задач

🔺

Visual RL improves text. Первым этапом RL учили только различные задачи с изображениями -> неожиданно получили заметный прирост на текстовых бенчах. “Visual RL enhances calibration in areas requiring structured information extraction, improving textual reasoning without observable degradation of language capabilities”

🔺

Joint Multimodal RL. Учили RL на двух модальностях, разбивая задачи по необходимым способностям (knowledge, reasoning, coding, agentic) вместо деления по домену + добавили специфичные реворды для задач с картинками -> получили Visual Agentic Intelligence

📖

Статья | Блог с красивыми примерами и бенчами

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

24 viewsedited 00:33

LLM бумажки

😍

Kimi K2.5: Visual Agentic Intelligence (part 2)

Параллельная агентность

🔺

Agent Swarm. Научили оркестратора не просто последовательно решать задачу через агентов и тулы, но еще и звать до 100 агентов параллельно на одном шаге. При обучении оркестратора веса суб-агентов зафрижены, а их ответы - просто observation среды, чтобы градиент через них не тек и обучении было стабильнее. Начинают с слабых суб-агентов, постепенно заменяя их на более сильных в процессе обучения оркестратора

🔺

PARL. Чтобы заставить оркестратора параллелить агентов добавили явный реворд за количество параллельных суб-агентов, но сбалансировали его ревордом за успешность суб-агентов, чтобы избежать хака с бесконечным бесполезным спавном

Что получили?

🔺

SoTA на Agentic Search задачах - Agent Swarm прекрасно справляется и с deep search задачами, и с wide search задачами

🔺

Сильное преимущестов на Image & Video бенчах (фактически выучили добротного фронтендера, воспроизводящего и дебагающего сайты по картинке или видео)

🔺

Совсем не выдающееся качество на Reasoning & Knowledge и Coding бенчах - сайт напишет, но claude 4.6 для остального кодинга точно не заменит :(

📖

Статья | Блог с красивыми примерами и бенчами

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

19 viewsedited 00:33

LLM бумажки

Forwarded from Откровения от Олега

Выложил на Хабр подробное русское описание находок в репозитории Claude Code, которые сделал автор утечки.

https://habr.com/ru/companies/bar/articles/1017574/

Хабр

Утекли исходники Claude Code

Весь исходный код Claude Code утёк через sourcemap в npm. Давайте разберёмся. Где найти? Выкладывание закрытых проприетарных исходников может жёстко караться GitHub. Поэтому я их мгновенно переложил...

🏆2❤1

12 views20:04

About

Blog

Apps

Platform