Sinекура

В следующую пятницу на семинаре лаборатории Маркова мы внезапно продолжаем разговор о термодинамике машинного обучения (напомню доклад Ильдуса)... но с совершенно другой стороны.

Мой давний знакомый Сергей Кольцов (расшаривал их вакансию недавно) тоже применяет термодинамические концепции в машинном обучении, но кажется, что совершенно по-другому. Правда, я пока всерьёз не разбирался, вот заодно и послушаем:

Термодинамический взгляд на машинное обучение
Ссылка на трансляцию (пятница 17 апреля, 14:00)

Сергей Кольцов (Высшая школа экономики)

Современные методы машинного обучения всё чаще сталкиваются с вопросами эффективности, устойчивости и фундаментальных ограничений вычислительных процессов. В этом докладе будет рассмотрен подход, который переносит понятия и интуицию из классической термодинамики в область машинного обучения. Применения данного подхода будет продемонстрированно на двух областях: тематическое моделирование и pruning нейронных сетей.

Основные темы:
— аналогии между термодинамическими системами и моделями машинного обучения;
— энтропия и свободная энергия в контексте информации и неопределённости модели машинного обучения;
— тематическое моделирование и проблема отбора числа кластеров;
— pruning, проблема выбора уровня разреживания.

Целевая аудитория: исследователи в области машинного обучения, специалисты по искусственному интеллекту, физики, интересующиеся междисциплинарными подходами, а также разработчики, стремящиеся понять фундаментальные основания современных моделей.

#spsu #seminar #markovlab

🔥11❤4👍2👀1

892 views05:42

Sinекура

Неделю назад прошла яркая новость: Милла Йовович стала вайб-кодером и разработчиком системы памяти для LLM-агентов! Я воспользовался этим поводом, чтобы обсудить память всерьёз, и написал большой пост с обзором всей этой науки:

Память для LLM-агентов: Милла Йовович и 20/20 hindsight

Разумеется, сюда поместиться этот пост никак не может, он очень большой, так что вот оглавление и заключение (и то еле влезло!), а в целом читайте по ссылке.

1. Вступление, в котором актриса неожиданно становится инфраструктурным разработчиком

2. Мотивация, где мы разбираемся, зачем LLM-агентам вообще какая-то память

3. Таксономии, или как можно смотреть на структуру агентской памяти:

— срез первый, нейропсихологический;
— срез второй, операционный;
— срез третий, идейный.

4. Три столпа агентской памяти, или как всё началось

— Generative Agents: поток с взвешиванием
— MemGPT / Letta: память как операционная система
— Reflexion: вербальное обучение с подкреплением

5. Графы и нейронаука, или как добавить языковой модели гиппокамп

— HippoRAG
— Zep / Graphiti: графы с учётом времени

6. Изменяемая память, или как переписывать свои собственные воспоминания

— A-MEM: Zettelkasten для моделей
— Memory-R1: add/update/delete через RL

7. Open-source фреймворки, или что можно взять и использовать прямо сейчас

— Mem0: простой API, большое сообщество
— Letta (MemGPT) и Zep / Graphiti
— LangChain / LangMem, LlamaIndex, CrewAI, Cognee
— Большая тройка

8. Что на фронтире, или биомимикрия, мультиграфы и крепкий сон для LLM-агентов

— Эмуляция сна: явная консолидация памяти
— Новые примитивы для хранения элементов памяти
— Новые принципы работы с памятью

9. Бенчмарки, или как мы измеряем память

10. MemPalace, или что же там всё-таки Милла Йовович

11. Hindsight, или современный пример хорошей системы агентской памяти

— Четыре сети памяти
— TEMPR: параллельный multi-strategy retrieval с RRF
— CARA: reflect в приоритетном порядке
— Disposition parameters: личность агента влияет и на память
— Цифры

12. Выводы и заключение

Попытаюсь сделать несколько общих выводов из всех работ, которые я тут перечитал и пересказал.

Во-первых, качество retrieval-стратегии важнее сложности хранилища. Hindsight побеждает на бенчмарках не потому, что у него какая-то хитрая база данных, а потому, что у него четыре стратегии извлечения с RRF-слиянием. HippoRAG побеждает на multi-hop не потому, что у него навороченный knowledge graph, а потому, что он делает один шаг PPR вместо трёх LLM-вызовов. Системы, которые полагаются исключительно на векторную похожесть, стабильно проигрывают.

Во-вторых, бенчмарки бенчмаркам рознь. Это давно всем известно, но вот и задокументировано в MemoryArena: система, которая даёт 95% на LoCoMo, может давать 40% на реальной агентской задаче. Не уверен, что мы с этим разрывом скоро разберёмся, но как минимум MemoryArena и Mem2ActBench задают правильные вопросы, и это уже прогресс.

В-третьих, архитектуры памяти начинают учиться. Memory-R1 — это, по-моему, самое важное из того, что вышло в 2025-2026. Он показывает, что политику управления памятью можно учить на ~150 примерах по downstream reward. Плюс ещё и bio-inspired направление (LightMem, SleepGate, EverMemOS) двигается в ту же сторону. Мне кажется, что в ближайшие пару лет написанные вручную стратегии управления памятью постепенно уступят обучаемым.

А в целом это одна из самых интересных областей в прикладных LLM прямо сейчас. Год назад казалось, что агенты упираются в недостаточно хорошие рассуждения; полгода назад — что в tool use; а сейчас я всё больше уверен, что следующее важное “узкое место” — это именно память. А вот Милла Йовович, увы, подвела.

#longreads #ai #blog

🔥11❤‍🔥4❤1👍1

738 views07:40

About

Blog

Apps

Platform