Гриша Сапунов скинул интересную статью:
Towards a Physics Foundation Model
paper | code | blog
Краткое содержание: https://arxiviq.substack.com/p/towards-a-physics-foundation-model
Сравнивают трансформер, обученный на нескольких разных задачах гидродинамики с U-Nets и Fourier Neural Operators (FNO), обученными на одной конкретной задаче. И показывают, что:
1. Результат на порядок точнее - медианный MSE уменьшается до 29x.
2. Модель разумно (со потерей точности) обобщается на задачи из смежных областей, которые она до этого не видела.
Всячески приветствую больше работ по фундаментальным моделям для физических временных рядов.
Что интересно
Модель разбита на обычную вычислительную интегирующую часть и собственно трансформер, который принимает на вход и абсолютные значения, и вычисленные дифференциалы и генерирует дифференциаллы же. В ablation показывается, что без работы в дифференциальном поле точность модели радикально падает. Причём достаточно простейшего интегрирования первого порядка. Т.е. как обычно, правильное представление входных данных критически важно для правильной работы модели.
Towards a Physics Foundation Model
paper | code | blog
Краткое содержание: https://arxiviq.substack.com/p/towards-a-physics-foundation-model
Сравнивают трансформер, обученный на нескольких разных задачах гидродинамики с U-Nets и Fourier Neural Operators (FNO), обученными на одной конкретной задаче. И показывают, что:
1. Результат на порядок точнее - медианный MSE уменьшается до 29x.
2. Модель разумно (со потерей точности) обобщается на задачи из смежных областей, которые она до этого не видела.
Всячески приветствую больше работ по фундаментальным моделям для физических временных рядов.
Что интересно
Модель разбита на обычную вычислительную интегирующую часть и собственно трансформер, который принимает на вход и абсолютные значения, и вычисленные дифференциалы и генерирует дифференциаллы же. В ablation показывается, что без работы в дифференциальном поле точность модели радикально падает. Причём достаточно простейшего интегрирования первого порядка. Т.е. как обычно, правильное представление входных данных критически важно для правильной работы модели.
👍3
Последнее время выходит столько статей, что не то, что подробно писать про них - читать-то не всегда успеваю. Попробую писать более коротко, но чаще.
Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning
И итак, новый подход к RL тренировке, заменяющий поиск по пространству действий (результатов работы модели) поиском по пространству параметров самой модели.
Метод относится к классу эволюционных алгоритмов, но его наконец-то смогли масштабировать на миллиарды параметров современных LLM. Судя по результатам в статье, работает там, где стандартные PPO/GRPO не дают результатов. И это как раз те случаи, которые важны для работы с временными рядами - когда базовая модель маленькая и у неё ограниченное разнообразие выходов:
This performance difference demonstrates the benefit of parameter-space exploration in ES: while RL cannot find better actions from the
limited initial model to bootstrap learning, ES modifies the model directly by adding perturbations in parameter space, possibly creating better models to facilitate further exploration. These results highlight a distinct advantage of ES: it is able to improve behavior even with smaller, weaker base
models, thus expanding the scope of fine-tuning.
По сути, так как тренировка случайным образом меняет веса модели, то разнообразие выходов модели становится менее критичным, чем в PPO/GRPO. Значит можно тренировать на меньших моделях, пропуская этап тренировки большой модели и дистилляции из неё в маленькую.
При этом тренировка менее чувствительна к гиперпараметрам (т.е. её легче использовать) и генерирует более устойчивые модели.
А главное - работает быстрее и требует меньше памяти, так как не использует back propagation.
Another key difference between ES and RL is that ES intrinsically optimizes a solution distribution, while RL optimizes a single solution. This property makes it more difficult for ES to hack the reward since a single hacked solution usually does not have a high-quality so-
lution distribution around it. This property also results in solutions that are more robust to noisy
perturbations in parameter space, making them more robust to adversarial
attacks and less likely to be compromised in other follow-up fine-tuning tasks.
https://t.me/gonzo_ML/4092
paper
Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning
И итак, новый подход к RL тренировке, заменяющий поиск по пространству действий (результатов работы модели) поиском по пространству параметров самой модели.
Метод относится к классу эволюционных алгоритмов, но его наконец-то смогли масштабировать на миллиарды параметров современных LLM. Судя по результатам в статье, работает там, где стандартные PPO/GRPO не дают результатов. И это как раз те случаи, которые важны для работы с временными рядами - когда базовая модель маленькая и у неё ограниченное разнообразие выходов:
This performance difference demonstrates the benefit of parameter-space exploration in ES: while RL cannot find better actions from the
limited initial model to bootstrap learning, ES modifies the model directly by adding perturbations in parameter space, possibly creating better models to facilitate further exploration. These results highlight a distinct advantage of ES: it is able to improve behavior even with smaller, weaker base
models, thus expanding the scope of fine-tuning.
По сути, так как тренировка случайным образом меняет веса модели, то разнообразие выходов модели становится менее критичным, чем в PPO/GRPO. Значит можно тренировать на меньших моделях, пропуская этап тренировки большой модели и дистилляции из неё в маленькую.
При этом тренировка менее чувствительна к гиперпараметрам (т.е. её легче использовать) и генерирует более устойчивые модели.
А главное - работает быстрее и требует меньше памяти, так как не использует back propagation.
Another key difference between ES and RL is that ES intrinsically optimizes a solution distribution, while RL optimizes a single solution. This property makes it more difficult for ES to hack the reward since a single hacked solution usually does not have a high-quality so-
lution distribution around it. This property also results in solutions that are more robust to noisy
perturbations in parameter space, making them more robust to adversarial
attacks and less likely to be compromised in other follow-up fine-tuning tasks.
https://t.me/gonzo_ML/4092
paper
❤3
Я тоже завёл канал-сателлит для авторазборов статей, чтобы не захламлять ленту тут. Если разбор статьи сгенерирован - буду постить туда, а здесь только короткое резюме.
———
О ранге и сжимаемости трансформеров для временных рядов
Статья: https://arxiv.org/abs/2510.03358
Авторазбор: https://t.me/langotime_autocast/3
Свежая статья, эмпирически показывающая и теоретически доказывающая, что трансформерные модели для анализа временных рядов можно сделать намного эффективнее, если посчитать ранг эмбеддингов.
Например Chronos, популярная фундаментальная модель для временных рядов (TSFM), можно ускорить по времени инференса на 65%, а по использованию памяти сократить на 81% без какой-либо потери точности. Просто за счёт понижения ранга матриц в аттеншене.
При этом, если тренировать модель сразу с пониженными рангами, то можно даже немного пододвинуть Парето-фронт. Т.е. улучшить соотношение скорости-качества по сравнению с моделями, сжатыми из полноранговых оригиналов.
И главная мысль: когда тянете идеи из других областей (NLP, CV и т.п.) стоит подумать о том, что разные свойства данных могут приводить к разным оптимумам.
———
О ранге и сжимаемости трансформеров для временных рядов
Статья: https://arxiv.org/abs/2510.03358
Авторазбор: https://t.me/langotime_autocast/3
Свежая статья, эмпирически показывающая и теоретически доказывающая, что трансформерные модели для анализа временных рядов можно сделать намного эффективнее, если посчитать ранг эмбеддингов.
Например Chronos, популярная фундаментальная модель для временных рядов (TSFM), можно ускорить по времени инференса на 65%, а по использованию памяти сократить на 81% без какой-либо потери точности. Просто за счёт понижения ранга матриц в аттеншене.
При этом, если тренировать модель сразу с пониженными рангами, то можно даже немного пододвинуть Парето-фронт. Т.е. улучшить соотношение скорости-качества по сравнению с моделями, сжатыми из полноранговых оригиналов.
И главная мысль: когда тянете идеи из других областей (NLP, CV и т.п.) стоит подумать о том, что разные свойства данных могут приводить к разным оптимумам.
👍4
https://news.sap.com/2025/11/sap-empowers-developers-drive-business-ai-revolution/
М - маркетинг!
Не просто "зарелизили табличную модель", а "SAP introduced its first enterprise relational foundation model, a new class of AI that predicts business outcomes rather than the next word in a sentence".
По сути то же самое, но как звучит!
Разобрать, что там под капотом?
М - маркетинг!
Не просто "зарелизили табличную модель", а "SAP introduced its first enterprise relational foundation model, a new class of AI that predicts business outcomes rather than the next word in a sentence".
По сути то же самое, но как звучит!
Разобрать, что там под капотом?
SAP News Center
SAP Empowers Developers to Drive the Business AI Revolution
From SAP TechEd, SAP is announcing updates that equip developers to turn business data and AI into real business outcomes. Read the news.
👍4🔥1
https://openreview.net/pdf?id=BZ5a1r-kVsf
Я наконец-то сел читать основополагающий position paper Яна ЛеКуна 2022 года и понял, почему мне так нравится JEPA. JEPA - это кусочек бОльшей архитектуры ИИ, большую часть которой он взял из Теории Автоматического Управления, моего любимого предмета в институте.
This procedure is essentially what is known as Model-Predictive Control (MPC) with receding horizon in the optimal control literature. The difference with classical optimal control is that the world model and the cost function are learned.
Я наконец-то сел читать основополагающий position paper Яна ЛеКуна 2022 года и понял, почему мне так нравится JEPA. JEPA - это кусочек бОльшей архитектуры ИИ, большую часть которой он взял из Теории Автоматического Управления, моего любимого предмета в институте.
This procedure is essentially what is known as Model-Predictive Control (MPC) with receding horizon in the optimal control literature. The difference with classical optimal control is that the world model and the cost function are learned.
❤7