Time Series going MoE
Изучаю разные подходы с масштабированию time series моделей и вижу, что наметился переход на MoE архитектуры. Пока что вышло всего две такие модели, но судя по результатам, скоро ждать больше:
1. Moirai-MoE (blog / arxiv:2410.10469)
2. Time-MoE (arxiv:2409.16040)
Интересна мотивация, которая в обоих работах независимо друг от друга совершенно одинаковая:
1. Модели нужно масштабировать и тренировать на всё большем объёме данных (не новость), а для этого нужна эффективность при тренировке. MoE в декодерных трансформерах существенно ускоряет как обучение, так и инференс. И это позволяет закидывать в топку существенно большие объёмы данных. Например Time-MoE тренировались на датасете на 300B точек на 128 ×
A100-80G (4.8 x10^8 TFLOPS).
2. Но главное даже не это - в обоих работах показано, что переход от плотных моделей к разреженным (MoE) даёт прирост в качестве при том же количестве параметров. И это уже интересная мысль, которая не была мне очевидна.
Salesforce репортит 17% прирост за счёт перехода на MoE (Extensive experiments on 39 datasets reveal that Moirai-MoE delivers up to 17% performance improvements over Moirai at the same level of model size).
Авторы Time-MoE точные цифры не приводят, но на графиках видна заметная разница (см картинки), при том, что переход на MoE одновременно на 78% снизил стоимость трена и на 39% - стоимость инференса.
Изучаю разные подходы с масштабированию time series моделей и вижу, что наметился переход на MoE архитектуры. Пока что вышло всего две такие модели, но судя по результатам, скоро ждать больше:
1. Moirai-MoE (blog / arxiv:2410.10469)
2. Time-MoE (arxiv:2409.16040)
Интересна мотивация, которая в обоих работах независимо друг от друга совершенно одинаковая:
1. Модели нужно масштабировать и тренировать на всё большем объёме данных (не новость), а для этого нужна эффективность при тренировке. MoE в декодерных трансформерах существенно ускоряет как обучение, так и инференс. И это позволяет закидывать в топку существенно большие объёмы данных. Например Time-MoE тренировались на датасете на 300B точек на 128 ×
A100-80G (4.8 x10^8 TFLOPS).
2. Но главное даже не это - в обоих работах показано, что переход от плотных моделей к разреженным (MoE) даёт прирост в качестве при том же количестве параметров. И это уже интересная мысль, которая не была мне очевидна.
Salesforce репортит 17% прирост за счёт перехода на MoE (Extensive experiments on 39 datasets reveal that Moirai-MoE delivers up to 17% performance improvements over Moirai at the same level of model size).
Авторы Time-MoE точные цифры не приводят, но на графиках видна заметная разница (см картинки), при том, что переход на MoE одновременно на 78% снизил стоимость трена и на 39% - стоимость инференса.
🔥4
Alexander Chemeris
Photo
Тренировка моделей - это, в первую очередь, - правильная подготовка датасета.
BLAST: Balanced Sampling Time Series Corpus for Universal Forecasting Models
paper | dataset | code (dataset) | code (training)
Если оригинальный Time-MoE тренировали на 128x A100-80G на 419 billion tokens, то после BLAST фильтрации датасета его же натренировали всего на 8x A100-40G на 78 billion tokens и одновременно улучшили результат.
Как?
Все данные равны, но некоторые равнее. Если тренировать модель хоть на 1Т синусоид, то модель кроме синусоид ничего не выучит. Если добавить туда 100 прямых линий, то про них модель скорее всего тоже ничего не выучит, так как не заметит среди синусоид. И если с синусоидой и линиями это интуитивно понятно, то когда у тебя сборная солянка из 100+ разнородных источников данных, всё становится совсем не так просто.
Авторы предлагают достаточно простой метод сэмплирования данных из датасета, который сохраняет разнобразие данных, но при этом резко сокращает дублирование похожих данных.
1. Для каждого датасета и каждого сэмпла создаётся набор фич, и из них собирается вектор признаков.
2. При помощи UMAP все вектора проекцируются на двухмерную решётку.
3. Сэмплирование производится по решётке. Если в какой-то ячейке много сэмплов (т.е. они "похожи"), то из неё всё равно берётся столько же сэмплов, сколько и из ячеек в небольшим количетвом сэмплов.
Идея интересная, но:
1. кажется, что проекцирование на двумерную плоскость слишком уж сильно сокращает выразительность, и можно вместе излишками выплеснуть что-то полезное.
2. ручное выпиливание фич лобзиком плохо масштабируется и опять же - скорее всего не передаёт всего реального многообразия.
Интересно, как можно развить этот метод, обойдя эти ограничения. Кажется, что вместо ручного вектора фич можно использовать эмбеддинги достаточно выразительной модели, а вот уйти от сетки в двумерном пространстве может быть сложнее.
BLAST: Balanced Sampling Time Series Corpus for Universal Forecasting Models
paper | dataset | code (dataset) | code (training)
Если оригинальный Time-MoE тренировали на 128x A100-80G на 419 billion tokens, то после BLAST фильтрации датасета его же натренировали всего на 8x A100-40G на 78 billion tokens и одновременно улучшили результат.
Как?
Все данные равны, но некоторые равнее. Если тренировать модель хоть на 1Т синусоид, то модель кроме синусоид ничего не выучит. Если добавить туда 100 прямых линий, то про них модель скорее всего тоже ничего не выучит, так как не заметит среди синусоид. И если с синусоидой и линиями это интуитивно понятно, то когда у тебя сборная солянка из 100+ разнородных источников данных, всё становится совсем не так просто.
Авторы предлагают достаточно простой метод сэмплирования данных из датасета, который сохраняет разнобразие данных, но при этом резко сокращает дублирование похожих данных.
1. Для каждого датасета и каждого сэмпла создаётся набор фич, и из них собирается вектор признаков.
2. При помощи UMAP все вектора проекцируются на двухмерную решётку.
3. Сэмплирование производится по решётке. Если в какой-то ячейке много сэмплов (т.е. они "похожи"), то из неё всё равно берётся столько же сэмплов, сколько и из ячеек в небольшим количетвом сэмплов.
Идея интересная, но:
1. кажется, что проекцирование на двумерную плоскость слишком уж сильно сокращает выразительность, и можно вместе излишками выплеснуть что-то полезное.
2. ручное выпиливание фич лобзиком плохо масштабируется и опять же - скорее всего не передаёт всего реального многообразия.
Интересно, как можно развить этот метод, обойдя эти ограничения. Кажется, что вместо ручного вектора фич можно использовать эмбеддинги достаточно выразительной модели, а вот уйти от сетки в двумерном пространстве может быть сложнее.
👍1
Не совсем про временные ряды, но мы ведь всегда говорили, что предсказание тесно связано с контекстом, и не всегда этот контекст - это числа.
👍1
Forwarded from Сергей Булаев AI 🤖
А ещё Grok‑4 - лидер в прогнозировании будущего по данным крупнейшего живого бенчмарка FutureX.
• Grok‑4 занял 1 место в общем зачёте среди 25 моделей, обойдя Gemini Deep Research и GPT‑4o‑mini (Think&Search).
• На 4 уровне сложности (Super Agent Tier, задачи с высокой волатильностью) Grok‑4 единственный стабильно показывал результат, в то время как большинство моделей ушли в нули.
• Среднее время ответа: менее 5 минут на задачу. Для сравнения, у некоторых глубоких research‑моделей до 30 минут.
• Количество поисковых запросов - до 40 на задачу. Именно эта агрессивная стратегия поиска и дала ему преимущество.
• В финансовых прогнозах по S&P 500 (Q2 2025) лучшие модели выиграли у аналитиков Уолл‑стрит в 33‑37% случаев. Grok‑4 вошел в топ‑результаты, показав высокую точность и скорость.
• В простых задачах (уровень 1‑2) Grok‑4 догоняет или перегоняет людей. В задачах 3‑4 уровня эксперты пока впереди на 10‑25% по точности, но разрыв сокращается.
• Конкретный кейс: вопрос "Сколько будет смертей во время беспорядков в Калифорнии до конца июля 2025?". Grok‑4 правильно спрогнозировал ноль, опираясь на BBC, LA Times и NPR. Другие модели ошибались, выдавая вымышленные события.
Сергей Булаев AI 🤖 - об AI и не только
• Grok‑4 занял 1 место в общем зачёте среди 25 моделей, обойдя Gemini Deep Research и GPT‑4o‑mini (Think&Search).
• На 4 уровне сложности (Super Agent Tier, задачи с высокой волатильностью) Grok‑4 единственный стабильно показывал результат, в то время как большинство моделей ушли в нули.
• Среднее время ответа: менее 5 минут на задачу. Для сравнения, у некоторых глубоких research‑моделей до 30 минут.
• Количество поисковых запросов - до 40 на задачу. Именно эта агрессивная стратегия поиска и дала ему преимущество.
• В финансовых прогнозах по S&P 500 (Q2 2025) лучшие модели выиграли у аналитиков Уолл‑стрит в 33‑37% случаев. Grok‑4 вошел в топ‑результаты, показав высокую точность и скорость.
• В простых задачах (уровень 1‑2) Grok‑4 догоняет или перегоняет людей. В задачах 3‑4 уровня эксперты пока впереди на 10‑25% по точности, но разрыв сокращается.
• Конкретный кейс: вопрос "Сколько будет смертей во время беспорядков в Калифорнии до конца июля 2025?". Grok‑4 правильно спрогнозировал ноль, опираясь на BBC, LA Times и NPR. Другие модели ошибались, выдавая вымышленные события.
Сергей Булаев AI 🤖 - об AI и не только
Гриша Сапунов скинул интересную статью:
Towards a Physics Foundation Model
paper | code | blog
Краткое содержание: https://arxiviq.substack.com/p/towards-a-physics-foundation-model
Сравнивают трансформер, обученный на нескольких разных задачах гидродинамики с U-Nets и Fourier Neural Operators (FNO), обученными на одной конкретной задаче. И показывают, что:
1. Результат на порядок точнее - медианный MSE уменьшается до 29x.
2. Модель разумно (со потерей точности) обобщается на задачи из смежных областей, которые она до этого не видела.
Всячески приветствую больше работ по фундаментальным моделям для физических временных рядов.
Что интересно
Модель разбита на обычную вычислительную интегирующую часть и собственно трансформер, который принимает на вход и абсолютные значения, и вычисленные дифференциалы и генерирует дифференциаллы же. В ablation показывается, что без работы в дифференциальном поле точность модели радикально падает. Причём достаточно простейшего интегрирования первого порядка. Т.е. как обычно, правильное представление входных данных критически важно для правильной работы модели.
Towards a Physics Foundation Model
paper | code | blog
Краткое содержание: https://arxiviq.substack.com/p/towards-a-physics-foundation-model
Сравнивают трансформер, обученный на нескольких разных задачах гидродинамики с U-Nets и Fourier Neural Operators (FNO), обученными на одной конкретной задаче. И показывают, что:
1. Результат на порядок точнее - медианный MSE уменьшается до 29x.
2. Модель разумно (со потерей точности) обобщается на задачи из смежных областей, которые она до этого не видела.
Всячески приветствую больше работ по фундаментальным моделям для физических временных рядов.
Что интересно
Модель разбита на обычную вычислительную интегирующую часть и собственно трансформер, который принимает на вход и абсолютные значения, и вычисленные дифференциалы и генерирует дифференциаллы же. В ablation показывается, что без работы в дифференциальном поле точность модели радикально падает. Причём достаточно простейшего интегрирования первого порядка. Т.е. как обычно, правильное представление входных данных критически важно для правильной работы модели.
👍3
Последнее время выходит столько статей, что не то, что подробно писать про них - читать-то не всегда успеваю. Попробую писать более коротко, но чаще.
Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning
И итак, новый подход к RL тренировке, заменяющий поиск по пространству действий (результатов работы модели) поиском по пространству параметров самой модели.
Метод относится к классу эволюционных алгоритмов, но его наконец-то смогли масштабировать на миллиарды параметров современных LLM. Судя по результатам в статье, работает там, где стандартные PPO/GRPO не дают результатов. И это как раз те случаи, которые важны для работы с временными рядами - когда базовая модель маленькая и у неё ограниченное разнообразие выходов:
This performance difference demonstrates the benefit of parameter-space exploration in ES: while RL cannot find better actions from the
limited initial model to bootstrap learning, ES modifies the model directly by adding perturbations in parameter space, possibly creating better models to facilitate further exploration. These results highlight a distinct advantage of ES: it is able to improve behavior even with smaller, weaker base
models, thus expanding the scope of fine-tuning.
По сути, так как тренировка случайным образом меняет веса модели, то разнообразие выходов модели становится менее критичным, чем в PPO/GRPO. Значит можно тренировать на меньших моделях, пропуская этап тренировки большой модели и дистилляции из неё в маленькую.
При этом тренировка менее чувствительна к гиперпараметрам (т.е. её легче использовать) и генерирует более устойчивые модели.
А главное - работает быстрее и требует меньше памяти, так как не использует back propagation.
Another key difference between ES and RL is that ES intrinsically optimizes a solution distribution, while RL optimizes a single solution. This property makes it more difficult for ES to hack the reward since a single hacked solution usually does not have a high-quality so-
lution distribution around it. This property also results in solutions that are more robust to noisy
perturbations in parameter space, making them more robust to adversarial
attacks and less likely to be compromised in other follow-up fine-tuning tasks.
https://t.me/gonzo_ML/4092
paper
Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning
И итак, новый подход к RL тренировке, заменяющий поиск по пространству действий (результатов работы модели) поиском по пространству параметров самой модели.
Метод относится к классу эволюционных алгоритмов, но его наконец-то смогли масштабировать на миллиарды параметров современных LLM. Судя по результатам в статье, работает там, где стандартные PPO/GRPO не дают результатов. И это как раз те случаи, которые важны для работы с временными рядами - когда базовая модель маленькая и у неё ограниченное разнообразие выходов:
This performance difference demonstrates the benefit of parameter-space exploration in ES: while RL cannot find better actions from the
limited initial model to bootstrap learning, ES modifies the model directly by adding perturbations in parameter space, possibly creating better models to facilitate further exploration. These results highlight a distinct advantage of ES: it is able to improve behavior even with smaller, weaker base
models, thus expanding the scope of fine-tuning.
По сути, так как тренировка случайным образом меняет веса модели, то разнообразие выходов модели становится менее критичным, чем в PPO/GRPO. Значит можно тренировать на меньших моделях, пропуская этап тренировки большой модели и дистилляции из неё в маленькую.
При этом тренировка менее чувствительна к гиперпараметрам (т.е. её легче использовать) и генерирует более устойчивые модели.
А главное - работает быстрее и требует меньше памяти, так как не использует back propagation.
Another key difference between ES and RL is that ES intrinsically optimizes a solution distribution, while RL optimizes a single solution. This property makes it more difficult for ES to hack the reward since a single hacked solution usually does not have a high-quality so-
lution distribution around it. This property also results in solutions that are more robust to noisy
perturbations in parameter space, making them more robust to adversarial
attacks and less likely to be compromised in other follow-up fine-tuning tasks.
https://t.me/gonzo_ML/4092
paper
❤3