This Time is Different: An Observability Perspective on Time Series Foundation Models (20 May 2025)
blog | paper | HF model | HF Dataset | GitHub
DataDog, один из крупнейших облачных obervability сервисов, выпустил open weight TSFM модель Toto и большой тренировочный observability датасет BOOM, собранный из их данных.
Модель Toto
* 151млн параметров.
* Decoder-only архитектура.
* Probabilistic output (Student-T).
* Обещают существенно лучшие характеристики в области observability (см картинки).
Датасеты:
* Observability Metrics: ~1 trillion points from Datadog internal systems (no customer data)
* Public Datasets:
- GIFT-Eval Pretrain
- Chronos datasets
* Synthetic Data: ~1/3 of training data
Подробнее не успел посмотреть, но выглядит интересно. Жаль, что датасет не размеченный кажется.
blog | paper | HF model | HF Dataset | GitHub
DataDog, один из крупнейших облачных obervability сервисов, выпустил open weight TSFM модель Toto и большой тренировочный observability датасет BOOM, собранный из их данных.
Модель Toto
* 151млн параметров.
* Decoder-only архитектура.
* Probabilistic output (Student-T).
* Обещают существенно лучшие характеристики в области observability (см картинки).
Датасеты:
* Observability Metrics: ~1 trillion points from Datadog internal systems (no customer data)
* Public Datasets:
- GIFT-Eval Pretrain
- Chronos datasets
* Synthetic Data: ~1/3 of training data
Подробнее не успел посмотреть, но выглядит интересно. Жаль, что датасет не размеченный кажется.
🔥1
IGC: Integrating a Gated Calculator into an LLM to Solve Arithmetic Tasks Reliably and Efficiently
paper 1 Jan 2025
Ещё одна (после FoNE) необычная работа по повышению точности математических операций в LLM. В этот раз заходят не со стороны токенизации, а со стороны того, как эффективно проводить операции внутри самой LLM. Точнее - математические операции выносятся в "сопроцессор", встроенный между слоями LLM (между 1м и 2м в примере), и который выполняет операции на GPU напрямую.
Так как калькулятор не дифференцируем и прерывает поток градиентов, то для тренировки Input Mapping модуля используется специальный подход к тренировке.
Код не опубликован, а жаль. Результаты в статье выглядят неплохо, модель 8B бьёт по показателям модели на два порядка больше (585B). Но почему-то всё-равно не достигает 100%.
У FoNE результаты вроде бы не хуже. Интересно, какая архитектура окажется более широко распространённой?
paper 1 Jan 2025
Ещё одна (после FoNE) необычная работа по повышению точности математических операций в LLM. В этот раз заходят не со стороны токенизации, а со стороны того, как эффективно проводить операции внутри самой LLM. Точнее - математические операции выносятся в "сопроцессор", встроенный между слоями LLM (между 1м и 2м в примере), и который выполняет операции на GPU напрямую.
Так как калькулятор не дифференцируем и прерывает поток градиентов, то для тренировки Input Mapping модуля используется специальный подход к тренировке.
Код не опубликован, а жаль. Результаты в статье выглядят неплохо, модель 8B бьёт по показателям модели на два порядка больше (585B). Но почему-то всё-равно не достигает 100%.
У FoNE результаты вроде бы не хуже. Интересно, какая архитектура окажется более широко распространённой?
Кто готов законтрибьютить данных в новый мощный датасет для time series forecasting?
Наш science advisor в партнёрстве с ещё несколькими видными научными группами собирает новый датасет для тренировки и бенчмарка time series forecasting моделей и ищет больше индустриальных партнёров, которые готовы поделиться (анонимизированными) данными. В проекте уже участвуют Amazon, Salesforce, Alibaba и Bytdance и он имеет все шансы стать новым стандартом бенчмарков для time series forecasting ресёрча. Но нужно большеада данных из разных областей.
Чем это полезно вашей компании (питч для руководства)
Например тем, что вы будете сразу знать, какие новые модели подходят для ваших задач, а какие - нет. И в целом больше шансов, что появятся модели, которые работают на ваших данных.
Текущие датасеты, ставшие стандартными, вроде ETT, (а) слишком малы и многие модели на них просто оверфитятся, (б) слишком узкоспецифичны и часто не совершенно не отражают реальные задачи, так что судить о качестве той или иной новой модели по статьям невозможно.
Ну и в целом, опубликоваться в такой компании - хороший пиар. 🙂
Кто готов подключиться? Напишите в личку
Наш science advisor в партнёрстве с ещё несколькими видными научными группами собирает новый датасет для тренировки и бенчмарка time series forecasting моделей и ищет больше индустриальных партнёров, которые готовы поделиться (анонимизированными) данными. В проекте уже участвуют Amazon, Salesforce, Alibaba и Bytdance и он имеет все шансы стать новым стандартом бенчмарков для time series forecasting ресёрча. Но нужно больше
Чем это полезно вашей компании (питч для руководства)
Например тем, что вы будете сразу знать, какие новые модели подходят для ваших задач, а какие - нет. И в целом больше шансов, что появятся модели, которые работают на ваших данных.
Текущие датасеты, ставшие стандартными, вроде ETT, (а) слишком малы и многие модели на них просто оверфитятся, (б) слишком узкоспецифичны и часто не совершенно не отражают реальные задачи, так что судить о качестве той или иной новой модели по статьям невозможно.
Ну и в целом, опубликоваться в такой компании - хороший пиар. 🙂
Кто готов подключиться? Напишите в личку
❤2😱1
Retrieval of Temporal Event Sequences from Textual Descriptions (17 Oct 2024)
paper | datasets | code
Для архива. Искал работы по использованию трансформеров/LLM для работы с event sequences, такими как логи софта, события в телеком сетях и т.п. Это второй важный тип временных рядов в нашей области, после регулярных (типа метрик), и важно уметь как делать для них RAG, так и рассуждать о происходящем.
В статье предлагается простой способ получения эмбеддингов для RAG для event sequences, где к каждому события прикреплена метка времени.
1. В качестве backbone берут стандартную LLM (TinyLlama-1.1B-Intermediate-Step-1431k-3T и TinyLlama-1.1B-Chat-v1.0) в 4-битовой квантизации.
2. На LLM добавляют LoRA адаптер (rank of 16).
3. Последовательности описывают как обычные эмбеддинги описания + Temporal Embeddings для привязки ко времени.
4. Тренируют при помощи contrastive loss.
иии..... получают SOTA по целому набору стандартных датасетов.
Минусы
Модель большая, так как это полноценная LLM (см таблицу со сравнением размеров). Тренируемых параметров почти ничего, но инференс скорее всего будет сильно медленнее более мелких моделей. Жаль, что измерений скорости инференса в статье не привели.
Насколько я понимаю, основная мысль в том, что таким нехитрым способом можно получить универсальную модель, которая достаточно хорошо (пусть и медленно) работает на самых разнообразных датасетах и не требует каждый раз обучения с нуля.
PS Работа основана на более ранней работе тех же авторов TPP-LLM (paper, 2 Oct 2024), где они использую ровно такую же архитектуру + текстовый промпт, чтобы предсказывать вероятности событий в тех же самых event streams (Temporal Point Processes по-научному).
paper | datasets | code
Для архива. Искал работы по использованию трансформеров/LLM для работы с event sequences, такими как логи софта, события в телеком сетях и т.п. Это второй важный тип временных рядов в нашей области, после регулярных (типа метрик), и важно уметь как делать для них RAG, так и рассуждать о происходящем.
В статье предлагается простой способ получения эмбеддингов для RAG для event sequences, где к каждому события прикреплена метка времени.
1. В качестве backbone берут стандартную LLM (TinyLlama-1.1B-Intermediate-Step-1431k-3T и TinyLlama-1.1B-Chat-v1.0) в 4-битовой квантизации.
2. На LLM добавляют LoRA адаптер (rank of 16).
3. Последовательности описывают как обычные эмбеддинги описания + Temporal Embeddings для привязки ко времени.
4. Тренируют при помощи contrastive loss.
иии..... получают SOTA по целому набору стандартных датасетов.
Минусы
Модель большая, так как это полноценная LLM (см таблицу со сравнением размеров). Тренируемых параметров почти ничего, но инференс скорее всего будет сильно медленнее более мелких моделей. Жаль, что измерений скорости инференса в статье не привели.
Насколько я понимаю, основная мысль в том, что таким нехитрым способом можно получить универсальную модель, которая достаточно хорошо (пусть и медленно) работает на самых разнообразных датасетах и не требует каждый раз обучения с нуля.
PS Работа основана на более ранней работе тех же авторов TPP-LLM (paper, 2 Oct 2024), где они использую ровно такую же архитектуру + текстовый промпт, чтобы предсказывать вероятности событий в тех же самых event streams (Temporal Point Processes по-научному).
👍1
Language-TPP: Integrating Temporal Point Processes with Language Models for Event Analysis (11 Feb 2025)
paper | code (весов на момент написания поста ещё нет)
И ещё одна работа, похожая как брат близнец на TPP-LLM из прошлого поста. Причём TPP-LLM в списке литературы упоминается, но сравнения с ней нет 🤷🏻 Только с более старыми NHP, SAHP и THP.
Всё так же, как и в TPP-LLM поток событий описывается как <описание события, тип события, время события> (см Figure 2).
Отличия от TPP-LLM:
1. Задачу описывает специальный Task Token, который ставят в конец последовательности. Поддерживаются “<|description prediction|>”, “<|type prediction|>” и “<|time prediction|>”.
2. Temporal tokenization: Время из Float32 превращают в четыре hex digits, которые уже и кодируются токенами (для этого 256 byte tokens добавили в словарь).
3. В качестве базовой LLM используется base (НЕ instruct) Qwen2.5-0.5B.
Тренировка
Тренируют в три стадии:
1) претрен на последовательностях;
2) файнтюнинг на предсказание следующего события;
3) тренировка projection layer для генерации intensity distribution.
В отличие от "классических" TPP, тренируют на смеси всех датасетов сразу, чтобы получить универсальный предсказатель.
Ещё один интересный момент - размер имеет значение. А точнее - модель 0.5B внезапно показывает результаты лучше, чем бОльшая 1.5B (см Table 3). Авторы объясняют это тем, что датасет маловат и большая моделька успевает на нём научиться генерализации,подайте датасетов бедным ресёрчерам, а то аж переночевать негде.
Ну и конечно же, заявляют уверенную SOTA по сравнению с "классикой", иначе как жы.
paper | code (весов на момент написания поста ещё нет)
И ещё одна работа, похожая как брат близнец на TPP-LLM из прошлого поста. Причём TPP-LLM в списке литературы упоминается, но сравнения с ней нет 🤷🏻 Только с более старыми NHP, SAHP и THP.
Всё так же, как и в TPP-LLM поток событий описывается как <описание события, тип события, время события> (см Figure 2).
Отличия от TPP-LLM:
1. Задачу описывает специальный Task Token, который ставят в конец последовательности. Поддерживаются “<|description prediction|>”, “<|type prediction|>” и “<|time prediction|>”.
2. Temporal tokenization: Время из Float32 превращают в четыре hex digits, которые уже и кодируются токенами (для этого 256 byte tokens добавили в словарь).
3. В качестве базовой LLM используется base (НЕ instruct) Qwen2.5-0.5B.
Тренировка
Тренируют в три стадии:
1) претрен на последовательностях;
2) файнтюнинг на предсказание следующего события;
3) тренировка projection layer для генерации intensity distribution.
В отличие от "классических" TPP, тренируют на смеси всех датасетов сразу, чтобы получить универсальный предсказатель.
Ещё один интересный момент - размер имеет значение. А точнее - модель 0.5B внезапно показывает результаты лучше, чем бОльшая 1.5B (см Table 3). Авторы объясняют это тем, что датасет маловат и большая моделька успевает на нём научиться генерализации,
Ну и конечно же, заявляют уверенную SOTA по сравнению с "классикой", иначе как жы.
👍2
From News to Forecast: Integrating Event Analysis in LLM-Based Time Series Forecasting with Reflection (26 Sept 2024, NeurIPS 2024)
paper | code
Я часто говорю, что без понимания контекста и смысла происходящего, невозможно по настоящему качественно предсказывать ряды. И вот интересная работа о том, как отбирать события (в данном случае - новости), влияющие на предсказания. Если всё, написанное в статье - правда, то авторы провели серьёзную работу по доведению (достаточно очевидной) идеи до работающего PoC.
В основе системы лежит (Figure 1):
1. Обогащение данных вспомогательной информацией типа погодных условий, курсов валют, национальных праздников и т.п. на момент измерений.
2. Обогащение избранными новостями и цикл обратной связи по отбору этих новостей из всего потока.
Новости делятся на три типа: (а) Short-Term Effect, (б) Long-Term Effect, и (в) бесполезные (Figure 2).
В цикле обратной связи предсказанная кривая сравнивается с оригинальной, и модель просят найти "пропущенные новости", которые не были включены в изначальный список новостей для предсказания, но могут влиять на предсказания (см Prompt 3). Больше примеров - в статье.
В качестве модели для предсказаний используется обычная llama-2-7b, затюненная на предсказания за сутки на 1xA100.
В авторских экспериментах показатели с каждой из 3-4 итерацией улучшались (Table 2) и в конце модель с существенным перевесом обходила deep learning модели предсказания (Table 3).
Мы недавно обсуждали внутри, что не очень понятно, как строить CoT рассуждения для тренировки рассуждающих моделей на рядах, и подобный подход возможно даст возможность такие цепочки генерировать в достаточном для обучения количестве.
PS Все промпты и весь код опубликованы, можно экспериментировать 🙂
paper | code
Я часто говорю, что без понимания контекста и смысла происходящего, невозможно по настоящему качественно предсказывать ряды. И вот интересная работа о том, как отбирать события (в данном случае - новости), влияющие на предсказания. Если всё, написанное в статье - правда, то авторы провели серьёзную работу по доведению (достаточно очевидной) идеи до работающего PoC.
В основе системы лежит (Figure 1):
1. Обогащение данных вспомогательной информацией типа погодных условий, курсов валют, национальных праздников и т.п. на момент измерений.
2. Обогащение избранными новостями и цикл обратной связи по отбору этих новостей из всего потока.
Новости делятся на три типа: (а) Short-Term Effect, (б) Long-Term Effect, и (в) бесполезные (Figure 2).
В цикле обратной связи предсказанная кривая сравнивается с оригинальной, и модель просят найти "пропущенные новости", которые не были включены в изначальный список новостей для предсказания, но могут влиять на предсказания (см Prompt 3). Больше примеров - в статье.
В качестве модели для предсказаний используется обычная llama-2-7b, затюненная на предсказания за сутки на 1xA100.
В авторских экспериментах показатели с каждой из 3-4 итерацией улучшались (Table 2) и в конце модель с существенным перевесом обходила deep learning модели предсказания (Table 3).
Мы недавно обсуждали внутри, что не очень понятно, как строить CoT рассуждения для тренировки рассуждающих моделей на рядах, и подобный подход возможно даст возможность такие цепочки генерировать в достаточном для обучения количестве.
PS Все промпты и весь код опубликованы, можно экспериментировать 🙂
👍1