Chronos-2: From Univariate to Universal Forecasting

type

status

date

slug

summary

摘要：

Pretrained time series models have enabled inference-only forecasting systems that produce accurate predictions without task-specific training. However, existing approaches largely focus on univariate forecasting, limiting their applicability in real-world scenarios where multivariate data and covariates play a crucial role. We present Chronos-2, a pretrained model capable of handling univariate, multivariate, and covariate-informed forecasting tasks in a zero-shot manner. Chronos-2 employs a group attention mechanism that facilitates in-context learning (ICL) through efficient information sharing across multiple time series within a group, which may represent sets of related series, variates of a multivariate series, or targets and covariates in a forecasting task. These general capabilities are achieved through training on synthetic datasets that impose diverse multivariate structures on univariate series. Chronos-2 delivers state-of-the-art performance across three comprehensive benchmarks: fev-bench, GIFT-Eval, and Chronos Benchmark II. On fev-bench, which emphasizes multivariate and covariate-informed forecasting, Chronos-2's universal ICL capabilities lead to substantial improvements over existing models. On tasks involving covariates, it consistently outperforms baselines by a wide margin. Case studies in the energy and retail domains further highlight its practical advantages. The in-context learning capabilities of Chronos-2 establish it as a general-purpose forecasting model that can be used "as is" in real-world forecasting pipelines.

解决的问题：

大多数预训练模型仅对单变量数据进行操作，仅考虑单个时间序列的历史观测值来生成预测。

主要结构：

该图展示了首先使用稳健的缩放方案对输入时间序列 (目标和协变量) 进行归一化，然后添加时间索引和掩码元特征。由此产生的序列被分割成互不重叠的片段，并通过残差网络映射到高维嵌入。核心Transformer堆栈对这些片段嵌入进行操作，并生成与作为输入提供的掩码未来片段相对应的多片段分位数输出。每个Transformer模块在时间注意力层和组注意力层之间交替：时间注意力层将片段间的信息聚合到单个时间序列中，而组注意力层将每个片段索引中所有序列的信息聚合到组内。组是关联性的一个灵活概念，可以对应于单个时间序列、共享同一源或元数据的多个序列、多元序列的变量，或目标以及相关的协变量。图中展示了两个各有一个已知协变量的多元时间序列，对应的组分别以蓝色和红色突出显示。此示例仅用于说明；Chronos-2 支持任意数量的目标和可选协变量。

Chronos-2 模型结构介绍：

1 缩放和分词

1.1 输入构建

该模型对从目标和协变量导出的两个输入进行操作。我们将所有历史值连接成，其中每个由目标观测值和相应的协变量向量组成。类似地，我们将未来值定义为，其中包含已知的未来协变量值 (如果可用)，而对应于目标和仅过去协变量的条目被设置为缺失值。

中的类别协变量在连接到和之前被转换为实值表示。对于单变量目标，我们应用目标编码(Pedregosa等人, 2011; Micci-Barreca, 2001)，它根据每个类别与目标的关系将其映射到一个数值。对于多变量目标，模型回退到序数编码，为每个类别分配一个唯一的整数。

1.2 稳健的扩展

输入值和可以是任意比例，因此我们的标记化管道首先对序列进行标准化。我们采用文献中广泛使用的标准化方法标准化，并引入一个额外的步骤：对标准化值应用这种类似对数的变换进一步稳定了方差并减少了异常值对目标函数的影响。它已在计量经济学 (Burbidge 等人, 1988)和能源价格预测(Uniejewski & Weron，2018)文献中用于处理极值。形式上，每个历史值和未来值被标准化为：

其中和分别是历史值的平均值和标准差。计算和时，将排除中的任何缺失值。将标准化历史值和未来值连接起来构建输入矩阵。

1.3 元特征

在分词过程中，U 的每一个维度都会被模型独立处理。为了描述分词过程，考虑单个列，它对应某一个目标或协变量维度 d。在每一列中会附加两个额外的元特征：时间索引和掩码。时间索引用于编码每个时间步的相对位置，其中是模型支持的最大上下文长度。它为模型提供关于时间顺序的显式信息，这在使用基于 patch 的输入时是有益的。掩码是一个二元指示器，当该值被观测到时为 1，否则为 0。它有两个用途：指示历史上下文中哪些值缺失，以及指定哪些输入维度对应于未来已知的协变量。在构建掩码之后，中所有缺失值都会被替换为零。

1.4 修补和嵌入

输入及其对应的元特征和会被切分为长度为的不重叠 patch(Nie et al., 2023)。时间序列的上下文部分与未来部分，以及元特征，都会分别进行切分。当和不是的整数倍时，会在左侧 (上下文部分) 或右侧 (未来部分) 进行零填充。记、和为第个 patch 的输入、时间索引和掩码。这些会被拼接后通过一个残差网络：映射到嵌入空间中，得到，其中是残差网络的参数，是 transformer 模型的隐藏维度。在上下文 patch 和未来 patch 的嵌入之间，会加入一个特殊的 REG token，它同时充当分隔符和 attention sink (Xiao et al., 2024)。

2 框架

Chronos-2 是一个仅包含编码器的 transformer (Vaswani 等，2017) 模型，其设计与 T5 编码器 (Raffel 等，2020) 高度一致。

Chronos-2 的关键架构组件如下：

2.1 时间注意力

时间注意力层是序列模型中常见的常规注意力层。它沿着时间轴执行自注意力，并在同一输入维度的不同 patch 之间聚合信息。同时原始 T5 模型中自注意力层使用的相对位置编码替换为旋转位置编码 (RoPE) (Su 等，2024) ，后者已经成为现代基于 transformer 模型中的事实标准 (Touvron 等，2023) 。

2.2 组注意力

这是实现 Chronos-2 上下文学习能力的核心模块。该层在给定 patch 索引处，在属于同一组的时间序列之间聚合信息。“组”指一组相关的时间序列，其具体含义取决于预测任务。例如，一个组可能由以下构成：

• 单个时间序列：最小的分组方式，模型在此情况下执行单变量预测，而不参考 batch 中的其他序列。

• 一组共享来源或元数据的时间序列：这种分组方式使模型能够执行跨序列学习 (也称 few-shot 学习) ，对相关序列进行联合预测，而不是仅根据每条时间序列的自身历史进行单变量预测。在所有或部分 (冷启动场景) 时间序列历史较短，或下游数据集与训练数据分布差异较大时，在相关时间序列之间共享信息尤为有用。

• 一组共享动态特性的变量：这种分组方式支持多变量预测，使模型能够联合预测具有共享动态的所有变量。

• 由目标变量、仅历史可用协变量以及未来已知协变量组成的集合：这是最通用的情况，模型在预测目标值时同时利用协变量。

在一个大小为的 batch 中，可能存在多个不同规模的组，每个组由组 ID 标识，是一个长度为的向量。在内部，组注意力层会将这些 ID 映射到一个二维 attention mask，以确保聚合仅在组内发生，而不会跨组进行。由于组内的时间序列本身没有自然顺序，组注意力层会省略位置嵌入 (positional embeddings) 。

2.3 分位数头

在经过一系列交替的时间注意力层和组注意力层之后，个目标维度的未来 patch 的嵌入会被送入一个残差块，以生成直接的多步分位数预测。通过在一次前向传播中为多个目标 patch 生成预测，模型能够高效地产生长预测范围的结果。Chronos-2 预测 21 个分位数。相比于现有预训练模型常用的 9 个分位数 {0.1, 0.2, …, 0.9}，这带来了更丰富的预测分布表征。加入极端分位数提高了模型对罕见事件的覆盖能力，并增强了其在异常检测和风险感知预测等任务中的适用性。

3 训练

在训练过程中，批次被构造为包含多种不同类型的预测任务：单变量预测、多变量预测 (这也覆盖了仅包含历史协变量的任务) ，以及带有未来已知协变量的多变量预测。每个任务由目标维度的数量、协变量的数量，以及每个维度的角色 (目标、仅历史协变量或未来已知协变量) 来表征。每个任务都会被分配一个唯一的 group ID，将 group ID 与未来输入是否被观测到结合起来，使模型能够推断特定的预测设置。

模型使用分位数回归目标进行训练：

其中为分位数水平的预测值，为对应的目标值 (如式 (1) 中所归一化) 。损失在所有预测步和批次中的所有样本上取平均，并且仅在目标维度上计算，对应于未来已知协变量或缺失目标值的条目会被排除在目标函数之外。训练过程中，输出 patch 的数量在每个 batch 中会随机采样。

训练分两个阶段进行。第一阶段，模型以最大 2048 的上下文长度以及较少的输出 patch 数量进行预训练。第二阶段，上下文长度扩展到 8192，并增加最大输出 patch 的数量。更长的上下文使模型能够捕捉高频时间序列中的长期季节性，而多 patch 输出允许模型在不依赖启发式方法的情况下进行长预测范围的预测。

4 推理

预测结果是通过对模型预测值进行反归一化并对公式 (1) 取逆得到的。形式上，分位数头的输出被转换为

以在时间步沿目标维度得到分位数水平的预测值。

在推断过程中，一个 batch 中的多个时间序列可以按如下方式分组，以解决不同的预测任务：

单变量预测 (univariate forecasting) ：batch 中的每个条目都被分配一个唯一的 group ID。这确保模型对 batch 中每个时间序列独立进行预测。

多变量预测 (multivariate forecasting) ：属于同一个多变量时间序列的每个变量都被分配相同的 group ID，而来自其他多变量序列的变量则会有不同的 group ID。这使模型能够在多变量序列的不同变量之间共享动态信息。

带协变量的预测 (forecasting with covariates) ：所有的目标、仅历史可用协变量以及未来已知协变量，都被分配相同的 group ID。与未来已知协变量对应的未来输入包含它们的已知未来值。模型对协变量生成的预测会被忽略。

表 2：通过适当地指定 group ID 和未来输入值，可以解决多种预测任务。这里

和分别表示提供给模型的 group ID 和未来值。目标和仅历史协变量的未来输入被视为缺失值 (以 * 表示) 。示例中使用固定数量的变量以便说明，但 Chronos-2 可以处理任意维度。