ICML24｜通用时间序列预测大模型思路

论文标题：Unified Training of Universal Time Series Forecasting Transformers

GitHub链接：https://github. com/SalesforceAIResearch/uni2ts

论文链接：https://arxiv.org/pdf/2402.02592

前言

普适预测器是一个能够处理任何时间序列预测问题的大型预训练模型。它在跨多个领域的大规模时间序列数据集上进行训练。如图1，与现有范式相比，普适预测面临三个关键问题：i) 多频率，ii) 任意变量预测，iii) 分布变化。

为了解决这些挑战，本文对传统时间序列Transformer架构进行了新颖的增强，提出了——基于掩码编码器的普适时间序列预测Transformer（MOIRAI）。MOIRAI在新引入的大规模开放时间序列档案（LOTSA）上进行了训练，该档案包含了来自九个领域的超过270亿个观测值。作为零样本预测器，MOIRAI在性能上与全样本模型相比具有更优越的表现。

本文工作

上图是本文MOIRAI框架图，

作者首先提出学习多个输入和输出投影层，以处理来自不同频率时间序列的不同模式。通过使用基于patch的投影，对于高频数据采用较大的patch大小，反之亦然，投影层专门学习该频率的模式。
其次，通过提出的任意变量注意力机制解决了维度变化的问题，该机制将时间和变量轴同时视为单个序列，利用旋转位置嵌入（RoPE）和学习的二元注意力偏差分别编码时间和变量轴。任意变量注意力机制允许模型输入任意数量的变量。
最后，通过混合参数分布解决了需要灵活预测分布的问题。此外，优化灵活分布的负对数似然具有与目标度量优化竞争的附加优势，这对于预训练普适预测器来说是一个强大的功能，因为它可以随后使用任何目标度量进行评估。

概括一下：

MOIRAI采用基于patch的非重叠方法，通过掩码编码器架构对时间序列进行建模。提出的将架构扩展到任意变量设置的一项修改是“展平”多变量时间序列，将所有变量视为单个序列。随后通过多patch大小输入投影层投影为向量表示。[mask]表示一个可学习的嵌入，替换掉预测范围内的patch(感觉和语言模型思路类似)。然后，输出token通过多patch大小输出投影解码为混合分布的参数。

核心Transformer模块是一个仅包含编码器的Transformer架构，利用了当前的大型语言模型架构提出的各种改进trick，包括：1）使用预归一化并用RMSNorm替换所有LayerNorm；2）应用了查询-键归一化；3）FFN层中的非线性被SwiGLU替换，调整隐藏维度以使参数数量与原始FFN层相同。在Transformer模块的所有层中省略了偏置。