当前位置：首页 > news >正文

【数据挖掘】时间序列预测-时间序列的平稳性

news 2025/4/28 6:20:02

时间序列的平稳性

- - （1）平稳性定义
  - （2）平稳性处理方法
  - - 2.1 差分法
    - 2.2 季节调整（Seasonal Adjustment）
    - 2.3 趋势移除（Detrending）
    - 2.4 对数转换（Logarithmic Transformation）
  - （3）平稳性检测方法
  - - 3.1 ADF平稳性检验
    - 3.2 ACF自相关检验
    - 3.3 滞后图

（1）平稳性定义

做时间序列预测，就一定要关注序列的平稳性。序列的稳定性直接决定了序列预测的效果。

序列的平稳性（Stationary Series），是指一组时间序列数据看起来平坦，其各阶统计特征（如均值、方差、协方差等）不随时间的变化而变化。这种平稳性可以分为严平稳和宽平稳（或称为弱平稳）两种。

严平稳（强平稳）：其要求非常严格，它要求两组数据之间的任何统计性质都不会随着时间改变。然而，这种严平稳的要求过于严苛，理论上很难证明、实际中难以检验，因此它基本上没有什么应用场景。
宽平稳（弱平稳）：它不要求全部特性不随时间改变，仅要求平均值、方差和协方差不随时间而变化。在实际应用中，我们更多关注的是宽平稳性。

与平稳序列相对应的就是非平稳序列（Non-stationary Series）：非平稳序列是指其统计特性在时间上发生变化。这种序列可能具有趋势（随着时间变化的整体增长或减少）、季节性（周期性变化）或者其他随机的不规则变化。

时间序列的非平稳性（non-stationarity）是一个在真实世界中广泛存在的问题。非平稳性可能导致在训练集上训练的模型在测试集上表现不佳。这是因为训练集和测试集往往属于不同的时间段，而不同时间段的数据分布可能存在较大差异。这种差异可能导致模型在训练集上学习到的模式在测试集上不再适用，从而影响模型的预测性能。

（2）平稳性处理方法

2.1 差分法

差分法的基本思想是通过计算时间序列中相邻两个或多个时刻的观测值之差，来消除或减弱原始数据中的趋势或季节性等不稳定因素，从而得到一个相对平稳的新序列。

具体来说，一次差分（也称为一阶差分）是计算相邻两个时刻的观测值之差，即：
在这里插入图片描述

其中， y_t 表示第 t 个时刻的观测值， Δy_t 表示 t 时刻的一次差分。

如果一次差分后的序列仍然不满足平稳性要求，可以进行二次差分（也称为二阶差分），即计算一次差分序列中相邻两个时刻的观测值之差：

在这里插入图片描述

以此类推，可以进行更高阶的差分。

差分法的优点在于简单易行，能够有效地消除时间序列中的趋势和季节性等不稳定因素。然而，差分法也可能带来一些问题，比如过度差分可能导致信息损失和预测精度下降。

下面是一个简单的例子：

假设我们有以下时间序列数据：y={1,3,7,13,21,31}

对应的差分序列为：dy={3−1,7−3,13−7,21−13,31−21}={2,4,6,8,10}

原曲线：在图上绘制点 (1,1)，(2,3)，(3,7)，(4,13)，(5,21)，(6,31)，并连接这些点形成曲线。

差分曲线：在图上绘制点 (1,2)，(2,4)，(3,6)，(4,8)，(5,10)，并连接这些点形成曲线。

在这里插入图片描述

从上图中我们可以看到，原始数据是一个趋势递增数列，差分后得到的序列变成了一条直线序列。差分操作实际上是在计算数据点之间的变化率，当数据中存在明显的趋势或周期性时，差分可以减少这种趋势或周期性的变化速度。

2.2 季节调整（Seasonal Adjustment）

在分析时间序列数据时，我们经常会发现数据受到季节变动的影响。这种季节变动可能由气候条件、生产周期、假期和销售等季节性因素造成。这些季节因素有时会掩盖时间序列的短期基本变动趋势，从而降低数据的可比性，影响经济分析和预测的准确性。

常见的季节调整方法包括移动平均法、X-11方法等。这些方法可以根据序列的季节性特征，对序列进行平滑处理或分解，以消除季节性波动的影响。

举例：假设我们有一个包含季节性的时间序列数据。我们通过季度平均的方法来消除单月带来的差异。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt# 构造一个包含季节性的时间序列数据
np.random.seed(0)
trend = np.linspace(100, 200, 120)  # 线性趋势
seasonal = [40, 30, 24, 20] * 30  # 季度季节性
irregular = np.random.normal(0, 5, 120)  # 随机不规则成分
data = trend + seasonal + irregular# 生成pandas序列
index = pd.date_range(start='2020-01-01', periods=120, freq='M')
df = pd.DataFrame({'Original': data}, index=index)# 这里仅通过简单平均计算季节因子
seasonal_factors = df['Original'].resample('Q').mean() / df['Original'].mean()# 应用季节因子进行调整，这里仅作示意
df['Seasonally Adjusted'] = df['Original'] / seasonal_factors.reindex(df.index, method='ffill')# 绘制原始和季节调整后的数据
plt.rcParams['font.sans-serif']=['SimHei']
plt.figure(figsize=(12, 6))
plt.plot(df['Original'], label='原始序列')
plt.plot(df['Seasonally Adjusted'], label='季节调整后曲线')
plt.title('季节调整示例')
plt.xlabel('Time')
plt.ylabel('Value')
plt.legend()
plt.show()

在这里插入图片描述

2.3 趋势移除（Detrending）

趋势移除的主要目的是消除数据中由于某种系统性原因产生的长期变化趋势，这种趋势可能会掩盖或误导对数据中其他模式或关系的分析。通过去除趋势，可以更加清晰地看到数据的周期性、季节性或其他短期波动。

趋势移除的具体方法包括：

移动平均方法：移动平均方法通过计算一个固定大小窗口内数据的平均值来平滑数据。在趋势移除中，我们通常使用中心移动平均（Centered Moving Average, CMA）或简单移动平均（Simple Moving Average, SMA）。移动平均可以消除数据中的短期波动，从而更清晰地看到长期趋势。
线性回归方法：线性回归方法通过拟合一条直线来描述数据的趋势变化。它将时间作为自变量，对应的观测值作为因变量，通过最小二乘法来估计直线的斜率和截距，从而得到数据的趋势。这种方法能够较准确地反映数据的变化趋势，但可能不适用于具有非线性趋势的数据。
趋势循环剔除法：趋势循环剔除法基于假设：数据中的异常值通常会与数据中的趋势或周期性变化相矛盾。该方法首先确定数据的趋势和周期，对数据进行拟合得到一条拟合曲线。然后计算每个数据点在拟合曲线中的残差值，并将这些残差值按大小排序。接下来，确定一个剔除的阈值（通常为残差值的平均值加上某个倍数的标准差），将不符合阈值的数据点视为异常值并剔除。

举例1：我们还是用上一节的季节性趋势和随机噪声的时间序列数据，并使用简单移动平均来移除趋势。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt# 构造一个包含季节性的时间序列数据
np.random.seed(0)
trend = np.linspace(100, 200, 120)  # 线性趋势
seasonal = [40, 30, 24, 20] * 30  # 季度季节性
irregular = np.random.normal(0, 5, 120)  # 随机不规则成分
data = trend + seasonal + irregular# 生成pandas序列
index = pd.date_range(start='2020-01-01', periods=120, freq='M')
df = pd.DataFrame({'Original': data}, index=index)# 使用简单移动平均移除趋势
window_size = 12  # 假设季节性周期为12个月
df['Moving Average'] = df['Original'].rolling(window=window_size, center=True).mean()# 季节调整（这里简单地用移动平均作为季节趋势的近似）
df['Seasonally Adjusted'] = df['Original'] - df['Moving Average'] + df['Moving Average'].mean()# 绘制原始和季节调整后的数据
plt.figure(figsize=(12, 6))
plt.plot(df['Original'], label='Original')
plt.plot(df['Moving Average'], label='Moving Average (Trend Approximation)', color='orange')
plt.plot(df['Seasonally Adjusted'], label='Seasonally Adjusted', color='green')
plt.title('Seasonal Adjustment Example using Moving Average')
plt.xlabel('Time')
plt.ylabel('Value')
plt.legend()
plt.show()

在这里插入图片描述

举例2：本例用一个二项式拟合来移除趋势。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression# 构造一个包含季节性的时间序列数据
np.random.seed(0)
x = np.linspace(0, 11, 120).reshape(-1, 1)  # 时间作为自变量，这里简化使用0到11的等差数列
trend = 5 * x ** 2 + 10 * x + 50  # 非线性趋势成分
irregular = np.random.normal(0, 10, 120)  # 随机噪声
data = trend.ravel() + irregular  # 合并趋势和噪声index = pd.date_range(start='2020-01-01', periods=120, freq='M')
df = pd.DataFrame({'Original': data}, index=index)# 使用二次多项式回归拟合趋势
poly_features = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly_features.fit_transform(x)
model = LinearRegression()
model.fit(X_poly, data)# 预测趋势值
trend_values = model.predict(X_poly)# 去除趋势后的数据
df['Trend Removed'] = df['Original'] - trend_values# 绘制原始和去除趋势后的数据
plt.figure(figsize=(12, 6))
plt.plot(df.index, df['Original'], label='Original')
plt.plot(df.index, trend_values, label='Fitted Trend', color='orange')
plt.plot(df.index, df['Trend Removed'], label='Trend Removed', color='green')
plt.title('Nonlinear Trend Removal Example using Polynomial Regression')
plt.xlabel('Time')
plt.ylabel('Value')
plt.legend()
plt.show()

在这里插入图片描述

2.4 对数转换（Logarithmic Transformation）

对数转换通常用于时间序列分析，特别是当数据呈现出指数增长或衰减趋势时。通过对数转换，我们可以将数据转换为线性增长或衰减形式，从而更容易地识别和分析趋势。

对数转换通过取数据的自然对数（或其他底数的对数）来转换数据。对于指数增长的数据，这种转换可以将趋势转换为线性增长，从而使得趋势分析更为简单。转换后的数据可以通过线性模型（如最小二乘法）来拟合，进而估算趋势。

举例：

# 构造一个包含季节性的时间序列数据
np.random.seed(0)
time_index = np.linspace(0, 10, 120)  # 时间索引
trend = np.exp(time_index * 0.2)  # 指数增长趋势成分
seasonal = np.tile([1.2, 1.0, 0.8, 0.6], 30)  # 季节性成分
irregular = np.random.normal(0, 0.1, 120)  # 随机噪声
data = trend * seasonal + irregular  # 合并趋势、季节性和噪声index = pd.date_range(start='2020-01-01', periods=120, freq='M')
df = pd.DataFrame({'Original': data}, index=index)# 对数转换
df['Log-Transformed'] = np.log(df['Original'])# 线性拟合转换后的数据（这里仅用于演示目的，实际应用中可能需要更复杂的方法）
from sklearn.linear_model import LinearRegression
X = time_index.reshape(-1, 1)  # 假设我们知道时间索引的确切值
y = df['Log-Transformed']
model = LinearRegression()
model.fit(X, y)
trend_line = model.predict(X)# 转换回原始尺度以绘制趋势线
trend_line_original_scale = np.exp(trend_line)# 绘制原始和转换后的数据，以及趋势线
plt.figure(figsize=(12, 6))
plt.plot(df.index, df['Original'], label='Original')
plt.plot(df.index, trend_line_original_scale, label='Fitted Trend (after Log-Transformation)', color='orange')
plt.plot(df.index, df['Log-Transformed'], label='Log-Transformed', color='green', linestyle='--')
plt.title('Trend Analysis with Log-Transformation')
plt.xlabel('Time')
plt.ylabel('Value')
plt.legend()
plt.show()

在这里插入图片描述

（3）平稳性检测方法

3.1 ADF平稳性检验

ADF平稳性检验（Augmented Dickey-Fuller test，增广迪基-福勒检验）是一种用于检验时间序列数据是否平稳的统计方法。具体来说，ADF检验是基于Dickey-Fuller单位根检验的扩展，用于判断时间序列数据是否存在单位根，从而判断数据是否平稳。如果时间序列数据存在单位根，则表明该数据序列是非平稳的，可能存在某种趋势或周期性。

ADF平稳性检验在金融经济学、宏观经济学等领域有广泛应用，例如用于判断股票价格、经济指标等时间序列数据的平稳性。在进行ADF检验时，通常需要先对数据进行差分处理，以消除可能的趋势或周期性。然后，通过计算检验统计量并与临界值进行比较，可以判断时间序列数据是否平稳。

ADF（Augmented Dickey-Fuller）算法的输出结果通常包含几个关键部分：

p-value（p值）：p值表示观察到的统计量或更极端情况在零假设（即序列存在单位根，因此非平稳）下出现的概率。
- 如果p值小于选定的显著性水平（如0.05或0.01），我们通常拒绝零假设，认为序列是平稳的。
- 如果p值大于选定的显著性水平，我们不能拒绝零假设，因此认为序列可能是非平稳的。
Test Statistic（检验统计量）：
- 检验统计量是ADF检验的核心，它基于模型的残差计算得出。
- 通常，检验统计量会与临界值（critical values）进行比较。临界值是基于样本大小和显著性水平计算得出的。
- 如果检验统计量小于临界值，我们可以拒绝零假设，认为序列是平稳的。
Critical Values（临界值）：
- 临界值通常与显著性水平（如1%，5%，10%）相对应，表示在零假设下，检验统计量可能取到的极端值的界限。
- 如果检验统计量落在临界值之外（即小于临界值），我们可以拒绝零假设。

ADF Statistic: -4.5678  
p-value: 0.0001  
Critical Values:  1%: -3.43  5%: -2.86  10%: -2.57

在这个例子中，ADF统计量（-4.5678）小于所有临界值（1%为-3.43，5%为-2.86，10%为-2.57），p值（0.0001）远小于常用的显著性水平（如0.05），因此我们可以拒绝原假设，认为这个序列是平稳的。

ADF Statistic: -1.2345  
p-value: 0.4567  
Critical Values:  1%: -3.43  5%: -2.86  10%: -2.57

在这个例子中，ADF统计量（-1.2345）大于所有临界值，p值（0.4567）大于常用的显著性水平（如0.05），因此我们不能拒绝原假设，即该序列可能存在单位根，是非平稳的。

3.2 ACF自相关检验

ACF（自相关函数）：用于衡量时间序列数据与其自身在不同时间点延迟之间的相关性。它计算了时间序列在每个滞后值上的相关系数，以度量时间序列中每个时刻与过去某一时刻之间的相关性。ACF图通常以延迟（lag）为横轴，相关系数为纵轴。

自相关图是一个平面二维坐标悬垂线图，其中一个坐标轴表示延迟时期数（通常称为lag），另一个坐标轴表示自相关系数。通常以悬垂线表示自相关系数的大小。

在自相关图中，我们可以观察自相关系数随延迟期数的变化情况。如果自相关系数一直都比较小，且在零附近波动，那么可以认为该序列是平稳时间序列。相反，如果自相关系数衰减到零的速度较慢，或者在某些延迟期数上出现了较大的自相关系数，那么可能说明该序列不是平稳的。

举例

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.graphics.tsaplots import plot_acf# 创建一个平稳序列（白噪声）
np.random.seed(0)  # 为了可复现性
n_samples = 100
stable_series = np.random.normal(size=n_samples)# 创建一个非平稳序列（带有线性趋势的白噪声）
time_index = np.arange(n_samples)
non_stable_series = 0.05 * time_index + np.random.normal(size=n_samples)# 将序列转换为pandas Series对象，以便于处理
stable_series = pd.Series(stable_series)
non_stable_series = pd.Series(non_stable_series, index=time_index)plt.rcParams['font.sans-serif']=['SimHei']
# 绘制平稳序列的时序图和自相关图
plt.figure(figsize=(12, 6))
plt.subplot(2, 1, 1)
plt.plot(stable_series)
plt.title('平稳序列时序图')
plt.subplot(2, 1, 2)
plot_acf(stable_series, lags=60, ax=plt.gca())
plt.title('平稳序列自相关图')
plt.show()# 绘制非平稳序列的时序图和自相关图
plt.figure(figsize=(12, 6))
plt.subplot(2, 1, 1)
plt.plot(non_stable_series)
plt.title('非平稳序列时序图')
plt.subplot(2, 1, 2)
plot_acf(non_stable_series, lags=60, ax=plt.gca())
plt.title('非平稳序列自相关图')
plt.show()