时间序列算法模型_如何在Python中用LSTM网络进行时间序列预测

‘壹’ 时间序列分析的具体算法

用随机过程理论和数理统计学方法，研究随机数据序列所遵从的统计规律，以用于解决实际问题。由于在多数问题中，随机数据是依时间先后排成序列的，故称为时间序列。它包括一般统计分析（如自相关分析、谱分析等），统计模型的建立与推断，以及关于随机序列的最优预测、控制和滤波等内容。经典的统计分析都假定数据序列具有独立性，而时间序列分析则着重研究数据序列的相互依赖关系。后者实际上是对离散指标的随机过程的统计分析，所以又可看作是随机过程统计的一个组成部分。例如,用x(t)表示某地区第t个月的降雨量，{x(t)，t=1，2，…}是一时间序列。对t=1，2，…，T，记录到逐月的降雨量数据x(1)，x(2)，…，x(T)，称为长度为T的样本序列。依此即可使用时间序列分析方法，对未来各月的雨量x(T+l)(l=1,2,…)进行预报。时间序列分析在第二次世界大战前就已应用于经济预测。二次大战中和战后，在军事科学、空间科学和工业自动化等部门的应用更加广泛。
就数学方法而言，平稳随机序列（见平稳过程）的统计分析，在理论上的发展比较成熟，从而构成时间序列分析的基础。
频域分析一个时间序列可看成各种周期扰动的叠加，频域分析就是确定各周期的振动能量的分配，这种分配称为“谱”，或“功率谱”。因此频域分析又称谱分析。谱分析中的一个重要是统计量,称为序列的周期图。当序列含有确定性的周期分量时，通过I(ω)的极大值点寻找这些分量的周期，是谱分析的重要内容之一。在按月记录的降雨量序列中，序列x(t)就可视为含有以12为周期的确定分量，所以序列x(t)可以表示为 ,它的周期图I(ω)处有明显的极大值。
当平稳序列的谱分布函数F（λ）具有谱密度ƒ(λ)（即功率谱）时，可用(2π)-1I(λ)去估计ƒ(λ)，它是ƒ(λ)的渐近无偏估计。如欲求ƒ(λ)的相合估计（见点估计），可用I(ω)的适当的平滑值去估计ƒ(λ),常用的方法为谱窗估计即取ƒ(λ)的估计弮(λ)为 ,式中wt(ω)称为谱窗函数。谱窗估计是实际应用中的重要方法之一。谱分布F(λ)本身的一种相合估计可由I(ω)的积分直接获得，即。研究以上各种估计量的统计性质，改进估计方法，是谱分析的重要内容。时域分析它的目的在于确定序列在不同时刻取值的相互依赖关系,或者说,确定序列的相关结构。这种结构是用序列的自相关函0,1,…)来描述的,为序列的自协方差函数值,m=Ex(t)是平稳序列的均值。常常采用下列诸式给出m，γ(k),ρ(k)的估计： ,通(k)了解序列的相关结构,称为自相关分析。研究它们的强、弱相合性及其渐近分布等问题，是相关分析中的基本问题。模型分析 20世纪70年代以来，应用最广泛的时间序列模型是平稳自回归-滑动平均模型 (简称ARMA模型)。其形状为：式中ε(t)是均值为零、方差为σ2的独立同分布的随机序列;和σ2为模型的参数,它们满足：对一切|z|≤1的复数z成立。p和q是模型的阶数，为非负整数。特别当q=0时，上述模型称为自回归模型；当p=0时, 称为滑动平均模型。根据x(t)的样本值估计这些参数和阶数，就是对这种模型的统计分析的内容。对于满足ARMA模型的平稳序列，其线性最优预测与控制等问题都有较简捷的解决方法,尤其是自回归模型,使用更为方便。G.U.尤尔在1925～1930年间就提出了平稳自回归的概念。1943年,Η.Β.曼和Α.瓦尔德发表了关于这种模型的统计方法及其渐近性质的一些理论结果。一般ARMA模型的统计分析研究，则是20世纪60年代后才发展起来的。特别是关于p，q值的估计及其渐近理论，出现得更晚些。除ARMA模型之外,还有其他的模型分析的研究,其中以线性模型的研究较为成熟，而且都与ARMA模型分析有密切关系。回归分析如果时间序列x(t)可表示为确定性分量φ(t)与随机性分量ω(t)之和，根据样本值x(1)，x(2)，…,x(T)来估计φ(t)及分析ω(t)的统计规律，属于时间序列分析中的回归分析问题。它与经典回归分析不同的地方是，ω(t)一般不是独立同分布的，因而在此必须涉及较多的随机过程知识。当φ(t)为有限个已知函数的未知线性组合时，即，式中ω(t)是均值为零的平稳序列,α1,α2,…,αs是未知参数,φ1(t),φ2(t),…,φs(t)是已知的函数,上式称为线性回归模型，它的统计分析已被研究得比较深入。前面叙述的降雨量一例，便可用此类模型描述。回归分析的内容包括:当ω(t)的统计规律已知时，对参数α1,α2,…,αs进行估计,预测x(T+l)之值；当ω(t)的统计规律未知时，既要估计上述参数，又要对ω(t)进行统计分析，如谱分析、模型分析等。在这些内容中,一个重要的课题是:在相当广泛的情况下，证明 α1,α2,…,αs的最小二乘估计，与其线性最小方差无偏估计一样，具有相合性和渐近正态分布性质。最小二乘估计姙j(1≤j≤s)不涉及ω(t)的统计相关结构，是由数据x(1)，x(2)，…，x(T)直接算出，由此还可得(t)进行时间序列分析中的各种统计分析，以代替对ω(t)的分析。在理论上也已证明，在适当的条件下，这样的替代具有满意的渐近性质。由于ω(t)的真值不能直接量测，这些理论结果显然有重要的实际意义。这方面的研究仍在不断发展。
时间序列分析中的最优预测、控制与滤波等方面的内容见平稳过程条。近年来多维时间序列分析的研究有所进展，并应用到工业生产自动化及经济分析中。此外非线性模型统计分析及非参数统计分析等方面也逐渐引起人们的注意。

‘贰’ 时间序列模型和神经网络模型有何区别

时间序列模型是指采用某种算法（可以是神经网络、ARMA等）模拟历史数据，找出其中的变化规律，
神经网络模型是一种算法，可以用于分类、聚类、预测等等不用领域；

两者一个是问题模型，一个是算法模型

‘叁’ 用时间序列的知识回答简述如何检验一个模型的有效性

为了得到正确的结论、在进行系统分析、预测和辅助决策时,必须保证模型能够准确地反映实际系统并能在计算机上正确运行.因此,必须对模型的有效性进行评估.模型有效性评估主要包括模型确认和模型验证两部分内容：模型确认考察的是系统模型（所建立的模型）与被仿真系统（研究对象）之间的关系,模型验证考察的则是系统模型与模型计算机实现之间的关系.
对于一个具体的建模项目来说,模型有效性评估贯穿于研究的始终.必须指出,模型实际上是所研究的系统的一种抽象表述形式,要验证一个模型是否百分之百有效是极其困难的,也是没有实际意义的.另外,模型是否有效是相对于研究目的以及用户需求而言的.在某些情况下,模型达到60％的可信度使可满足要求；而在另外一些情况下,模型达到99％都可能是不满足的.
模型有效性的概念出现在20世纪60年代,随着计算机仿真技术在各个学科和工程领域的普遍应用,模型有效性问题日益受到人们的关注. 1967年,美国兰德公司的fishman和Kivtat明确指出,模型有效性研究可划分为两个部分：模型的确认（validation）和验证（verification）.这一观点被国际仿真学界普遍采纳.模型确认指通过比较在相同输入条判和运行环境下模型与实际系统输出之间的一致性,评价模型的可信度或可用性.模型验证则是判断模型的计算机实现是否正确.
尽管确认和验证在各文献中的定义不尽相同,但对于二者之间的区别,专家的看法却是基本一致的.简单地说,模型确认强调理论模型与实际系统之间的一致性,模型验证则强调当前模型与计算机程序之间的一致性.在有些文献中也采用工程技术人员容易接受的“校模”和“验模”两个术语来分别代替“确认”和“验证”.模型的确认和验证与建模的关系见图 8.5.
在图 8.5中,“问题实体”指被建模的对象,如系统、观念、政策、现象等.“理论模型”是为达到某种特定的研究目的而对问题实体进行的数学／逻辑描述.“计算机模型”（computerized Model）是理论模型在计算机上的实现.
通过“分析与建模”活动可以建立理论模型.计算机模型的建立需通过“编程及实现”这一步骤来完成.经过仿真“实验”即可得到关于问题实体的结果.
模型确认包括理论模型有效性确认、数据有效性确认和运行有效性确认三部分内容,其中运行有效性确认是模型确认的核心.
图 8.5 确认和验证与建模的关系
1）理论模型有效性确认
理论模型有效性确认是对理论模型中采用的理论依据和假设条件的正确性以及理论模型对问题实体描述的合理性加以证实的过程.理论模型有效性确认包括两项内容：
（1）检验模型的理论依据及假设条件的正确性.它具有两个含义,一是检验理论依据的应用条件是否满足,如线性、正态性、独立性、静态性等；该检验过程可以利用统计方法进行.二是检验各种理论的应用是否正确.
（2）子模型的划分及其与总模型的关系是否合理,即分析模型的结构是否正确,子模型问的数学/逻辑关系是否与问题实体相符.理论模型经确认有效后,才能对其进行试运行.最后根据输出结果评估模型的精度.若理论模型无效,应重复分析、建模及确认的过程.
2）数据有效性确认
数据有效性确认用于保证模型建立、评估、检验和实验所用的数据是充分的和正确的.
在模型开发过程中,数据用于模型的建立、校验和运行.充分、正确、精确的数据是建立模型的基础.数据有效性确认包括对模型中关键变量、关键参数及随机变量的确认,以及对运行有效性确认时所使用的参数和初始值等数据的确认.
3）运行有效性确认
运行有效性确认指就模型开发目的或用途而言,模型在其预期应用范围内的输出行为是否有足够的精度.
运行有效性确认的目的是对模型输出结果的精度进行计算和评估.其前提是实际系统及其可比系统的数据均可获取.通过比较模型和实际系统在相同初始条件下的输出数据,可对模型有效性进行定量分析.与实际系统相类似的系统,确认为有效的解析模型、工程计算模型、以及经过确认的模型都可作为模型的可比系统.
理论模型确认、数据有效性确认及模型验证是运行有效性确认的前提.经运行有效性确认被认为有效的模型即可作为正式模型投入运行,利用它进行实际问题的研究.若模型在运行有效性确认时被确认为无效,其原因可能是理论模型不正确、或计算机模型不正确,也可能是数据无效.具体原因的查明需从分析与建模阶段开始,重复模型的构造过程.若实际系统及其可比系统不存在或完全不可观测,则模型与系统的输出数据无法进行比较.在这种情况下,一般只能通过模型验证和理论模型确认,定性地分析模型的有效性.
理论模型有效性包括：1）表观确认,分析对与模型有关的所有信息进行评估,确定需要附加分析的内容,以提高模型的可信度水平；2）历史分析,对与模型有关的历史信息的评估,以评价模型对预期应用的适宜性.3）预期应用和需求分析,对预期应用的效果进行评估,以确定那些对资源的有效利用起关键作用的需求.4）模型概念和逼真度分析,对模型的算法和子模型进行评估,以辨识那些不适用的假设,并确定子模型的逼真度是否能保证模型的预期应用.5）逻辑追踪分析,通过模型逻辑评估模型中指定实体的行为,并确定这些行为是否都是所期望的.

‘肆’ 怎么利用svm对时间序列进行建模

SVM理论是在统计学习理论的基础上发展起来的,由于统计学习理论和SVM方法对有限样本情况下模式识别中的一些根本性的问题进行了系统的理论研究,很大程度上解决了以往的机器学习中模型的选择与过学习问题、非线性和维数灾难、局部极小点问题等。应用SVM进行回归预测的步骤具体如下:
1)实验规模的选取,决定训练集的数量、测试集的数量,以及两者的比例;2)预测参数的选取;3)对实验数据进行规范化处理;4)核函数的确定;5)核函数参数的确定。其中参数的选择对SVM的性能来说是十分重要的,对于本文的核函数使用RBF核函数,对于RBF核函数,SVM参数包括折衷参数C、核宽度C和不敏感参数E。目前SVM方法的参数、核函数的参数选择,在国际上都还没有形成统一的模式,也就是说最优SVM算法参数选择还只能是凭借经验、实验对比、大范围的搜寻和交叉检验等进行寻优。实际应用中经常为了方便,主观设定一个较小的正数作为E的取值,本文首先在C和C的一定范围内取多个值来训练,定下各个参数取值的大概范围,然后利用留一法来具体选定参数值
股价时间序列的SVM模型最高阶确定
股价数据是一个时间序列,从时间序列的特征分析得知,股价具有时滞、后效性,当天的股价不仅还与当天各种特征有关,还与前几天的股价及特征相关,所以有必要把前几天的股价和特征作为自变量来考虑。最高阶确定基本原理是从低阶开始对系统建模,然后逐步增加模型的阶数,并用F检验对这些模型进行判别来确定最高阶n,这样才能更客观反映股票价格的时滞特性。具体操作步骤如下:假定一多输入单输出回归模型有N个样本、一个因变量(股价)、m- 1个自变量(特征),由低阶到高阶递推地采用SVM模型去拟合系统(这儿的拓阶就是把昨天股价当做自变量,对特征同时拓阶),并依次对相邻两个SVM模型采用F检验的方法判断模型阶次增加是否合适[ 7]。对相邻两模型SVM ( n)和SVM ( n+ 1)而言,有统计量Fi为:Fi=QSVR (n)- QSVR( n+1)QSVR (n)1N - m n - (m -1)mi =1,2,,, n(1)它服从自由度分别为m和(N - m n - (m -1) )的F分布,其中QSVR (n)和QSVR( n+1)分别为SVR ( n)和QSVR( n+1)的剩余离差平方和,若Fi< F(?,m, N-m n- (m-1) ),则SVM (n )模型是合适的;反之,继续拓展阶数。
前向浮动特征筛选
经过上述模型最高阶数的确定后,虽然确定了阶数为n的SVM模型,即n个特征,但其中某些特征对模型的预测精度有不利影响,本文采用基于SVM和留一法的前向浮动特征特征筛选算法选择对提高预测精度有利影响的特征。令B= {xj: j=1,2,,, k}表示特征全集, Am表示由B中的m个特征组成的特征子集,评价函数MSE (Am)和MSE (Ai) i =1,2,,, m -1的值都已知。本文采用的前向浮动特征筛选算法如下[9]:1)设置m =0, A0为空集,利用前向特征筛选方法寻找两个特征组成特征子集Am(m =2);2)使用前向特征筛选方法从未选择的特征子集(B -Am)中选择特征xm +1,得到子集Am+1;3)如果迭代次数达到预设值则退出,否则执行4);4)选择特征子集Am+1中最不重要的特征。如果xm+1是最不重要的特征即对任意jXm +1, J (Am +1- xm+1)FJ(Am +1- xj)成立,那么令m = m +1,返回2) (由于xm+1是最不重要的特征,所以无需从Am中排除原有的特征);如果最不重要的特征是xr( r =1,2,,, m )且MSE (Am+1- xr) < MSE (Am)成立,排除xr,令A'm= Am+1- xr;如果m =2,设置Am= A'm,J (Am) = J (A'm), ,返回2),否则转向步骤5);5)在特征子集A'm中寻找最不重要的特征xs,如果MSE (A'm- xs)EM SE (Am-1),那么设置Am= A'm, MSE (Am)= MSE (A'm),返回2);如果M SE (A'm- xs) < M SE (Am -1),那么A'm从中排除xs,得到A'm-1= Am- xs,令m = m -1;如果m =2,设置Am= A'm, MSE (Am) = MSE (A'm)返回2),否则转向5)。最后选择的特征用于后续建模预测。
预测评价指标及参比模型
训练结果评估阶段是对训练得出的模型推广能力进行验证,所谓推广能力是指经训练后的模型对未在训练集中出现的样本做出正确反应的能力。为了评价本文模型的优劣,选择BPANN、多变量自回归时间序列模型( CAR)和没有进行拓阶和特征筛选的SVM作为参比模型。采用均方误差(mean squared error, MSE)和平均绝对误差百分率(mean ab-solute percentage error, MAPE)作为评价指标。MSE和MAP定义如下:M SE=E(yi- y^i)2n( 2)MAPE=E| yi- y^i| /yin( 3)其中yi为真值, y^i为预测值, n为预测样本数。如果得出M SE, MAPE结果较小,则说明该评估模型的推广能力强,或泛化能力强,否则就说明其推广能力较差

‘伍’ 如何在Python中用LSTM网络进行时间序列预测

时间序列模型

时间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征。这是一类相对比较复杂的预测建模问题，和回归分析模型的预测不同，时间序列模型是依赖于事件发生的先后顺序的，同样大小的值改变顺序后输入模型产生的结果是不同的。
举个栗子：根据过去两年某股票的每天的股价数据推测之后一周的股价变化；根据过去2年某店铺每周想消费人数预测下周来店消费的人数等等

RNN 和 LSTM 模型

时间序列模型最常用最强大的的工具就是递归神经网络（recurrent neural network, RNN）。相比与普通神经网络的各计算结果之间相互独立的特点，RNN的每一次隐含层的计算结果都与当前输入以及上一次的隐含层结果相关。通过这种方法，RNN的计算结果便具备了记忆之前几次结果的特点。

典型的RNN网路结构如下：

4. 模型训练和结果预测
将上述数据集按4:1的比例随机拆分为训练集和验证集，这是为了防止过度拟合。训练模型。然后将数据的X列作为参数导入模型便可得到预测值，与实际的Y值相比便可得到该模型的优劣。

实现代码

时间间隔序列格式化成所需的训练集格式

import pandas as pdimport numpy as npdef create_interval_dataset(dataset, look_back):

""" :param dataset: input array of time intervals :param look_back: each training set feature length :return: convert an array of values into a dataset matrix. """

dataX, dataY = [], [] for i in range(len(dataset) - look_back):

dataX.append(dataset[i:i+look_back])

dataY.append(dataset[i+look_back]) return np.asarray(dataX), np.asarray(dataY)

df = pd.read_csv("path-to-your-time-interval-file")

dataset_init = np.asarray(df) # if only 1 columndataX, dataY = create_interval_dataset(dataset, lookback=3) # look back if the training set sequence length

这里的输入数据来源是csv文件，如果输入数据是来自数据库的话可以参考这里

LSTM网络结构搭建

import pandas as pdimport numpy as npimport randomfrom keras.models import Sequential, model_from_jsonfrom keras.layers import Dense, LSTM, Dropoutclass NeuralNetwork():

def __init__(self, **kwargs):

""" :param **kwargs: output_dim=4: output dimension of LSTM layer; activation_lstm='tanh': activation function for LSTM layers; activation_dense='relu': activation function for Dense layer; activation_last='sigmoid': activation function for last layer; drop_out=0.2: fraction of input units to drop; np_epoch=10, the number of epoches to train the model. epoch is one forward pass and one backward pass of all the training examples; batch_size=32: number of samples per gradient update. The higher the batch size, the more memory space you'll need; loss='mean_square_error': loss function; optimizer='rmsprop' """

self.output_dim = kwargs.get('output_dim', 8) self.activation_lstm = kwargs.get('activation_lstm', 'relu') self.activation_dense = kwargs.get('activation_dense', 'relu') self.activation_last = kwargs.get('activation_last', 'softmax') # softmax for multiple output

self.dense_layer = kwargs.get('dense_layer', 2) # at least 2 layers

self.lstm_layer = kwargs.get('lstm_layer', 2) self.drop_out = kwargs.get('drop_out', 0.2) self.nb_epoch = kwargs.get('nb_epoch', 10) self.batch_size = kwargs.get('batch_size', 100) self.loss = kwargs.get('loss', 'categorical_crossentropy') self.optimizer = kwargs.get('optimizer', 'rmsprop') def NN_model(self, trainX, trainY, testX, testY):

""" :param trainX: training data set :param trainY: expect value of training data :param testX: test data set :param testY: epect value of test data :return: model after training """

print "Training model is LSTM network!"

input_dim = trainX[1].shape[1]

output_dim = trainY.shape[1] # one-hot label

# print predefined parameters of current model:

model = Sequential() # applying a LSTM layer with x dim output and y dim input. Use dropout parameter to avoid overfitting

model.add(LSTM(output_dim=self.output_dim,

input_dim=input_dim,

activation=self.activation_lstm,

dropout_U=self.drop_out,

return_sequences=True)) for i in range(self.lstm_layer-2):

model.add(LSTM(output_dim=self.output_dim,

input_dim=self.output_dim,

activation=self.activation_lstm,

dropout_U=self.drop_out,

return_sequences=True)) # argument return_sequences should be false in last lstm layer to avoid input dimension incompatibility with dense layer

model.add(LSTM(output_dim=self.output_dim,

input_dim=self.output_dim,

activation=self.activation_lstm,

dropout_U=self.drop_out)) for i in range(self.dense_layer-1):

model.add(Dense(output_dim=self.output_dim,

activation=self.activation_last))

model.add(Dense(output_dim=output_dim,

input_dim=self.output_dim,

activation=self.activation_last)) # configure the learning process

model.compile(loss=self.loss, optimizer=self.optimizer, metrics=['accuracy']) # train the model with fixed number of epoches

model.fit(x=trainX, y=trainY, nb_epoch=self.nb_epoch, batch_size=self.batch_size, validation_data=(testX, testY)) # store model to json file

model_json = model.to_json() with open(model_path, "w") as json_file:

json_file.write(model_json) # store model weights to hdf5 file

if model_weight_path: if os.path.exists(model_weight_path):

os.remove(model_weight_path)

model.save_weights(model_weight_path) # eg: model_weight.h5

return model

这里写的只涉及LSTM网络的结构搭建，至于如何把数据处理规范化成网络所需的结构以及把模型预测结果与实际值比较统计的可视化，就需要根据实际情况做调整了。

‘陆’ 年限比较少的时间序列分析用什么方法

时间序列分析
编辑

时间序列分析(Time series analysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法，研究随机数据序列所遵从的统计规律，以用于解决实际问题。
目录
1简介
2参考
3组成要素
4基本步骤
5主要用途
▪ 系统描述
▪ 系统分析
▪ 预测未来
▪ 决策和控制
6具体算法
1简介编辑
它包括一般统计分析(如自相关分析，谱分析等),统计模型的建立与推断，以及关于时间序列的最优预测、控制与滤波等内容。经典的统计分析都假定数据序列具有独立性，而时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析，所以又可看作是随机过程统计的一个组成部分。例如，记录了某地区第一个月，第二个月，……，第N个月的降雨量，利用时间序列分析方法，可以对未来各月的雨量进行预报。
随着计算机的相关软件的开发，数学知识不再是空谈理论，时间序列分析主要是建立在数理统计等知识之上，应用相关数理知识在相关方面的应用等。
2参考编辑
参考自：科学技术方法大辞典
时间序列是按时间顺序的一组数字序列。时间序列分析就是利用这组数列，应用数理统计方法加以处理，以预测未来事物的发展。时间序列分析是定量预测方法之一，它的基本原理：一是承认事物发展的延续性。应用过去数据，就能推测事物的发展趋势。二是考虑到事物发展的随机性。任何事物发展都可能受偶然因素影响，为此要利用统计分析中加权平均法对历史数据进行处理。该方法简单易行，便于掌握，但准确性差，一般只适用于短期预测。时间序列预测一般反映三种实际变化规律:趋势变化、周期性变化、随机性变化。
时间序列分析是根据系统观测得到的时间序列数据，通过曲线拟合和参数估计来建立数学模型的理论和方法。它一般采用曲线拟合和参数估计方法（如非线性最小二乘法）进行。时间序列分析常用在国民经济宏观控制、区域综合发展规划、企业经营管理、市场潜量预测、气象预报、水文预报、地震前兆预报、农作物病虫灾害预报、环境污染控制、生态平衡、天文学和海洋学等方面。
3组成要素编辑
一个时间序列通常由4种要素组成：趋势、季节变动、循环波动和不规则波动。
趋势：是时间序列在长时期内呈现出来的持续向上或持续向下的变动。
季节变动：是时间序列在一年内重复出现的周期性波动。它是诸如气候条件、生产条件、节假日或人们的风俗习惯等各种因素影响的结果。
循环波动：是时间序列呈现出得非固定长度的周期性变动。循环波动的周期可能会持续一段时间，但与趋势不同，它不是朝着单一方向的持续变动，而是涨落相同的交替波动。
不规则波动：是时间序列中除去趋势、季节变动和周期波动之后的随机波动。不规则波动通常总是夹杂在时间序列中，致使时间序列产生一种波浪形或震荡式的变动。只含有随机波动的序列也称为平稳序列。
4基本步骤编辑
时间序列建模基本步骤是：
①用观测、调查、统计、抽样等方法取得被观测系统时间序列动态数据。
②根据动态数据作相关图，进行相关分析，求自相关函数。相关图能显示出变化的趋势和周期，并能发现跳点和拐点。跳点是指与其他数据不一致的观测值。如果跳点是正确的观测值,在建模时应考虑进去,如果是反常现象，则应把跳点调整到期望值。拐点则是指时间序列从上升趋势突然变为下降趋势的点。如果存在拐点，则在建模时必须用不同的模型去分段拟合该时间序列，例如采用门限回归模型。
③辨识合适的随机模型,进行曲线拟合,即用通用随机模型去拟合时间序列的观测数据。对于短的或简单的时间序列，可用趋势模型和季节模型加上误差来进行拟合。对于平稳时间序列，可用通用ARMA模型（自回归滑动平均模型）及其特殊情况的自回归模型、滑动平均模型或组合-ARMA模型等来进行拟合。当观测值多于50个时一般都采用ARMA模型。对于非平稳时间序列则要先将观测到的时间序列进行差分运算，化为平稳时间序列，再用适当模型去拟合这个差分序列。
5主要用途编辑
系统描述
根据对系统进行观测得到的时间序列数据，用曲线拟合方法对系统进行客观的描述。
系统分析
当观测值取自两个以上变量时，可用一个时间序列中的变化去说明另一个时间序列中的变化，从而深入了解给定时间序列产生的机理。
预测未来
一般用ARMA模型拟合时间序列，预测该时间序列未来值。
决策和控制
根据时间序列模型可调整输入变量使系统发展过程保持在目标值上，即预测到过程要偏离目标时便可进行必要的控制。
6具体算法编辑
用随机过程理论和数理统计学方法，研究随机数据序列所遵从的统计规律，以用于解决实际问题。由于在多数问题中，随机数据是依时间先后排成序列的，故称为时间序列。它包括一般统计分析（如自相关分析、谱分析等），统计模型的建立与推断，以及关于随机序列的最优预测、控制和滤波等内容。经典的统计分析都假定数据序列具有独立性，而时间序列分析则着重研究数据序列的相互依赖关系。后者实际上是对离散指标的随机过程的统计分析，所以又可看作是随机过程统计的一个组成部分。例如,用x(t)表示某地区第t个月的降雨量，{x(t)，t=1，2，…}是一时间序列。对t=1，2，…，T，记录到逐月的降雨量数据x(1)，x(2)，…，x(T)，称为长度为T的样本序列。依此即可使用时间序列分析方法，对未来各月的雨量x(T+l)(l=1,2,…)进行预报。时间序列分析在第二次世界大战前就已应用于经济预测。二次大战中和战后，在军事科学、空间科学和工业自动化等部门的应用更加广泛。
就数学方法而言，平稳随机序列（见平稳过程）的统计分析，在理论上的发展比较成熟，从而构成时间序列分析的基础。
频域分析一个时间序列可看成各种周期扰动的叠加，频域分析就是确定各周期的振动能量的分配，这种分配称为“谱”，或“功率谱”。因此频域分析又称谱分析。谱分析中的一个重要统计量是 ,称为序列的周期图。当序列含有确定性的周期分量时，通过I(ω)的极大值点寻找这些分量的周期

公式
，是谱分析的重要内容之一。在按月记录的降雨量序列中，序列x(t)就可视为含有以12为周期的确定分量，所以序列x(t)可以表示为 ,它的周期图I(ω)处有明显的极大值。
当平稳序列的谱分布函数F（λ）具有谱密度ƒ(λ)（即功率谱）时，

公式
可用(2π)-1I(λ)去估计ƒ(λ)，它是ƒ(λ)的渐近无偏估计。如欲求ƒ(λ)的相合估计（见点估计），可用I(ω)的适当的平滑值去估计ƒ(λ),常用的方法为谱窗估计即取ƒ(λ)的估计弮(λ)为 ,式中wt(ω)称为谱窗函数。谱窗估计是实际应用中的重要方法之一。谱分布F(λ)本身的一种相合估计可由I(ω)的积分直接获得，即。研究以上各种估计量的统计性质，改进估计方法，是谱分析的重要内容。

公式
时域分析它的目的在于确定序列在不同时刻取值的相互依赖关系,或者说,确定序列的相关结构。这种结构是用序列的自相关函0,1,…)来描述的,为序列的自协方差函数值,m=Ex(t)是平稳序列的均值。常常采用下列诸

公式
式给出m，γ(k),ρ(k)的估计： ,通(k)了解序列的相关结构,称为自相关分析。研究它们的强、弱相合性及其渐近分布等问题，是相关分析中的基本问题。

公式
模型分析 20世纪70年代以来，应用最广泛的时间序列模型是平稳自回归-滑动平均模型 (简称ARMA模型)。其形状为：式中ε(t)是均值为零、方差为σ2的独立同分布的随机序列;和σ2为模型的参数,它们满足：对一切|z|≤1的复数z成立。p和q是模型的阶

公式
数，为非负整数。特别当q=0时，上述模型称为自回归模型；当p=0时, 称为滑动平均模型。根据x(t)的样本值估计这些参数和阶数，就是对这种模型的统计分析的内容。对

公式
于满足ARMA模型的平稳序列，其线性最优预测与控制等问题都有较简捷的解决方法,尤其是自回归模型,使用更为方便。G.U.尤尔在1925～1930年间就提出了平稳自回归

公式
的概念。1943年,Η.Β.曼和Α.瓦尔德发表了关于这种模型的统计方法及其渐近性质的一些理论结果。一般ARMA模型的统计分析研究，则是20世纪60年代后才发展起来

公式
的。特别是关于p，q值的估计及其渐近理论，出现得更晚些。除ARMA模型之外,还有其他的模型分析的研究,其中以线性模型的研究较为成熟，而且都与ARMA模型分析有密切关系。

公式

公式
回归分析如果时间序列x(t)可表示为确定性分量φ(t)与随机性分量ω(t)之和，根据样本值x(1)，x(2)，…,x(T)来估计φ(t)及分析ω(t)的统计规律，属于时间序列分析中的回归分析问题。它与经典回归分析不同的地方是，ω(t)一般不

公式
是独立同分布的，因而在此必须涉及较多的随机过程知识。当φ(t)为有限个已知函数的未知线性组合时，即，式中ω(t)是均值为零的平稳序列,α1,α2,…,αs是未知参数,φ1(t),φ2(t),…,φs(t)是已知的函数,上式称为线性回归模型，它的统计分析已被研究得比较深入。前面叙述的降雨量一例，便可用此类模型描述。回归分析的内容包括:当ω(t)的统计规律已知时，对参数α1,α2,…,αs进行估计,预测x(T+l)之值；当ω(t)的统计规律未知时，既要估计上述参数，又要对ω(t)

公式
进行统计分析，如谱分析、模型分析等。在这些内容中,一个重要的课题是:在相当广泛的情况下，证明 α1,α2,…,αs的最小二乘估计，与其线性最小方差无偏估计一样，具有相合性和渐近正态分布性质。最小二乘估计姙j(1≤j≤s)不涉及ω(t)的统计相关结构，是由数据x(1)，x(2)，…，x(T)直接算出，由此还可得公式(t)
公式
进行时间序列分析中的各种统计分析，以代替对ω(t)的分析。在理论上也已证明，在适当的条件下，这样的替代具有满意的渐近性质。由于ω(t)的真值不能直接量测，这些理论结果显然有重要的实际意义。这方面的研究仍在不断发展。
时间序列分析中的最优预测、控制与滤波等方面的内容见平稳过程条。近年来多维时间序列分析的研究有所进展，并应用到工业生产自动化及经济分析中。此外非线性模型统计分析及非参数统计分析等方面也逐渐引起人们的注意。

‘柒’ 状态空间模型的状态空间模型的时间序列预测的优点

基于状态空间模型的时间序列预测的优点是：状态空间模型求解算法的核心是Kalman滤波，Kalman滤波是在时刻t基于所有可得到的信息计算状态向量的最理想的递推过程。当扰动项和初始状态向量服从正态分布时，Kalman滤波能够通过预测误差分解计算似然函数，从而可以对模型中的所有未知参数进行估计，并且当新的观测值一旦得到，就可以利用Kalman滤波连续地修正状态向量的估计。

导航:首页 > 源码编译 > 时间序列算法模型

时间序列算法模型

与时间序列算法模型相关的资料