python协整_python 时间序列模型中forecast和predict的区别

A. python中两列金融时间序列数据，怎么对时间相同的数据做运算

数据先导入，通常用csv。然后是时间格式转换用time.strptime 转换完的时间可以直接取到hour,miniute,等属性，你直接按hour做当天平均值，再做月份的平均值。（其实可以一直计算，不用分开算）

B. python 时间序列数据怎么预测

时间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征。这是一类相对比较复杂的预测建模问题，和回归分析模型的预测不同
时间序列模型是依赖于事件发生的先后顺序的，同样大小的值改变顺序后输入模型产生的结果是不同的。

C. Python Pandas一个DataFrame中有多个时间序列如何处理

虽然不知道是想解决怎样的具体问题，但按照您的思路来看，有可能是通过多重条件判断来检索出数据。如果是的话，可以看一下我的方法：
我来模拟一个问题，就是我想找出2016-10-02号离职的人当中，哪些人的入职日期是在2015-01-01和2015-02-01这个范围内的。而方法是
df.query('out_date=="2016-10-02" & "2015-01-01" <= in_date <= "2015-02-01"')
-----------------------------分割线-----------------------------
纠正个问题，就是dataframe['2017-06-12']这种用法是不对的，这种只会返回列名是2017-06-12的这个列，而非找出有2017-06-12的记录。如果是想通过索引值来检索数据的话前提把日期设为索引，然后通过dataframe.loc['2017-06-12']这种方式来检索数据。

D. python怎么初始化时间序列数组

经考证，python至今不具有传入初始值的功能！比如matlab的simulate是可以传入初始值的，但是python目前没有这个功能！！

E. python中的噪声是什么意思

白噪声是时间序列预测中的一个重要概念。如果一个时间序列是白噪声，它是一个随机数序列，不能预测。如果预测误差不是白噪声，它暗示了预测模型仍有改进空间。

什么是白噪声时间序列？

时间序列可能是白噪声。时间序列如果变量是独立的且恒等分布的均值为0，那么它是白噪声。这意味着所有变量具有相同的方差 (sigma^2)，并且每个值与该系列中的所有其他值具有零相关。

如果序列中的变量被高斯分布绘制，则该系列称为高斯白噪声。

为什么这么重要？

白噪声是时间序列分析和预测中的一个重要的概念。

重要的两个主要原因为：

1.可预测性：如果你的时间序列是白噪声，那么根据定义它是随机的。你无法对它合理的建模并进行预测。

2.模型诊断：时间序列上一系列误差的预测模型最好是白噪声。

模型诊断是时间序列预测的重要领域。

时间序列数据在潜在的因素产生的信号上被预测，它包含一些白噪声成分。

例如：

y(t)= signal(t)+ noise(t)

通过时间序列预测模型进行预测，可以对其进行收集和分析。在理想情况下，预测误差应该是白噪声。

当预测误差为白噪声时，意味着时间序列中的所有信号已全部被模型利用进行预测。剩下的就是无法建模的随机波动。

模型预测的信号不是白噪声则表明可以进一步对预测模型改进。

你的时间序列白噪音吗?

你的时间序列如果符合下面条件则不是白噪声:

你的序列均值为零吗?
方差随时间变化吗?
值与延迟值相关吗?

你可以用一些工具来检查你的时间序列是否为白噪音:

创建一个折线图。检查总体特征，如变化的平均值，方差或延迟变量之间的明显关系。
计算汇总统计。对照序列中有意义的连续块的均值和方差，检查整个序列的均值和方差(如年、月、日)。
创建一个自相关的图。检查延迟变量之间的总体相关性。

白噪声时间序列的例子

在本节中,我们将使用Python创建一个高斯白噪声序列并做一些检查。它有助于在实践中创建和评估白噪声时间序列。它将提供参考框架和示例图并且使用和比较自己的时间序列项目的统计测试，以检查它们是否为白噪声

首先，我们可以使用随机模块的gauss()函数创建一个1,000个随机高斯变量的列表。

我们将从高斯分布提取变量：平均值(mu)0.0和标准偏差(sigma)1.0。

一旦创建,为方便起见，我们可以在Pandas序列中打包这个列表。

from randomimport gaussfrom randomimport seedfrom pandasimport Seriesfrom pandas.tools.plottingimport autocorrelation_plot

# seed random number generatorseed(1)# create white noise series

series= [gauss(0.0,1.0)for iin range(1000)]series= Series(series)

接下来，我们可以计算和打印一些汇总统计数据，包含序列的平均值和标准偏差。

# summary statsprint(series.describe())

鉴于我们在绘制随机数时定义了平均值和标准偏差，所以应该不会有意外。

count 1000.000000mean -0.013222std 1.003685min -2.96121425% -0.68419250% -0.01093475% 0.703915max 2.737260

我们可以看到平均值接近0.0，标准偏差接近1.0。考虑到样本较小预测会有些误差。

如果我们有更多的数据，将序列分成两半计算和比较每一半的汇总统计可能会更有趣。我们认为每个子系列的平均值和标准差都会相似。

现在我们可以创建一些序列的线条图。

# line plot

series.plot()pyplot.show()

我们可以看到，这个序列似乎是随机的。

为了完整性，下面提供了完整的代码清单。

from randomimport gaussfrom randomimport seedfrom pandasimport Seriesfrom pandas.tools.plottingimport autocorrelation_plotfrom matplotlibimport pyplot

# seed random number generatorseed(1)# create white noise series

series= [gauss(0.0,1.0)for iin range(1000)]series= Series(series)# summary statsprint(series.describe())# line plot

series.plot()pyplot.show()# histogram plot

series.hist()pyplot.show()# _plot(series)pyplot.show()

原文：网页链接

F. 如何用Python做舆情时间序列可视化

如何批量处理评论信息情感分析，并且在时间轴上可视化呈现？舆情分析并不难，让我们用Python来实现它吧。
痛点
你是一家连锁火锅店的区域经理，很注重顾客对餐厅的评价。从前，你苦恼的是顾客不爱写评价。最近因为餐厅火了，分店越来越多，写评论的顾客也多了起来，于是你新的痛苦来了——评论太多了，读不过来。
从我这儿，你了解到了情感分析这个好用的自动化工具，一下子觉得见到了曙光。
你从某知名点评网站上，找到了自己一家分店的页面，让助手把上面的评论和发布时间数据弄下来。因为助手不会用爬虫，所以只能把评论从网页上一条条复制粘贴到Excel里。下班的时候，才弄下来27条。（注意这里我们使用的是真实评论数据。为了避免对被评论商家造成困扰，统一将该餐厅的名称替换为“A餐厅”。特此说明。）

好在你只是想做个试验而已，将就了吧。你用我之前介绍的中文信息情感分析工具，依次得出了每一条评论的情感数值。刚开始做出结果的时候，你很兴奋，觉得自己找到了舆情分析的终极利器。
可是美好的时光总是短暂的。很快你就发现，如果每一条评论都分别运行一次程序，用机器来做分析，还真是不如自己挨条去读省事儿。
怎么办呢？
序列
办法自然是有的。我们可以利用《贷还是不贷：如何用Python和机器学习帮你决策？》一文介绍过的数据框，一次性处理多个数据，提升效率。
但是这还不够，我们还可以把情感分析的结果在时间序列上可视化出来。这样你一眼就可以看见趋势——近一段时间里，大家是对餐厅究竟是更满意了，还是越来越不满意呢？
我们人类最擅长处理的，就是图像。因为漫长的进化史逼迫我们不断提升对图像快速准确的处理能力，否则就会被环境淘汰掉。因此才会有“一幅图胜过千言万语”的说法。

准备
首先，你需要安装Anaconda套装。详细的流程步骤请参考《如何用Python做词云》一文。
助手好不容易做好的Excel文件restaurant-comments.xlsx，请从这里下载。
用Excel打开，如果一切正常，请将该文件移动到咱们的工作目录demo下。

因为本例中我们需要对中文评论作分析，因此使用的软件包为SnowNLP。情感分析的基本应用方法，请参考《如何用Python做情感分析？》。
到你的系统“终端”(macOS, linux)或者“命令提示符”(Windows)下，进入我们的工作目录demo，执行以下命令。
pip install snownlp
pip install ggplot

运行环境配置完毕。
在终端或者命令提示符下键入：
jupyter notebook

如果Jupyter Notebook正确运行，下面我们就可以开始编写代码了。
代码
我们在Jupyter Notebook中新建一个Python 2笔记本，起名为time-series。

首先我们引入数据框分析工具Pandas，简写成pd以方便调用。
import pandas as pd

接着，读入Excel数据文件：
df = pd.read_excel("restaurant-comments.xlsx")

我们看看读入内容是否完整：
df.head()

结果如下：

注意这里的时间列。如果你的Excel文件里的时间格式跟此处一样，包含了日期和时间，那么Pandas会非常智能地帮你把它识别为时间格式，接着往下做就可以了。
反之，如果你获取到的时间只精确到日期，例如"2017-04-20"这样，那么Pandas只会把它当做字符串，后面的时间序列分析无法使用字符串数据。解决办法是在这里加入以下两行代码：
from dateutil import parser
df["date"] = df.date.apply(parser.parse)

这样，你就获得了正确的时间数据了。
确认数据完整无误后，我们要进行情感分析了。先用第一行的评论内容做个小实验。
text = df.comments.iloc[0]

然后我们调用SnowNLP情感分析工具。
from snownlp import SnowNLP
s = SnowNLP(text)

显示一下SnowNLP的分析结果：
s.sentiments

结果为：
0.6331975099099649

情感分析数值可以正确计算。在此基础上，我们需要定义函数，以便批量处理所有的评论信息。
def get_sentiment_cn(text):
s = SnowNLP(text) return s.sentiments

然后，我们利用Python里面强大的apply语句，来一次性处理所有评论，并且将生成的情感数值在数据框里面单独存为一列，称为sentiment。
df["sentiment"] = df.comments.apply(get_sentiment_cn)

我们看看情感分析结果：
df.head()

新的列sentiment已经生成。我们之前介绍过，SnowNLP的结果取值范围在0到1之间，代表了情感分析结果为正面的可能性。通过观察前几条数据，我们发现点评网站上，顾客对这家分店评价总体上还是正面的，而且有的评论是非常积极的。
但是少量数据的观察，可能造成我们结论的偏颇。我们来把所有的情感分析结果数值做一下平均。使用mean()函数即可。
df.sentiment.mean()

结果为：
0.7114015318571119

结果数值超过0.7，整体上顾客对这家店的态度是正面的。
我们再来看看中位数值，使用的函数为median()。
df.sentiment.median()

结果为：
0.9563139038622388

我们发现了有趣的现象——中位数值不仅比平均值高，而且几乎接近1（完全正面）。
这就意味着，大部分的评价一边倒表示非常满意。但是存在着少部分异常点，显着拉低了平均值。
下面我们用情感的时间序列可视化功能，直观查看这些异常点出现在什么时间，以及它们的数值究竟有多低。
我们需要使用ggplot绘图工具包。这个工具包原本只在R语言中提供，让其他数据分析工具的用户羡慕得流口水。幸好，后来它很快被移植到了Python平台。
我们从ggplot中引入绘图函数，并且让Jupyter Notebook可以直接显示图像。
%pylab inlinefrom ggplot import *

这里可能会报一些警告信息。没有关系，不理会就是了。
下面我们绘制图形。这里你可以输入下面这一行语句。
ggplot(aes(x="date", y="sentiment"), data=df) + geom_point() + geom_line(color = 'blue') + scale_x_date(labels = date_format("%Y-%m-%d"))

你可以看到ggplot的绘图语法是多么简洁和人性化。只需要告诉Python自己打算用哪个数据框，从中选择哪列作为横轴，哪列作为纵轴，先画点，后连线，并且可以指定连线的颜色。然后，你需要让X轴上的日期以何种格式显示出来。所有的参数设定跟自然语言很相似，直观而且易于理解。
执行后，就可以看到结果图形了。

在图中，我们发现许多正面评价情感分析数值极端的高。同时，我们也清晰地发现了那几个数值极低的点。对应评论的情感分析数值接近于0。这几条评论，被Python判定为基本上没有正面情感了。
从时间上看，最近一段时间，几乎每隔几天就会出现一次比较严重的负面评价。
作为经理，你可能如坐针毡。希望尽快了解发生了什么事儿。你不用在数据框或者Excel文件里面一条条翻找情感数值最低的评论。Python数据框Pandas为你提供了非常好的排序功能。假设你希望找到所有评论里情感分析数值最低的那条，可以这样执行：
df.sort(['sentiment'])[:1]

结果为：

情感分析结果数值几乎就是0啊！不过这里数据框显示评论信息不完全。我们需要将评论整体打印出来。
print(df.sort(['sentiment']).iloc[0].comments)

评论完整信息如下：
这次是在情人节当天过去的，以前从来没在情人节正日子出来过，不是因为没有男朋友，而是感觉哪哪人都多，所以特意错开，这次实在是馋A餐厅了，所以赶在正日子也出来了，从下午四点多的时候我看排号就排到一百多了，我从家开车过去得堵的话一个小时，我一看提前两个小时就在网上先排着号了，差不多我们是六点半到的，到那的时候我看号码前面还有才三十多号，我想着肯定没问题了，等一会就能吃上的，没想到悲剧了，就从我们到那坐到等位区开始，大约是十分二十分一叫号，中途多次我都想走了，哈哈，哎，等到最后早上九点才吃上的，服务员感觉也没以前清闲时周到了，不过这肯定的，一人负责好几桌，今天节日这么多人，肯定是很累的，所以大多也都是我自己跑腿，没让服务员给弄太多，就虾滑让服务员下的，然后环境来说感觉卫生方面是不错，就是有些太吵了，味道还是一如既往的那个味道，不过A餐厅最人性化的就是看我们等了两个多小时，上来送了我们一张打折卡，而且当次就可以使用，这点感觉还是挺好的，不愧是A餐厅，就是比一般的要人性化，不过这次就是选错日子了，以后还是得提前预约，要不就别赶节日去，太火爆了！
通过阅读，你可以发现这位顾客确实有了一次比较糟糕的体验——等候的时间太长了，以至于使用了“悲剧”一词；另外还提及服务不够周到，以及环境吵闹等因素。正是这些词汇的出现，使得分析结果数值非常低。
好在顾客很通情达理，而且对该分店的人性化做法给予了正面的评价。
从这个例子，你可以看出，虽然情感分析可以帮你自动化处理很多内容，然而你不能完全依赖它。
自然语言的分析，不仅要看表达强烈情感的关键词，也需要考虑到表述方式和上下文等诸多因素。这些内容，是现在自然语言处理领域的研究前沿。我们期待着早日应用到科学家们的研究成果，提升情感分析的准确度。
不过，即便目前的情感分析自动化处理不能达到非常准确，却依然可以帮助你快速定位到那些可能有问题的异常点(anomalies)。从效率上，比人工处理要高出许多。
你读完这条评论，长出了一口气。总结了经验教训后，你决定将人性化的服务贯彻到底。你又想到，可以收集用户等候时长数据，用数据分析为等待就餐的顾客提供更为合理的等待时长预期。这样就可以避免顾客一直等到很晚了。
祝贺你，经理！在数据智能时代，你已经走在了正确的方向上。
下面，你该认真阅读下一条负面评论了……

G. 新手求教！！！！python 从文件中读取时间序列，例如格式为171588表示17:15:88等，然后读取数据画图

用xticks命令，http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.xticks
例子：
import matplotlib.pyplot as plt

t11 = ['00', '01', '02', '03', '04', '05', '10', '11', '12', '13', '14', '15',
'20', '21', '22', '23', '24', '25', '30', '31', '32', '33', '34', '35',
'40', '41', '42', '43', '44', '45', '50', '51', '52', '53', '54', '55']

t12 = [173, 135, 141, 148, 140, 149, 152, 178, 135, 96, 109, 164, 137, 152,
172, 149, 93, 78, 116, 81, 149, 202, 172, 99, 134, 85, 104, 172, 177,
150, 130, 131, 111, 99, 143, 194]

plt.bar(range(len(t12)), t12, align='center')
plt.xticks(range(len(t12)), t11, size='small')
plt.show()

H. Python当中有哪些包或者函数可以求时间序列的倒谱系数

Python当中有哪些包或者函数可以求时间序列的倒谱系数
python是一种对缩进有严格要求的语言， Python脚本可以使用非常多的工具进行编写，笔者在Linux系统使用JEdit进行Python脚本编写，由于在Linux编写脚本比较痛苦，比如想一眼看出相同的变量在哪个地方使用就非常不方便，所以想转到Window系统上进行编写，在Windows上有一个非常轻量级的脚本编写工具：Note Pad++，还有一个Eclipse上的插件pydev。
但是直接将linux上的Python脚本直接移到window上编写时出现了大量的缩进问题，因为Linux和window上对待tab是不同的方式，有的是看做是一个space有的看作是几个space，非常的麻烦。

I. python 时间序列模型中forecast和predict的区别

举例说明，2017.01.01-.017.12.31的周期为12的月度数据中，用ARIMA拟合得到模型model。
model.get_prediction(start='2017.09.01'）则得到用拟合模型计算出来的样本内2017.09.01-2017.12.31的预测值；
model.get_forcast(step=5)则得到样本外推5期即2018.01.01-2018.05.31五个月的预测值；
注：
model.get_prediction也可做外推值的预测，设定好具体终止周期即可。

导航:首页 > 编程语言 > python协整

python协整

与python协整相关的资料