Ⅰ PyFlux庫函數是什麼
PyFlux是python編程語言的開源時間序列庫。PyFlux是Python中為處理時間序列問題而創建的開源庫。該庫有一系列極好的時間序列模型,包括但不限於 ARIMA、 GARCH 和 VAR 模型。簡而言之,PyFlux提供了一個時間序列建模的概率方法。
PyFlux允許使用時間序列建模,並且已經實現了像GARCH這樣的現代時間序列模型。
時間序列研究是統計學和計量經濟學的一個子領域,目標可以描述時間序列如何表現(以潛在的因素或興趣的特徵來表示),也可以藉此預測未來的行為。
(1)python協整性檢驗庫擴展閱讀:
Python擁有一個強大的標准庫。Python語言的核心只包含數字、字元串、列表、字典、文件等常見類型和函數,而由Python標准庫提供了系統管理、網路通信、文本處理、資料庫介面、圖形系統、XML處理等額外的功能。Python標准庫命名介面清晰、文檔良好,很容易學習和使用。
Python標准庫的主要功能有:
文本處理,包含文本格式化、正則表達式匹配、文本差異計算與合並、Unicode支持,二進制數據處理等功能
文件處理,包含文件操作、創建臨時文件、文件壓縮與歸檔、操作配置文件等功能
操作系統功能,包含線程與進程支持、IO復用、日期與時間處理、調用系統函數、寫日記(logging)等功能
網路通信,包含網路套接字,SSL加密通信、非同步網路通信等功能
網路協議,支持HTTP,FTP,SMTP,POP,IMAP,NNTP,XMLRPC等多種網路協議,並提供了編寫網路伺服器的框架
W3C格式支持,包含HTML,SGML,XML的處理
其它功能,包括國際化支持、數學運算、HASH、Tkinter等
Ⅱ arima模型python 怎麼看平穩性
時間序列分析(一) 如何判斷序列是否平穩
序列平穩不平穩,一般採用兩種方法:
第一種:看圖法
圖是指時序圖,例如(eviews畫滴):
分析:什麼樣的圖不平穩,先說下什麼是平穩,平穩就是圍繞著一個常數上下波動。
看看上面這個圖,很明顯的增長趨勢,不平穩。
第二種:自相關系數和偏相關系數
還以上面的序列為例:用eviews得到自相關和偏相關圖,Q統計量和伴隨概率。
分析:判斷平穩與否的話,用自相關圖和偏相關圖就可以了。
平穩的序列的自相關圖和偏相關圖不是拖尾就是截尾。截尾就是在某階之後,系數都為 0 ,怎麼理解呢,看上面偏相關的圖,當階數為 1 的時候,系數值還是很大, 0.914. 二階長的時候突然就變成了 0.050. 後面的值都很小,認為是趨於 0 ,這種狀況就是截尾。再就是拖尾,拖尾就是有一個衰減的趨勢,但是不都為 0 。
自相關圖既不是拖尾也不是截尾。以上的圖的自相關是一個三角對稱的形式,這種趨勢是單調趨勢的典型圖形。
下面是通過自相關的其他功能
如果自相關是拖尾,偏相關截尾,則用 AR 演算法
如果自相關截尾,偏相關拖尾,則用 MA 演算法
如果自相關和偏相關都是拖尾,則用 ARMA 演算法, ARIMA 是 ARMA 演算法的擴展版,用法類似 。
不平穩,怎麼辦?
答案是差分
還是上面那個序列,兩種方法都證明他是不靠譜的,不平穩的。確定不平穩後,依次進行1階、2階、3階...差分,直到平穩位置。先來個一階差分,上圖。
從圖上看,一階差分的效果不錯,看著是平穩的。
Ⅲ 如何用Python做輿情時間序列可視化
如何批量處理評論信息情感分析,並且在時間軸上可視化呈現?輿情分析並不難,讓我們用Python來實現它吧。
痛點
你是一家連鎖火鍋店的區域經理,很注重顧客對餐廳的評價。從前,你苦惱的是顧客不愛寫評價。最近因為餐廳火了,分店越來越多,寫評論的顧客也多了起來,於是你新的痛苦來了——評論太多了,讀不過來。
從我這兒,你了解到了情感分析這個好用的自動化工具,一下子覺得見到了曙光。
你從某知名點評網站上,找到了自己一家分店的頁面,讓助手把上面的評論和發布時間數據弄下來。因為助手不會用爬蟲,所以只能把評論從網頁上一條條復制粘貼到Excel里。下班的時候,才弄下來27條。(注意這里我們使用的是真實評論數據。為了避免對被評論商家造成困擾,統一將該餐廳的名稱替換為「A餐廳」。特此說明。)
好在你只是想做個試驗而已,將就了吧。你用我之前介紹的中文信息情感分析工具,依次得出了每一條評論的情感數值。剛開始做出結果的時候,你很興奮,覺得自己找到了輿情分析的終極利器。
可是美好的時光總是短暫的。很快你就發現,如果每一條評論都分別運行一次程序,用機器來做分析,還真是不如自己挨條去讀省事兒。
怎麼辦呢?
序列
辦法自然是有的。我們可以利用《貸還是不貸:如何用Python和機器學習幫你決策?》一文介紹過的數據框,一次性處理多個數據,提升效率。
但是這還不夠,我們還可以把情感分析的結果在時間序列上可視化出來。這樣你一眼就可以看見趨勢——近一段時間里,大家是對餐廳究竟是更滿意了,還是越來越不滿意呢?
我們人類最擅長處理的,就是圖像。因為漫長的進化史逼迫我們不斷提升對圖像快速准確的處理能力,否則就會被環境淘汰掉。因此才會有「一幅圖勝過千言萬語」的說法。
准備
首先,你需要安裝Anaconda套裝。詳細的流程步驟請參考《 如何用Python做詞雲 》一文。
助手好不容易做好的Excel文件restaurant-comments.xlsx,請從這里下載。
用Excel打開,如果一切正常,請將該文件移動到咱們的工作目錄demo下。
因為本例中我們需要對中文評論作分析,因此使用的軟體包為SnowNLP。情感分析的基本應用方法,請參考《如何用Python做情感分析?》。
到你的系統「終端」(macOS, Linux)或者「命令提示符」(Windows)下,進入我們的工作目錄demo,執行以下命令。
pip install snownlp
pip install ggplot
運行環境配置完畢。
在終端或者命令提示符下鍵入:
jupyter notebook
如果Jupyter Notebook正確運行,下面我們就可以開始編寫代碼了。
代碼
我們在Jupyter Notebook中新建一個Python 2筆記本,起名為time-series。
首先我們引入數據框分析工具Pandas,簡寫成pd以方便調用。
import pandas as pd
接著,讀入Excel數據文件:
df = pd.read_excel("restaurant-comments.xlsx")
我們看看讀入內容是否完整:
df.head()
結果如下:
注意這里的時間列。如果你的Excel文件里的時間格式跟此處一樣,包含了日期和時間,那麼Pandas會非常智能地幫你把它識別為時間格式,接著往下做就可以了。
反之,如果你獲取到的時間只精確到日期,例如"2017-04-20"這樣,那麼Pandas只會把它當做字元串,後面的時間序列分析無法使用字元串數據。解決辦法是在這里加入以下兩行代碼:
from dateutil import parser
df["date"] = df.date.apply(parser.parse)
這樣,你就獲得了正確的時間數據了。
確認數據完整無誤後,我們要進行情感分析了。先用第一行的評論內容做個小實驗。
text = df.comments.iloc[0]
然後我們調用SnowNLP情感分析工具。
from snownlp import SnowNLP
s = SnowNLP(text)
顯示一下SnowNLP的分析結果:
s.sentiments
結果為:
0.6331975099099649
情感分析數值可以正確計算。在此基礎上,我們需要定義函數,以便批量處理所有的評論信息。
def get_sentiment_cn(text):
s = SnowNLP(text) return s.sentiments
然後,我們利用Python裡面強大的apply語句,來一次性處理所有評論,並且將生成的情感數值在數據框裡面單獨存為一列,稱為sentiment。
df["sentiment"] = df.comments.apply(get_sentiment_cn)
我們看看情感分析結果:
df.head()
新的列sentiment已經生成。我們之前介紹過,SnowNLP的結果取值范圍在0到1之間,代表了情感分析結果為正面的可能性。通過觀察前幾條數據,我們發現點評網站上,顧客對這家分店評價總體上還是正面的,而且有的評論是非常積極的。
但是少量數據的觀察,可能造成我們結論的偏頗。我們來把所有的情感分析結果數值做一下平均。使用mean()函數即可。
df.sentiment.mean()
結果為:
0.7114015318571119
結果數值超過0.7,整體上顧客對這家店的態度是正面的。
我們再來看看中位數值,使用的函數為median()。
df.sentiment.median()
結果為:
0.9563139038622388
我們發現了有趣的現象——中位數值不僅比平均值高,而且幾乎接近1(完全正面)。
這就意味著,大部分的評價一邊倒表示非常滿意。但是存在著少部分異常點,顯著拉低了平均值。
下面我們用情感的時間序列可視化功能,直觀查看這些異常點出現在什麼時間,以及它們的數值究竟有多低。
我們需要使用ggplot繪圖工具包。這個工具包原本只在R語言中提供,讓其他數據分析工具的用戶羨慕得流口水。幸好,後來它很快被移植到了Python平台。
我們從ggplot中引入繪圖函數,並且讓Jupyter Notebook可以直接顯示圖像。
%pylab inlinefrom ggplot import *
這里可能會報一些警告信息。沒有關系,不理會就是了。
下面我們繪制圖形。這里你可以輸入下面這一行語句。
ggplot(aes(x="date", y="sentiment"), data=df) + geom_point() + geom_line(color = 'blue') + scale_x_date(labels = date_format("%Y-%m-%d"))
你可以看到ggplot的繪圖語法是多麼簡潔和人性化。只需要告訴Python自己打算用哪個數據框,從中選擇哪列作為橫軸,哪列作為縱軸,先畫點,後連線,並且可以指定連線的顏色。然後,你需要讓X軸上的日期以何種格式顯示出來。所有的參數設定跟自然語言很相似,直觀而且易於理解。
執行後,就可以看到結果圖形了。
在圖中,我們發現許多正面評價情感分析數值極端的高。同時,我們也清晰地發現了那幾個數值極低的點。對應評論的情感分析數值接近於0。這幾條評論,被Python判定為基本上沒有正面情感了。
從時間上看,最近一段時間,幾乎每隔幾天就會出現一次比較嚴重的負面評價。
作為經理,你可能如坐針氈。希望盡快了解發生了什麼事兒。你不用在數據框或者Excel文件裡面一條條翻找情感數值最低的評論。Python數據框Pandas為你提供了非常好的排序功能。假設你希望找到所有評論里情感分析數值最低的那條,可以這樣執行:
df.sort(['sentiment'])[:1]
結果為:
情感分析結果數值幾乎就是0啊!不過這里數據框顯示評論信息不完全。我們需要將評論整體列印出來。
print(df.sort(['sentiment']).iloc[0].comments)
評論完整信息如下:
這次是在情人節當天過去的,以前從來沒在情人節正日子出來過,不是因為沒有男朋友,而是感覺哪哪人都多,所以特意錯開,這次實在是饞A餐廳了,所以趕在正日子也出來了,從下午四點多的時候我看排號就排到一百多了,我從家開車過去得堵的話一個小時,我一看提前兩個小時就在網上先排著號了,差不多我們是六點半到的,到那的時候我看號碼前面還有才三十多號,我想著肯定沒問題了,等一會就能吃上的,沒想到悲劇了,就從我們到那坐到等位區開始,大約是十分二十分一叫號,中途多次我都想走了,哈哈,哎,等到最後早上九點才吃上的,服務員感覺也沒以前清閑時周到了,不過這肯定的,一人負責好幾桌,今天節日這么多人,肯定是很累的,所以大多也都是我自己跑腿,沒讓服務員給弄太多,就蝦滑讓服務員下的,然後環境來說感覺衛生方面是不錯,就是有些太吵了,味道還是一如既往的那個味道,不過A餐廳最人性化的就是看我們等了兩個多小時,上來送了我們一張打折卡,而且當次就可以使用,這點感覺還是挺好的,不愧是A餐廳,就是比一般的要人性化,不過這次就是選錯日子了,以後還是得提前預約,要不就別趕節日去,太火爆了!
通過閱讀,你可以發現這位顧客確實有了一次比較糟糕的體驗——等候的時間太長了,以至於使用了「悲劇」一詞;另外還提及服務不夠周到,以及環境吵鬧等因素。正是這些詞彙的出現,使得分析結果數值非常低。
好在顧客很通情達理,而且對該分店的人性化做法給予了正面的評價。
從這個例子,你可以看出,雖然情感分析可以幫你自動化處理很多內容,然而你不能完全依賴它。
自然語言的分析,不僅要看錶達強烈情感的關鍵詞,也需要考慮到表述方式和上下文等諸多因素。這些內容,是現在自然語言處理領域的研究前沿。我們期待著早日應用到科學家們的研究成果,提升情感分析的准確度。
不過,即便目前的情感分析自動化處理不能達到非常准確,卻依然可以幫助你快速定位到那些可能有問題的異常點(anomalies)。從效率上,比人工處理要高出許多。
你讀完這條評論,長出了一口氣。總結了經驗教訓後,你決定將人性化的服務貫徹到底。你又想到,可以收集用戶等候時長數據,用數據分析為等待就餐的顧客提供更為合理的等待時長預期。這樣就可以避免顧客一直等到很晚了。
祝賀你,經理!在數據智能時代,你已經走在了正確的方向上。
下面,你該認真閱讀下一條負面評論了……
Ⅳ 什麼是協整檢驗
一、協整檢驗(CointegrationTest)的定義:
非平穩序列很可能出現偽回歸,協整的意義就是檢驗它們的回歸方程所描述的因果關系是否是偽回歸,即檢驗變數之間是否存在穩定的關系。所以,非平穩序列的因果關系檢驗就是協整檢驗。
二、基本思路:
20世紀80年代,Engle和Granger等人提出了協整(Co-integration)的概念,指出兩個或多個非平穩(non-stationary)的時間序列的線性組合可能是平穩的或是較低階單整的。有些時間序列,雖然它們自身非平穩,但其線性組合卻是平穩的。非平穩時間序列的線性組合如果平穩,則這種組合反映了變數之間長期穩定的比例關系,稱為協整關系。協整關系表達的是兩個線性增長量的穩定的動態均衡關系,更是多個線性增長的經濟量相互影響及自身演化的動態均衡關系。協整分析是在時間序列的向量自回歸分析的基礎上發展起來的空間結構與時間動態相結合的建模方法與理論分析方法。
三、理論模型:
四、協整檢驗的目的:
協整即存在共同的隨機性趨勢。協整檢驗的目的是決定一組非平穩序列的線性組合是否具有穩定的均衡關系,偽回歸的一種特殊情況即是兩個時間序列的趨勢成分相同,此時可能利用這種共同趨勢修正回歸使之可靠。正是由於協整傳遞出了一種長期均衡關系,若是能在看來具有單獨隨機性趨勢的幾個變數之間找到一種可靠聯系,那麽通過引入這種醉漢與狗之間距離的「相對平穩」對模型進行調整,可以排除單位根帶來的隨機性趨勢,即所稱的誤差修正模型。
在進行時間系列分析時,傳統上要求所用的時間系列必須是平穩的,即沒有隨機趨勢或確定趨勢,否則會產生「偽回歸」問題。但是,在現實經濟中的時間系列通常是非平穩的,我們可以對它進行差分把它變平穩,但這樣會讓我們失去總量的長期信息,而這些信息對分析問題來說又是必要的,所以用協整來解決此問題。
Ⅳ python 時間序列分析 收斂性問題
Python與R相比速度要快。Python可以直接處理上G的數據;R不行,R分析數據時需要先通過資料庫把大數據轉化為小數據(通過groupby)才能交給R做分析,因此R不可能直接分析行為詳單,只能分析統計結果。所以有人說:Python=R+SQL/Hive,並不是沒有道理的。
Ⅵ python時間序列最少需要多少數據
python推薦直接裝Anaconda,它集成了許多科學計算包,有一些包自己手動去裝還是挺費勁的。statsmodels需要自己去安裝,推薦使用0.6的穩定版,0.7及其以上的版本能在github上找到,該版本在安裝時會用C編譯好,所以修改底層的一些代碼將不會起作用。
Ⅶ python中的雜訊是什麼意思
白雜訊是時間序列預測中的一個重要概念。如果一個時間序列是白雜訊,它是一個隨機數序列,不能預測。如果預測誤差不是白雜訊,它暗示了預測模型仍有改進空間。
什麼是白雜訊時間序列?
時間序列可能是白雜訊。時間序列如果變數是獨立的且恆等分布的均值為0,那麼它是白雜訊。這意味著所有變數具有相同的方差 (sigma^2),並且每個值與該系列中的所有其他值具有零相關。
如果序列中的變數被高斯分布繪制,則該系列稱為高斯白雜訊。
為什麼這么重要?
白雜訊是時間序列分析和預測中的一個重要的概念。
重要的兩個主要原因為:
1.可預測性:如果你的時間序列是白雜訊,那麼根據定義它是隨機的。你無法對它合理的建模並進行預測。
2.模型診斷:時間序列上一系列誤差的預測模型最好是白雜訊。
模型診斷是時間序列預測的重要領域。
時間序列數據在潛在的因素產生的信號上被預測,它包含一些白雜訊成分。
例如:
y(t)= signal(t)+ noise(t)
通過時間序列預測模型進行預測,可以對其進行收集和分析。在理想情況下,預測誤差應該是白雜訊。
當預測誤差為白雜訊時,意味著時間序列中的所有信號已全部被模型利用進行預測。剩下的就是無法建模的隨機波動。
模型預測的信號不是白雜訊則表明可以進一步對預測模型改進。
你的時間序列白噪音嗎?
你的時間序列如果符合下面條件則不是白雜訊:
你的序列均值為零嗎?
方差隨時間變化嗎?
值與延遲值相關嗎?
你可以用一些工具來檢查你的時間序列是否為白噪音:
創建一個折線圖。檢查總體特徵,如變化的平均值,方差或延遲變數之間的明顯關系。
計算匯總統計。對照序列中有意義的連續塊的均值和方差,檢查整個序列的均值和方差(如年、月、日)。
創建一個自相關的圖。檢查延遲變數之間的總體相關性。
白雜訊時間序列的例子
在本節中,我們將使用Python創建一個高斯白雜訊序列並做一些檢查。它有助於在實踐中創建和評估白雜訊時間序列。它將提供參考框架和示例圖並且使用和比較自己的時間序列項目的統計測試,以檢查它們是否為白雜訊
首先,我們可以使用隨機模塊的gauss()函數創建一個1,000個隨機高斯變數的列表。
我們將從高斯分布提取變數:平均值(mu)0.0和標准偏差(sigma)1.0。
一旦創建,為方便起見,我們可以在Pandas序列中打包這個列表。
接下來,我們可以計算和列印一些匯總統計數據,包含序列的平均值和標准偏差。
鑒於我們在繪制隨機數時定義了平均值和標准偏差,所以應該不會有意外。
我們可以看到平均值接近0.0,標准偏差接近1.0。考慮到樣本較小預測會有些誤差。
如果我們有更多的數據,將序列分成兩半計算和比較每一半的匯總統計可能會更有趣。我們認為每個子系列的平均值和標准差都會相似。
現在我們可以創建一些序列的線條圖。
我們可以看到,這個序列似乎是隨機的。
為了完整性,下面提供了完整的代碼清單。
原文:網頁鏈接
Ⅷ 怎麼確定python中是否有sympy庫
理論上Sympy的模塊是要自己安裝的,它不是標準的python庫,不會隨著安裝python的時候安裝。
如果你想檢驗你所使用的機器中是否有這個模塊,如果Linux請打開終端輸入python,如果你是windows的使用者請打開cmd命令行,鍵入python,進入python交互模式:
嘗試輸入以下內容 你如果看見類似ImportError的字元,證明沒有該模塊,如圖。
Ⅸ python 是否有檢驗缺失數據類型的函數庫
這個到沒有 還有,怎麼可能會確實數據類型
Ⅹ 在Python中如何差分時間序列數據集
差分是一種變換時間序列數據集的方法。
它可以用於消除序列對時間性的依賴性,即所謂的時間性依賴。這包含趨勢和周期性的結構。
不同的方法可以幫助穩定時間序列的均值,消除時間序列的變化,從而消除(或減少)趨勢和周期性。