導航:首頁 > 源碼編譯 > 多因子趨勢演算法

多因子趨勢演算法

發布時間:2022-06-25 02:23:00

⑴ 量化交易策略有哪些

一、交易策略
一個完整的交易策略一般包括交易標的的選擇,進出場時機的選擇,倉位和資金管理等幾個方面。
按照人的主觀決斷和計算機演算法執行在策略各方面的決策中的參與程度的不同,可以將交易策略分為主觀策略和量化策略。

二、主觀策略
主觀策略主要依靠投資者的主觀判斷。
期貨市場的投資者通過對產業上中下游、供需、宏觀經濟預期等的調查做出自己的判斷。
類似的,股票市場的主觀投資者通過深入研究行業的各個方面,調查行業內的上市公司,形成交易決策。
另外,無論是股票市場還是期貨市場,大量的主觀投資者是依賴技術分析做出決策的。

三、量化策略
量化策略主要依賴於計算機演算法進行交易。
投資者將初步的交易邏輯輸入計算機,並運用大量的歷史數據做統計和回測,在此基礎上做出適當的修改、揚棄,以形成可接受的交易策略。策略在形成後,往往各個決策條件就已經確定,實盤中按照既定的程序執行。
對比而言,部分主觀策略在對單個標的的研究深度上有優勢,可以通過深度研究提供專家級的意見。而量化策略由於運用計算機決策,可以處理大量的數據,因此在廣度上有優勢。另外,量化策略在執行中不會受人的狀態、情緒等不確定性的影響,因而執行更為嚴格和精確。

四、常見策略
常見的量化交易策略可以大致分為趨勢策略和市場中性策略,趨勢策略常見的有雙均線策略、布林帶策略、海歸交易法和多因子選股策略等。
常見的市場中性策略包括統計套利策略、Alpha對沖策略等,著名的網格交易法更多的是一種交易方法,可以用在不同類型的策略中。
下面我們對這幾個常見策略做一個簡單介紹,想深入了解某個策略的讀者可以藉助互聯網獲得更多資料。
(1) 雙均線策略
雙均線策略在趨勢交易中有廣泛的應用。該策略根據長短兩根不同周期的移動平均線的金叉和死叉來交易。在短周期均線上穿長周期均線(金叉)時做多,在短周期均線下穿長周期均線(死叉)時做空。雙均線系統可以進一步擴充為多均線系統。
(2) 布林帶策略
布林帶由三條線構成,其中的中線是一根移動平均線,上線是由中線加上n倍(如2倍)標准差構成,下線是中線減n倍標准差。當行情上穿上線時做多,下穿下線時做空。
(3) 海歸交易法
海歸交易法由商品投機家理查德·丹尼斯的推廣而聞名。該法則涵蓋交易的進出場,資金和倉位管理的各各方面,是一套完整的交易系統。關於該策略的具體交易模式幾個字不容易說清楚,詳細的了解大家可以參考《海歸交易法則》這本書,特別是後面的附錄。
(4) 多因子選股
多因子選股模型是股票交易中常見的策略。建立過程包括選取候選因子,在歷史數據檢驗的基礎上挑選有效因子並剔除冗餘因子等幾個過程,最後是根據因子選擇要交易的股票,確定出入場時機。
(5) 統計套利
統計套利可以用於期貨市場的跨品種和跨期套利,也可以用於相關性高的股票之間的價差套利。它是利用相關性高的標的之間的價差或者價比回歸的性質,在價差或價比偏離均衡位置時進場,在價差或價比回到均衡位置時出場。
(6) Alpha對沖策略
Alpha對沖策略同時持有方向相反的兩種頭寸對沖Beta風險。在國內市場常見的是持有股票多頭的同時,持有股指期貨空頭,該策略是否能夠獲得超額收益依賴於選取的股票是否具有高的Alpha正值。
(7) 網格交易法
網格交易法的核心是網格間距和中軸線的確定。我們以螺紋鋼期貨合約為例說明,目前螺紋價格3000,我們建立初始倉位,比如50%倉位。隨後螺紋鋼每漲50點賣出10%,每跌50點買入10%。這里的3000就是中軸,50點是網格寬度。該策略的收益波動很大

⑵ 如何解釋spss因子分析的結果

1.KMO和Bartlett的檢驗結果:

首先是KMO的值為0.733,大於閾值0.5,所以說明了變數之間是存在相關性的,符合要求;然後是Bartlett球形檢驗的結果。

在這里只需要看Sig.這一項,其值為0.000,所以小於0.05。那麼也就是說,這份數據是可以進行因子分析的。

2.公因子方差:

公因子方差表的意思就是,每一個變數都可以用公因子表示,而公因子究竟能表達多少呢,其表達的大小就是公因子方差表中的「提取」。

「提取」的值越大說明變數可以被公因子表達的越好,一般大於0.5即可以說是可以被表達,但是更好的是要求大於0.7才足以說明變數能被公因子表的很合理。

在本例中可以看到,「提取」的值都是大於0.7的,所以變數可以被表達的很不錯。

3.解釋的總方差和碎石圖:

簡單地說,解釋地總方差就是看因子對於變數解釋的貢獻率(可以理解為究竟需要多少因子才能把變數表達為100%)。

這張表只需要看圖中紅框的一列,表示的就是貢獻率,藍框則代表四個因子就可以將變數表達到了91.151%,說明表達的還是不錯的

都要表達到90%以上才可以,否則就要調整因子數據。再看碎石圖,也確實就是四個因子之後折線就變得平緩了。

4.旋轉成分矩陣:

這一張表是用來看哪些變數可以包含在哪些因子里,一列一列地看:第一列,最大的值為0.917和0.772,分別對應的是細顆粒物和可吸入顆粒物。

因此可以把因子歸結為顆粒物。第二列,最大值為0.95對應著二氧化硫,因此可以把因子歸結為硫化物。第三列,最大值為0.962,對應著臭氧。

因此可以把因子歸結為臭氧。第四列,最大值為0.754和0.571,分別對應著二氧化氮和一氧化碳。

(2)多因子趨勢演算法擴展閱讀

因子分析與主成分分析的區別:

主成分分析是試圖尋找原有變數的一個線性組合。這個線性組合方差越大,那麼該組合所攜帶的信息就越多。也就是說,主成分分析就是將原始數據的主要成分放大。

因子分析,它是假設原有變數的背後存在著一個個隱藏的因子,這個因子可以可以包括原有變數中的一個或者幾個,因子分析並不是原有變數的線性組合。

因子分析還是非常好用的一種降維方式的,在SPSS中進行操作十分簡單方便,結果一目瞭然。python也可以做因子分析,代碼量也並不是很大。

但是,python做因子分析時會有一些功能需要自己根據演算法寫,比如說KMO檢驗。

⑶ 機器學習怎樣應用於量化交易

機器學習怎樣應用於量化交易(一)


曾有朋友問過,國內現在量化領域機器學習應用的少,是否因為效果不如簡單的策略。其實,把機器學習應用在量化交易上始終面臨著兩難,卻並不是無解的兩難。很多時候並不是機器學習不work,而是真正懂如何用正確科學的統計思維使用Machine Learning的人才太少。

機器學習涉及到特徵選擇、特徵工程、模型選擇、數據預處理、結果的驗證和分析等一整套建模流程,廣義角度來說就不單單是模型選擇的問題。所以,如果認為「用支持向量機成功預測股票漲跌」 這樣的研究,就是把機器學習應用於量化交易,這種狹義的認識無疑是買櫝還珠,對機器學習領域散落遍地的珍珠視而不見。如果把機器學習的崛起放在歷史進程中考量,無非就是趨勢的延續:現在,可通過系統的數據分析證實過去模糊不定的經驗,機器學習演算法將未曾被察覺的規律得以浮現紙面。

在我看來,未來的發展概有兩個方向:

1.針對量化交易的統計學習演算法被提出,使其適合於雜訊大,分布不穩定的金融數據分析;

2.對於機器學習的熱情回歸理性,從工具為導向回歸到問題為導向。

針對如何以問題為導向,在機器學習演算法中挑選合適的工具,分享一些思路。

1.多因子模型的因子權重計算

當我們在構建多因子模型且已經選定了一系列因子之後,要如何根據不同的市場情況調整各個因子的權重呢?在以往的研究中發現,與其它演算法相比較,隨機森林演算法對於存在非線性、噪音和自變數共線性的訓練集的分析結果更出色。所以,目前在多因子模型的權重上,採用當期收益率對上期因子進行隨機森林回歸分析,以確定下一期多因子模型的因子權重。

2.缺失值處理

處理缺失值在金融的量化分析中是個無可避免的問題。選取合理的缺失值處理方法,依賴於數據本身的特點、數據缺失的情況、其對應的經濟學意義,以及我們需要使用數據進行何種計算。在嘗試構建多因子模型時,我們選擇了兩種缺失值替換方法:(1)採用期望最大化演算法來用同一變數的已知數據對缺失值進行極大似然估計。(2)把模型中包含的所有因子作為特徵變數,並賦予其相同的權重,再採用機器學習中的K-近鄰演算法來尋找最相似的標的,保證缺失值替換後,不會強化一部分因子的影響力。

其實在量化領域,機器學習解決著線性模型天生的缺陷或弊端,所以還是有著很深的介入的。除去凸優化、降維(提取市場特徵)等領域的應用,目前「非動態性」和「非線性」是兩個重要的弊端。金融關系之間並非靜態,很多時候也不是線性的。統計學習的優勢此時就會體現出來,它們能夠迅速地適應市場,或者用一種更「准確的」方式來描述市場。

在國內,機器學習在量化內應用跟領域有很大的關系,跟頻率也有很大的關系。比如,CTA的運用可能就要多於股票,它處理數據的維度要遠小於股票,獲取市場的長度和動態又強於股票。股票市場的momentum要弱於期貨市場的momentum,它的趨勢與股票相比更明顯和低雜訊。這些特徵對於機器學習發揮作用都更加有利。

很可能國內一些交易執行演算法的設計上就借鑒了機器學習。我們可以通過學習訂單薄特徵,對下一期盤口變化做一些概率上的預測,經過一定樣本的訓練之後,可以顯著地提升演算法表現。

而我仍謹慎看好深度學習等機器學習方法的原因在於,在認識市場上,現行的大部分方法與這些方法並不在一個維度上,這個優勢讓它們與其他方法相比,捕捉到更多的收益。也就是說,一個新的認識市場的角度才能帶來alpha。

⑷ 因子分析法的概念

1.主成分分析
主成分分析主要是一種探索性的技術,在分析者進行多元數據分析之前,用他來分析數據,讓自己對數據有一個大致的了解,這是非常有必要的。主成分分析一般很少單獨使用:a、了解數據。(screening the data),b、和cluster analysis(聚類分析)一起使用,c、和判別分析一起使用,比如當變數很多,個案數不多,直接使用判別分析可能無解,這時候可以使用主成分對變數簡化(rece dimensionality),d、在多元回歸中,主成分分析可以幫助判斷是否存在共線性(條件指數),還可以用來處理共線性。
1、因子分析中是把變數表示成各因子的線性組合,而主成分分析中則是把主成分表示成各變數的線性組合。
2、主成分分析的重點在於解釋各變數的總方差,而因子分析則把重點放在解釋各變數之間的協方差。
3、主成分分析中不需要有假設(assumptions),因子分析則需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子(specific factor)之間也不相關,共同因子和特殊因子之間也不相關。
4、主成分分析中,當給定的協方差矩陣或者相關矩陣的特徵值是唯一的時候,主成分一般是獨特的;而因子分析中因子不是獨特的,可以旋轉得到不同的因子。
5、在因子分析中,因子個數需要分析者指定(spss根據一定的條件自動設定,只要是特徵值大於1的因子進入分析),而指定的因子數量不同而結果不同。在主成分分析中,成分的數量是一定的,一般有幾個變數就有幾個主成分。和主成分分析相比,由於因子分析可以使用旋轉技術幫助解釋因子,在解釋方面更加有優勢。大致說來,當需要尋找潛在的因子,並對這些因子進行解釋的時候,更加傾向於使用因子分析,並且藉助旋轉技術幫助更好解釋。而如果想把現有的變數變成少數幾個新的變數(新的變數幾乎帶有原來所有變數的信息)來進入後續的分析,則可以使用主成分分析。當然,這種情況也可以使用因子得分做到。所以這種區分不是絕對的。
在演算法上,主成分分析和因子分析很類似,不過在因子分析中所採用的協方差矩陣的對角元素不再是變數的方差,而是和變數對應的共同度(變數方差中被各因子所解釋的部分)。
2.聚類分析(Cluster Analysis)
聚類分析是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同的類的分析技術。
在市場研究領域,聚類分析主要應用方面是幫助我們尋找目標消費群體,運用這項研究技術,我們可以劃分出產品的細分市場,並且可以描述出各細分市場的人群特徵,以便於客戶可以有針對性的對目標消費群體施加影響,合理地開展工作。
3.判別分析(Discriminatory Analysis)
判別分析(Discriminatory Analysis)的任務是根據已掌握的1批分類明確的樣品,建立較好的判別函數,使產生錯判的事例最少,進而對給定的1個新樣品,判斷它來自哪個總體。根據資料的性質,分為定性資料的判別分析和定量資料的判別分析;採用不同的判別准則,又有費歇、貝葉斯、距離等判別方法。
費歇(FISHER)判別思想是投影,使多維問題簡化為一維問題來處理。選擇一個適當的投影軸,使所有的樣品點都投影到這個軸上得到一個投影值。對這個投影軸的方向的要求是:使每一類內的投影值所形成的類內離差盡可能小,而不同類間的投影值所形成的類間離差盡可能大。貝葉斯(BAYES)判別思想是根據先驗概率求出後驗概率,並依據後驗概率分布作出統計推斷。所謂先驗概率,就是用概率來描述人們事先對所研究的對象的認識的程度;所謂後驗概率,就是根據具體資料、先驗概率、特定的判別規則所計算出來的概率。它是對先驗概率修正後的結果。
距離判別思想是根據各樣品與各母體之間的距離遠近作出判別。即根據資料建立關於各母體的距離判別函數式,將各樣品數據逐一代入計算,得出各樣品與各母體之間的距離值,判樣品屬於距離值最小的那個母體。
4.對應分析(Correspondence Analysis)
對應分析是一種用來研究變數與變數之間聯系緊密程度的研究技術。
運用這種研究技術,我們可以獲取有關消費者對產品品牌定位方面的圖形,從而幫助您及時調整營銷策略,以便使產品品牌在消費者中能樹立起正確的形象。
這種研究技術還可以用於檢驗廣告或市場推廣活動的效果,我們可以通過對比廣告播出前或市場推廣活動前與廣告播出後或市場推廣活動後消費者對產品的不同認知圖來看出廣告或市場推廣活動是否成功的向消費者傳達了需要傳達的信息。
5.典型相關分析
典型相關分析是分析兩組隨機變數間線性密切程度的統計方法,是兩變數間線性相關分析的拓廣。各組隨機變數中既可有定量隨機變數,也可有定性隨機變數(分析時須F6說明為定性變數)。本法還可以用於分析高維列聯表各邊際變數的線性關系。
注意
1.嚴格地說,一個典型相關系數描述的只是一對典型變數之間的相關,而不是兩個變數組之間的相關。而各對典型變數之間構成的多維典型相關才共同揭示了兩個觀測變數組之間的相關形式。
2.典型相關模型的基本假設和數據要求
要求兩組變數之間為線性關系,即每對典型變數之間為線性關系;
每個典型變數與本組所有觀測變數的關系也是線性關系。如果不是線性關系,可先線性化:如經濟水平和收入水平與其他一些社會發展水之間並不是線性關系,可先取對數。即log經濟水平,log收入水平。
3.典型相關模型的基本假設和數據要求
所有觀測變數為定量數據。同時也可將定性數據按照一定形式設為虛擬變數後,再放入典型相關模型中進行分析。
6.多維尺度分析(Multi-dimension Analysis)
多維尺度分析(Multi-dimension Analysis) 是市場研究的一種有力手段,它可以通過低維空間(通常是二維空間)展示多個研究對象(比如品牌)之間的聯系,利用平面距離來反映研究對象之間的相似程度。由於多維尺度分析法通常是基於研究對象之間的相似性(距離)的,只要獲得了兩個研究對象之間的距離矩陣,我們就可以通過相應統計軟體做出他們的相似性知覺圖。
在實際應用中,距離矩陣的獲得主要有兩種方法:一種是採用直接的相似性評價,先將所有評價對象進行兩兩組合,然後要求被訪者所有的這些組合間進行直接相似性評價,這種方法我們稱之為直接評價法;另一種為間接評價法,由研究人員根據事先經驗,找出影響人們評價研究對象相似性的主要屬性,然後對每個研究對象,讓被訪者對這些屬性進行逐一評價,最後將所有屬性作為多維空間的坐標,通過距離變換計算對象之間的距離。
多維尺度分析的主要思路是利用對被訪者對研究對象的分組,來反映被訪者對研究對象相似性的感知,這種方法具有一定直觀合理性。同時該方法實施方便,調查中被訪者負擔較小,很容易得到理解接受。當然,該方法的不足之處是犧牲了個體距離矩陣,由於每個被訪者個體的距離矩陣只包含1與0兩種取值,相對較為粗糙,個體距離矩陣的分析顯得比較勉強。但這一點是完全可以接受的,因為對大多數研究而言,我們並不需要知道每一個體的空間知覺圖。
多元統計分析是統計學中內容十分豐富、應用范圍極為廣泛的一個分支。在自然科學和社會科學的許多學科中,研究者都有可能需要分析處理有多個變數的數據的問題。能否從表面上看起來雜亂無章的數據中發現和提煉出規律性的結論,不僅對所研究的專業領域要有很好的訓練,而且要掌握必要的統計分析工具。對實際領域中的研究者和高等院校的研究生來說,要學習掌握多元統計分析的各種模型和方法,手頭有一本好的、有長久價值的參考書是非常必要的。這樣一本書應該滿足以下條件:首先,它應該是「淺入深出」的,也就是說,既可供初學者入門,又能使有較深基礎的人受益。其次,它應該是既側重於應用,又兼顧必要的推理論證,使學習者既能學到「如何」做,而且在一定程度上了解「為什麼」這樣做。最後,它應該是內涵豐富、全面的,不僅要基本包括各種在實際中常用的多元統計分析方法,而且還要對現代統計學的最新思想和進展有所介紹、交代。
主成分分析通過線性組合將原變數綜合成幾個主成分,用較少的綜合指標來代替原來較多的指標(變數)。在多變數分析中,某些變數間往往存在相關性。是什麼原因使變數間有關聯呢?是否存在不能直接觀測到的、但影響可觀測變數變化的公共因子?因子分析法(Factor Analysis)就是尋找這些公共因子的模型分析方法,它是在主成分的基礎上構築若干意義較為明確的公因子,以它們為框架分解原變數,以此考察原變數間的聯系與區別。
例如,隨著年齡的增長,兒童的身高、體重會隨著變化,具有一定的相關性,身高和體重之間為何會有相關性呢?因為存在著一個同時支配或影響著身高與體重的生長因子。那麼,我們能否通過對多個變數的相關系數矩陣的研究,找出同時影響或支配所有變數的共性因子呢?因子分析就是從大量的數據中「由表及裡」、「去粗取精」,尋找影響或支配變數的多變數統計方法。
可以說,因子分析是主成分分析的推廣,也是一種把多個變數化為少數幾個綜合變數的多變數分析方法,其目的是用有限個不可觀測的隱變數來解釋原始變數之間的相關關系。
因子分析主要用於:1、減少分析變數個數;2、通過對變數間相關關系探測,將原始變數進行分類。即將相關性高的變數分為一組,用共性因子代替該組變數。

⑸ 致遠期貨:多因子模型和統計套利模型有什麼本質區別

2009年以來,一股「量化基金」的熱潮悄然掀起,中海基金、長盛基金、光大保德和富國基金先後推出了自己的量化產品,而富國正在推出的富國300增強基金還屬於第一隻增強型的指數基金,就是因為量化概念的引入。關於量化基金,國際資本市場,尤其是美國市場已經有了長足的發展並形成了相當的規模,量化基金通過數理統計分析,選擇那些未來回報可能會超越基準的證券進行投資,以期獲取超越指數基金的收益。區別於普通基金,量化基金主要採用量化投資策略來進行投資組合管理,總的來說,量化基金採用的策略包括:量化選股、量化擇時、股指期貨套利、商品期貨套利、統計套利、期權套利、演算法交易、資產配置等。

⑹ 矩陣分解演算法隱含因子越多越好么

題主問的應該是latent factor的數量吧


簡單的答案就是 不是

  1. 如果latent factor的數量過多 就會導致過度fit輸入的矩陣

  2. 同時latent factor的數量過多 會導致計算跟存儲的復雜度過大

⑺ 請教BP神經網路 多因子組合分析的演算法。

不好意思,我好久不登陸了,剛剛看到,估計你都畢業了吧,問題應該已經解決了吧?

⑻ 最小二乘法、回歸分析法、灰色預測法、決策論、神經網路等5個演算法的使用范圍及優缺點是什麼

最小二乘法:通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,並使得這些求得的數據與實際數據之間誤差的平方和為最小。最小二乘法還可用於曲線擬合。其他一些優化問題也可通過最小化能量或最大化熵用最小二乘法來表達。優點:實現簡單,計算簡單。缺點:不能擬合非線性數據.
回歸分析法:指的是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。在大數據分析中,回歸分析是一種預測性的建模技術,它研究的是因變數(目標)和自變數(預測器)之間的關系。這種技術通常用於預測分析,時間序列模型以及發現變數之間的因果關系。優點:在分析多因素模型時,更加簡單和方便,不僅可以預測並求出函數,還可以自己對結果進行殘差的檢驗,檢驗模型的精度。缺點:回歸方程式只是一種推測,這影響了因子的多樣性和某些因子的不可測性,使得回歸分析在某些情況下受到限制。
灰色預測法:
色預測法是一種對含有不確定因素的系統進行預測的方法 。它通過鑒別系統因素之間發展趨勢的相異程度,即進行關聯分析,並對原始數據進行生成處理來尋找系統變動的規律,生成有較強規律性的數據序列,然後建立相應的微分方程模型,從而預測事物未來發展趨勢的狀況。它用等時間距離觀測到的反應預測對象特徵的一系列數量值構造灰色預測模型,預測未來某一時刻的特徵量,或者達到某一特徵量的時間。優點:對於不確定因素的復雜系統預測效果較好,且所需樣本數據較小。缺點:基於指數率的預測沒有考慮系統的隨機性,中長期預測精度較差。
決策樹:在已知各種情況發生概率的基礎上,通過構成決策樹來求取凈現值的期望值大於等於零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由於這種決策分支畫成圖形很像一棵樹的枝幹,故稱決策樹。在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關系。優點:能夠處理不相關的特徵;在相對短的時間內能夠對大型數據源做出可行且效果良好的分析;計算簡單,易於理解,可解釋性強;比較適合處理有缺失屬性的樣本。缺點:忽略了數據之間的相關性;容易發生過擬合(隨機森林可以很大程度上減少過擬合);在決策樹當中,對於各類別樣本數量不一致的數據,信息增益的結果偏向於那些具有更多數值的特徵。
神經網路:優點:分類的准確度高;並行分布處理能力強,分布存儲及學習能力強,對雜訊神經有較強的魯棒性和容錯能力,能充分逼近復雜的非線性關系;具備聯想記憶的功能。缺點:神經網路需要大量的參數,如網路拓撲結構、權值和閾值的初始值;不能觀察之間的學習過程,輸出結果難以解釋,會影響到結果的可信度和可接受程度;學習時間過長,甚至可能達不到學習的目的。

⑼ 正定矩陣因子分解法(PMF)

3.2.4.1 方法建立

就全國范圍而言,我國地下水質量總體較好,根據國家《地下水質量標准》(GB/T 14848—93),我國63%的地區地下水可直接飲用,17%經適當處理後可供飲用,12%不宜飲用,剩餘8%為天然的鹹水和鹽水,由此可見,不宜飲用的地下水和天然鹹水、鹽水佔到了20%,對於這些地下水型水源地飲用水指標並不一定受到污染而存在超標現象,其水質可能受到地下水形成演化影響更為明顯,因此,考慮選擇反映地下水形成、演化的地下水水化學類型常規指標,進行影響因素解析。地下水水質指標在取樣與分析過程中,由於取樣和樣品處理、試劑和水純度、儀器量度和儀器潔凈、採用的分析方法、測定過程以及數據處理等過程均會產生測量誤差(系統誤差,隨機誤差,過失誤差)。從取樣到分析結果計算誤差都絕對存在,雖然在各個過程中進行質量控制,但無法完全消除不確定性的影響,為確保分析結果的可靠性,採用PMF法對地下水水質指標考慮一定的不確定性誤差,使分析數據能夠准確地反映實際情況。

PMF(Positive Matrix Factorization)與主成分分析(PCA)、因子分析(FA)都是利用矩陣分解來解決實際問題的分析方法,在這些方法中,原始的大矩陣被近似分解為低秩的V=WH形式。但PMF與PCA和FA不同,PCA、FA方法中因子W和H中的元素可為正或負,即使輸入的初始矩陣元素全是正的,傳統的秩削減演算法也不能保證原始數據的非負性。在數學上,從計算的觀點看,分解結果中存在負值是正確的,但負值元素在實際問題中往往是沒有意義的。PMF是在矩陣中所有元素均為非負數約束條件之下的矩陣分解方法,在求解過程中對因子載荷和因子得分均做非負約束,避免矩陣分解的結果中出現負值,使得因子載荷和因子得分具有可解釋性和明確的物理意義。PMF使用最小二乘方法進行迭代運算,能夠同時確定污染源譜和貢獻,不需要轉換就可以直接與原始數據矩陣作比較,分解矩陣中元素非負,使得分析的結果明確而易於解釋,可以利用不確定性對數據質量進行優化,是美國國家環保局(EPA)推薦的源解析工具。

3.2.4.2 技術原理

PMF:模型是一種基於因子分析的方法,具有不需要測量源指紋譜、分解矩陣中元素非負、可以利用數據標准偏差來進行優化等優點。目前PMF模型此方法成功用於大氣氣溶膠、土壤和沉積物中持久性有毒物質的源解析,已有成熟的應用模型 PMF1.1,PMF2.0,PMF3.0等。PMF模型基本方程為:

Xnm=GnpFpm+E (3.7)

式中:n——取樣點數;

m——各取樣點測試的成分數量;

p——污染源個數;

Xnm——取樣點各成分含量;

Gnp——主要源的貢獻率;

Fpm——源指紋圖譜。

基本計算過程如下:

1)樣品數據無量綱化,無量綱化後的樣品數據矩陣用D表示。

2)協方差矩陣求解,為計算特徵值和特徵向量,可先求得樣品數據的協方差矩陣,用D′為D的轉置,演算法為:

Z=DD′ (3.8)

3)特徵值及特徵向量求解,用雅各布方法可求得協方差矩陣Z的特徵值矩陣E和特徵向量矩陣Q,Q′表示Q的轉置。這時,協方差矩陣可表示為:

Z=QEQ′ (3.9)

4)主要污染源數求解,為使高維變數空間降維後能盡可能保留原來指標信息,利用累計方差貢獻率提取顯著性因子,判斷條件為:

地下水型飲用水水源地保護與管理:以吳忠市金積水源地為例

式中:n——顯著性因子個數;

m——污染物個數;

λ——特徵值。

5)因子載荷矩陣求解,提取顯著性因子後,利用求解得到的特徵值矩陣E和特徵向量矩陣Q進一步求得因子載荷矩陣S和因子得分矩陣C,這時,因子載荷矩陣可表示為:

S=QE1/2 (3.11)

因子得分矩陣可表示為:

C=(S′S)-1S′D (3.12)

6)非負約束旋轉,由步驟5求得的因子載荷矩陣S和因子得分矩陣C分別對應主要污染源指紋圖譜和主要污染源貢獻,為解決其值可能為負的現象,需要做非負約束的旋轉。

7)首先利用轉換矩陣T1對步驟5求得的因子載荷矩陣S和因子得分矩陣C按下式進行旋轉:

地下水型飲用水水源地保護與管理:以吳忠市金積水源地為例

C1=T1C (3.14)

式中:S1——旋轉後的因子載荷矩陣;

C1——旋轉後的因子得分矩陣;

T1——轉換矩陣,且T1=(CC′)(CC′)-1(其中:C為把C中的負值替換為零後的因子得分矩陣)。

8)利用步驟7中旋轉得到的因子載荷矩陣S1構建轉換矩陣T2對步驟5中旋轉得到的因子載荷矩陣S1和因子得分矩陣C1繼續旋轉:

S2=S1T2 (3.15)

地下水型飲用水水源地保護與管理:以吳忠市金積水源地為例

式中:S2——二次旋轉後的因子載荷矩陣;

C2——二次旋轉後的因子得分矩陣;

T2——二次轉換矩陣,且T2=(S′1+S1-1(S′1+

)(其中:

為S1中的負值換為零後的因子載荷矩陣)。

9):重復步驟7、8,直到因子載荷中負值的平方和小於某一設定的誤差精度e而終止,最終得到符合要求的因子載荷矩陣S,即主要污染源指紋圖譜。

3.2.4.3 方法流程

針對受體采樣數據直接進行矩陣分解,得到各污染源組分及其貢獻率的統計方法(圖3.5)。

圖3.5 方法流程圖

(1)缺失值處理

正定矩陣因子分析是基於多元統計的分析方法,對數據有效性具有一定的要求,因此在進行分析之前首先對數據進行預處理。根據已有數據的特徵結合實際情況主要有以下5種處理方法。

1)采樣數據量充足的情況下直接丟棄含缺失數據的記錄。

2)存在部分缺失值情況下用全局變數或屬性的平均值來代替所有缺失數據。把全局變數或是平均值看作屬性的一個新值。

3)先根據歐式距離或相關分析來確定距離具有缺失數據樣本最近的K個樣本,將這K個值加權平均來估計該樣本的缺失數據。

4)採用預測模型來預測每一個缺失數據。用已有數據作為訓練樣本來建立預測模型,如神經網路模型預測缺失數據。該方法最大限度地利用已知的相關數據,是比較流行的缺失數據處理技術。

5)對低於數據檢測限的數據可用數據檢測限值或1/2檢測限以及更小比例檢測限值代替。

(2)不確定性處理

計算數據不確定性。

地下水型飲用水水源地保護與管理:以吳忠市金積水源地為例

式中:s——誤差百分數;

c——指標濃度值;

l——因子數據檢出限。

(3)數據合理性分析

本研究所用數據在放入模型前以信噪比S/N(Signal to Noise)作為標准進行篩選,信噪比S/N為:

地下水型飲用水水源地保護與管理:以吳忠市金積水源地為例

式中:xij——第i采樣點第j個樣品的濃度;

sij——第i采樣點第j個樣品的標准偏差。

信噪比小,說明樣品的雜訊大,信噪比越大則表示樣品檢出的可能性越大,越適合模型。

(4)數據輸入及因子分析

與其他因子分析方法一樣,PMF不能直接確定因子數目。確定因子數目的一般方法是嘗試多次運行軟體,根據分析結果和誤差,Q值以及改變因子數目時Q值的相對變化等來確定合理的因子數目。

3.2.4.4 適用范圍

PMF對污染源和貢獻施加了非負限制,並考慮了原始數據的不確定性,對數據偏差進行了校正,使結果更具有科學的解釋。PMF使用最小二乘方法,得到的污染源不需要轉換就可以直接與原始數據矩陣作比較,PMF方法能夠同時確定污染源和貢獻,而不需要事先知道源成分譜。適用於水文地質條件簡單,觀測數據量較大,污染源和污染種類相對較少的地區,運用簡便,可應用分析軟體進行計算。

3.2.4.5 NMF 源解析

NMF在實現上較PMF演算法簡單易行,非負矩陣分解根據目的的不同大致可以分為兩種:一是在保證數據某些性質的基礎上,將高維空間的樣本點映射到某個低維空間上,除去一些不重要的細節,獲得原數據的本質信息;二是在從復雜混亂的系統中得到混合前的獨立信息的種類和強度。因此,基於非負矩陣分解過程應用領域的不同,分解過程所受的約束和需要保留的性質都不相同。本書嘗試性地將NMF演算法應用於水質影響因素的分離計算中(表3.2)。

表3.2 RMF矩陣分解權值表

依照非負矩陣分解理論的數學模型,尋找到一個分解過程V≈WH,使WH和V無限逼近,即盡可能縮小二者的誤差。在確保逼近的效果,定義一個相應的衡量標准,這個衡量標准就叫作目標函數。目標函數一般採用歐氏距離和散度偏差來表示。在迭代過程中,採用不同的方法對矩陣W和H進行初始化,得到的結果也會不同,演算法的性能主要取決於如何對矩陣W和H進行初始化。傳統的非負矩陣演算法在對矩陣W和H賦初值時採用隨機方法,這樣做雖然簡單並且容易實現,但實驗的可重復性以及演算法的收斂速度是無法用隨機初始化的方法來控制的,所以這種方法並不理想。許多學者提出改進W和H的初始化方法,並發展出專用性比較強的形式眾多的矩陣分解演算法,主要有以下幾種:局部非負矩陣分解(Local Non-negative Matrix Factorization,LNMF)、加權非負矩陣分解(Weighted Non-negative Matrix Factorization,WNMF)、Fisher非負矩陣分解(Fisher Non-negative Matrix Factorization,FNMF)、稀疏非負矩陣分解(Sparse Non-negative Matrix Factorization,SNMF)、受限非負矩陣分解(Constrained Non-negative Matrix Factorization,CNMF)、非平滑非負矩陣分解(Non-smooth Non-negative Matrix Factorization,NSNMF)、稀疏受限非負矩陣分解(Nonnegative Matrix Factorization with Sparseness Constraints,NMF-SC)等理論方法,這些方法針對某一具體應用領域對NMF演算法進行了改進。

本書嘗試應用MATLAB工具箱中NNMF程序與改進的稀疏非負矩陣分解(SNMF)對研究區11項指標(同PMF數據)進行分解,得到各元素在綜合成分中的得分H,初始W0,H0採用隨機法取初值。r為分解的基向量個數,合適的r取值主要根據試演算法確定,改變r值觀察誤差值變化情況,本書利用SMNF演算法計算時,r分別取2,3,4,採用均方誤差對迭代結果效果進行評價,結果顯示當r取2,4時誤差值為0.034,取3時誤差值為0.016,因此r=3是較合理的基向量個數。採用NNMF演算法進行計算時,利用MATLAB工具箱提供的兩種計演算法分別進行計算,乘性法則(Multiplicative Update Algorithm)計算結果誤差項比最小二乘法(Alternating Least-squares Algorithm)計算誤差值小且穩定,但總體NNMF計算誤差較大,改變初始W0,H0取值和增加迭代次數誤差均未明顯減小,調整r取值,隨著r值的增大誤差逐漸減小。

對比SNMF和NNMF演算法所得權值結果,兩種方法所得權值趨勢一致,但得分值有所不同,由於SNMF演算法對矩陣進行了稀疏性約束,計算結果中較小的權值更趨近於0,兩次結果中在三個基向量上總體權值較大的元素項為T-Hard、

、Mg2+、Ca2+

,從盲源分離的角度來看該幾種元素對地下水具有較大的影響,但從地下水水質影響因素來看,該方法對數據的分析偏重於突出局部數據的特徵,在各因素相關性較大但含量不高的情況下,容易忽略了關鍵的影響因素。從權值得分來看,SNMF法解析的第一個基向量上的元素包括EC、T-Hard、NH4—N、

、TDS;第二基向量主要有Na+、Mg2+、Cl-;第三個基向量

、Ca2+,從結果可以看出該方法進行矩陣分解並未得到可合理解釋的源項結果,方法有待進一步研究及驗證。

⑽ 因子分析法如何確定主成分及各個指標的權重

(1)首先將數據標准化,這是考慮到不同數據間的量綱不一致,因而必須要無量綱化。

(2)對標准化後的數據進行因子分析(主成分方法),使用方差最大化旋轉。

(3)寫出主因子得分和每個主因子的方程貢獻率。 Fj =β1j*X1 +β2j*X2 +β3j*X3 + ……+ βnj*Xn ; Fj 為主成分(j=1、2、……、m),X1、X2 、X3 、……、Xn 為各個指標,β1j、β2j、β3j、……、βnj為各指標在主成分Fj 中的系數得分,用ej表示Fj的方程貢獻率。

(4)求出指標權重。 ωi=[(m∑j)βij*ej]/[(n∑i)(m∑j)βij*ej],ωi就是指標Xi的權重。

(10)多因子趨勢演算法擴展閱讀

產品特點


1、操作簡便

界面非常友好,除了數據錄入及部分命令程序等少數輸入工作需要鍵盤鍵入外,大多數操作可通過滑鼠拖曳、點擊「菜單」、「按鈕」和「對話框」來完成。

2、編程方便

具有第四代語言的特點,告訴系統要做什麼,無需告訴怎樣做。只要了解統計分析的原理,無需通曉統計方法的各種演算法,即可得到需要的統計分析結果。

對於常見的統計方法,SPSS的命令語句、子命令及選擇項的選擇絕大部分由「對話框」的操作完成。因此,用戶無需花大量時間記憶大量的命令、過程、選擇項。

3、功能強大

具有完整的數據輸入、編輯、統計分析、報表、圖形製作等功能。自帶11種類型136個函數。SPSS提供了從簡單的統計描述到復雜的多因素統計分析方法,比如數據的探索性分析、統計描述、列聯表分析、二維相關、秩相關、偏相關、方差分析、非參數檢驗、多元回歸、生存分析、協方差分析、判別分析、因子分析、聚類分析、非線性回歸、Logistic回歸等。



閱讀全文

與多因子趨勢演算法相關的資料

熱點內容
華為主題軟體app怎麼下 瀏覽:837
我們的圖片能夠收藏加密嗎 瀏覽:978
mysql空值命令 瀏覽:213
python整點秒殺 瀏覽:882
怎麼樣互傳app 瀏覽:292
python分布式抓包 瀏覽:36
輕量級php論壇 瀏覽:342
如何查看應用存儲在哪個文件夾 瀏覽:436
app開發項目范圍怎麼寫 瀏覽:76
androidjms 瀏覽:843
彈珠連貫解壓 瀏覽:243
程序員的網課 瀏覽:904
廣東加密狗防拷貝公司 瀏覽:450
rtf轉換pdf 瀏覽:350
單片機退出中斷 瀏覽:141
可以對單個內容加密的便簽 瀏覽:825
1024程序員節小米 瀏覽:316
共享和ftp伺服器有什麼區別 瀏覽:716
centos7卸載php 瀏覽:184
解壓黏黏球如何玩 瀏覽:230