fpgrowth演算法能進行並行計算嗎_麻煩誰給我介紹一下金融數學金融工程精算學！

1. 關聯規則的分類

Apriori演算法：使用候選項集找頻繁項集
Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這里，所有支持度大於最小支持度的項集稱為頻繁項集，簡稱頻集。
該演算法的基本思想是：首先找出所有的頻集，這些項集出現的頻繁性至少和預定義的最小支持度一樣。然後由頻集產生強關聯規則，這些規則必須滿足最小支持度和最小可信度。然後使用第1步找到的頻集產生期望的規則，產生只包含集合的項的所有規則，其中每一條規則的右部只有一項，這里採用的是中規則的定義。一旦這些規則被生成，那麼只有那些大於用戶給定的最小可信度的規則才被留下來。為了生成所有頻集，使用了遞推的方法。
Apriori演算法採用了逐層搜索的迭代的方法，演算法簡單明了，沒有復雜的理論推導，也易於實現。但其有一些難以克服的缺點：
（1）對資料庫的掃描次數過多。
（2）Apriori演算法會產生大量的中間項集。
（3）採用唯一支持度。
（4）演算法的適應面窄。基於劃分的演算法
Savasere等設計了一個基於劃分的演算法。這個演算法先把資料庫從邏輯上分成幾個互不相交的塊，每次單獨考慮一個分塊並對它生成所有的頻集，然後把產生的頻集合並，用來生成所有可能的頻集，最後計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存，每個階段只需被掃描一次。而演算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該演算法是可以高度並行的，可以把每一分塊分別分配給某一個處理器生成頻集。產生頻集的每一個循環結束後，處理器之間進行通信來產生全局的候選k-項集。通常這里的通信過程是演算法執行時間的主要瓶頸；而另一方面，每個獨立的處理器生成頻集的時間也是一個瓶頸。 FP-樹頻集演算法
針對Apriori演算法的固有缺陷，J. Han等提出了不產生候選挖掘頻繁項集的方法：FP-樹頻集演算法。採用分而治之的策略，在經過第一遍掃描之後，把資料庫中的頻集壓縮進一棵頻繁模式樹（FP-tree），同時依然保留其中的關聯信息，隨後再將FP-tree分化成一些條件庫，每個庫和一個長度為1的頻集相關，然後再對這些條件庫分別進行挖掘。當原始數據量很大的時候，也可以結合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明，FP-growth對不同長度的規則都有很好的適應性，同時在效率上較之Apriori演算法有巨大的提高。

2. fpgrowth演算法屬於數據分析嗎

fpgrowth演算法是數據分析系列中的一種。FP-growth，即FrequentPatternGrowth，它通過構建FP樹(即FrequentPatternTree)這樣的數據結構，巧妙得將數據存儲在FP樹中，只需要在構建FP樹時掃描資料庫兩次，後續處理就不需要再訪問資料庫了。這種特性使得FP-growth演算法比Apriori演算法速度快。FP樹是一種前綴樹，由頻繁項的前綴構成。

3. 關聯分析的關聯分析的方法

Apriori演算法是挖掘產生布爾關聯規則所需頻繁項集的基本演算法，也是最著名的關聯規則挖掘演算法之一。Apriori演算法就是根據有關頻繁項集特性的先驗知識而命名的。它使用一種稱作逐層搜索的迭代方法，k—項集用於探索（k+1）—項集。首先，找出頻繁1—項集的集合．記做L1，L1用於找出頻繁2—項集的集合L2，再用於找出L3，如此下去，直到不能找到頻繁k—項集。找每個Lk需要掃描一次資料庫。
為提高按層次搜索並產生相應頻繁項集的處理效率，Apriori演算法利用了一個重要性質，並應用Apriori性質來幫助有效縮小頻繁項集的搜索空間。
Apriori性質：一個頻繁項集的任一子集也應該是頻繁項集。證明根據定義，若一個項集I不滿足最小支持度閾值min_sup，則I不是頻繁的，即P（I）<min_sup。若增加一個項A到項集I中，則結果新項集（I∪A）也不是頻繁的，在整個事務資料庫中所出現的次數也不可能多於原項集I出現的次數，因此P（I∪A）<min_sup，即（I∪A）也不是頻繁的。這樣就可以根據逆反公理很容易地確定Apriori性質成立。
針對Apriori演算法的不足，對其進行優化：
1）基於劃分的方法。該演算法先把資料庫從邏輯上分成幾個互不相交的塊，每次單獨考慮一個分塊並對它生成所有的頻繁項集，然後把產生的頻繁項集合並，用來生成所有可能的頻繁項集，最後計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存，每個階段只需被掃描一次。而演算法的正確性是由每一個可能的頻繁項集至少在某一個分塊中是頻繁項集保證的。
上面所討論的演算法是可以高度並行的。可以把每一分塊分別分配給某一個處理器生成頻繁項集。產生頻繁項集的每一個循環結束後．處理器之間進行通信來產生全局的候選是一項集。通常這里的通信過程是演算法執行時間的主要瓶頸。而另一方面，每個獨立的處理器生成頻繁項集的時間也是一個瓶頸。其他的方法還有在多處理器之間共享一個雜湊樹來產生頻繁項集，更多關於生成頻繁項集的並行化方法可以在其中找到。
2）基於Hash的方法。Park等人提出了一個高效地產生頻繁項集的基於雜湊（Hash）的演算法。通過實驗可以發現，尋找頻繁項集的主要計算是在生成頻繁2—項集Lk上，Park等就是利用這個性質引入雜湊技術來改進產生頻繁2—項集的方法。
3）基於采樣的方法。基於前一遍掃描得到的信息，對它詳細地做組合分析，可以得到一個改進的演算法，其基本思想是：先使用從資料庫中抽取出來的采樣得到一些在整個資料庫中可能成立的規則，然後對資料庫的剩餘部分驗證這個結果。這個演算法相當簡單並顯著地減少了FO代價，但是一個很大的缺點就是產生的結果不精確，即存在所謂的數據扭曲（Dataskew）。分布在同一頁面上的數據時常是高度相關的，不能表示整個資料庫中模式的分布，由此而導致的是采樣5%的交易數據所花費的代價同掃描一遍資料庫相近。
4）減少交易個數。減少用於未來掃描事務集的大小，基本原理就是當一個事務不包含長度為志的大項集時，則必然不包含長度為走k+1的大項集。從而可以將這些事務刪除，在下一遍掃描中就可以減少要進行掃描的事務集的個數。這就是AprioriTid的基本思想。由於Apriori方法的固有缺陷．即使進行了優化，其效率也仍然不能令人滿意。2000年，Han Jiawei等人提出了基於頻繁模式樹（Frequent Pattern Tree，簡稱為FP-tree）的發現頻繁模式的演算法FP-growth。在FP-growth演算法中，通過兩次掃描事務資料庫，把每個事務所包含的頻繁項目按其支持度降序壓縮存儲到FP—tree中。在以後發現頻繁模式的過程中，不需要再掃描事務資料庫，而僅在FP-Tree中進行查找即可，並通過遞歸調用FP-growth的方法來直接產生頻繁模式，因此在整個發現過程中也不需產生候選模式。該演算法克服了Apriori演算法中存在的問顥．在執行效率上也明顯好於Apriori演算法。

4. 麻煩誰給我介紹一下金融數學，金融工程，精算學！

金融數學
21世紀數學技術和計算機技術一樣成為任何一門科學發展過程中的必備工具。美國花旗
銀行副總裁柯林斯（Collins）1995年3月6日在英國劍橋大學牛頓數學科學研究所的講演
中敘述到：「在18世紀初，和牛頓同時代的著名數學家伯努利曾宣稱：『從事物理學研
究而不懂數學的人實際上處理的是意義不大的東西。』那時候，這樣的說法對物理學而
言是正確的，但對於銀行業而言不一定對。在18世紀，你可以沒有任何數學訓練而很好
地運作銀行。過去對物理學而言是正確的說法現在對於銀行業也正確了。於是現在可以
這樣說：『從事銀行業工作而不懂數學的人實際上處理的是意義不大的東西』。」他還
指出：花旗銀行70%的業務依賴於數學，他還特別強調，『如果沒有數學發展起來的工具
和技術，許多事情我們是一點辦法也沒有的……沒有數學我們不可能生存。」這里銀行
家用他的經驗描述了數學的重要性。在冷戰結束後，美國原先在軍事系統工作的數以千
計的科學家進入了華爾街，大規模的基金管理公司紛紛開始僱傭數學博士或物理學博士
。這是一個重要信號：金融市場不是戰場，卻遠勝於戰場。但是市場和戰場都離不開復
雜艱深，迅速的計算工作。
然而在國內卻不能迴避這樣一個事實：受過高等教育的專業人士都可以讀懂國內經濟類
，金融類核心期刊，但國內金融學專業的本科生卻很難讀懂本專業的國際核心期刊《Jo
urnal of Finance》，證券投資基金經理少有人去閱讀《Joural of Portfolio Manage
ment》，其原因不在於外語的熟練程度，而在於內容和研究方法上的差異，目前國內較
多停留在以描述性分析為主著重描述金融的定義，市場的劃分及金融組織等，或稱為描
述金融；而國外學術界以及實務界則以數量性分析為主，比如資本資產定價原理，衍生
資產的復制方法等，或稱為分析金融，即使在國內金融學的教材中，雖然涉及到了標的
資產（Underlying asset）和衍生資產（Derivative asset）定價，但對公式提出的原
文證明也予以迴避，這種現象是不合理的，產生這種現象的原因有如下幾個方面：首先
，根據研究方法的不同，我國金融學科既可以歸到我國哲學社會科學規劃辦公室，也可
以歸到國家自然科學基金委員會管理科學部，前者佔主要地位，且這支隊伍大多來自經
濟轉軌前的哲學和政治學隊伍，因此研究方法多為定性的方法。而西方正好相反，金融
研究方向的隊伍具有很好的數理功底。其次是我國的金融市場的實際環境所決定。我國
證券市場剛起步，也沒有一個統一的貨幣市場，投資者隊伍主要由中小投資者構成，市
場投機成分高，因此不會產生對現代投資理論的需求，相應地，學術界也難以對此產生
研究的熱情。
然而數學技術以其精確的描述，嚴密的推導已經不容爭辯地走進了金融領域。自從1952
年馬柯維茨（Markowitz）提出了用隨機變數的特徵變數來描述金融資產的收益性，不確
定性和流動性以來，已經很難分清世界一流的金融雜志是在分析金融市場還是在撰寫一
篇數學論文。再回到Collins的講話，在金融證券化的趨勢中，無論是我們採用統計學的
方法分析歷史數據，尋找價格波動規律，還是用數學分析的方法去復制金融產品，誰最
先發現了內在規律，誰就能在瞬息萬變的金融市場中獲取高額利潤。盡管由於森嚴的進
入堡壘，數學進入金融領域受到了一定的排斥和漠視，然而為了追求利潤，未知的恐懼
顯得不堪一擊。
於是，在未來我們可以想像有這樣一個充滿美好前景的產業鏈：金融市場--金融數學--
計算機技術。金融市場存在巨大的利潤和高風險，需要計算機技術幫助分析，然而計算
機不可能大概，左右等描述性語言，它本質上只能識別由0和1構成的空間，金融數學在
這個過程中正好扮演了一個中介角色，它可以用精確語言描述隨機波動的市場。比如，
通過收益率狀態矩陣在無套利的情形下找到了無風險貼現因子。因此，金融數學能幫助
IT產業向金融產業延伸，並獲取自己的利潤空間
金融數學（Financial Mathematics），又稱數理金融學、數學金融學、分析金融學，是利用數學工具研究金融，進行數學建模、理論分析、數值計算等定量分析，以求找到金融學內在規律並用以指導實踐。金融數學也可以理解為現代數學與計算技術在金融領域的應用，因此，金融數學是一門新興的交叉學科，發展很快，是目前十分活躍的前言學科之一。
金融數學是一門新興學科，是「金融高技術」的重要組成部分。研究金融數學有著重要的意義。金融數學總的研究目標是利用我國數學界某些方面的優勢，圍繞金融市場的均衡與有價證券定價的數學理論進行深入剖析，建立適合我國國情的數學模型，編寫一定的計算機軟體，對理論研究結果進行模擬計算，對實際數據進行計量經濟分析研究，為實際金融部門提供較深入的技術分析咨詢。
金融數學主要的研究內容和擬重點解決的問題包括：
(1)有價證券和證券組合的定價理論
發展有價證券（尤其是期貨、期權等衍生工具）的定價理論。所用的數學方法主要是提出合適的隨機微分方程或隨機差分方程模型，形成相應的倒向方程。建立相應的非線性Feynman一Kac公式，由此導出非常一般的推廣的Black一Scho1es定價公式。所得到的倒向方程將是高維非線性帶約束的奇異方程。
研究具有不同期限和收益率的證券組合的定價問題。需要建立定價與優化相結合的數學模型，在數學工具的研究方面，可能需要隨機規劃、模糊規劃和優化演算法研究。
在市場是不完全的條件下，引進與偏好有關的定價理論。
(2）不完全市場經濟均衡理論（GEI）
擬在以下幾個方面進行研究：
1．無窮維空間、無窮水平空間、及無限狀態
2.隨機經濟、無套利均衡、經濟結構參數變異、非線資產結構
3．資產證券的創新（Innovation）與設計（Design）
4．具有摩擦（Friction）的經濟
5．企業行為與生產、破產與壞債
6.證券市場博奕。
（3）GEI 平板衡演算法、蒙特卡羅法在經濟平衡點計算中的應用， GEI的理論在金融財政經濟宏觀經濟調控中的應用，不完全市場條件下，持續發展理論框架下研究自然資源資產定價與自然資源的持續利用。
目前國內開設金融數學本科專業的高等院校中，實力較強的有北京大學、復旦大學、浙江大學、山東大學、南開大學。
後來從事計算機工作很出色。金融數學將後來在銀行、保險、股票、期貨領域從事研究分析，或做這些領域的軟體開發，具有很好的專業背景，而這些領域將來都很重要。
國內金融數學人才鳳毛麟角
諾貝爾經濟學獎已經至少3次授予以數學為工具分析金融問題的經濟學家。北京大學金融數學系王鐸教授說，但遺憾的是，我國相關人才的培養，才剛剛起步。現在，既懂金融又懂數學的復合型人才相當稀缺。
金融數學這門新興的交叉學科已經成為國際金融界的一枝奇葩。剛剛公布的2003年諾貝爾經濟學獎，就是表彰美國經濟學家羅伯特·恩格爾和英國經濟學家克萊夫·格蘭傑分別用「隨著時間變化易變性」和「共同趨勢」兩種新方法分析經濟時間數列給經濟學研究和經濟發展帶來巨大影響。
王鐸介紹，金融數學的發展曾兩次引發了「華爾街革命」。上個世紀50年代初期，馬科威茨提出證券投資組合理論，第一次明確地用數學工具給出了在一定風險水平下按不同比例投資多種證券收益可能最大的投資方法，引發了第一次「華爾街革命」。1973年，布萊克和斯克爾斯用數學方法給出了期權定價公式，推動了期權交易的發展，期權交易很快成為世界金融市場的主要內容，成為第二次「華爾街革命」。
今天，金融數學家已經是華爾街最搶手的人才之一。最簡單的例子是，保險公司中地位和收入最高的，可能就是總精算師。美國花旗銀行副主席保爾·柯斯林著名的論斷是，「一個從事銀行業務而不懂數學的人，無非只能做些無關緊要的小事」。
在美國，芝加哥大學、加州伯克利大學、斯坦福大學、卡內基·梅隆大學和紐約大學等著名學府，都已經設立了金融數學相關的學位或專業證書教育。
專家認為，金融數學可能帶來的發展應該凸現在亞洲，尤其是在金融市場正在開發和具有巨大潛力的中國。香港中文大學、科技大學、城市理工大學等學校都已推出有關的訓練課程和培養計劃，並得到銀行金融業界的熱烈響應。但中國內地對該項人才的培養卻有些艱辛。
王鐸介紹，國家自然科學基金委員會在一項「九五」重大項目中，列入金融工程研究內容，可以說全面啟動了國內的金融數學研究。可這比馬科威茨開始金融數學的研究應用已經晚了近半個世紀。
在金融衍生產品已成為國際金融市場重要角色的背景下，我國的金融衍生產品才剛剛起步，金融衍生產品市場幾乎是空白。「加入 W TO後，國際金融家們肯定將把這一系列業務帶入中國。如果沒有相應的產品和人才，如何競爭？」王鐸憂慮地說。
他認為，近幾年，接連發生的墨西哥金融危機、百年老店巴林銀行倒閉等事件都在警告我們，如果不掌握金融數學、金融工程和金融管理等現代化金融技術，缺乏人才，就可能在國際金融競爭中蒙受重大損失。我們現在最缺的，就是掌握現代金融衍生工具、能對金融風險做定量分析的既懂金融又懂數學的高級復合型人才。
據悉，目前國內不少高校都陸續開展了與金融數學相關的教學，但畢業的學生遠遠滿足不了整個市場的需求。
王鐸認為，培養這類人才還有一些難以逾越的障礙———金融數學最終要運用於實踐，可目前國內金融衍生產品市場還沒有成氣候，學生很難有實踐的機會，教和學都還是紙上談兵。另外，高校培養的人大多都是本科生，只有少量的研究生，這個領域的高端人才在國內還是鳳毛麟角。國家應該更多地關注金融和數學相結合的復合型人才的培養。
王鐸回憶，1997年，北京大學建立了國內首個金融數學系時，他曾想與一些金融界人士共商辦學。但相當一部分人對此顯然並不感興趣：「什麼金融衍生產品，什麼金融數學，那都是國家應該操心的事。」
盡管當初開設金融數學系時有人認為太超前，但王鐸堅持，教育應該走在產業發展的前頭，才能為市場儲備人才。如果今天還不重視相關領域的人才培養，就可能導致我們在國際競爭中的不利。
記者發現即使今天，在這個問題上，仍然一方面是高校教師對於人才稀缺的擔憂，一方面卻是一些名氣很大的專家對金融數學人才培養的冷漠。
采訪中，記者多次試圖聯系幾位國內金融數學界或金融理論界專家，可屢屢遭到拒絕。原因很簡單，他們認為，談人才培養這樣的話題太小兒科，有的甚至說，「我不了解，也根本不關注什麼人才培養」。還有的說，「我現在有很多課題要做，是我的課題重要，還是討論人才培養重要」、「我沒有時間，也沒義務向公眾解釋什麼諾貝爾經濟學獎，老百姓要不要曉得金融數學和我沒有關系」。
[編輯本段]金融中的數據挖掘
1.什麼是關聯規則
在描述有關關聯規則的一些細節之前，我們先來看一個有趣的故事： "尿布與啤酒"的故事。
在一家超市裡，有一個有趣的現象：尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話，而是發生在美國沃爾瑪連鎖店超市的真實案例，並一直為商家所津津樂道。沃爾瑪擁有世界上最大的數據倉庫系統，為了能夠准確了解顧客在其門店的購買習慣，沃爾瑪對其顧客的購物行為進行購物籃分析，想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上，沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發現是："跟尿布一起購買最多的商品竟是啤酒！經過大量實際調查和分析，揭示了一個隱藏在"尿布與啤酒"背後的美國人的一種行為模式：在美國，一些年輕的父親下班後經常要到超市去買嬰兒尿布，而他們中有30%～40%的人同時也為自己買一些啤酒。產生這一現象的原因是：美國的太太們常叮囑她們的丈夫下班後為小孩買尿布，而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。
按常規思維，尿布與啤酒風馬牛不相及，若不是藉助數據挖掘技術對大量交易數據進行挖掘分析，沃爾瑪是不可能發現數據內在這一有價值的規律的。
數據關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之間存在某種規律性，就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中數據的關聯函數，即使知道也是不確定的，因此關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯系。Agrawal等於1993年首先提出了挖掘顧客交易資料庫中項集間的關聯規則問題，以後諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。他們的工作包括對原有的演算法進行優化，如引入隨機采樣、並行的思想等，以提高演算法挖掘規則的效率；對關聯規則的應用進行推廣。關聯規則挖掘在數據挖掘中是一個重要的課題，最近幾年已被業界所廣泛研究。
2.關聯規則挖掘過程、分類及其相關演算法
2.1關聯規則挖掘的過程
關聯規則挖掘過程主要包含兩個階段：第一階段必須先從資料集合中找出所有的高頻項目組(Frequent Itemsets)，第二階段再由這些高頻項目組中產生關聯規則(Association Rules)。
關聯規則挖掘的第一階段必須從原始資料集合中，找出所有高頻項目組(Large Itemsets)。高頻的意思是指某一項目組出現的頻率相對於所有記錄而言，必須達到某一水平。一項目組出現的頻率稱為支持度(Support)，以一個包含A與B兩個項目的2-itemset為例，我們可以經由公式(1)求得包含{A,B}項目組的支持度，若支持度大於等於所設定的最小支持度(Minimum Support)門檻值時，則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset，則稱為高頻k-項目組(Frequent k-itemset)，一般表示為Large k或Frequent k。演算法並從Large k的項目組中再產生Large k+1，直到無法再找到更長的高頻項目組為止。
關聯規則挖掘的第二階段是要產生關聯規則(Association Rules)。從高頻項目組產生關聯規則，是利用前一步驟的高頻k-項目組來產生規則，在最小信賴度(Minimum Confidence)的條件門檻下，若一規則所求得的信賴度滿足最小信賴度，稱此規則為關聯規則。例如：經由高頻k-項目組{A,B}所產生的規則AB，其信賴度可經由公式(2)求得，若信賴度大於等於最小信賴度，則稱AB為關聯規則。
就沃爾馬案例而言，使用關聯規則挖掘技術，對交易資料庫中的紀錄進行資料挖掘，首先必須要設定最小支持度與最小信賴度兩個門檻值，在此假設最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關聯規則將必須同時滿足以上兩個條件。若經過挖掘過程所找到的關聯規則「尿布，啤酒」，滿足下列條件，將可接受「尿布，啤酒」的關聯規則。用公式可以描述Support(尿布，啤酒)>=5%且Confidence(尿布，啤酒)>=70%。其中，Support(尿布，啤酒)>=5%於此應用範例中的意義為:在所有的交易紀錄資料中，至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布，啤酒)>=70%於此應用範例中的意義為:在所有包含尿布的交易紀錄資料中，至少有70%的交易會同時購買啤酒。因此，今後若有某消費者出現購買尿布的行為，超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據「尿布，啤酒」關聯規則，因為就該超市過去的交易紀錄而言，支持了「大部份購買尿布的交易，會同時購買啤酒」的消費行為。
從上面的介紹還可以看出，關聯規則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始資料庫中的指標值是取連續的數據，則在關聯規則挖掘之前應該進行適當的數據離散化（實際上就是將某個區間的值對應於某個值），數據的離散化是數據挖掘前的重要環節，離散化的過程是否合理將直接影響關聯規則的挖掘結果。
2.2關聯規則的分類
按照不同情況，關聯規則可以進行分類如下：
1.基於規則中處理的變數的類別，關聯規則可以分為布爾型和數值型。
布爾型關聯規則處理的值都是離散的、種類化的，它顯示了這些變數之間的關系；而數值型關聯規則可以和多維關聯或多層關聯規則結合起來，對數值型欄位進行處理，將其進行動態的分割，或者直接對原始的數據進行處理，當然數值型關聯規則中也可以包含種類變數。例如：性別=「女」=>職業=「秘書」，是布爾型關聯規則；性別=「女」=>avg（收入）=2300，涉及的收入是數值類型，所以是一個數值型關聯規則。
2.基於規則中數據的抽象層次，可以分為單層關聯規則和多層關聯規則。
在單層的關聯規則中，所有的變數都沒有考慮到現實的數據是具有多個不同的層次的；而在多層的關聯規則中，對數據的多層性已經進行了充分的考慮。例如：IBM台式機=>Sony列印機，是一個細節數據上的單層關聯規則；台式機=>Sony列印機，是一個較高層次和細節層次之間的多層關聯規則。
3.基於規則中涉及到的數據的維數，關聯規則可以分為單維的和多維的。
在單維的關聯規則中，我們只涉及到數據的一個維，如用戶購買的物品；而在多維的關聯規則中，要處理的數據將會涉及多個維。換成另一句話，單維關聯規則是處理單個屬性中的一些關系；多維關聯規則是處理各個屬性之間的某些關系。例如：啤酒=>尿布，這條規則只涉及到用戶的購買的物品；性別=「女」=>職業=「秘書」，這條規則就涉及到兩個欄位的信息，是兩個維上的一條關聯規則。
2.3關聯規則挖掘的相關演算法
1.Apriori演算法：使用候選項集找頻繁項集
Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這里，所有支持度大於最小支持度的項集稱為頻繁項集，簡稱頻集。
該演算法的基本思想是：首先找出所有的頻集，這些項集出現的頻繁性至少和預定義的最小支持度一樣。然後由頻集產生強關聯規則，這些規則必須滿足最小支持度和最小可信度。然後使用第1步找到的頻集產生期望的規則，產生只包含集合的項的所有規則，其中每一條規則的右部只有一項，這里採用的是中規則的定義。一旦這些規則被生成，那麼只有那些大於用戶給定的最小可信度的規則才被留下來。為了生成所有頻集，使用了遞推的方法。
可能產生大量的候選集,以及可能需要重復掃描資料庫，是Apriori演算法的兩大缺點。
2.基於劃分的演算法
Savasere等設計了一個基於劃分的演算法。這個演算法先把資料庫從邏輯上分成幾個互不相交的塊，每次單獨考慮一個分塊並對它生成所有的頻集，然後把產生的頻集合並，用來生成所有可能的頻集，最後計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存，每個階段只需被掃描一次。而演算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該演算法是可以高度並行的，可以把每一分塊分別分配給某一個處理器生成頻集。產生頻集的每一個循環結束後，處理器之間進行通信來產生全局的候選k-項集。通常這里的通信過程是演算法執行時間的主要瓶頸；而另一方面，每個獨立的處理器生成頻集的時間也是一個瓶頸。
3.FP-樹頻集演算法
針對Apriori演算法的固有缺陷，J. Han等提出了不產生候選挖掘頻繁項集的方法：FP-樹頻集演算法。採用分而治之的策略，在經過第一遍掃描之後，把資料庫中的頻集壓縮進一棵頻繁模式樹（FP-tree），同時依然保留其中的關聯信息，隨後再將FP-tree分化成一些條件庫，每個庫和一個長度為1的頻集相關，然後再對這些條件庫分別進行挖掘。當原始數據量很大的時候，也可以結合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明，FP-growth對不同長度的規則都有很好的適應性，同時在效率上較之Apriori演算法有巨大的提高。
3.該領域在國內外的應用
3．1關聯規則發掘技術在國內外的應用
就目前而言，關聯規則挖掘技術已經被廣泛應用在西方金融行業企業中，它可以成功預測銀行客戶需求。一旦獲得了這些信息，銀行就可以改善自身營銷。現在銀行天天都在開發新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產品信息，供使用本行ATM機的用戶了解。如果資料庫中顯示，某個高信用限額的客戶更換了地址，這個客戶很有可能新近購買了一棟更大的住宅，因此會有可能需要更高信用限額，更高端的新信用卡，或者需要一個住房改善貸款，這些產品都可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢的時候，資料庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點，同時也可以顯示出顧客會對什麼產品感興趣。
同時，一些知名的電子商務站點也從強大的關聯規則挖掘中的受益。這些電子購物網站使用關聯規則中規則進行挖掘，然後設置用戶有意要一起購買的捆綁包。也有一些購物網站使用它們設置相應的交叉銷售，也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。
但是目前在我國，「數據海量，信息缺乏」是商業銀行在數據大集中之後普遍所面對的尷尬。目前金融業實施的大多數資料庫只能實現數據的錄入、查詢、統計等較低層次的功能，卻無法發現數據中存在的各種有用的信息，譬如對這些數據進行分析，發現其數據模式及特徵，然後可能發現某個客戶、消費群體或組織的金融和商業興趣，並可觀察金融市場的變化趨勢。可以說，關聯規則挖掘的技術在我國的研究與應用並不是很廣泛深入。
3．2近年來關聯規則發掘技術的一些研究
由於許多應用問題往往比超市購買問題更復雜，大量研究從不同的角度對關聯規則做了擴展，將更多的因素集成到關聯規則挖掘方法之中，以此豐富關聯規則的應用領域，拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關系，時態關系，多表挖掘等。近年來圍繞關聯規則的研究主要集中於兩個方面，即擴展經典關聯規則能夠解決問題的范圍，改善經典關聯規則挖掘演算法效率和規則興趣性。

金融工程的定義
關於金融工程的定義有多種說法，美國金融學家約翰·芬尼迪(John Finnerty)提出的定義最好：金融工程包括創新型金融工具與金融手段的設計、開發與實施，以及對金融問題給予創造性的解決。
金融工程的概念有狹義和廣義兩種。狹義的金融工程主要是指利用先進的數學及通訊工具，在各種現有基本金融產品的基礎上，進行不同形式的組合分解，以設計出符合客戶需要並具有特定P／L性的新的金融產品。而廣義的金融工程則是指一切利用工程化手段來解決金融問題的技術開發，它不僅包括金融產品設計，還包括金融產品定價、交易策略設計、金融風險管理等各個方面。本文採用的是廣義的金融工程概念。
[編輯本段]金融工程的核心內容
金融工程中，其核心在於對新型金融產品或業務的開發設計，其實質在於提高效率，它包括：
1.新型金融工具的創造，如創造第一個零息債券，第一個互換合約等；
2.已有工具的發展應用，如把期貨交易應用於新的領域，發展出眾多的期權及互換的品種等；
3.把已有的金融工具和手段運用組合分解技術，復合出新的金融產品，如遠期互換，期貨期權，新的財務結構的構造等。
[編輯本段]金融工程的運作程序
金融工程的運作具有規范化的程序:診斷—分析—開發—定價—交付使用，基本過程程序化。
其中從項目的可行性分析，產品的性能目標確定，方案的優化設計，產品的開發，定價模型的確定，模擬的模擬試驗，小批量的應用和反饋修正，直到大批量的銷售、推廣應用，各個環節緊密有序。大部分的被創新的新金融產品，成為運用金融工程創造性解決其他相關金融財務問題的工具，即組合性產品中的基本單元。

精算學
精算學在西方已經有三百年的歷史，它是一門運用概率論等數學理論和多種金融工具，研究如何處理保險業及其他金融業中各種風險問題的定量方法和技術的學科，是現代保險業、金融投資業和社會保障事業發展的理論基礎。
精算是一門運用概率數學理論和多種金融工具對經濟活動進行分析預測的學問。在西方發達國家，精算在保險、投資、金融監管、社會保障以及其他與風險管理相關領域發揮著重要作用。精算師是同"未來不確定性"打交道的，宗旨是為金融決策提供依據。
精算師

5. apriori演算法是什麼

經典的關聯規則挖掘演算法包括Apriori演算法和FP-growth演算法。

apriori演算法多次掃描交易資料庫，每次利用候選頻繁集產生頻繁集；而FP-growth則利用樹形結構，無需產生候選頻繁集而是直接得到頻繁集，大大減少掃描交易資料庫的次數，從而提高了演算法的效率，但是apriori的演算法擴展性較好，可以用於並行計算等領域。

(5)fpgrowth演算法能進行並行計算嗎擴展閱讀：

Apriori algorithm是關聯規則里一項基本演算法

Apriori演算法將發現關聯規則的過程分：

第一通過迭代，檢索出事務資料庫1中的所有頻繁項集，即支持度不低於用戶設定的閾值的項集；

第二利用頻繁項集構造出滿足用戶最小信任度的規則。其中，挖掘或識別出所有頻繁項集是該演算法的核心，占整個計算量的大部分。

6. iphone13+pro人臉識別原理

摘要您好很高興為您服務這里是網路知道我來為您解答問題人臉識別的原理今天用來做分類演算法學習的微課主角是——Weka。

7. 金融數學會涉及到哪些方面

金融數學是一門新興學科，是「金融高技術」的重要組成部分。研究目標是利用我國數學界某些方面的優勢，圍繞金融市場的均衡與有價證券定價的數學理論進行深入剖析，建立適合國情的數學模型，編寫一定的計算機軟體，對理論研究結果進行模擬計算，對實際數據進行計量經濟分析研究，為實際金融部門提供較深入的技術分析咨詢。核心內容就是研究不確定隨機環境下的投資組合的最優選擇理論和資產的定價理論。套利、最優與均衡是金融數學的基本經濟思想和三大基本概念。
金融數學主要的研究內容和擬重點解決的問題包括：
(1)有價證券和證券組合的定價理論
發展有價證券（尤其是期貨、期權等衍生工具）的定價理論。所用的數學方法主要是提出合適的隨機微分方程或隨機差分方程模型，形成相應的倒向方程。建立相應的非線性Feynman一Kac公式，由此導出非常一般的推廣的Black一Scholes定價公式。所得到的倒向方程將是高維非線性帶約束的奇異方程。
研究具有不同期限和收益率的證券組合的定價問題。需要建立定價與優化相結合的數學模型，在數學工具的研究方面，可能需要隨機規劃、模糊規劃和優化演算法研究。
在市場是不完全的條件下，引進與偏好有關的定價理論。
(2）不完全市場經濟均衡理論（GEI）
擬在以下幾個方面進行研究：
1．無窮維空間、無窮水平空間、及無限狀態
2.隨機經濟、無套利均衡、經濟結構參數變異、非線資產結構
3．資產證券的創新（Innovation）與設計（Design）
4．具有摩擦（Friction）的經濟
5．企業行為與生產、破產與壞債
6.證券市場博弈。
（3）GEI 平板衡演算法、蒙特卡羅法在經濟平衡點計算中的應用， GEI的理論在金融財政經濟宏觀經濟調控中的應用，不完全市場條件下，持續發展理論框架下研究自然資源資產定價與自然資源的持續利用。
1.什麼是關聯規則
在描述有關關聯規則的一些細節之前，我們先來看一個有趣的故事："尿布與啤酒"的故事。
在一家超市裡，有一個有趣的現象：尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話，而是發生在美國沃爾瑪連鎖店超市的真實案例，並一直為商家所津津樂道。沃爾瑪擁有世界上最大的數據倉庫系統，為了能夠准確了解顧客在其門店的購買習慣，沃爾瑪對其顧客的購物行為進行購物籃分析，想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上，沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發現是："跟尿布一起購買最多的商品竟是啤酒！經過大量實際調查和分析，揭示了一個隱藏在"尿布與啤酒"背後的美國人的一種行為模式：在美國，一些年輕的父親下班後經常要到超市去買嬰兒尿布，而他們中有30%～40%的人同時也為自己買一些啤酒。產生這一現象的原因是：美國的太太們常叮囑她們的丈夫下班後為小孩買尿布，而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。按常規思維，尿布與啤酒風馬牛不相及，若不是藉助數據挖掘技術對大量交易數據進行挖掘分析，沃爾瑪是不可能發現數據內在這一有價值的規律的。
數據關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之間存在某種規律性，就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中數據的關聯函數，即使知道也是不確定的，因此關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯系。Agrawal等於1993年首先提出了挖掘顧客交易資料庫中項集間的關聯規則問題，以後諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。他們的工作包括對原有的演算法進行優化，如引入隨機采樣、並行的思想等，以提高演算法挖掘規則的效率；對關聯規則的應用進行推廣。關聯規則挖掘在數據挖掘中是一個重要的課題，最近幾年已被業界所廣泛研究。
2.關聯規則挖掘過程、分類及其相關演算法
2.1關聯規則挖掘的過程
關聯規則挖掘過程主要包含兩個階段：第一階段必須先從資料集合中找出所有的高頻項目組(FrequentItemsets)，第二階段再由這些高頻項目組中產生關聯規則(AssociationRules)。
關聯規則挖掘的第一階段必須從原始資料集合中，找出所有高頻項目組(LargeItemsets)。高頻的意思是指某一項目組出現的頻率相對於所有記錄而言，必須達到某一水平。一項目組出現的頻率稱為支持度(Support)，以一個包含A與B兩個項目的2-itemset為例，我們可以經由公式(1)求得包含{A,B}項目組的支持度，若支持度大於等於所設定的最小支持度(MinimumSupport)門檻值時，則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset，則稱為高頻k-項目組(Frequentk-itemset)，一般表示為Largek或Frequentk。演算法並從Largek的項目組中再產生Largek+1，直到無法再找到更長的高頻項目組為止。
關聯規則挖掘的第二階段是要產生關聯規則(AssociationRules)。從高頻項目組產生關聯規則，是利用前一步驟的高頻k-項目組來產生規則，在最小信賴度(MinimumConfidence)的條件門檻下，若一規則所求得的信賴度滿足最小信賴度，稱此規則為關聯規則。例如：經由高頻k-項目組{A,B}所產生的規則AB，其信賴度可經由公式(2)求得，若信賴度大於等於最小信賴度，則稱AB為關聯規則。
就沃爾馬案例而言，使用關聯規則挖掘技術，對交易資料庫中的紀錄進行資料挖掘，首先必須要設定最小支持度與最小信賴度兩個門檻值，在此假設最小支持度min_support=5%且最小信賴度min_confidence=70%。因此符合此該超市需求的關聯規則將必須同時滿足以上兩個條件。若經過挖掘過程所找到的關聯規則「尿布，啤酒」，滿足下列條件，將可接受「尿布，啤酒」的關聯規則。用公式可以描述Support(尿布，啤酒)>=5%且Confidence(尿布，啤酒)>=70%。其中，Support(尿布，啤酒)>=5%於此應用範例中的意義為:在所有的交易紀錄資料中，至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布，啤酒)>=70%於此應用範例中的意義為:在所有包含尿布的交易紀錄資料中，至少有70%的交易會同時購買啤酒。因此，今後若有某消費者出現購買尿布的行為，超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據「尿布，啤酒」關聯規則，因為就該超市過去的交易紀錄而言，支持了「大部份購買尿布的交易，會同時購買啤酒」的消費行為。
從上面的介紹還可以看出，關聯規則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始資料庫中的指標值是取連續的數據，則在關聯規則挖掘之前應該進行適當的數據離散化（實際上就是將某個區間的值對應於某個值），數據的離散化是數據挖掘前的重要環節，離散化的過程是否合理將直接影響關聯規則的挖掘結果。
2.2關聯規則的分類
按照不同情況，關聯規則可以進行分類如下：
1.基於規則中處理的變數的類別，關聯規則可以分為布爾型和數值型。
布爾型關聯規則處理的值都是離散的、種類化的，它顯示了這些變數之間的關系；而數值型關聯規則可以和多維關聯或多層關聯規則結合起來，對數值型欄位進行處理，將其進行動態的分割，或者直接對原始的數據進行處理，當然數值型關聯規則中也可以包含種類變數。例如：性別=「女」=>職業=「秘書」，是布爾型關聯規則；性別=「女」=>avg（收入）=2300，涉及的收入是數值類型，所以是一個數值型關聯規則。
2.基於規則中數據的抽象層次，可以分為單層關聯規則和多層關聯規則。
在單層的關聯規則中，所有的變數都沒有考慮到現實的數據是具有多個不同的層次的；而在多層的關聯規則中，對數據的多層性已經進行了充分的考慮。例如：IBM台式機=>Sony列印機，是一個細節數據上的單層關聯規則；台式機=>Sony列印機，是一個較高層次和細節層次之間的多層關聯規則。
3.基於規則中涉及到的數據的維數，關聯規則可以分為單維的和多維的。
在單維的關聯規則中，我們只涉及到數據的一個維，如用戶購買的物品；而在多維的關聯規則中，要處理的數據將會涉及多個維。換成另一句話，單維關聯規則是處理單個屬性中的一些關系；多維關聯規則是處理各個屬性之間的某些關系。例如：啤酒=>尿布，這條規則只涉及到用戶的購買的物品；性別=「女」=>職業=「秘書」，這條規則就涉及到兩個欄位的信息，是兩個維上的一條關聯規則。 Apriori演算法
2.3關聯規則挖掘的相關演算法
1.Apriori演算法：使用候選項集找頻繁項集
Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這里，所有支持度大於最小支持度的項集稱為頻繁項集，簡稱頻集。
該演算法的基本思想是：首先找出所有的頻集，這些項集出現的頻繁性至少和預定義的最小支持度一樣。然後由頻集產生強關聯規則，這些規則必須滿足最小支持度和最小可信度。然後使用第1步找到的頻集產生期望的規則，產生只包含集合的項的所有規則，其中每一條規則的右部只有一項，這里採用的是中規則的定義。一旦這些規則被生成，那麼只有那些大於用戶給定的最小可信度的規則才被留下來。為了生成所有頻集，使用了遞推的方法。
可能產生大量的候選集,以及可能需要重復掃描資料庫，是Apriori演算法的兩大缺點。
2.基於劃分的演算法：Savasere等設計了一個基於劃分的演算法。這個演算法先把資料庫從邏輯上分成幾個互不相交的塊，每次單獨考慮一個分塊並對它生成所有的頻集，然後把產生的頻集合並，用來生成所有可能的頻集，最後計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存，每個階段只需被掃描一次。而演算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該演算法是可以高度並行的，可以把每一分塊分別分配給某一個處理器生成頻集。產生頻集的每一個循環結束後，處理器之間進行通信來產生全局的候選k-項集。通常這里的通信過程是演算法執行時間的主要瓶頸；而另一方面，每個獨立的處理器生成頻集的時間也是一個瓶頸。
3.FP-樹頻集演算法：針對Apriori演算法的固有缺陷，J.Han等提出了不產生候選挖掘頻繁項集的方法：FP-樹頻集演算法。採用分而治之的策略，在經過第一遍掃描之後，把資料庫中的頻集壓縮進一棵頻繁模式樹（FP-tree），同時依然保留其中的關聯信息，隨後再將FP-tree分化成一些條件庫，每個庫和一個長度為1的頻集相關，然後再對這些條件庫分別進行挖掘。當原始數據量很大的時候，也可以結合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明，FP-growth對不同長度的規則都有很好的適應性，同時在效率上較之Apriori演算法有巨大的提高。
3.該領域在國內外的應用
3.1關聯規則發掘技術在國內外的應用
就目前而言，關聯規則挖掘技術已經被廣泛應用在西方金融行業企業中，它可以成功預測銀行客戶需求。一旦獲得了這些信息，銀行就可以改善自身營銷。現在銀行天天都在開發新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產品信息，供使用本行ATM機的用戶了解。如果資料庫中顯示，某個高信用限額的客戶更換了地址，這個客戶很有可能新近購買了一棟更大的住宅，因此會有可能需要更高信用限額，更高端的新信用卡，或者需要一個住房改善貸款，這些產品都可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢的時候，資料庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點，同時也可以顯示出顧客會對什麼產品感興趣。
同時，一些知名的電子商務站點也從強大的關聯規則挖掘中的受益。這些電子購物網站使用關聯規則中規則進行挖掘，然後設置用戶有意要一起購買的捆綁包。也有一些購物網站使用它們設置相應的交叉銷售，也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。
但是目前在我國，「數據海量，信息缺乏」是商業銀行在數據大集中之後普遍所面對的尷尬。目前金融業實施的大多數資料庫只能實現數據的錄入、查詢、統計等較低層次的功能，卻無法發現數據中存在的各種有用的信息，譬如對這些數據進行分析，發現其數據模式及特徵，然後可能發現某個客戶、消費群體或組織的金融和商業興趣，並可觀察金融市場的變化趨勢。可以說，關聯規則挖掘的技術在我國的研究與應用並不是很廣泛深入。
3.2近年來關聯規則發掘技術的一些研究
由於許多應用問題往往比超市購買問題更復雜，大量研究從不同的角度對關聯規則做了擴展，將更多的因素集成到關聯規則挖掘方法之中，以此豐富關聯規則的應用領域，拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關系，時態關系，多表挖掘等。近年來圍繞關聯規則的研究主要集中於兩個方面，即擴展經典關聯規則能夠解決問題的范圍，改善經典關聯規則挖掘演算法效率和規則興趣性。

8. 《機器學習實戰》書上的Apriori演算法內循環為什麼只執行了一次

使用Apriori演算法進行關聯分析 ..................................................................................... 61
11.1 apriori.py ................................................................................................................. 61
12 使用FP-growth演算法來高效分析頻繁項集 .................................................................... 65
12.1 fpGrowth.py ............................................................................................................ 65
13 利用PCA來簡化數據 ..................................................................................................... 68
13.1 pca.py ...........................................

9. fp-growth 和aprori的區別

經典的關聯規則挖掘演算法包括Apriori演算法和FP-growth演算法。
apriori演算法多次掃描交易資料庫，每次利用候選頻繁集產生頻繁集；
而FP-growth則利用樹形結構，無需產生候選頻繁集而是直接得到頻繁集，大大減少掃描交易資料庫的次數，從而提高了演算法的效率。
但是apriori的演算法擴展性較好，可以用於並行計算等領域。
Apriorialgorithm是關聯規則里一項基本演算法。
是由RakeshAgrawal和RamakrishnanSrikant兩位博士在1994年提出的關聯規則挖掘演算法。
關聯規則的目的就是在一個數據集中找出項與項之間的關系，也被稱為購物藍分析（MarketBasketanalysis），因為「購物藍分析」很貼切的表達了適用該演算法情景中的一個子集。

10. 誰有金融數據挖掘，關聯規則分析與挖掘的一些介紹啊

雨林演算法的數據結構：
AVC-set:節點n包含的所有紀錄在某個屬性上的投影，其中該AVC-set包括了屬性的不同值在每個類別上的計數。
AVC-group:一個節點n上所有的AVC -set的集合
AVC-set的所佔內存的大小正比於對應屬性的不同值個數，AVC-group並不是資料庫信息的簡單的壓縮，它只是提供了建立決策樹需要的信息， AVC-group所佔用的內存空間遠遠小於資料庫所實際佔用的空間。
一般設計方案：
AVC_set
{
//存儲屬性的各個值
DistinctValue[]
//存儲屬性各個值在某個類上對應的計數
DistinctValueCountForClassA[]
DistinctValueCountForClassB[]
… …
}
AVC_group
{
//節點n中的每個屬性的avc_set
AVC_set[]
}
自頂向下決策樹演算法
BuildTree(Node m,datapatition D,algorithm decisionTree)
對D使用決策樹演算法decisionTree得到分裂指標crit(n)
令k為節點n的子節點個數
if(k>0)
建立n的k個子節點c1,…,ck
使用最佳分割將D分裂為D1,…,Dk
for(i=1;i<=k;i++)
BuildTree(ci,Di)
endfor
endif
RainForest 演算法框架重新定義的部分：
1a) for 每一個屬性的謂詞p,尋找最佳的分割
1b) decisionTree.find_best_partitioning(AVC-set of p)
1c) endfor
2a) k= decisionTree.decide_splitting_criterion();//決定最終的分割

雨林演算法的常規過程：
建立節點的AVC-group
(通過讀取整個原始資料庫或者某個分支的資料庫表或文件)
選擇分裂屬性和分裂標准：取決於使用雨林演算法框架的具體演算法，通過逐一檢查AVC-set來選擇。
將數據分解到各個子節點：必須讀取整個數據集(資料庫或文件)，將各條數據分解到各個子節點中，此時如果有足夠的內存，我們將建立一個或多個子節點的AVC-group

參考資料：李岱 rainforest.ppt 什麼是數據挖掘
數據挖掘(Data Mining)，又稱為資料庫中的知識發現(Knowledge Discovery in Database, KDD)，就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程，簡單的說，數據挖掘就是從大量數據中提取或「挖掘」知識。
並非所有的信息發現任務都被視為數據挖掘。例如，使用資料庫管理系統查找個別的記錄，或通過網際網路的搜索引擎查找特定的Web頁面，則是信息檢索（information retrieval）領域的任務。雖然這些任務是重要的，可能涉及使用復雜的演算法和數據結構，但是它們主要依賴傳統的計算機科學技術和數據的明顯特徵來創建索引結構，從而有效地組織和檢索信息。盡管如此，數據挖掘技術也已用來增強信息檢索系統的能力。
編輯本段數據挖掘的起源
為迎接前一節中的這些挑戰，來自不同學科的研究者匯集到一起，開始著手開發可以處理不同數據類型的更有效的、可伸縮的工具。這些工作建立在研究者先前使用的方法學和演算法之上，在數據挖掘領域達到高潮。特別地是，數據挖掘利用了來自如下一些領域的思想：(1) 來自統計學的抽樣、估計和假設檢驗，(2) 人工智慧、模式識別和機器學習的搜索演算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想，這些領域包括最優化、進化計算、資訊理論、信號處理、可視化和信息檢索。
一些其他領域也起到重要的支撐作用。特別地，需要資料庫系統提供有效的存儲、索引和查詢處理支持。源於高性能（並行）計算的技術在處理海量數據集方面常常是重要的。分布式技術也能幫助處理海量數據，並且當數據不能集中到一起處理時更是至關重要。
編輯本段數據挖掘能做什麼

1)數據挖掘能做以下六種不同事情（分析方法）：
· 分類（Classification）
· 估值（Estimation）
· 預言（Prediction）
· 相關性分組或關聯規則（Affinity grouping or association rules）
· 聚集（Clustering）
· 描述和可視化（Des cription and Visualization）
· 復雜數據類型挖掘(Text, Web ,圖形圖像，視頻，音頻等)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類：直接數據挖掘；間接數據挖掘
· 直接數據挖掘
目標是利用可用的數據建立一個模型，這個模型對剩餘的數據，對一個特定的變數（可以理解成資料庫中表的屬性，即列）進行描述。
· 間接數據挖掘
目標中沒有選出某一具體的變數，用模型進行描述；而是在所有的變數中建立起某種關系。
· 分類、估值、預言屬於直接數據挖掘；後三種屬於間接數據挖掘
3)各種分析方法的簡介
· 分類（Classification）
首先從數據中選出已經分好類的訓練集，在該訓練集上運用數據挖掘分類的技術，建立分類模型，對於沒有分類的數據進行分類。
例子：
a. 信用卡申請者，分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意：類的個數是確定的，預先定義好的
· 估值（Estimation）
估值與分類類似，不同之處在於，分類描述的是離散型變數的輸出，而估值處理連續值的輸出；分類的類別是確定數目的，估值的量是不確定的。
例子：
a. 根據購買模式，估計一個家庭的孩子個數
b. 根據購買模式，估計一個家庭的收入
c. 估計real estate的價值
一般來說，估值可以作為分類的前一步工作。給定一些輸入數據，通過估值，得到未知的連續變數的值，然後，根據預先設定的閾值，進行分類。例如：銀行對家庭貸款業務，運用估值，給各個客戶記分（Score 0~1）。然後，根據閾值，將貸款級別分類。
· 預言（Prediction）
通常，預言是通過分類或估值起作用的，也就是說，通過分類或估值得出模型，該模型用於對未知變數的預言。從這種意義上說，預言其實沒有必要分為一個單獨的類。預言其目的是對未來未知變數的預測，這種預測是需要時間來驗證的，即必須經過一定時間後，才知道預言准確性是多少。
· 相關性分組或關聯規則（Affinity grouping or association rules）
決定哪些事情將一起發生。
例子：
a. 超市中客戶在購買A的同時，經常會購買B，即A => B(關聯規則)
b. 客戶在購買A後，隔一段時間，會購買B （序列分析）
· 聚集（Clustering）
聚集是對記錄分組，把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先定義好的類，不需要訓練集。
例子：
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集，可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如，"哪一種類的促銷對客戶響應最好？"，對於這一類問題，首先對整個客戶做聚集，將客戶分組在各自的聚集里，然後對每個不同的聚集，回答問題，可能效果更好。
· 描述和可視化（Des cription and Visualization）
是對數據挖掘結果的表示方式。
編輯本段數據挖掘中的關聯規則上面演算法講的很清楚了，我來舉個例子：

Training data：
Id age income class
1 young 65 G
2 young 15 B
3 young 75 G
4 senior 40 B
5 senior 100 G
6 senior 60 G

AVC set „age「 for N1：
value class count
young B 1
young G 2
senior B 1
senior G 2

AVC set „income「 for N1：
value class count
15 B 1
40 B 1
60 G 1
65 G 1
75 G 1
100 G 1

AVC set „income「 for N2：
value class count
15 B 1
65 G 1
75 G 1

AVC set „age「 for N2:
value class count
young B 1
young G 2

最後推出雨林： N1
age=young / \ age=senior
/ \
N2 N3

最後提醒一點，對於雨林演算法，訓練樣本集不要大於3百萬。否則改用SPRINT。
1.什麼是關聯規則
在描述有關關聯規則的一些細節之前，我們先來看一個有趣的故事： "尿布與啤酒"的故事。
在一家超市裡，有一個有趣的現象：尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話，而是發生在美國沃爾瑪連鎖店超市的真實案例，並一直為商家所津津樂道。沃爾瑪擁有世界上最大的數據倉庫系統，為了能夠准確了解顧客在其門店的購買習慣，沃爾瑪對其顧客的購物行為進行購物籃分析，想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上，沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發現是："跟尿布一起購買最多的商品竟是啤酒！經過大量實際調查和分析，揭示了一個隱藏在"尿布與啤酒"背後的美國人的一種行為模式：在美國，一些年輕的父親下班後經常要到超市去買嬰兒尿布，而他們中有30%～40%的人同時也為自己買一些啤酒。產生這一現象的原因是：美國的太太們常叮囑她們的丈夫下班後為小孩買尿布，而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。
按常規思維，尿布與啤酒風馬牛不相及，若不是藉助數據挖掘技術對大量交易數據進行挖掘分析，沃爾瑪是不可能發現數據內在這一有價值的規律的。
數據關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之間存在某種規律性，就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中數據的關聯函數，即使知道也是不確定的，因此關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯系。Agrawal等於1993年首先提出了挖掘顧客交易資料庫中項集間的關聯規則問題，以後諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。他們的工作包括對原有的演算法進行優化，如引入隨機采樣、並行的思想等，以提高演算法挖掘規則的效率；對關聯規則的應用進行推廣。關聯規則挖掘在數據挖掘中是一個重要的課題，最近幾年已被業界所廣泛研究。
2.關聯規則挖掘過程、分類及其相關演算法
2.1關聯規則挖掘的過程
關聯規則挖掘過程主要包含兩個階段：第一階段必須先從資料集合中找出所有的高頻項目組(Frequent Itemsets)，第二階段再由這些高頻項目組中產生關聯規則(Association Rules)。
關聯規則挖掘的第一階段必須從原始資料集合中，找出所有高頻項目組(Large Itemsets)。高頻的意思是指某一項目組出現的頻率相對於所有記錄而言，必須達到某一水平。一項目組出現的頻率稱為支持度(Support)，以一個包含A與B兩個項目的2-itemset為例，我們可以經由公式(1)求得包含{A,B}項目組的支持度，若支持度大於等於所設定的最小支持度(Minimum Support)門檻值時，則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset，則稱為高頻k-項目組(Frequent k-itemset)，一般表示為Large k或Frequent k。演算法並從Large k的項目組中再產生Large k+1，直到無法再找到更長的高頻項目組為止。
關聯規則挖掘的第二階段是要產生關聯規則(Association Rules)。從高頻項目組產生關聯規則，是利用前一步驟的高頻k-項目組來產生規則，在最小信賴度(Minimum Confidence)的條件門檻下，若一規則所求得的信賴度滿足最小信賴度，稱此規則為關聯規則。例如：經由高頻k-項目組{A,B}所產生的規則AB，其信賴度可經由公式(2)求得，若信賴度大於等於最小信賴度，則稱AB為關聯規則。
就沃爾馬案例而言，使用關聯規則挖掘技術，對交易資料庫中的紀錄進行資料挖掘，首先必須要設定最小支持度與最小信賴度兩個門檻值，在此假設最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關聯規則將必須同時滿足以上兩個條件。若經過挖掘過程所找到的關聯規則「尿布，啤酒」，滿足下列條件，將可接受「尿布，啤酒」的關聯規則。用公式可以描述Support(尿布，啤酒)>=5%且Confidence(尿布，啤酒)>=70%。其中，Support(尿布，啤酒)>=5%於此應用範例中的意義為:在所有的交易紀錄資料中，至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布，啤酒)>=70%於此應用範例中的意義為:在所有包含尿布的交易紀錄資料中，至少有70%的交易會同時購買啤酒。因此，今後若有某消費者出現購買尿布的行為，超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據「尿布，啤酒」關聯規則，因為就該超市過去的交易紀錄而言，支持了「大部份購買尿布的交易，會同時購買啤酒」的消費行為。
從上面的介紹還可以看出，關聯規則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始資料庫中的指標值是取連續的數據，則在關聯規則挖掘之前應該進行適當的數據離散化（實際上就是將某個區間的值對應於某個值），數據的離散化是數據挖掘前的重要環節，離散化的過程是否合理將直接影響關聯規則的挖掘結果。
2.2關聯規則的分類
按照不同情況，關聯規則可以進行分類如下：
1.基於規則中處理的變數的類別，關聯規則可以分為布爾型和數值型。
布爾型關聯規則處理的值都是離散的、種類化的，它顯示了這些變數之間的關系；而數值型關聯規則可以和多維關聯或多層關聯規則結合起來，對數值型欄位進行處理，將其進行動態的分割，或者直接對原始的數據進行處理，當然數值型關聯規則中也可以包含種類變數。例如：性別=「女」=>職業=「秘書」，是布爾型關聯規則；性別=「女」=>avg（收入）=2300，涉及的收入是數值類型，所以是一個數值型關聯規則。
2.基於規則中數據的抽象層次，可以分為單層關聯規則和多層關聯規則。
在單層的關聯規則中，所有的變數都沒有考慮到現實的數據是具有多個不同的層次的；而在多層的關聯規則中，對數據的多層性已經進行了充分的考慮。例如：IBM台式機=>Sony列印機，是一個細節數據上的單層關聯規則；台式機=>Sony列印機，是一個較高層次和細節層次之間的多層關聯規則。
3.基於規則中涉及到的數據的維數，關聯規則可以分為單維的和多維的。
在單維的關聯規則中，我們只涉及到數據的一個維，如用戶購買的物品；而在多維的關聯規則中，要處理的數據將會涉及多個維。換成另一句話，單維關聯規則是處理單個屬性中的一些關系；多維關聯規則是處理各個屬性之間的某些關系。例如：啤酒=>尿布，這條規則只涉及到用戶的購買的物品；性別=「女」=>職業=「秘書」，這條規則就涉及到兩個欄位的信息，是兩個維上的一條關聯規則。
2.3關聯規則挖掘的相關演算法
1.Apriori演算法：使用候選項集找頻繁項集
Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這里，所有支持度大於最小支持度的項集稱為頻繁項集，簡稱頻集。
該演算法的基本思想是：首先找出所有的頻集，這些項集出現的頻繁性至少和預定義的最小支持度一樣。然後由頻集產生強關聯規則，這些規則必須滿足最小支持度和最小可信度。然後使用第1步找到的頻集產生期望的規則，產生只包含集合的項的所有規則，其中每一條規則的右部只有一項，這里採用的是中規則的定義。一旦這些規則被生成，那麼只有那些大於用戶給定的最小可信度的規則才被留下來。為了生成所有頻集，使用了遞推的方法。
可能產生大量的候選集,以及可能需要重復掃描資料庫，是Apriori演算法的兩大缺點。
2.基於劃分的演算法
Savasere等設計了一個基於劃分的演算法。這個演算法先把資料庫從邏輯上分成幾個互不相交的塊，每次單獨考慮一個分塊並對它生成所有的頻集，然後把產生的頻集合並，用來生成所有可能的頻集，最後計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存，每個階段只需被掃描一次。而演算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該演算法是可以高度並行的，可以把每一分塊分別分配給某一個處理器生成頻集。產生頻集的每一個循環結束後，處理器之間進行通信來產生全局的候選k-項集。通常這里的通信過程是演算法執行時間的主要瓶頸；而另一方面，每個獨立的處理器生成頻集的時間也是一個瓶頸。
3.FP-樹頻集演算法
針對Apriori演算法的固有缺陷，J. Han等提出了不產生候選挖掘頻繁項集的方法：FP-樹頻集演算法。採用分而治之的策略，在經過第一遍掃描之後，把資料庫中的頻集壓縮進一棵頻繁模式樹（FP-tree），同時依然保留其中的關聯信息，隨後再將FP-tree分化成一些條件庫，每個庫和一個長度為1的頻集相關，然後再對這些條件庫分別進行挖掘。當原始數據量很大的時候，也可以結合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明，FP-growth對不同長度的規則都有很好的適應性，同時在效率上較之Apriori演算法有巨大的提高。
3.該領域在國內外的應用
3．1關聯規則發掘技術在國內外的應用
就目前而言，關聯規則挖掘技術已經被廣泛應用在西方金融行業企業中，它可以成功預測銀行客戶需求。一旦獲得了這些信息，銀行就可以改善自身營銷。現在銀行天天都在開發新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產品信息，供使用本行ATM機的用戶了解。如果資料庫中顯示，某個高信用限額的客戶更換了地址，這個客戶很有可能新近購買了一棟更大的住宅，因此會有可能需要更高信用限額，更高端的新信用卡，或者需要一個住房改善貸款，這些產品都可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢的時候，資料庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點，同時也可以顯示出顧客會對什麼產品感興趣。
同時，一些知名的電子商務站點也從強大的關聯規則挖掘中的受益。這些電子購物網站使用關聯規則中規則進行挖掘，然後設置用戶有意要一起購買的捆綁包。也有一些購物網站使用它們設置相應的交叉銷售，也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。
但是目前在我國，「數據海量，信息缺乏」是商業銀行在數據大集中之後普遍所面對的尷尬。目前金融業實施的大多數資料庫只能實現數據的錄入、查詢、統計等較低層次的功能，卻無法發現數據中存在的各種有用的信息，譬如對這些數據進行分析，發現其數據模式及特徵，然後可能發現某個客戶、消費群體或組織的金融和商業興趣，並可觀察金融市場的變化趨勢。可以說，關聯規則挖掘的技術在我國的研究與應用並不是很廣泛深入。
3．2近年來關聯規則發掘技術的一些研究
由於許多應用問題往往比超市購買問題更復雜，大量研究從不同的角度對關聯規則做了擴展，將更多的因素集成到關聯規則挖掘方法之中，以此豐富關聯規則的應用領域，拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關系，時態關系，多表挖掘等。近年來圍繞關聯規則的研究主要集中於兩個方面，即擴展經典關聯規則能夠解決問題的范圍，改善經典關聯規則挖掘演算法效率和規則興趣性。
編輯本段數據挖掘技術實現
在技術上可以根據它的工作過程分為：數據的抽取、數據的存儲和管理、數據的展現等關鍵技術。
·數據的抽取
數據的抽取是數據進入倉庫的入口。由於數據倉庫是一個獨立的數據環境，它需要通過抽取過程將數據從聯機事務處理系統、外部數據源、離線的數據存儲介質中導入數據倉庫。數據抽取在技術上主要涉及互連、復制、增量、轉換、調度和監控等幾個方面的處理。在數據抽取方面，未來的技術發展將集中在系統功能集成化方面，以適應數據倉庫本身或數據源的變化，使系統更便於管理和維護。
·數據的存儲和管理
數據倉庫的組織管理方式決定了它有別於傳統資料庫的特性，也決定了其對外部數據的表現形式。數據倉庫管理所涉及的數據量比傳統事務處理大得多，且隨時間的推移而快速累積。在數據倉庫的數據存儲和管理中需要解決的是如何管理大量的數據、如何並行處理大量的數據、如何優化查詢等。目前，許多資料庫廠家提供的技術解決方案是擴展關系型資料庫的功能，將普通關系資料庫改造成適合擔當數據倉庫的伺服器。
·數據的展現
在數據展現方面主要的方式有：
查詢：實現預定義查詢、動態查詢、OLAP查詢與決策支持智能查詢；報表：產生關系數據表格、復雜表格、OLAP表格、報告以及各種綜合報表；可視化：用易於理解的點線圖、直方圖、餅圖、網狀圖、互動式可視化、動態模擬、計算機動畫技術表現復雜數據及其相互關系；統計：進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統計分析；挖掘：利用數據挖掘等方法，從數據中得到關於數據關系和模式的知識。
編輯本段數據挖掘與數據倉庫融合發展
數據挖掘和數據倉庫的協同工作，一方面，可以迎合和簡化數據挖掘過程中的重要步驟，提高數據挖掘的效率和能力，確保數據挖掘中數據來源的廣泛性和完整性。另一方面，數據挖掘技術已經成為數據倉庫應用中極為重要和相對獨立的方面和工具。
數據挖掘和數據倉庫是融合與互動發展的，其學術研究價值和應用研究前景將是令人振奮的。它是數據挖掘專家、數據倉庫技術人員和行業專家共同努力的成果，更是廣大渴望從資料庫「奴隸」到資料庫「主人」轉變的企業最終用戶的通途。
統計學與數據挖掘
統計學和數據挖掘有著共同的目標：發現數據中的結構。事實上，由於它們的目標相似，一些人（尤其是統計學家）認為數據挖掘是統計學的分支。這是一個不切合實際的看法。因為數據挖掘還應用了其它領域的思想、工具和方法，尤其是計算機學科，例如資料庫技術和機器學習，而且它所關注的某些領域和統計學家所關注的有很大不同。
1．統計學的性質
試圖為統計學下一個太寬泛的定義是沒有意義的。盡管可能做到，但會引來很多異議。相反，我要關注統計學不同於數據挖掘的特性。
差異之一同上節中最後一段提到的相關，即統計學是一門比較保守的學科，目前有一種趨勢是越來越精確。當然，這本身並不是壞事，只有越精確才能避免錯誤，發現真理。但是如果過度的話則是有害的。這個保守的觀點源於統計學是數學的分支這樣一個看法，我是不同意這個觀點的,盡管統計學確實以數學為基礎（正如物理和工程也以數學為基礎，但沒有被認為是數學的分支），但它同其它學科還有緊密的聯系。
數學背景和追求精確加強了這樣一個趨勢：在採用一個方法之前先要證明，而不是象計算機這

導航:首頁 > 源碼編譯 > fpgrowth演算法能進行並行計算嗎

fpgrowth演算法能進行並行計算嗎

與fpgrowth演算法能進行並行計算嗎相關的資料