沃爾瑪演算法的邏輯_數據挖掘的經典演算法

㈠數據挖掘的經典演算法

1. C4.5：是機器學習演算法中的一種分類決策樹演算法，其核心演算法是ID3演算法。
2. K-means演算法：是一種聚類演算法。
3.SVM：一種監督式學習的方法，廣泛運用於統計分類以及回歸分析中
4.Apriori ：是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。
5.EM：最大期望值法。
6.pagerank：是google演算法的重要內容。
7. Adaboost:是一種迭代演算法，其核心思想是針對同一個訓練集訓練不同的分類器然後把弱分類器集合起來，構成一個更強的最終分類器。
8.KNN:是一個理論上比較成熟的的方法，也是最簡單的機器學習方法之一。
9.Naive Bayes：在眾多分類方法中，應用最廣泛的有決策樹模型和樸素貝葉斯（Naive Bayes）
10.Cart：分類與回歸樹，在分類樹下面有兩個關鍵的思想，第一個是關於遞歸地劃分自變數空間的想法，第二個是用驗證數據進行減枝。
關聯規則規則定義
在描述有關關聯規則的一些細節之前，我們先來看一個有趣的故事：尿布與啤酒的故事。
在一家超市裡，有一個有趣的現象：尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話，而是發生在美國沃爾瑪連鎖店超市的真實案例，並一直為商家所津津樂道。沃爾瑪擁有世界上最大的數據倉庫系統，為了能夠准確了解顧客在其門店的購買習慣，沃爾瑪對其顧客的購物行為進行購物籃分析，想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上，沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發現是：跟尿布一起購買最多的商品竟是啤酒！經過大量實際調查和分析，揭示了一個隱藏在尿布與啤酒背後的美國人的一種行為模式：在美國，一些年輕的父親下班後經常要到超市去買嬰兒尿布，而他們中有30%～40%的人同時也為自己買一些啤酒。產生這一現象的原因是：美國的太太們常叮囑她們的丈夫下班後為小孩買尿布，而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。
按常規思維，尿布與啤酒風馬牛不相及，若不是藉助數據挖掘技術對大量交易數據進行挖掘分析，沃爾瑪是不可能發現數據內在這一有價值的規律的。
數據關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之間存在某種規律性，就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中數據的關聯函數，即使知道也是不確定的，因此關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯系。Agrawal等於1993年首先提出了挖掘顧客交易資料庫中項集間的關聯規則問題，以後諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。他們的工作包括對原有的演算法進行優化，如引入隨機采樣、並行的思想等，以提高演算法挖掘規則的效率；對關聯規則的應用進行推廣。關聯規則挖掘在數據挖掘中是一個重要的課題，最近幾年已被業界所廣泛研究。

㈡沃爾瑪的存貨管理策略有何特色

庫存管理，主要包括庫存信息管理與決策分析，以達到有效控制庫存，從而達到最終目的的沃爾瑪，提高沃爾瑪經濟效益。現在是小編帶來的沃爾瑪庫存管理論文，希望對你有所幫助~
沃爾瑪庫存管理論文
摘要:針對沃爾瑪庫存的問題，引入了ABC分類的理論，運用ABC分類理論中的先進思想與基本原則，結合市場發展形勢，力圖將沃爾瑪的潛能最大限度的開發出來，從而促進沃爾瑪的全面發展。
關鍵詞:庫存管理;ABC;分類法;成本控制
從賬目信息上來看，庫存是單位項目在資產負債表中的重要組成部分，在流動資產中占據總額比例較大的部分。因此，沃爾瑪在實施庫存管理的過程中，必須要使用極為准確的庫存管理方法，以保證庫存管理工作的質量與效率。在實際的工作中，高質量的庫存管理工作不僅可以保證沃爾瑪內部資金的正常運轉，還能有效的提高沃爾瑪的資金利用率，從而提高沃爾瑪的經濟效益。由此看來，庫存管理在我國的沃爾瑪管理中占據了及其重要的地位，在我國沃爾瑪管理工作未來發展的過程中必將發揮更加重要的作用。
1研究背景及現狀
在19世紀，隨著西方工業經濟的進一步發展，經濟增長到庫存管理的要求，做出庫存理論的研究也不會增加，逐漸得到了關注和重視。近年來，在我國，學者的研究成果也越來越多，還需要更多新的研究創新以滿足真正的庫存管理在沃爾瑪的需求。在20世紀90年代，隨著科學技術的進步及其不斷向生產與存貨控制方面的深入，新一代的管理理論--沃爾瑪資源計劃ERP應運而生。在西方國家，沃爾瑪管理歷史發展較早，制度較為健全，如今他們在存貨管理工作上一般採取掛簽制度和ABC分類法，ABC分類法是義大利經濟學家帕累托在19世紀最先提出的。從我國對於庫存管理相關理論的研究情況來看，雖然我國相關部門已經加強了對庫存管理工作的重視程度，各方面的研究工作也在有條不紊的進行當中，但總體水平還是難以達到世界先進國家的水準。ABC分類理論的引入，有效地改善了我國庫存管理研究的現狀。苗燕專家利用了ABC分類法對存貨進行高儲和低儲的設定，從而有效地減少呆滯庫存的產生。而崔愛萍將傳統的ABC分類法與模糊聚類分析法相結合並應用到庫存管理中，從而實現了ABC的具體分類。
2存貨管理的含義
庫存管理，主要包括庫存信息管理與決策分析，以達到有效控制庫存，從而達到最終目的的沃爾瑪，提高沃爾瑪經濟效益。專家認為庫存管理是供應商的庫存策略和價值鏈分析和過程進行比較。一種方法稱為反應方法，該方法基於客戶的需求，通過某些驅動交付的產品的分銷渠道。第二種方法稱為計劃方法，基於生產的需求和產品，該產品的運輸和分布在通道中間的性質。還有第三個方式稱為一種混合方法，它是通過邏輯推理的能力，在這兩種方法進行了分析、響應必須對產品和市場環境的庫存管理方法。存貨管理的功能。在沃爾瑪生產經營過程當中，存貨主要有以下幾個方面的功能:首先，加強沃爾瑪的庫存管理可以有效的維持沃爾瑪生產經營中所需的平衡。對於從事生產經營的沃爾瑪來說，必要的庫存儲備有利於沃爾瑪實現可持續發展，使得沃爾瑪隨時可以為市場提供貨源，滿足市場的需要;其次，加強沃爾瑪的庫存管理是充分考慮采購成本後的結果，也是采購成本自身額需要。沃爾瑪在選擇庫存貨物的采購方式以及確定庫存貨物數量時，通常要通過對成本以及收益之間的管理來確定庫存貨物的數量;最後，加強沃爾瑪的庫存管理可以使沃爾瑪在應對市場行情變化的過程中更加得心應手。沃爾瑪若要實現可持續發展，獲得足夠的市場競爭力，其高級管理層必須頂起對市場進行定點考察，並對所得數據信息進行系統化的分析與判定後，來確定沃爾瑪商品的價格，並對其市場銷售前景進行預估，從而盡可能迅速的佔領市場，謀取最大化的經濟效益。
3採用ABC分類法的必要性
沃爾瑪不斷增長的業務需求，傳統的庫存管理方式顯然暴露了過去的不足之處，這顯然不符合現代庫存管理的要求。ABC分類採用數理統計方法，對各種事物和相關因素，根據不同的事物或屬性或體重要求，統計，整理和分類，分為A，B，C三類，給出相應的輔助管理的不同程度的焦點。對應的庫存管理，ABC分類管理是按照品種和佔領首都的庫存物品被分為特殊庫存(A類)，庫存(B)的一般重要性和庫存(C類)三個等級，然後不同等級分別進行管理和控制的方法。
3.1ABC分類法的優點。1)節省。大大提高沃爾瑪存貨周轉率的管理，從而減少了對資金流動的壓力，變成現金，減少利息支出，降低成本，還可以節省大量的資金和存貨占據相對保存貸款利息。2)減少短缺。最大限度地降低庫存庫存水平，並設法提高正確庫存現貨的速度。使用ABC分類法可以最大限度的降低不足率。在C類商品有足夠的存貨在同一時間，你可以為B類商品和船期安排，可靠的控制類零部件可以集中處理，控制和翻身，及時發現這類存貨的庫存，並迅速糾正。
3.2實施ABC分類法應注意的問題。1)ABC分析法的分類是人為的，一般是將分析對象分成A、B、C三類。2)所述存儲系統中的ABC分析，密鑰管理的主要實施資金，而不是物品本身的重要性。3)ABC分類法是基於一定基礎的統計數據，應該是動態分析的，應該隨時調節，以獲得最大的實際庫存的結果。
3.3控制沃爾瑪的存貨成本。1)做好崗位分工強化倉儲與保管控制。分清工作責任，建立存貨業務;慎打欠條;及時認真做好匯報貨物滅失。2)監督與檢查。設立關聯沃爾瑪，定期檢查庫存和業務人員;定期檢查庫存業務授權制度的實施;定期檢查，存貨收發器存儲系統的實施;定期檢查庫存處理系統的實施;定期檢查庫存會計制度的實施。
3.4實現沃爾瑪存貨信息化管理。1)運用條形碼技術。條碼技術的應用解決了數據錄入和數據採集，更好的庫存管理的准確性和效率，對商品和供應鏈管理的現代流通的「瓶頸」問題提供了有效的技術支持。2)建立適應發展的計算機存貨管理系統。根據會計的統一的會計制度，及時、准確、完整的存貨核算能更深對沃爾瑪信息動態庫存的理解，提高庫存操作的效率。綜合上文所述，明確了基於ABC分類理論下的庫存管理方法，並針對該管理方法的使用以及其中存在的問題，提出了解決問題的側露與方法。在我國沃爾瑪庫存管理工作未來的研究與發展過程中，務必要充分的發揮信息技術的作用，緊跟時代的步伐，從網路化、信息化以及科學化的角度入手，促進庫存沃爾瑪管理工作的提高，從而有效的降低沃爾瑪運營的成本。加強沃爾瑪庫存管理的目的在於減少沃爾瑪生產運營過程中產生的綜合成本，從而實現沃爾瑪長期、穩定、持續的發展，促進沃爾瑪庫存結構的優化與提高，從而提高庫存投資的效率與質量。在沃爾瑪未來的發展中，務必要加強沃爾瑪庫存管理的監督機制，從而提高沃爾瑪的運行效率。

㈢簡述身邊大數據成功案例並且用了哪些大數據的數據達到什麼效果

隨著大數據時代的到來，大數據早已被逐步的運用在我們生活中的方方面面，那麼除了之前眾所周知的大數據殺熟事件，對於大數據你還了解多少呢？科學運用案例你又知道多少?今天就跟隨千鋒小編一起來看看。
洛杉磯警察局和加利福尼亞大學合作利用大數據預測犯罪的發生。
google流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散布。
統計學家內特.西爾弗(Nate Silver)利用大數據預測2012美國選舉結果。
麻省理工學院利用手機定位數據和交通數據建立城市規劃。
梅西百貨的實時定價機制，根據需求和庫存的情況，該公司基於SAS的系統對多達7300萬種貨品進行實時調價。
……
種種的案例實在是太多，或許我們永遠說不完一樣，所以我們就來看一看大數據被科學運用的一個經典案例：
「啤酒與尿布」的故事產生於20世紀90年代的美國沃爾瑪超市中，沃爾瑪的超市管理人員分析銷售數據時發現了一個令人難於理解的現象：在某些特定的情況下，「啤酒」與「尿布」兩件看上去毫無關系的商品會經常出現在同一個購物籃中，這種獨特的銷售現象引起了管理人員的注意，經過後續調查發現，這種現象出現在年輕的父親身上。
如果這個年輕的父親在賣場只能買到兩件商品之一，則他很有可能會放棄購物而到另一家商店，直到可以一次同時買到啤酒與尿布為止。沃爾瑪發現了這一獨特的現象，開始在賣場嘗試將啤酒與尿布擺放在相同的區域，讓年輕的父親可以同時找到這兩件商品，並很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件，從而獲得了很好的商品銷售收入，這就是「啤酒與尿布」故事的由來。
當然「啤酒與尿布」的故事必須具有技術方面的支持。1993年美國學者Agrawal提出通過分析購物籃中的商品集合，從而找出商品之間關聯關系的關聯演算法，並根據商品之間的關系，找出客戶的購買行為。艾格拉沃從數學及計算機演算法角度提出了商品關聯關系的計算方法——Aprior演算法。沃爾瑪從上個世紀 90 年代嘗試將 Aprior 演算法引入到 POS機數據分析中，並獲得了成功，於是產生了「啤酒與尿布」的故事。
其實大數據，其影響除了以上列舉的方面外，它同時也能在經濟、政治、文化等方面產生深遠的影響，大數據可以幫助人們開啟循「數」管理的模式，也是我們當下「大社會」的集中體現，三分技術，七分數據，得數據者得天下。

㈣金融數學會涉及到哪些方面

金融數學是一門新興學科，是「金融高技術」的重要組成部分。研究目標是利用我國數學界某些方面的優勢，圍繞金融市場的均衡與有價證券定價的數學理論進行深入剖析，建立適合國情的數學模型，編寫一定的計算機軟體，對理論研究結果進行模擬計算，對實際數據進行計量經濟分析研究，為實際金融部門提供較深入的技術分析咨詢。核心內容就是研究不確定隨機環境下的投資組合的最優選擇理論和資產的定價理論。套利、最優與均衡是金融數學的基本經濟思想和三大基本概念。
金融數學主要的研究內容和擬重點解決的問題包括：
(1)有價證券和證券組合的定價理論
發展有價證券（尤其是期貨、期權等衍生工具）的定價理論。所用的數學方法主要是提出合適的隨機微分方程或隨機差分方程模型，形成相應的倒向方程。建立相應的非線性Feynman一Kac公式，由此導出非常一般的推廣的Black一Scholes定價公式。所得到的倒向方程將是高維非線性帶約束的奇異方程。
研究具有不同期限和收益率的證券組合的定價問題。需要建立定價與優化相結合的數學模型，在數學工具的研究方面，可能需要隨機規劃、模糊規劃和優化演算法研究。
在市場是不完全的條件下，引進與偏好有關的定價理論。
(2）不完全市場經濟均衡理論（GEI）
擬在以下幾個方面進行研究：
1．無窮維空間、無窮水平空間、及無限狀態
2.隨機經濟、無套利均衡、經濟結構參數變異、非線資產結構
3．資產證券的創新（Innovation）與設計（Design）
4．具有摩擦（Friction）的經濟
5．企業行為與生產、破產與壞債
6.證券市場博弈。
（3）GEI 平板衡演算法、蒙特卡羅法在經濟平衡點計算中的應用， GEI的理論在金融財政經濟宏觀經濟調控中的應用，不完全市場條件下，持續發展理論框架下研究自然資源資產定價與自然資源的持續利用。
1.什麼是關聯規則
在描述有關關聯規則的一些細節之前，我們先來看一個有趣的故事："尿布與啤酒"的故事。
在一家超市裡，有一個有趣的現象：尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話，而是發生在美國沃爾瑪連鎖店超市的真實案例，並一直為商家所津津樂道。沃爾瑪擁有世界上最大的數據倉庫系統，為了能夠准確了解顧客在其門店的購買習慣，沃爾瑪對其顧客的購物行為進行購物籃分析，想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上，沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發現是："跟尿布一起購買最多的商品竟是啤酒！經過大量實際調查和分析，揭示了一個隱藏在"尿布與啤酒"背後的美國人的一種行為模式：在美國，一些年輕的父親下班後經常要到超市去買嬰兒尿布，而他們中有30%～40%的人同時也為自己買一些啤酒。產生這一現象的原因是：美國的太太們常叮囑她們的丈夫下班後為小孩買尿布，而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。按常規思維，尿布與啤酒風馬牛不相及，若不是藉助數據挖掘技術對大量交易數據進行挖掘分析，沃爾瑪是不可能發現數據內在這一有價值的規律的。
數據關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之間存在某種規律性，就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中數據的關聯函數，即使知道也是不確定的，因此關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯系。Agrawal等於1993年首先提出了挖掘顧客交易資料庫中項集間的關聯規則問題，以後諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。他們的工作包括對原有的演算法進行優化，如引入隨機采樣、並行的思想等，以提高演算法挖掘規則的效率；對關聯規則的應用進行推廣。關聯規則挖掘在數據挖掘中是一個重要的課題，最近幾年已被業界所廣泛研究。
2.關聯規則挖掘過程、分類及其相關演算法
2.1關聯規則挖掘的過程
關聯規則挖掘過程主要包含兩個階段：第一階段必須先從資料集合中找出所有的高頻項目組(FrequentItemsets)，第二階段再由這些高頻項目組中產生關聯規則(AssociationRules)。
關聯規則挖掘的第一階段必須從原始資料集合中，找出所有高頻項目組(LargeItemsets)。高頻的意思是指某一項目組出現的頻率相對於所有記錄而言，必須達到某一水平。一項目組出現的頻率稱為支持度(Support)，以一個包含A與B兩個項目的2-itemset為例，我們可以經由公式(1)求得包含{A,B}項目組的支持度，若支持度大於等於所設定的最小支持度(MinimumSupport)門檻值時，則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset，則稱為高頻k-項目組(Frequentk-itemset)，一般表示為Largek或Frequentk。演算法並從Largek的項目組中再產生Largek+1，直到無法再找到更長的高頻項目組為止。
關聯規則挖掘的第二階段是要產生關聯規則(AssociationRules)。從高頻項目組產生關聯規則，是利用前一步驟的高頻k-項目組來產生規則，在最小信賴度(MinimumConfidence)的條件門檻下，若一規則所求得的信賴度滿足最小信賴度，稱此規則為關聯規則。例如：經由高頻k-項目組{A,B}所產生的規則AB，其信賴度可經由公式(2)求得，若信賴度大於等於最小信賴度，則稱AB為關聯規則。
就沃爾馬案例而言，使用關聯規則挖掘技術，對交易資料庫中的紀錄進行資料挖掘，首先必須要設定最小支持度與最小信賴度兩個門檻值，在此假設最小支持度min_support=5%且最小信賴度min_confidence=70%。因此符合此該超市需求的關聯規則將必須同時滿足以上兩個條件。若經過挖掘過程所找到的關聯規則「尿布，啤酒」，滿足下列條件，將可接受「尿布，啤酒」的關聯規則。用公式可以描述Support(尿布，啤酒)>=5%且Confidence(尿布，啤酒)>=70%。其中，Support(尿布，啤酒)>=5%於此應用範例中的意義為:在所有的交易紀錄資料中，至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布，啤酒)>=70%於此應用範例中的意義為:在所有包含尿布的交易紀錄資料中，至少有70%的交易會同時購買啤酒。因此，今後若有某消費者出現購買尿布的行為，超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據「尿布，啤酒」關聯規則，因為就該超市過去的交易紀錄而言，支持了「大部份購買尿布的交易，會同時購買啤酒」的消費行為。
從上面的介紹還可以看出，關聯規則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始資料庫中的指標值是取連續的數據，則在關聯規則挖掘之前應該進行適當的數據離散化（實際上就是將某個區間的值對應於某個值），數據的離散化是數據挖掘前的重要環節，離散化的過程是否合理將直接影響關聯規則的挖掘結果。
2.2關聯規則的分類
按照不同情況，關聯規則可以進行分類如下：
1.基於規則中處理的變數的類別，關聯規則可以分為布爾型和數值型。
布爾型關聯規則處理的值都是離散的、種類化的，它顯示了這些變數之間的關系；而數值型關聯規則可以和多維關聯或多層關聯規則結合起來，對數值型欄位進行處理，將其進行動態的分割，或者直接對原始的數據進行處理，當然數值型關聯規則中也可以包含種類變數。例如：性別=「女」=>職業=「秘書」，是布爾型關聯規則；性別=「女」=>avg（收入）=2300，涉及的收入是數值類型，所以是一個數值型關聯規則。
2.基於規則中數據的抽象層次，可以分為單層關聯規則和多層關聯規則。
在單層的關聯規則中，所有的變數都沒有考慮到現實的數據是具有多個不同的層次的；而在多層的關聯規則中，對數據的多層性已經進行了充分的考慮。例如：IBM台式機=>Sony列印機，是一個細節數據上的單層關聯規則；台式機=>Sony列印機，是一個較高層次和細節層次之間的多層關聯規則。
3.基於規則中涉及到的數據的維數，關聯規則可以分為單維的和多維的。
在單維的關聯規則中，我們只涉及到數據的一個維，如用戶購買的物品；而在多維的關聯規則中，要處理的數據將會涉及多個維。換成另一句話，單維關聯規則是處理單個屬性中的一些關系；多維關聯規則是處理各個屬性之間的某些關系。例如：啤酒=>尿布，這條規則只涉及到用戶的購買的物品；性別=「女」=>職業=「秘書」，這條規則就涉及到兩個欄位的信息，是兩個維上的一條關聯規則。 Apriori演算法
2.3關聯規則挖掘的相關演算法
1.Apriori演算法：使用候選項集找頻繁項集
Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這里，所有支持度大於最小支持度的項集稱為頻繁項集，簡稱頻集。
該演算法的基本思想是：首先找出所有的頻集，這些項集出現的頻繁性至少和預定義的最小支持度一樣。然後由頻集產生強關聯規則，這些規則必須滿足最小支持度和最小可信度。然後使用第1步找到的頻集產生期望的規則，產生只包含集合的項的所有規則，其中每一條規則的右部只有一項，這里採用的是中規則的定義。一旦這些規則被生成，那麼只有那些大於用戶給定的最小可信度的規則才被留下來。為了生成所有頻集，使用了遞推的方法。
可能產生大量的候選集,以及可能需要重復掃描資料庫，是Apriori演算法的兩大缺點。
2.基於劃分的演算法：Savasere等設計了一個基於劃分的演算法。這個演算法先把資料庫從邏輯上分成幾個互不相交的塊，每次單獨考慮一個分塊並對它生成所有的頻集，然後把產生的頻集合並，用來生成所有可能的頻集，最後計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存，每個階段只需被掃描一次。而演算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該演算法是可以高度並行的，可以把每一分塊分別分配給某一個處理器生成頻集。產生頻集的每一個循環結束後，處理器之間進行通信來產生全局的候選k-項集。通常這里的通信過程是演算法執行時間的主要瓶頸；而另一方面，每個獨立的處理器生成頻集的時間也是一個瓶頸。
3.FP-樹頻集演算法：針對Apriori演算法的固有缺陷，J.Han等提出了不產生候選挖掘頻繁項集的方法：FP-樹頻集演算法。採用分而治之的策略，在經過第一遍掃描之後，把資料庫中的頻集壓縮進一棵頻繁模式樹（FP-tree），同時依然保留其中的關聯信息，隨後再將FP-tree分化成一些條件庫，每個庫和一個長度為1的頻集相關，然後再對這些條件庫分別進行挖掘。當原始數據量很大的時候，也可以結合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明，FP-growth對不同長度的規則都有很好的適應性，同時在效率上較之Apriori演算法有巨大的提高。
3.該領域在國內外的應用
3.1關聯規則發掘技術在國內外的應用
就目前而言，關聯規則挖掘技術已經被廣泛應用在西方金融行業企業中，它可以成功預測銀行客戶需求。一旦獲得了這些信息，銀行就可以改善自身營銷。現在銀行天天都在開發新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產品信息，供使用本行ATM機的用戶了解。如果資料庫中顯示，某個高信用限額的客戶更換了地址，這個客戶很有可能新近購買了一棟更大的住宅，因此會有可能需要更高信用限額，更高端的新信用卡，或者需要一個住房改善貸款，這些產品都可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢的時候，資料庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點，同時也可以顯示出顧客會對什麼產品感興趣。
同時，一些知名的電子商務站點也從強大的關聯規則挖掘中的受益。這些電子購物網站使用關聯規則中規則進行挖掘，然後設置用戶有意要一起購買的捆綁包。也有一些購物網站使用它們設置相應的交叉銷售，也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。
但是目前在我國，「數據海量，信息缺乏」是商業銀行在數據大集中之後普遍所面對的尷尬。目前金融業實施的大多數資料庫只能實現數據的錄入、查詢、統計等較低層次的功能，卻無法發現數據中存在的各種有用的信息，譬如對這些數據進行分析，發現其數據模式及特徵，然後可能發現某個客戶、消費群體或組織的金融和商業興趣，並可觀察金融市場的變化趨勢。可以說，關聯規則挖掘的技術在我國的研究與應用並不是很廣泛深入。
3.2近年來關聯規則發掘技術的一些研究
由於許多應用問題往往比超市購買問題更復雜，大量研究從不同的角度對關聯規則做了擴展，將更多的因素集成到關聯規則挖掘方法之中，以此豐富關聯規則的應用領域，拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關系，時態關系，多表挖掘等。近年來圍繞關聯規則的研究主要集中於兩個方面，即擴展經典關聯規則能夠解決問題的范圍，改善經典關聯規則挖掘演算法效率和規則興趣性。

㈤金融數學的研究內容

金融數學主要的研究內容和擬重點解決的問題包括：
(1)有價證券和證券組合的定價理論
發展有價證券（尤其是期貨、期權等衍生工具）的定價理論。所用的數學方法主要是提出合適的隨機微分方程或隨機差分方程模型，形成相應的倒向方程。建立相應的非線性Feynman一Kac公式，由此導出非常一般的推廣的Black一Scholes定價公式。所得到的倒向方程將是高維非線性帶約束的奇異方程。
研究具有不同期限和收益率的證券組合的定價問題。需要建立定價與優化相結合的數學模型，在數學工具的研究方面，可能需要隨機規劃、模糊規劃和優化演算法研究。
在市場是不完全的條件下，引進與偏好有關的定價理論。
(2）不完全市場經濟均衡理論（GEI）
擬在以下幾個方面進行研究：
1．無窮維空間、無窮水平空間、及無限狀態
2.隨機經濟、無套利均衡、經濟結構參數變異、非線資產結構
3．資產證券的創新（Innovation）與設計（Design）
4．具有摩擦（Friction）的經濟
5．企業行為與生產、破產與壞債
6.證券市場博弈。
（3）GEI 平板衡演算法、蒙特卡羅法在經濟平衡點計算中的應用， GEI的理論在金融財政經濟宏觀經濟調控中的應用，不完全市場條件下，持續發展理論框架下研究自然資源資產定價與自然資源的持續利用。
1.什麼是關聯規則
在描述有關關聯規則的一些細節之前，我們先來看一個有趣的故事："尿布與啤酒"的故事。
在一家超市裡，有一個有趣的現象：尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話，而是發生在美國沃爾瑪連鎖店超市的真實案例，並一直為商家所津津樂道。沃爾瑪擁有世界上最大的數據倉庫系統，為了能夠准確了解顧客在其門店的購買習慣，沃爾瑪對其顧客的購物行為進行購物籃分析，想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上，沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發現是："跟尿布一起購買最多的商品竟是啤酒！經過大量實際調查和分析，揭示了一個隱藏在"尿布與啤酒"背後的美國人的一種行為模式：在美國，一些年輕的父親下班後經常要到超市去買嬰兒尿布，而他們中有30%～40%的人同時也為自己買一些啤酒。產生這一現象的原因是：美國的太太們常叮囑她們的丈夫下班後為小孩買尿布，而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。按常規思維，尿布與啤酒風馬牛不相及，若不是藉助數據挖掘技術對大量交易數據進行挖掘分析，沃爾瑪是不可能發現數據內在這一有價值的規律的。
數據關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之間存在某種規律性，就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中數據的關聯函數，即使知道也是不確定的，因此關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯系。Agrawal等於1993年首先提出了挖掘顧客交易資料庫中項集間的關聯規則問題，以後諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。他們的工作包括對原有的演算法進行優化，如引入隨機采樣、並行的思想等，以提高演算法挖掘規則的效率；對關聯規則的應用進行推廣。關聯規則挖掘在數據挖掘中是一個重要的課題，最近幾年已被業界所廣泛研究。
2.關聯規則挖掘過程、分類及其相關演算法
2.1關聯規則挖掘的過程
關聯規則挖掘過程主要包含兩個階段：第一階段必須先從資料集合中找出所有的高頻項目組(FrequentItemsets)，第二階段再由這些高頻項目組中產生關聯規則(AssociationRules)。
關聯規則挖掘的第一階段必須從原始資料集合中，找出所有高頻項目組(LargeItemsets)。高頻的意思是指某一項目組出現的頻率相對於所有記錄而言，必須達到某一水平。一項目組出現的頻率稱為支持度(Support)，以一個包含A與B兩個項目的2-itemset為例，我們可以經由公式(1)求得包含{A,B}項目組的支持度，若支持度大於等於所設定的最小支持度(MinimumSupport)門檻值時，則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset，則稱為高頻k-項目組(Frequentk-itemset)，一般表示為Largek或Frequentk。演算法並從Largek的項目組中再產生Largek+1，直到無法再找到更長的高頻項目組為止。
關聯規則挖掘的第二階段是要產生關聯規則(AssociationRules)。從高頻項目組產生關聯規則，是利用前一步驟的高頻k-項目組來產生規則，在最小信賴度(MinimumConfidence)的條件門檻下，若一規則所求得的信賴度滿足最小信賴度，稱此規則為關聯規則。例如：經由高頻k-項目組{A,B}所產生的規則AB，其信賴度可經由公式(2)求得，若信賴度大於等於最小信賴度，則稱AB為關聯規則。
就沃爾馬案例而言，使用關聯規則挖掘技術，對交易資料庫中的紀錄進行資料挖掘，首先必須要設定最小支持度與最小信賴度兩個門檻值，在此假設最小支持度min_support=5%且最小信賴度min_confidence=70%。因此符合此該超市需求的關聯規則將必須同時滿足以上兩個條件。若經過挖掘過程所找到的關聯規則「尿布，啤酒」，滿足下列條件，將可接受「尿布，啤酒」的關聯規則。用公式可以描述Support(尿布，啤酒)>=5%且Confidence(尿布，啤酒)>=70%。其中，Support(尿布，啤酒)>=5%於此應用範例中的意義為:在所有的交易紀錄資料中，至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布，啤酒)>=70%於此應用範例中的意義為:在所有包含尿布的交易紀錄資料中，至少有70%的交易會同時購買啤酒。因此，今後若有某消費者出現購買尿布的行為，超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據「尿布，啤酒」關聯規則，因為就該超市過去的交易紀錄而言，支持了「大部份購買尿布的交易，會同時購買啤酒」的消費行為。
從上面的介紹還可以看出，關聯規則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始資料庫中的指標值是取連續的數據，則在關聯規則挖掘之前應該進行適當的數據離散化（實際上就是將某個區間的值對應於某個值），數據的離散化是數據挖掘前的重要環節，離散化的過程是否合理將直接影響關聯規則的挖掘結果。
2.2關聯規則的分類
按照不同情況，關聯規則可以進行分類如下：
1.基於規則中處理的變數的類別，關聯規則可以分為布爾型和數值型。
布爾型關聯規則處理的值都是離散的、種類化的，它顯示了這些變數之間的關系；而數值型關聯規則可以和多維關聯或多層關聯規則結合起來，對數值型欄位進行處理，將其進行動態的分割，或者直接對原始的數據進行處理，當然數值型關聯規則中也可以包含種類變數。例如：性別=「女」=>職業=「秘書」，是布爾型關聯規則；性別=「女」=>avg（收入）=2300，涉及的收入是數值類型，所以是一個數值型關聯規則。
2.基於規則中數據的抽象層次，可以分為單層關聯規則和多層關聯規則。
在單層的關聯規則中，所有的變數都沒有考慮到現實的數據是具有多個不同的層次的；而在多層的關聯規則中，對數據的多層性已經進行了充分的考慮。例如：IBM台式機=>Sony列印機，是一個細節數據上的單層關聯規則；台式機=>Sony列印機，是一個較高層次和細節層次之間的多層關聯規則。
3.基於規則中涉及到的數據的維數，關聯規則可以分為單維的和多維的。
在單維的關聯規則中，我們只涉及到數據的一個維，如用戶購買的物品；而在多維的關聯規則中，要處理的數據將會涉及多個維。換成另一句話，單維關聯規則是處理單個屬性中的一些關系；多維關聯規則是處理各個屬性之間的某些關系。例如：啤酒=>尿布，這條規則只涉及到用戶的購買的物品；性別=「女」=>職業=「秘書」，這條規則就涉及到兩個欄位的信息，是兩個維上的一條關聯規則。 Apriori演算法
2.3關聯規則挖掘的相關演算法
1.Apriori演算法：使用候選項集找頻繁項集
Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這里，所有支持度大於最小支持度的項集稱為頻繁項集，簡稱頻集。
該演算法的基本思想是：首先找出所有的頻集，這些項集出現的頻繁性至少和預定義的最小支持度一樣。然後由頻集產生強關聯規則，這些規則必須滿足最小支持度和最小可信度。然後使用第1步找到的頻集產生期望的規則，產生只包含集合的項的所有規則，其中每一條規則的右部只有一項，這里採用的是中規則的定義。一旦這些規則被生成，那麼只有那些大於用戶給定的最小可信度的規則才被留下來。為了生成所有頻集，使用了遞推的方法。
可能產生大量的候選集,以及可能需要重復掃描資料庫，是Apriori演算法的兩大缺點。
2.基於劃分的演算法：Savasere等設計了一個基於劃分的演算法。這個演算法先把資料庫從邏輯上分成幾個互不相交的塊，每次單獨考慮一個分塊並對它生成所有的頻集，然後把產生的頻集合並，用來生成所有可能的頻集，最後計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存，每個階段只需被掃描一次。而演算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該演算法是可以高度並行的，可以把每一分塊分別分配給某一個處理器生成頻集。產生頻集的每一個循環結束後，處理器之間進行通信來產生全局的候選k-項集。通常這里的通信過程是演算法執行時間的主要瓶頸；而另一方面，每個獨立的處理器生成頻集的時間也是一個瓶頸。
3.FP-樹頻集演算法：針對Apriori演算法的固有缺陷，J.Han等提出了不產生候選挖掘頻繁項集的方法：FP-樹頻集演算法。採用分而治之的策略，在經過第一遍掃描之後，把資料庫中的頻集壓縮進一棵頻繁模式樹（FP-tree），同時依然保留其中的關聯信息，隨後再將FP-tree分化成一些條件庫，每個庫和一個長度為1的頻集相關，然後再對這些條件庫分別進行挖掘。當原始數據量很大的時候，也可以結合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明，FP-growth對不同長度的規則都有很好的適應性，同時在效率上較之Apriori演算法有巨大的提高。
3.該領域在國內外的應用
3.1關聯規則發掘技術在國內外的應用
就目前而言，關聯規則挖掘技術已經被廣泛應用在西方金融行業企業中，它可以成功預測銀行客戶需求。一旦獲得了這些信息，銀行就可以改善自身營銷。現在銀行天天都在開發新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產品信息，供使用本行ATM機的用戶了解。如果資料庫中顯示，某個高信用限額的客戶更換了地址，這個客戶很有可能新近購買了一棟更大的住宅，因此會有可能需要更高信用限額，更高端的新信用卡，或者需要一個住房改善貸款，這些產品都可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢的時候，資料庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點，同時也可以顯示出顧客會對什麼產品感興趣。
同時，一些知名的電子商務站點也從強大的關聯規則挖掘中的受益。這些電子購物網站使用關聯規則中規則進行挖掘，然後設置用戶有意要一起購買的捆綁包。也有一些購物網站使用它們設置相應的交叉銷售，也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。
但是目前在我國，「數據海量，信息缺乏」是商業銀行在數據大集中之後普遍所面對的尷尬。目前金融業實施的大多數資料庫只能實現數據的錄入、查詢、統計等較低層次的功能，卻無法發現數據中存在的各種有用的信息，譬如對這些數據進行分析，發現其數據模式及特徵，然後可能發現某個客戶、消費群體或組織的金融和商業興趣，並可觀察金融市場的變化趨勢。可以說，關聯規則挖掘的技術在我國的研究與應用並不是很廣泛深入。
3.2近年來關聯規則發掘技術的一些研究
由於許多應用問題往往比超市購買問題更復雜，大量研究從不同的角度對關聯規則做了擴展，將更多的因素集成到關聯規則挖掘方法之中，以此豐富關聯規則的應用領域，拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關系，時態關系，多表挖掘等。近年來圍繞關聯規則的研究主要集中於兩個方面，即擴展經典關聯規則能夠解決問題的范圍，改善經典關聯規則挖掘演算法效率和規則興趣性。

㈥沃爾瑪獲客推廣新客怎麼拉

具體如下：
獲客拉新常用且有效的方式
以互聯網產品為例，實現用戶拉新作用，常見的產品拉新策略有4種。
1。邀請碼
一般在產品推廣初期，又開發者統一設置發放邀請碼，一般數量不多，由平台內部發放給推廣人群，通過他們的社交圈實施推廣擴散，實現第一批的目標用戶拉新。
以小米為例，小米手機首批核心用戶也通過F碼（邀請碼）傳播。
2。口碑傳播
口碑效應，做營銷的大家都明白，一個產品的推廣過程，除了廣泛的廣告、營銷策略組合推廣，口碑也是其傳播的主要方式和途徑。好的產品+好的用戶口碑=爆品。
利用口碑傳播，需要注意是事項，產品不但做得好備受用戶喜歡，而且能解決用戶需求且用戶願意使用，才能最終藉助口碑傳播，不斷推廣出去，還節省了市場推廣費用和運營推廣費用。
3。新用戶福利
對首次使用或注冊互聯網產品的新用戶，發放的特定福利，以達成拉新獲客目標。
新手福利展示形式多樣，有開屏頁領取、彈框式領取、活動頁領取、新手任務領取等。
4。激勵型拉新
激勵型拉新，是近幾年推出的，通過獎金激勵形式，比如邀請好友得賞金，邀請好友賺紅包等都屬於激勵型拉新方式。
其模式邏輯是，將原本用於推廣的費用，以獎金形式，通過社交圈傳播，讓用戶參與推廣，實現獲客拉新目標。

㈦什麼是大數據，大數據的典型案例有哪些

"大數據"是一個體量特別大，數據類別特別大的數據集，並且這樣的數據集無法用傳統資料庫工具對其內容進行抓取、管理和處理。 "大數據"首先是指數據體量(volumes)?大，指代大型數據集，一般在10TB?規模左右，但在實際應用中，很多企業用戶把多個數據集放在一起，已經形成了PB級的數據量；其次是指數據類別(variety)大，數據來自多種數據源，數據種類和格式日漸豐富，已沖破了以前所限定的結構化數據范疇，囊括了半結構化和非結構化數據。接著是數據處理速度（Velocity）快，在數據量非常龐大的情況下，也能夠做到數據的實時處理。最後一個特點是指數據真實性（Veracity）高，隨著社交數據、企業內容、交易與應用數據等新數據源的興趣，傳統數據源的局限被打破，企業愈發需要有效的信息之力以確保其真實性及安全性。
數據採集：ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成，最後載入到數據倉庫或數據集市中，成為聯機分析處理、數據挖掘的基礎。
數據存取：關系資料庫、NOSQL、SQL等。
基礎架構：雲存儲、分布式文件存儲等。
數據處理：自然語言處理(NLP，NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言，所以自然語言處理又叫做自然語言理解(NLU，NaturalLanguage Understanding)，也稱為計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支，另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一。
統計分析：假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析（最優尺度分析）、bootstrap技術等等。
數據挖掘：分類（Classification）、估計（Estimation）、預測（Prediction）、相關性分組或關聯規則（Affinity grouping or association rules）、聚類（Clustering）、描述和可視化、Description and Visualization）、復雜數據類型挖掘(Text, Web ,圖形圖像，視頻，音頻等)
模型預測：預測模型、機器學習、建模模擬。
結果呈現：雲計算、標簽雲、關系圖等。
要理解大數據這一概念，首先要從"大"入手，"大"是指數據規模，大數據一般指在10TB(1TB=1024GB)規模以上的數據量。大數據同過去的海量數據有所區別，其基本特徵可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity)，即體量大、多樣性、價值密度低、速度快。

第一，數據體量巨大。從TB級別，躍升到PB級別。
第二，數據類型繁多，如前文提到的網路日誌、視頻、圖片、地理位置信息，等等。
第三，價值密度低。以視頻為例，連續不間斷監控過程中，可能有用的數據僅僅有一兩秒。
第四，處理速度快。1秒定律。最後這一點也是和傳統的數據挖掘技術有著本質的不同。物聯網、雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的感測器，無一不是數據來源或者承載的方式。

大數據技術是指從各種各樣類型的巨量數據中，快速獲得有價值信息的技術。解決大數據問題的核心是大數據技術。目前所說的"大數據"不僅指數據本身的規模，也包括採集數據的工具、平台和數據分析系統。大數據研發目的是發展大數據技術並將其應用到相關領域，通過解決巨量數據處理問題促進其突破性發展。因此，大數據時代帶來的挑戰不僅體現在如何處理巨量

㈧牡丹江師范

金融數學（Financial Mathematics），又稱數理金融學、數學金融學、分析金融學，是利用數學工具研究金融，進行數學建模、理論分析、數值計算等定量分析，以求找到金融學內在規律並用以指導實踐。金融數學也可以理解為現代數學與計算技術在金融領域的應用，因此，金融數學是一門新興的交*學科，發展很快，是目前十分活躍的前言學科之一。
金融數學是一門新興學科，是「金融高技術」的重要組成部分。研究金融數學有著重要的意義。金融數學總的研究目標是利用我國數學界某些方面的優勢，圍繞金融市場的均衡與有價證券定價的數學理論進行深入剖析，建立適合我國國情的數學模型，編寫一定的計算機軟體，對理論研究結果進行模擬計算，對實際數據進行計量經濟分析研究，為實際金融部門提供較深入的技術分析咨詢。
金融數學主要的研究內容和擬重點解決的問題包括：
(1)有價證券和證券組合的定價理論
發展有價證券（尤其是期貨、期權等衍生工具）的定價理論。所用的數學方法主要是提出合適的隨機微分方程或隨機差分方程模型，形成相應的倒向方程。建立相應的非線性Feynman一Kac公式，由此導出非常一般的推廣的Black一Scho1es定價公式。所得到的倒向方程將是高維非線性帶約束的奇異方程。
研究具有不同期限和收益率的證券組合的定價問題。需要建立定價與優化相結合的數學模型，在數學工具的研究方面，可能需要隨機規劃、模糊規劃和優化演算法研究。
在市場是不完全的條件下，引進與偏好有關的定價理論。
(2）不完全市場經濟均衡理論（GEI）
擬在以下幾個方面進行研究：
1．無窮維空間、無窮水平空間、及無限狀態
2.隨機經濟、無套利均衡、經濟結構參數變異、非線資產結構
3．資產證券的創新（Innovation）與設計（Design）
4．具有摩擦（Friction）的經濟
5．企業行為與生產、破產與壞債
6.證券市場博奕。
（3）GEI 平板衡演算法、蒙特卡羅法在經濟平衡點計算中的應用， GEI的理論在金融財政經濟宏觀經濟調控中的應用，不完全市場條件下，持續發展理論框架下研究自然資源資產定價與自然資源的持續利用。
目前國內開設金融數學本科專業的高等院校中，實力較強的有北京大學、復旦大學、浙江大學、山東大學、南開大學。
後來從事計算機工作很出色。金融數學將後來在銀行、保險、股票、期貨領域從事研究分析，或做這些領域的軟體開發，具有很好的專業背景，而這些領域將來都很重要。
國內金融數學人才鳳毛麟角
諾貝爾經濟學獎已經至少3次授予以數學為工具分析金融問題的經濟學家。北京大學金融數學系王鐸教授說，但遺憾的是，我國相關人才的培養，才剛剛起步。現在，既懂金融又懂數學的復合型人才相當稀缺。
金融數學這門新興的交叉學科已經成為國際金融界的一枝奇葩。剛剛公布的2003年諾貝爾經濟學獎，就是表彰美國經濟學家羅伯特·恩格爾和英國經濟學家克萊夫·格蘭傑分別用「隨著時間變化易變性」和「共同趨勢」兩種新方法分析經濟時間數列給經濟學研究和經濟發展帶來巨大影響。
王鐸介紹，金融數學的發展曾兩次引發了「華爾街革命」。上個世紀50年代初期，馬科威茨提出證券投資組合理論，第一次明確地用數學工具給出了在一定風險水平下按不同比例投資多種證券收益可能最大的投資方法，引發了第一次「華爾街革命」。1973年，布萊克和斯克爾斯用數學方法給出了期權定價公式，推動了期權交易的發展，期權交易很快成為世界金融市場的主要內容，成為第二次「華爾街革命」。
今天，金融數學家已經是華爾街最搶手的人才之一。最簡單的例子是，保險公司中地位和收入最高的，可能就是總精算師。美國花旗銀行副主席保爾·柯斯林著名的論斷是，「一個從事銀行業務而不懂數學的人，無非只能做些無關緊要的小事」。
在美國，芝加哥大學、加州伯克利大學、斯坦福大學、卡內基·梅隆大學和紐約大學等著名學府，都已經設立了金融數學相關的學位或專業證書教育。
專家認為，金融數學可能帶來的發展應該凸現在亞洲，尤其是在金融市場正在開發和具有巨大潛力的中國。香港中文大學、科技大學、城市理工大學等學校都已推出有關的訓練課程和培養計劃，並得到銀行金融業界的熱烈響應。但中國內地對該項人才的培養卻有些艱辛。
王鐸介紹，國家自然科學基金委員會在一項「九五」重大項目中，列入金融工程研究內容，可以說全面啟動了國內的金融數學研究。可這比馬科威茨開始金融數學的研究應用已經晚了近半個世紀。
在金融衍生產品已成為國際金融市場重要角色的背景下，我國的金融衍生產品才剛剛起步，金融衍生產品市場幾乎是空白。「加入 W TO後，國際金融家們肯定將把這一系列業務帶入中國。如果沒有相應的產品和人才，如何競爭？」王鐸憂慮地說。
他認為，近幾年，接連發生的墨西哥金融危機、百年老店巴林銀行倒閉等事件都在警告我們，如果不掌握金融數學、金融工程和金融管理等現代化金融技術，缺乏人才，就可能在國際金融競爭中蒙受重大損失。我們現在最缺的，就是掌握現代金融衍生工具、能對金融風險做定量分析的既懂金融又懂數學的高級復合型人才。
據悉，目前國內不少高校都陸續開展了與金融數學相關的教學，但畢業的學生遠遠滿足不了整個市場的需求。
王鐸認為，培養這類人才還有一些難以逾越的障礙———金融數學最終要運用於實踐，可目前國內金融衍生產品市場還沒有成氣候，學生很難有實踐的機會，教和學都還是紙上談兵。另外，高校培養的人大多都是本科生，只有少量的研究生，這個領域的高端人才在國內還是鳳毛麟角。國家應該更多地關注金融和數學相結合的復合型人才的培養。
王鐸回憶，1997年，北京大學建立了國內首個金融數學系時，他曾想與一些金融界人士共商辦學。但相當一部分人對此顯然並不感興趣：「什麼金融衍生產品，什麼金融數學，那都是國家應該操心的事。」
盡管當初開設金融數學系時有人認為太超前，但王鐸堅持，教育應該走在產業發展的前頭，才能為市場儲備人才。如果今天還不重視相關領域的人才培養，就可能導致我們在國際競爭中的不利。
記者發現即使今天，在這個問題上，仍然一方面是高校教師對於人才稀缺的擔憂，一方面卻是一些名氣很大的專家對金融數學人才培養的冷漠。
采訪中，記者多次試圖聯系幾位國內金融數學界或金融理論界專家，可屢屢遭到拒絕。原因很簡單，他們認為，談人才培養這樣的話題太小兒科，有的甚至說，「我不了解，也根本不關注什麼人才培養」。還有的說，「我現在有很多課題要做，是我的課題重要，還是討論人才培養重要」、「我沒有時間，也沒義務向公眾解釋什麼諾貝爾經濟學獎，老百姓要不要曉得金融數學和我沒有關系」。
[編輯本段]金融中的數據挖掘
1.什麼是關聯規則
在描述有關關聯規則的一些細節之前，我們先來看一個有趣的故事： "尿布與啤酒"的故事。
在一家超市裡，有一個有趣的現象：尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話，而是發生在美國沃爾瑪連鎖店超市的真實案例，並一直為商家所津津樂道。沃爾瑪擁有世界上最大的數據倉庫系統，為了能夠准確了解顧客在其門店的購買習慣，沃爾瑪對其顧客的購物行為進行購物籃分析，想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上，沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發現是："跟尿布一起購買最多的商品竟是啤酒！經過大量實際調查和分析，揭示了一個隱藏在"尿布與啤酒"背後的美國人的一種行為模式：在美國，一些年輕的父親下班後經常要到超市去買嬰兒尿布，而他們中有30%～40%的人同時也為自己買一些啤酒。產生這一現象的原因是：美國的太太們常叮囑她們的丈夫下班後為小孩買尿布，而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。
按常規思維，尿布與啤酒風馬牛不相及，若不是藉助數據挖掘技術對大量交易數據進行挖掘分析，沃爾瑪是不可能發現數據內在這一有價值的規律的。
數據關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之間存在某種規律性，就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中數據的關聯函數，即使知道也是不確定的，因此關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯系。Agrawal等於1993年首先提出了挖掘顧客交易資料庫中項集間的關聯規則問題，以後諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。他們的工作包括對原有的演算法進行優化，如引入隨機采樣、並行的思想等，以提高演算法挖掘規則的效率；對關聯規則的應用進行推廣。關聯規則挖掘在數據挖掘中是一個重要的課題，最近幾年已被業界所廣泛研究。
2.關聯規則挖掘過程、分類及其相關演算法
2.1關聯規則挖掘的過程
關聯規則挖掘過程主要包含兩個階段：第一階段必須先從資料集合中找出所有的高頻項目組(Frequent Itemsets)，第二階段再由這些高頻項目組中產生關聯規則(Association Rules)。
關聯規則挖掘的第一階段必須從原始資料集合中，找出所有高頻項目組(Large Itemsets)。高頻的意思是指某一項目組出現的頻率相對於所有記錄而言，必須達到某一水平。一項目組出現的頻率稱為支持度(Support)，以一個包含A與B兩個項目的2-itemset為例，我們可以經由公式(1)求得包含{A,B}項目組的支持度，若支持度大於等於所設定的最小支持度(Minimum Support)門檻值時，則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset，則稱為高頻k-項目組(Frequent k-itemset)，一般表示為Large k或Frequent k。演算法並從Large k的項目組中再產生Large k+1，直到無法再找到更長的高頻項目組為止。
關聯規則挖掘的第二階段是要產生關聯規則(Association Rules)。從高頻項目組產生關聯規則，是利用前一步驟的高頻k-項目組來產生規則，在最小信賴度(Minimum Confidence)的條件門檻下，若一規則所求得的信賴度滿足最小信賴度，稱此規則為關聯規則。例如：經由高頻k-項目組{A,B}所產生的規則AB，其信賴度可經由公式(2)求得，若信賴度大於等於最小信賴度，則稱AB為關聯規則。
就沃爾馬案例而言，使用關聯規則挖掘技術，對交易資料庫中的紀錄進行資料挖掘，首先必須要設定最小支持度與最小信賴度兩個門檻值，在此假設最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關聯規則將必須同時滿足以上兩個條件。若經過挖掘過程所找到的關聯規則「尿布，啤酒」，滿足下列條件，將可接受「尿布，啤酒」的關聯規則。用公式可以描述Support(尿布，啤酒)>=5%且Confidence(尿布，啤酒)>=70%。其中，Support(尿布，啤酒)>=5%於此應用範例中的意義為:在所有的交易紀錄資料中，至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布，啤酒)>=70%於此應用範例中的意義為:在所有包含尿布的交易紀錄資料中，至少有70%的交易會同時購買啤酒。因此，今後若有某消費者出現購買尿布的行為，超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據「尿布，啤酒」關聯規則，因為就該超市過去的交易紀錄而言，支持了「大部份購買尿布的交易，會同時購買啤酒」的消費行為。
從上面的介紹還可以看出，關聯規則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始資料庫中的指標值是取連續的數據，則在關聯規則挖掘之前應該進行適當的數據離散化（實際上就是將某個區間的值對應於某個值），數據的離散化是數據挖掘前的重要環節，離散化的過程是否合理將直接影響關聯規則的挖掘結果。
2.2關聯規則的分類
按照不同情況，關聯規則可以進行分類如下：
1.基於規則中處理的變數的類別，關聯規則可以分為布爾型和數值型。
布爾型關聯規則處理的值都是離散的、種類化的，它顯示了這些變數之間的關系；而數值型關聯規則可以和多維關聯或多層關聯規則結合起來，對數值型欄位進行處理，將其進行動態的分割，或者直接對原始的數據進行處理，當然數值型關聯規則中也可以包含種類變數。例如：性別=「女」=>職業=「秘書」，是布爾型關聯規則；性別=「女」=>avg（收入）=2300，涉及的收入是數值類型，所以是一個數值型關聯規則。
2.基於規則中數據的抽象層次，可以分為單層關聯規則和多層關聯規則。
在單層的關聯規則中，所有的變數都沒有考慮到現實的數據是具有多個不同的層次的；而在多層的關聯規則中，對數據的多層性已經進行了充分的考慮。例如：IBM台式機=>Sony列印機，是一個細節數據上的單層關聯規則；台式機=>Sony列印機，是一個較高層次和細節層次之間的多層關聯規則。
3.基於規則中涉及到的數據的維數，關聯規則可以分為單維的和多維的。
在單維的關聯規則中，我們只涉及到數據的一個維，如用戶購買的物品；而在多維的關聯規則中，要處理的數據將會涉及多個維。換成另一句話，單維關聯規則是處理單個屬性中的一些關系；多維關聯規則是處理各個屬性之間的某些關系。例如：啤酒=>尿布，這條規則只涉及到用戶的購買的物品；性別=「女」=>職業=「秘書」，這條規則就涉及到兩個欄位的信息，是兩個維上的一條關聯規則。
2.3關聯規則挖掘的相關演算法
1.Apriori演算法：使用候選項集找頻繁項集
Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這里，所有支持度大於最小支持度的項集稱為頻繁項集，簡稱頻集。
該演算法的基本思想是：首先找出所有的頻集，這些項集出現的頻繁性至少和預定義的最小支持度一樣。然後由頻集產生強關聯規則，這些規則必須滿足最小支持度和最小可信度。然後使用第1步找到的頻集產生期望的規則，產生只包含集合的項的所有規則，其中每一條規則的右部只有一項，這里採用的是中規則的定義。一旦這些規則被生成，那麼只有那些大於用戶給定的最小可信度的規則才被留下來。為了生成所有頻集，使用了遞推的方法。
可能產生大量的候選集,以及可能需要重復掃描資料庫，是Apriori演算法的兩大缺點。
2.基於劃分的演算法
Savasere等設計了一個基於劃分的演算法。這個演算法先把資料庫從邏輯上分成幾個互不相交的塊，每次單獨考慮一個分塊並對它生成所有的頻集，然後把產生的頻集合並，用來生成所有可能的頻集，最後計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存，每個階段只需被掃描一次。而演算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該演算法是可以高度並行的，可以把每一分塊分別分配給某一個處理器生成頻集。產生頻集的每一個循環結束後，處理器之間進行通信來產生全局的候選k-項集。通常這里的通信過程是演算法執行時間的主要瓶頸；而另一方面，每個獨立的處理器生成頻集的時間也是一個瓶頸。
3.FP-樹頻集演算法
針對Apriori演算法的固有缺陷，J. Han等提出了不產生候選挖掘頻繁項集的方法：FP-樹頻集演算法。採用分而治之的策略，在經過第一遍掃描之後，把資料庫中的頻集壓縮進一棵頻繁模式樹（FP-tree），同時依然保留其中的關聯信息，隨後再將FP-tree分化成一些條件庫，每個庫和一個長度為1的頻集相關，然後再對這些條件庫分別進行挖掘。當原始數據量很大的時候，也可以結合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明，FP-growth對不同長度的規則都有很好的適應性，同時在效率上較之Apriori演算法有巨大的提高。
3.該領域在國內外的應用
3．1關聯規則發掘技術在國內外的應用
就目前而言，關聯規則挖掘技術已經被廣泛應用在西方金融行業企業中，它可以成功預測銀行客戶需求。一旦獲得了這些信息，銀行就可以改善自身營銷。現在銀行天天都在開發新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產品信息，供使用本行ATM機的用戶了解。如果資料庫中顯示，某個高信用限額的客戶更換了地址，這個客戶很有可能新近購買了一棟更大的住宅，因此會有可能需要更高信用限額，更高端的新信用卡，或者需要一個住房改善貸款，這些產品都可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢的時候，資料庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點，同時也可以顯示出顧客會對什麼產品感興趣。
同時，一些知名的電子商務站點也從強大的關聯規則挖掘中的受益。這些電子購物網站使用關聯規則中規則進行挖掘，然後設置用戶有意要一起購買的捆綁包。也有一些購物網站使用它們設置相應的交叉銷售，也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。
但是目前在我國，「數據海量，信息缺乏」是商業銀行在數據大集中之後普遍所面對的尷尬。目前金融業實施的大多數資料庫只能實現數據的錄入、查詢、統計等較低層次的功能，卻無法發現數據中存在的各種有用的信息，譬如對這些數據進行分析，發現其數據模式及特徵，然後可能發現某個客戶、消費群體或組織的金融和商業興趣，並可觀察金融市場的變化趨勢。可以說，關聯規則挖掘的技術在我國的研究與應用並不是很廣泛深入。
3．2近年來關聯規則發掘技術的一些研究
由於許多應用問題往往比超市購買問題更復雜，大量研究從不同的角度對關聯規則做了擴展，將更多的因素集成到關聯規則挖掘方法之中，以此豐富關聯規則的應用領域，拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關系，時態關系，多表挖掘等。近年來圍繞關聯規則的研究主要集中於兩個方面，即擴展經典關聯規則能夠解決問題的范圍，改善經典關聯規則挖掘演算法效率和規則興趣性。

㈨沃爾瑪是如何做好核心客戶關系管理的具體回答

北京大學經濟社會學博士、海外歸國十大創業人物、美國《財富》雜志簽約專欄作家姜汝祥認為聰明的中國企業家大多是狐狸型的，而沃爾頓那樣的企業家大多是剌蝟型。因為我們喜歡各種「計謀」的勝利，而不喜歡通過堅守做事「邏輯」而獲得的勝利。這就是為什麼聰明的中國企業家會在沒有什麼核心技術的消費業，會輸給了「迂笨」的西方企業家的原因。

這種從內向外推進的能力才真正是沃爾瑪的競爭力，但中國企業家在觀察沃爾瑪時，卻喜歡將沃爾瑪的成功歸於「天天低價的核心競爭力」，這顯然是對沃爾瑪成功背後的商業邏輯的漠視：同是大規模低成本的福特汽車為什麼不能一統江山呢？答案是，沃爾瑪的低價和規模只不過是成功的表象，表象背後是出色的後勤物流配送(存貨補充)能力和吸引客戶忠誠的經營能力，這才是它的核心競爭力，這種能力使得沃爾瑪在為客戶提供服務的時候的不是簡單的商品，而是一種解決方案。

只有從這種邏輯你才能真正讀懂沃爾瑪，也只有這樣，你才能真正理解，為什麼大賣場和百貨零售業生產率的提高，一大半要歸功於沃爾瑪的貢獻。1987年，沃爾瑪僅擁有9%的市場份額，但如果以每個員工的實際銷售額計算，它的生產率比競爭對手要高40%。沃爾瑪一系列大大小小的創新，現在都已經成了行業標准。

台灣大學國際企業學系教授李吉仁解構全球最大連鎖零售王國。由於沃爾瑪百貨一向是商學院教授策略與管理的經典個案，而在台大EMBA與MBA的教學上，此一個案也都是必選的素材，為使讀者能夠對於沃爾瑪百貨過去的成功、與未來的挑戰，有個較為系統性的了解，也有助於對本書內容的掌握，以下便分別從策略、組織、與文化等三個方面，簡要討論沃爾瑪百貨如何成功地建構其世界第一的零售王國。

著名文化評論家南方朔斷言沃爾瑪現象正沖擊全世界，因此在閱讀這本《沃爾瑪王朝：全球第一大企業成長傳奇》時，恐不宜只把它看成是本產業方面的著作，而應將它所造成的沖擊也做出同步全面省思。這或許才是閱讀這本書的當有態度吧！

聯強國際總裁杜書伍認為沃爾瑪百貨不單只是通路業典範，更是值得所有企業從中學習研究的案例。從本書著重探究的范疇，亦即沃爾瑪百貨創辦人山姆?沃爾頓逝世之後十年間，接班團隊成功調整腳步以因應一個更大的企業規模，新團隊承繼創辦人的經營理念，但不固守原有的做法，其間轉折與蛻變提供了許多值得深思細索的素材。在這當中，我們也看到一家企業規模愈大，卻益加謙卑的難能可貴，這使得沃爾瑪百貨不僅發展成為一家規模最大的企業，更是一家受人敬佩的企業。就企業的成長故事而言，沃爾瑪百貨本身就具有傳奇性。但本書除了生動刻畫沃爾瑪百貨的成長歷程之外，更透過對實際事件的剖析，勾勒出沃爾瑪百貨領導團隊在特定時刻做出關鍵決定的思維，以及對往後發展的長遠影響。無論是純粹想了解沃爾瑪百貨精採的成長故事，或是想更進一步從中獲得啟發的讀者，本書均具有極高的可讀性。

大潤發總經理魏正元認為沃爾瑪之大，值得學習與了解，它是用很復雜的過程，做很簡單的事情。這本書也是眾多報導與描述沃爾瑪百貨成長過程的書籍之一，相對於其他過去的出版品，本書對於沃爾瑪百貨重要人物的想法有較多的描述。沒看過沃爾瑪百貨故事的讀者，這是一本較細部的公司歷史紀錄。正在經營企業的讀者，沃爾瑪百貨專注自我核心能力、卻偏廢與社會互動的經營觀點，值得學習與警惕。企業或是政府都一樣，不能滿足所有的利害關系人；但是，先把自己的天生使命做好，才有資格討論扮演其他角色。而一旦時機來臨，面對環境現實與發展出因應非理性挑戰的必要，也是企業人應該要及早理解的。

導航:首頁 > 源碼編譯 > 沃爾瑪演算法的邏輯

沃爾瑪演算法的邏輯

與沃爾瑪演算法的邏輯相關的資料