靜態演算法大數據_大數據挖掘的演算法有哪些

A. 為數據靜態數據流數據圖數據是大數據處理類型嗎

為數據靜態數據流數據圖數據是大數據處理類型拆旦
靜態數據飢塌特點與批量數據處理系統及應用。以靜態形式存儲，批量數據的規模從TB級到PB級別，很少對其移動與傳輸，存儲時間久，更新周期慢。它們在長期的應用過程中產生並積累下來，精度高，蘊含很高的信息價值。但是信息密度低，結構極為鬆散，無法使用常規資料庫軟體進行管理，數據類型復雜，有價值爛御圓的數據點混雜其中，可是又很難對其進行分類整理，且時間成本很高。

B. 大數據挖掘的演算法有哪些

大數據挖掘的演算法：
1.樸素貝葉斯，超級簡單，就像做一些數數的工作。如果條件獨立假設成立的話，NB將比鑒別模型收斂的更快，所以你只需要少量的訓練數據。即使條件獨立假設不成立，NB在實際中仍然表現出驚人的好。
2. Logistic回歸，LR有很多方法來對模型正則化。比起NB的條件獨立性假設，LR不需要考慮樣本是否是相關的。與決策樹與支持向量機不同，NB有很好的概率解釋，且很容易利用新的訓練數據來更新模型。如果你想要一些概率信息或者希望將來有更多數據時能方便的更新改進模型，LR是值得使用的。
3.決策樹，DT容易理解與解釋。DT是非參數的，所以你不需要擔心野點（或離群點）和數據是否線性可分的問題，DT的主要缺點是容易過擬合，這也正是隨機森林等集成學習演算法被提出來的原因。
4.支持向量機，很高的分類正確率，對過擬合有很好的理論保證，選取合適的核函數，面對特徵線性不可分的問題也可以表現得很好。SVM在維數通常很高的文本分類中非常的流行。

如果想要或許更多更詳細的訊息，建議您去參加CDA數據分析課程。大數據分析師現在有專業的國際認證證書了，CDA，即「CDA 數據分析師」，是在數字經濟大背景和人工智慧時代趨勢下，面向全行業的專業權威國際資格認證，旨在提升全民數字技能，助力企業數字化轉型，推動行業數字化發展。「CDA 數據分析師」具體指在互聯網、金融、零售、咨詢、電信、醫療、旅遊等行業專門從事數據的採集、清洗、處理、分析並能製作業務報告、提供決策的新型數據分析人才。點擊預約免費試聽課。

C. 大數據和人工智慧在互聯網金融領域有哪些應用

大
數據從四個方面改變了金融機構傳統的數據運作方式，從而實現了巨大的商業價值。這四個方面（「四個C」）包括：數據質量的兼容性
（Compatibility）、數據運用的關聯性（Connectedness）、數據分析的成本（Cost）以及數據價值的轉化
（Capitalization）。

大數據在金融業的應用場景正在逐步拓展。在海外，大數據已經在金融行業的風險控制、運營管理、銷售支持和商業模式創新等領域得到了全面嘗試。在國內，金
融機構對大數據的應用還基本處於起步階段。數據整合和部門協調等關鍵環節的挑戰仍是阻礙金融機構將數據轉化為價值的主要瓶頸。

數據技術與數據經濟的發展是持續實現大數據價值的支撐。深度應用正在將傳統IT從「後端」不斷推向「前台」，而存量架構與創新模塊的有效整合是傳統金融
機構在技術層面所面臨的主要挑戰。此外，數據生態的發展演進有其顯著的社會特徵。作為其中的一員，金融機構在促進數據經濟的發展上任重道遠。

為了駕馭大數據，國內金融機構要在技術的基礎上著重引入以價值為導向的管理視角，最終形成自上而下的內嵌式變革。其中的三個關鍵點（「TMT」）包括：團隊（Team）、機制（Mechanism）和思維（Thinking）。

1.價值導向與內嵌式變革—BCG對大數據的理解

「讓數據發聲！」—隨著大數據時代的來臨，這個聲音正在變得日益響亮。為了在喧囂背後探尋本質，我們的討論將從大數據的定義開始。

1.1成就大數據的「第四個V」

大數據是什麼？在這個問題上，國內目前常用的是「3V」定義，即數量（Volume）、速度（Velocity）和種類（Variety）。

雖然有著這樣的定義，但人們從未停止討論什麼才是成就大數據的「關鍵節點」。人們熱議的焦點之一是「到底多大才算是大數據？」其實這個問題在「量」的層
面上並沒有絕對的標准，因為「量」的大小是相對於特定時期的技術處理和分析能力而言的。在上個世紀90年代，10GB的數據需要當時計算能力一流的計算機
處理幾個小時，而這個量現在只是一台普通智能手機存儲量的一半而已。在這個層面上頗具影響力的說法是，當「全量數據」取代了「樣本數據」時，人們就擁有了
大數據。

另外一個成為討論焦點的問題是，今天的海量數據都來源於何處。在商業環境中，企業過去最關注的是ERP（Enterprise Resource
Planning）和CRM（Customer Relationship
Management）系統中的數據。這些數據的共性在於，它們都是由一個機構有意識、有目的地收集到的數據，而且基本上都是結構化數據。隨著互聯網的深
入普及，特別是移動互聯網的爆發式增長，人機互動所產生的數據已經成為了另一個重要的數據來源，比如人們在互聯網世界中留下的各種「數據足跡」。但所有這
些都還不是構成「大量數據」的主體。機器之間交互處理時沉澱下來的數據才是使數據量級實現跨越式增長的主要原因。「物聯網」是當前人們將現實世界數據化清猜的
最時髦的代名詞。海量的數據就是以這樣的方式源源不斷地產生和積累。

「3V」的定義專注於對數據本身的特徵進行描述。然而，是否是量級龐大、實時傳輸、格式多樣的數據就是大數據？

BCG認為，成就大數據的關鍵點在於「第四個V」，即價值（Value）。當量級龐大、實時傳輸、格式多樣的全量數據通過某種手段得到利用並創造出商業價值，而且能夠進一步推動商業模式的變革時，大數據才真正誕生。

1.2變革中的數據運作與數據推動的內槐鎮嵌式變革

多元化格式的數據已呈海量爆發，人類分析、利用數據的能力也日益精進，我們已經能夠從大數據中創造出不同於傳統數據挖掘的價值。那麼，大數據帶來的「大價值」究竟是如何產答明型生的？

無論是在金融企業還是非金融企業中，數據應用及業務創新的生命周期都包含五個階段：業務定義需求；IT部門獲取並整合數據；數據科學家構建並完善演算法與
模型；IT發布新洞察；業務應用並衡量洞察的實際成效。在今天的大數據環境下，生命周期仍維持原樣，而唯一變化的是「數據科學家」在生命周期中所扮演的角
色。大數據將允許其運用各種新的演算法與技術手段，幫助IT不斷挖掘新的關聯洞察，更好地滿足業務需求。

因此，BCG認為，大數據改變的並不是傳統數據的生命周期，而是具體的運作模式。在傳統的數據基礎和技術環境下，這樣的周期可能要經歷一年乃至更長的時
間。但是有了現在的數據量和技術，機構可能只需幾周甚至更短的時間就能走完這個生命周期。新的數據運作模式使快速、低成本的試錯成為可能。這樣，商業機構
就有條件關注過去由於種種原因而被忽略的大量「小機會」，並將這些「小機會」累積形成「大價值」。

具體而言，與傳統的數據應用相比，大數據在四個方面（「4C」）改變了傳統數據的運作模式，為機構帶來了新的價值。

1.2.1數據質量的兼容性（Compatibility）：大數據通過「量」提升了數據分析對「質」的寬容度

在「小數據」時代，數據的獲取門檻相對較高，這就導致「樣本思維」占據統治地位。人們大多是通過抽樣和截取的方式來捕獲數據。同時，人們分析數據的手段
和能力也相對有限。為了保證分析結果的准確性，人們通常會有意識地收集可量化的、清潔的、准確的數據，對數據的「質」提出了很高的要求。而在大數據時代，
「全量思維」得到了用武之地，人們有條件去獲取多維度、全過程的數據。但在海量數據出現後，數據的清洗與驗證幾乎成為了不可能的事。正是這樣的困境催生了
數據應用的新視角與新方法。類似於分布式技術的新演算法使數據的「量」可以彌補「質」的不足，從而大大提升了數據分析對於數據質量的兼容能力。

1.2.2數據運用的關聯性（Connectedness）：大數據使技術與演算法從「靜態」走向「持續」

在大數據時代，對「全量」的追求使「實時」變得異常重要，而這一點也不僅僅只體現在數據採集階段。在雲計算、流處理和內存分析等技術的支撐下，一系列新
的演算法使實時分析成為可能。人們還可以通過使用持續的增量數據來優化分析結果。在這些因素的共同作用下，人們一貫以來對「因果關系」的追求開始松動，而
「相關關系」正在逐步獲得一席之地。

1.2.3數據分析的成本（Cost）：大數據降低了數據分析的成本門檻

大數據改變了數據處理資源稀缺的局面。過去，數據挖掘往往意味著不菲的投入。因此，企業希望能夠從數據中發掘出「大機會」，或是將有限的數據處理資源投
入到有可能產生大機會的「大客戶、大項目」中去，以此獲得健康的投入產出比。而在大數據時代，數據處理的成本不斷下降，數據中大量存在的「小機會」得見天
日。每個機會本身帶來的商業價值可能並不可觀，但是累積起來就會實現質的飛躍。所以，大數據往往並非意味著「大機會」，而是「大量機會」。

1.2.4數據價值的轉化（Capitalization）：大數據實現了從數據到價值的高效轉化

在《互聯網金融生態系統2020：新動力、新格局、新戰略》報告中，我們探討了傳統金融機構在大變革時代所需採取的新戰略思考框架，即適應型戰略。採取
適應型戰略有助於企業構築以下五大優勢：試錯優勢、觸角優勢、組織優勢、系統優勢和社會優勢，而大數據將為金融機構建立這些優勢提供新的工具和動力。從數
據到價值的轉化與機構的整體轉型相輔相成，「內嵌式變革」由此而生。

例如，金融機構傳統做法中按部就班的長周期模式（從規劃、立項、收集數據到分析、試點、落地、總結）不再適用。快速試錯、寬進嚴出成為了實現大數據價值
的關鍵：以低成本的方式大量嘗試大數據中蘊藏的海量機會，一旦發現某些有價值的規律，馬上進行商業化推廣，否則果斷退出。此外，大數據為金融機構打造「觸
角優勢」提供了新的工具，使其能夠更加靈敏地感知商業環境，更加順暢地搭建反饋閉環。此外，數據的聚合與共享為金融機構搭建生態系統提供了新的場景與動
力。

2.應用場景與基礎設施—縱覽海內外金融機構的大數據發展實踐

金融行業在發展大數據能力方面具有天然優勢：受行業特性影響，金融機構在開展業務的過程中積累了海量的高價值數據，其中包括客戶身份、資產負債情況、資
金收付交易等數據。以銀行業為例，其數據強度高踞各行業之首—銀行業每創收100萬美元，平均就會產生820GB的數據。

2.1大數據的金融應用場景正在逐步拓展

大數據發出的聲音已經在金融行業全面響起。作為行業中的「巨無霸」，銀行業與保險業對大數據的應用尤其可圈可點。

2.1.1海外實踐：全面嘗試

2.1.1.1銀行是金融行業中發展大數據能力的「領軍者」

在發展大數據能力方面，銀行業堪稱是「領軍者」。縱觀銀行業的六個主要業務板塊（零售銀行、公司銀行、資本市場、交易銀行、資產管理、財富管理），每個
業務板塊都可以藉助大數據來更深入地了解客戶，並為其制定更具針對性的價值主張，同時提升風險管理能力。其中，大數據在零售銀行和交易銀行業務板塊中的應
用潛力尤為可觀。

BCG通過研究發現，海外銀行在大數據能力的發展方面基本處於三個階段：大約三分之一的銀行還處在思考大數據、理解大數據、制定大數據戰略及實施路徑的
起點階段。還有三分之一的銀行向前發展到了嘗試階段，也就是按照規劃出的路徑和方案，通過試點項目進行測驗，甄選出許多有價值的小機會，並且不停地進行試
錯和調整。而另外三分之一左右的銀行則已經跨越了嘗試階段。基於多年的試錯經驗，他們已經識別出幾個較大的機會，並且已經成功地將這些機會轉化為可持續的
商業價值。而且這些銀行已經將匹配大數據的工作方式嵌入到組織當中。他們正在成熟運用先進的分析手段，並且不斷獲得新的商業洞察。

銀行業應用舉例1：將大數據技術應用到信貸風險控制領域。在美國，一家互聯網信用評估機構已成為多家銀行在個人信貸風險評估方面的好幫手。該機構通過分
析客戶在各個社交平台（如Facebook和Twitter）留下的數據，對銀行的信貸申請客戶進行風險評估，並將結果賣給銀行。銀行將這家機構的評估結
果與內部評估相結合，從而形成更完善更准確的違約評估。這樣的做法既幫助銀行降低了風險成本，同時也為銀行帶來了風險定價方面的競爭優勢。

相較於零售銀行業務，公司銀行業務對大數據的應用似乎缺乏亮點。但實際上，大數據在公司銀行業務的風險領域正在發揮著前所未有的作用。在傳統方法中，銀
行對企業客戶的違約風險評估多是基於過往的營業數據和信用信息。這種方式的最大弊端就是缺少前瞻性，因為影響企業違約的重要因素並不僅僅只是企業自身的經
營狀況，還包括行業的整體發展狀況，正所謂「覆巢之下，焉有完卵」。但要進行這樣的分析往往需要大量的資源投入，因此在數據處理資源稀缺的環境下無法得到
廣泛應用，而大數據手段則大幅減少了此類分析對資源的需求。西班牙一家大型銀行正是利用大數據來為企業客戶提供全面深入的信用風險分析。該行首先識別出影
響行業發展的主要因素，然後對這些因素一一進行模擬，以測試各種事件對其客戶業務發展的潛在影響，並綜合評判每個企業客戶的違約風險。這樣的做法不僅成本
低，而且對風險評估的速度快，同時顯著提升了評估的准確性。

銀行業應用舉例2：用大數據為客戶制定差異化產品和營銷方案。在零售銀行業務中，通過數據分析來判斷客戶行為並匹配營銷手段並不是一件新鮮事。但大數據
為精準營銷提供了廣闊的創新空間。例如，海外銀行開始圍繞客戶的「人生大事」進行交叉銷售。這些銀行對客戶的交易數據進行分析，由此推算出客戶經歷「人生
大事」的大致節點。人生中的這些重要時刻往往能夠激發客戶對高價值金融產品的購買意願。一家澳大利亞銀行通過大數據分析發現，家中即將有嬰兒誕生的客戶對
壽險產品的潛在需求最大。通過對客戶的銀行卡交易數據進行分析，銀行很容易識別出即將添丁的家庭：在這樣的家庭中，准媽媽會開始購買某些葯品，而嬰兒相關
產品的消費會不斷出現。該行面向這一人群推出定製化的營銷活動，獲得了客戶的積極響應，從而大幅提高了交叉銷售的成功率。

客戶細分早已在銀行業得到廣泛應用，但細分維度往往大同小異，包括收入水平、年齡、職業等等。自從開始嘗試大數據手段之後，銀行的客戶細分維度出現了突
破。例如，西班牙的一家銀行從Facebook和Twitter等社交平台上直接抓取數據來分析客戶的業余愛好。該行把客戶細分為常旅客、足球愛好者、高
爾夫愛好者等類別。通過分析，該行發現高爾夫球愛好者對銀行的利潤度貢獻最高，而足球愛好者對銀行的忠誠度最高。此外，通過分析，該行還發現了另外一個小
客群：「敗家族」，即財富水平不高、但消費行為奢侈的人群。這個客群由於人數不多，而且當前的財富水平尚未超越貴賓客戶的門檻，因此往往被銀行所忽略。但
分析顯示這一人群能夠為銀行帶來可觀的利潤，而且頗具成長潛力，因此該行決定將這些客戶升級為貴賓客戶，深入挖掘其潛在價值。

在對公業務中，銀行同樣可以藉助大數據形成更有價值的客戶細分。例如，在BCG與一家加拿大銀行的合作項目中，項目組利用大數據分析技術將所有公司客戶
按照行業和企業規模進行細分，一共建立了上百個細分客戶群。不難想像，如果沒有大數據的支持，這樣深入的細分是很難實現的。然後，項目組在每個細分群中找
出標桿企業，分析其銀行產品組合，並將該細分群中其他客戶的銀行產品組合與標桿企業進行比對，從而識別出差距和潛在的營銷機會。項目組將這些分析結果與該
行的對公客戶經理進行分享，幫助他們利用這些發現來制定更具針對性的銷售計劃和話術，並取得了良好的效果。客戶對這種新的銷售方式也十分歡迎，因為他們可
以從中了解到同行的財務狀況和金融安排，有助於對自身的行業地位與發展空間進行判斷。

銀行業應用舉例3：用大數據為優化銀行運營提供決策基礎。大數據不僅能在前台與中台大顯身手，也能惠及後台運營領域。在互聯網金融風生水起的當
下，「O2O」（OnlineToOffline）成為了銀行的熱點話題。哪些客戶適合線上渠道？哪些客戶不願「觸網」？BCG曾幫助西班牙一家銀行通過
大數據技術應用對這些問題進行了解答。項目組對16個既可以在網點也可以在網路與移動渠道上完成的關鍵運營活動展開分析，建立了12個月的時間回溯深度，
把客戶群體和運營活動按照網點使用強度以及非網點渠道使用潛力進行細分。分析結果顯示，大約66%的交易活動對網點的使用強度較高，但同時對非網點渠道的
使用潛力也很高，因此可以從網點遷移到網路或移動渠道。項目組在客戶細分中發現，年輕客戶、老年客戶以及高端客戶在運營活動遷移方面潛力最大，可以優先作
為渠道遷徙的對象。通過這樣的運營調整，大數據幫助銀行在引導客戶轉移、減輕網點壓力的同時保障了客戶體驗。

BCG還曾利用專有的大數據分析工具NetworkMax，幫助一家澳大利亞銀行優化網點布局。雖然銀行客戶的線上活動日漸增多，但金融業的鐵律在互聯
網時代依然適用，也就是說在客戶身邊設立實體網點仍然是金融機構的競爭優勢。然而，網點的運營成本往往不菲，如何實現網點資源的價值最大化成為了每家銀行
面臨的問題。在該項目中，項目組結合銀行的內部數據（包括現有的網點分布和業績狀況等）和外部數據（如各個地區的人口數量、人口結構、收入水平等），對
350多個區域進行了評估，並按照主要產品系列為每個區域制定市場份額預測。項目組還通過對市場份額的驅動因素進行模擬，得出在現有網點數量不變的情況下
該行網點的理想布局圖。該行根據項目組的建議對網點布局進行了調整，並取得了良好的成效。這個案例可以為許多銀行帶來啟示：首先，銀行十分清楚自身的網點
布局，有關網點的經營業績和地址的信息全量存在於銀行的資料庫中。其次，有關一個地區的人口數量、人口結構、收入水平等數據都是可以公開獲取的數據。通過
應用大數據技術來把這兩組數據結合在一起，就可以幫助銀行實現網點布局的優化。BCG基於大數據技術而研發的Network
Max正是用來解決類似問題的工具。

銀行業應用舉例4：創新商業模式，用大數據拓展中間收入。過去，坐擁海量數據的銀行考慮的是如何使用數據來服務其核心業務。而如今，很多銀行已經走得更
遠。他們開始考慮如何把數據直接變成新產品並用來實現商業模式，進而直接創造收入。例如，澳大利亞一家大型銀行通過分析支付數據來了解其零售客戶的「消費
路徑」，即客戶進行日常消費時的典型順序，包括客戶的購物地點、購買內容和購物順序，並對其中的關聯進行分析。該銀行將這些分析結果銷售給公司客戶（比如
零售業客戶），幫助客戶更准確地判斷合適的產品廣告投放地點以及適合在該地點進行推廣的產品。這些公司客戶過去往往需要花費大量金錢向市場調研公司購買此
類數據，但如今他們可以花少得多的錢向自己的銀行購買這些分析結果，而且銀行所提供的此類數據也要可靠得多。銀行通過這種方式獲得了傳統業務之外的收入。
更重要的是，銀行通過這樣的創新為客戶提供了增值服務，從而大大增強了客戶粘性。

D. 大數據經典演算法解析（1）一C4.5演算法

姓名：崔升學號：14020120005

【嵌牛導讀】：

C4.5作為一種經典的處理大數據的演算法，是我們在學習互聯網大數據時不得不去了解的一種常用演算法

【嵌牛鼻子】：經典大數據演算法之C4.5簡單介紹

【嵌牛提問】：C4.5是一種怎麼的演算法，其決策機制靠什麼實現？

【嵌牛正文】：

決策樹模型：

決策樹是一種通過對特徵屬性的分類對樣本進行分類的樹形結構，包括有向邊與三類節點：

根節點（root node），表示第一個特徵屬性，只有出邊沒有入邊；

內部節點（internal node），表示特徵屬性，有一條入邊至少兩條出邊

葉子節點（leaf node），表示類別，只有一條入邊沒有出邊。

上圖給出了（二叉）決策樹的示例。決策樹具有以下特點：

對於二叉決策樹而言，可以看作是if-then規則集合，由決策樹的根節點到葉子節點對應於一條分類規則;

分類規則是互斥並且完備的，所謂互斥即每一條樣本記錄不會同時匹配上兩條分類規則，所謂完備即每條樣本記錄都在決策樹中都能匹配上一條規則。

分類的本質是對特徵空間的劃分，如下圖所示，

決策樹學習：

決策樹學習的本質是從訓練數據集中歸納出一組分類規則[2]。但隨著分裂屬性次序的不同，所得到的決策樹也會不同。如何得到一棵決策樹既對訓練數據有較好的擬合，又對未知數據有很好的預測呢？

首先，我們要解決兩個問題：

如何選擇較優的特徵屬性進行分裂？每一次特徵屬性的分裂，相當於對訓練數據集進行再劃分，對應於一次決策樹的生長。ID3演算法定義了目標函數來進行特徵選擇。

什麼時候應該停止分裂？有兩種自然情況應該停止分裂，一是該節點對應的所有樣本記錄均屬於同一類別，二是該節點對應的所有樣本的特徵屬性值均相等。但除此之外，是不是還應該其他情況停止分裂呢？

2. 決策樹演算法

特徵選擇

特徵選擇指選擇最大化所定義目標函數的特徵。下面給出如下三種特徵（Gender, Car Type, Customer ID）分裂的例子：

圖中有兩類類別（C0, C1），C0: 6是對C0類別的計數。直觀上，應選擇Car Type特徵進行分裂，因為其類別的分布概率具有更大的傾斜程度，類別不確定程度更小。

為了衡量類別分布概率的傾斜程度，定義決策樹節點tt的不純度（impurity），其滿足：不純度越小，則類別的分布概率越傾斜；下面給出不純度的的三種度量：

其中，p(ck|t)p(ck|t)表示對於決策樹節點tt類別ckck的概率。這三種不純度的度量是等價的，在等概率分布是達到最大值。

為了判斷分裂前後節點不純度的變化情況，目標函數定義為信息增益（information gain）：

I(⋅)I(⋅)對應於決策樹節點的不純度，parentparent表示分裂前的父節點，NN表示父節點所包含的樣本記錄數，aiai表示父節點分裂後的某子節點，N(ai)N(ai)為其計數，nn為分裂後的子節點數。

特別地，ID3演算法選取熵值作為不純度I(⋅)I(⋅)的度量，則

cc指父節點對應所有樣本記錄的類別；AA表示選擇的特徵屬性，即aiai的集合。那麼，決策樹學習中的信息增益ΔΔ等價於訓練數據集中類與特徵的互信息，表示由於得知特徵AA的信息訓練數據集cc不確定性減少的程度。

在特徵分裂後，有些子節點的記錄數可能偏少，以至於影響分類結果。為了解決這個問題，CART演算法提出了只進行特徵的二元分裂，即決策樹是一棵二叉樹；C4.5演算法改進分裂目標函數，用信息增益比（information gain ratio）來選擇特徵：

因而，特徵選擇的過程等同於計算每個特徵的信息增益，選擇最大信息增益的特徵進行分裂。此即回答前面所提出的第一個問題（選擇較優特徵）。ID3演算法設定一閾值，當最大信息增益小於閾值時，認為沒有找到有較優分類能力的特徵，沒有往下繼續分裂的必要。根據最大表決原則，將最多計數的類別作為此葉子節點。即回答前面所提出的第二個問題（停止分裂條件）。

決策樹生成：

ID3演算法的核心是根據信息增益最大的准則，遞歸地構造決策樹；演算法流程如下：

如果節點滿足停止分裂條件（所有記錄屬同一類別 or 最大信息增益小於閾值），將其置為葉子節點；

選擇信息增益最大的特徵進行分裂；

重復步驟1-2，直至分類完成。

C4.5演算法流程與ID3相類似，只不過將信息增益改為信息增益比。

3. 決策樹剪枝

過擬合

生成的決策樹對訓練數據會有很好的分類效果，卻可能對未知數據的預測不準確，即決策樹模型發生過擬合（overfitting）——訓練誤差（training error）很小、泛化誤差（generalization error，亦可看作為test error）較大。下圖給出訓練誤差、測試誤差（test error）隨決策樹節點數的變化情況：

可以觀察到，當節點數較小時，訓練誤差與測試誤差均較大，即發生了欠擬合（underfitting）。當節點數較大時，訓練誤差較小，測試誤差卻很大，即發生了過擬合。只有當節點數適中是，訓練誤差居中，測試誤差較小；對訓練數據有較好的擬合，同時對未知數據有很好的分類准確率。

發生過擬合的根本原因是分類模型過於復雜，可能的原因如下：

訓練數據集中有噪音樣本點，對訓練數據擬合的同時也對噪音進行擬合，從而影響了分類的效果；

決策樹的葉子節點中缺乏有分類價值的樣本記錄，也就是說此葉子節點應被剪掉。

剪枝策略

為了解決過擬合，C4.5通過剪枝以減少模型的復雜度。[2]中提出一種簡單剪枝策略，通過極小化決策樹的整體損失函數（loss function）或代價函數（cost function）來實現，決策樹TT的損失函數為：

其中，C(T)C(T)表示決策樹的訓練誤差，αα為調節參數，|T||T|為模型的復雜度。當模型越復雜時，訓練的誤差就越小。上述定義的損失正好做了兩者之間的權衡。

如果剪枝後損失函數減少了，即說明這是有效剪枝。具體剪枝演算法可以由動態規劃等來實現。

4. 參考資料

[1] Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introction to Data Mining .

[2] 李航，《統計學習方法》.

[3] Naren Ramakrishnan, The Top Ten Algorithms in Data Mining.

E. 大數據最常用的演算法有哪些

奧地利符號計算研究所(Research Institute for Symbolic Computation，簡稱RISC)的Christoph Koutschan博士在自己的頁面上發布了一篇文章，提到他做了一個調查，參與者大多數是計算機科學家，他請這些科學家投票選出最重要的演算法，以下是這次調查的結果，按照英文名稱字母順序排序。

大數據等最核心的關鍵技術：32個演算法

1、A* 搜索演算法——圖形搜索演算法，從給定起點到給定終點計算出路徑。其中使用了一種啟發式的估算，為每個節點估算通過該節點的最佳路徑，並以之為各個地點排定次序。演算法以得到的次序訪問這些節點。因此，A*搜索演算法是最佳優先搜索的範例。

2、集束搜索(又名定向搜索，Beam Search)——最佳優先搜索演算法的優化。使用啟發式函數評估它檢查的每個節點的能力。不過，集束搜索只能在每個深度中發現最前面的m個最符合條件的節點，m是固定數字——集束的寬度。

3、二分查找(Binary Search)——在線性數組中找特定值的演算法，每個步驟去掉一半不符合要求的數據。

4、分支界定演算法(Branch and Bound)——在多種最優化問題中尋找特定最優化解決方案的演算法，特別是針對離散、組合的最優化。

5、Buchberger演算法——一種數學演算法，可將其視為針對單變數最大公約數求解的歐幾里得演算法和線性系統中高斯消元法的泛化。

6、數據壓縮——採取特定編碼方案，使用更少的位元組數(或是其他信息承載單元)對信息編碼的過程，又叫來源編碼。

7、Diffie-Hellman密鑰交換演算法——一種加密協議，允許雙方在事先不了解對方的情況下，在不安全的通信信道中，共同建立共享密鑰。該密鑰以後可與一個對稱密碼一起，加密後續通訊。

8、Dijkstra演算法——針對沒有負值權重邊的有向圖，計算其中的單一起點最短演算法。

9、離散微分演算法(Discrete differentiation)。

10、動態規劃演算法(Dynamic Programming)——展示互相覆蓋的子問題和最優子架構演算法

11、歐幾里得演算法(Euclidean algorithm)——計算兩個整數的最大公約數。最古老的演算法之一，出現在公元前300前歐幾里得的《幾何原本》。

12、期望-最大演算法(Expectation-maximization algorithm，又名EM-Training)——在統計計算中，期望-最大演算法在概率模型中尋找可能性最大的參數估算值，其中模型依賴於未發現的潛在變數。EM在兩個步驟中交替計算，第一步是計算期望，利用對隱藏變數的現有估計值，計算其最大可能估計值;第二步是最大化，最大化在第一步上求得的最大可能值來計算參數的值。

13、快速傅里葉變換(Fast Fourier transform，FFT)——計算離散的傅里葉變換(DFT)及其反轉。該演算法應用范圍很廣，從數字信號處理到解決偏微分方程，到快速計算大整數乘積。

14、梯度下降(Gradient descent)——一種數學上的最優化演算法。

15、哈希演算法(Hashing)。

16、堆排序(Heaps)。

17、Karatsuba乘法——需要完成上千位整數的乘法的系統中使用，比如計算機代數系統和大數程序庫，如果使用長乘法，速度太慢。該演算法發現於1962年。

18、LLL演算法(Lenstra-Lenstra-Lovasz lattice rection)——以格規約(lattice)基數為輸入，輸出短正交向量基數。LLL演算法在以下公共密鑰加密方法中有大量使用：背包加密系統(knapsack)、有特定設置的RSA加密等等。

19、最大流量演算法(Maximum flow)——該演算法試圖從一個流量網路中找到最大的流。它優勢被定義為找到這樣一個流的值。最大流問題可以看作更復雜的網路流問題的特定情況。最大流與網路中的界面有關，這就是最大流-最小截定理(Max-flow min-cut theorem)。Ford-Fulkerson 能找到一個流網路中的最大流。

20、合並排序(Merge Sort)。

21、牛頓法(Newton』s method)——求非線性方程(組)零點的一種重要的迭代法。

22、Q-learning學習演算法——這是一種通過學習動作值函數(action-value function)完成的強化學習演算法，函數採取在給定狀態的給定動作，並計算出期望的效用價值，在此後遵循固定的策略。Q-leanring的優勢是，在不需要環境模型的情況下，可以對比可採納行動的期望效用。

23、兩次篩法(Quadratic Sieve)——現代整數因子分解演算法，在實踐中，是目前已知第二快的此類演算法(僅次於數域篩法Number Field Sieve)。對於110位以下的十位整數，它仍是最快的，而且都認為它比數域篩法更簡單。

24、RANSAC——是「RANdom SAmple Consensus」的縮寫。該演算法根據一系列觀察得到的數據，數據中包含異常值，估算一個數學模型的參數值。其基本假設是：數據包含非異化值，也就是能夠通過某些模型參數解釋的值，異化值就是那些不符合模型的數據點。

25、RSA——公鑰加密演算法。首個適用於以簽名作為加密的演算法。RSA在電商行業中仍大規模使用，大家也相信它有足夠安全長度的公鑰。

26、Sch?nhage-Strassen演算法——在數學中，Sch?nhage-Strassen演算法是用來完成大整數的乘法的快速漸近演算法。其演算法復雜度為：O(N log(N) log(log(N)))，該演算法使用了傅里葉變換。

27、單純型演算法(Simplex Algorithm)——在數學的優化理論中，單純型演算法是常用的技術，用來找到線性規劃問題的數值解。線性規劃問題包括在一組實變數上的一系列線性不等式組，以及一個等待最大化(或最小化)的固定線性函數。

28、奇異值分解(Singular value decomposition，簡稱SVD)——在線性代數中，SVD是重要的實數或復數矩陣的分解方法，在信號處理和統計中有多種應用，比如計算矩陣的偽逆矩陣(以求解最小二乘法問題)、解決超定線性系統(overdetermined linear systems)、矩陣逼近、數值天氣預報等等。

29、求解線性方程組(Solving a system of linear equations)——線性方程組是數學中最古老的問題，它們有很多應用，比如在數字信號處理、線性規劃中的估算和預測、數值分析中的非線性問題逼近等等。求解線性方程組，可以使用高斯—約當消去法(Gauss-Jordan elimination)，或是柯列斯基分解( Cholesky decomposition)。

30、Strukturtensor演算法——應用於模式識別領域，為所有像素找出一種計算方法，看看該像素是否處於同質區域( homogenous region)，看看它是否屬於邊緣，還是是一個頂點。

31、合並查找演算法(Union-find)——給定一組元素，該演算法常常用來把這些元素分為多個分離的、彼此不重合的組。不相交集(disjoint-set)的數據結構可以跟蹤這樣的切分方法。合並查找演算法可以在此種數據結構上完成兩個有用的操作：

查找：判斷某特定元素屬於哪個組。

合並：聯合或合並兩個組為一個組。

32、維特比演算法(Viterbi algorithm)——尋找隱藏狀態最有可能序列的動態規劃演算法，這種序列被稱為維特比路徑，其結果是一系列可以觀察到的事件，特別是在隱藏的Markov模型中。

以上就是Christoph博士對於最重要的演算法的調查結果。你們熟悉哪些演算法?又有哪些演算法是你們經常使用的?

F. 什麼是靜態調度演算法

靜態調度演算法是調度之前制定好調度策略，調度過程慶源缺中按照預先制定的策略進行調度，調度過程中不考慮當前各伺服器、網關或鏈路的實際負載情況及可負載的能力。由於調度不隨著當前的負載情況改變而改變，因此稱為靜態調度演算法。演算法特點是譽辯實現簡單、調度快捷。靜態調度演算法主要代表有：輪轉調度演算法、加權輪轉調度演算法、隨機調度演算法、加權隨機調度演算法、基於源地址哈希調度演算法、基於目的地址哈希調度演算法、裂舉基於源地址埠哈希調度演算法。

導航:首頁 > 源碼編譯 > 靜態演算法大數據

靜態演算法大數據

與靜態演算法大數據相關的資料