A. 協同優化演算法(CO演算法)的具體細節是什麼
協同優化演算法的原理是將一復雜的目標函數分解成簡單的子目標函數,然後再將這些子目標函數進行協同優化。具體說來,協同優化是在優化每一子目標函數同時綜合考慮其它子目標函數的結果,使子目標函數之間的優化結果能夠一致。優化結果一致是指使每一變數的值在每一子目標函數的優化結果中能夠一致。一般來說,可以證明,如果變數的值一致則為最優解。協同優化演算法沒有局部最優問題同時具有非常良好的收斂特性。 它很好地解決了許多實際中非線性優化及組合優化難題。
B. 進化演算法的基本步驟
進化計算是基於自然選擇和自然遺傳等生物進化機制的一種搜索演算法。與普通的搜索方法一樣,進化計算也是一種迭代演算法,不同的是進化計算在最優解的搜索過程中,一般是從原問題的一組解出發改進到另一組較好的解,再從這組改進的解出發進一步改進。而且在進化問題中,要求當原問題的優化模型建立後,還必須對原問題的解進行編碼。進化計算在搜索過程中利用結構化和隨機性的信息,使最滿足目標的決策獲得最大的生存可能,是一種概率型的演算法。
一般來說,進化計算的求解包括以下幾個步驟:給定一組初始解;評價當前這組解的性能;從當前這組解中選擇一定數量的解作為迭代後的解的基礎;再對其進行操作,得到迭代後的解;若這些解滿足要求則停止,否則將這些迭代得到的解作為當前解重新操作。
以遺傳演算法為例,其工作步驟可概括為:
(1) 對工作對象——字元串用二進制的0/1或其它進制字元編碼 。
(2) 根據字元串的長度L,隨即產生L個字元組成初始個體。
(3) 計算適應度。適應度是衡量個體優劣的標志,通常是所研究問題的目標函數。
(4) 通過復制,將優良個體插入下一代新群體中,體現「優勝劣汰」的原則。
(5) 交換字元,產生新個體。交換點的位置是隨機決定的
(6) 對某個字元進行補運算,將字元1變為0,或將0變為1,這是產生新個體的另一種方法,突變字元的位置也是隨機決定的。
(7) 遺傳演算法是一個反復迭代的過程,每次迭代期間,要執行適應度計算、復制、交換、突變等操作,直至滿足終止條件。
將其用形式化語言表達,則為:假設α∈I記為個體,I記為個體空間。適應度函數記為Φ:I→R。在第t代,群體P(t)={a1(t),a2(t),…,an(t)}經過復制r(reproction)、交換c(crossover)及突變m(mutation)轉換成下一代群體。這里r、c、m均指宏運算元,把舊群體變換為新群體。L:I→{True, Flase}記為終止准則。利用上述符號,遺傳演算法可描述為:
t=0
initialize P(0):={ a1(0),a2(0),…,an(0)};
while(l(P(t))≠True) do
evaluate P(t):{ Φ(a1(t)), Φ(a2(t)),…,Φ(an(t))};
reproction: P′(t):=r(P(t));
crossover: P″(t):=c(P′(t));
mutation: P(t+1):= m(P″(t));
t=t+1;
end
C. 數據分析建模步驟有哪些
1、分類和聚類
分類演算法是極其常用的數據挖掘方法之一,其核心思想是找出目標數據項的共同特徵,並按照分類規則將數據項劃分為不同的類別。聚類演算法則是把一組數據按照相似性和差異性分為若干類別,使得同一類別數據間的相似性盡可能大,不同類別數據的相似性盡可能小。分類和聚類的目的都是將數據項進行歸類,但二者具有顯著的區別。分類是有監督的學習,即這些類別是已知的,通過對已知分類的數據進行訓練和學習,找到這些不同類的特徵,再對未分類的數據進行分類。而聚類則是無監督的學習,不需要對數據進行訓練和學習。常見的分類演算法有決策樹分類演算法、貝葉斯分類演算法等;聚類演算法則包括系統聚類,K-means均值聚類等。
2、回歸分析
回歸分析是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法,其主要研究的問題包括數據序列的趨勢特徵、數據序列的預測以及數據間的相關關系等。按照模型自變數的多少,回歸演算法可以分為一元回歸分析和多元回歸分析;按照自變數和因變數間的關系,又可分為線性回歸和非線性回歸分析。
3、神經網路
神經網路演算法是在現代神經生物學研究的基礎上發展起來的一種模擬人腦信息處理機制的網路系統,不但具備一般計算能力,還具有處理知識的思維、學習和記憶能力。它是一種基於導師的學習演算法,可以模擬復雜系統的輸入和輸出,同時具有非常強的非線性映射能力。基於神經網路的挖掘過程由數據准備、規則提取、規則應用和預測評估四個階段組成,在數據挖掘中,經常利用神經網路演算法進行預測工作。
4、關聯分析
關聯分析是在交易數據、關系數據或其他信息載體中,查找存在於項目集合或對象集合之間的關聯、相關性或因果結構,即描述資料庫中不同數據項之間所存在關系的規則。例如,一項數據發生變化,另一項也跟隨發生變化,則這兩個數據項之間可能存在某種關聯。關聯分析是一個很有用的數據挖掘模型,能夠幫助企業輸出很多有用的產品組合推薦、優惠促銷組合,能夠找到的潛在客戶,真正的把數據挖掘落到實處。4市場營銷大數據挖掘在精準營銷領域的應用可分為兩大類,包括離線應用和在線應用。其中,離線應用主要是基於客戶畫像進行數據挖掘,進行不同目的針對性營銷活動,包括潛在客戶挖掘、流失客戶挽留、制定精細化營銷媒介等。而在線應用則是基於實時數據挖掘結果,進行精準化的廣告推送和市場營銷,具體包括DMP,DSP和程序化購買等應用。
D. 得到損失函數後 如何優化模型
常用的優化方法有
對損失函數的優化:
當我們對分類的Loss進行改進的時候,我們要通過梯度下降,每次優化一個step大小的梯度,這個時候我們就要求Loss對每個權重矩陣的偏導,然後應用鏈式法則。
最小二乘法(主要是說線性回歸中的優化演算法)梯度下降法、牛頓法、擬牛頓法、共軛梯度法
詳細說一下梯度下降法
在求解機器學習演算法的模型參數,即無約束優化問題時,梯度下降(Gradient Descent)是最常採用的方法之一,梯度下降不一定能夠找到全局的最優解,有可能是一個局部最優解。當然,如果損失函數是凸函數,梯度下降法得到的解就一定是全局最優解。
1)梯度
在微積分裡面,對多元函數的參數求∂偏導數,把求得的各個參數的偏導數以向量的形式寫出來,就是梯度。
那麼這個梯度向量求出來有什麼意義呢?他的意義從幾何意義上講,就是函數變化增加最快的地方。或者說,沿著梯度向量的方向,更加容易找到函數的最大值。反過來說,沿著梯度向量相反的方向,也就是 -(∂f/∂x0, ∂f/∂y0)T的方向,梯度減少最快,也就是更加容易找到函數的最小值。
2)梯度下降與梯度上升
在機器學習演算法中,在最小化損失函數時,可以通過梯度下降法來一步步的迭代求解,通過啟發式的方式一步步迭代求解函數的最小值,得到最小化的損失函數,和模型參數值。反過來,如果我們需要求解損失函數的最大值,這時就需要用梯度上升法來迭代了。
梯度下降法和梯度上升法是可以互相轉化的。比如我們需要求解損失函數f(θ)的最小值,這時我們需要用梯度下降法來迭代求解。但是實際上,我們可以反過來求解損失函數 -f(θ)的最大值,這時梯度上升法就派上用場了。
3)梯度下降的演算法調優
在使用梯度下降時,需要進行調優。
第一、演算法的步長選擇。在前面的演算法描述中,我提到取步長為1,但是實際上取值取決於數據樣本,可以多取一些值,從大到小,分別運行演算法,看看迭代效果,如果損失函數的值在變小,說明取值有效,否則要增大步長。前面說了。步長太大,會導致迭代過快,甚至有可能錯過最優解。步長太小,迭代速度太慢,很長時間演算法都不能結束。所以演算法的步長需要多次運行後才能得到一個較為優的值。
第二、演算法參數的初始值選擇。初始值不同,獲得的最小值也有可能不同,因此梯度下降求得的只是局部最小值;當然如果損失函數是凸函數則一定是最優解。由於有局部最優解的風險,需要多次用不同初始值運行演算法,觀測損失函數的最小值,選擇損失函數最小化的初值。
第三、歸一化。由於樣本不同特徵的取值范圍不一樣,可能導致迭代很慢,為了減少特徵取值的影響,可以對特徵數據歸一化,也就是對於每個特徵x,求出它的期望x¯和標准差std(x),然後轉化為x−x¯¯¯std(x)x−x¯std(x)
這樣特徵的新期望為0,新方差為1,迭代次數可以大大加快。
E. 如何對XGBoost模型進行參數調優
XGBoost參數調優完全指南(附python代碼)
譯註:文內提供的代碼和運行結果有一定差異,可以從這里完整代碼對照參考。另外,我自己跟著教程做的時候,發現我的庫無法解析字元串類型的特徵,所以只用其中一部分特徵做的,具體數值跟文章中不一樣,反而可以幫助理解文章。所以大家其實也可以小小修改一下代碼,不一定要完全跟著教程做~ ^0^
需要提前安裝好的庫:簡介如果你的預測模型表現得有些不盡如人意,那就用XGBoost吧。XGBoost演算法現在已經成為很多數據工程師的重要武器。它是一種十分精緻的演算法,可以處理各種不規則的數據。
構造一個使用XGBoost的模型十分簡單。但是,提高這個模型的表現就有些困難(至少我覺得十分糾結)。這個演算法使用了好幾個參數。所以為了提高模型的表現,參數的調整十分必要。在解決實際問題的時候,有些問題是很難回答的——你需要調整哪些參數?這些參數要調到什麼值,才能達到理想的輸出?
這篇文章最適合剛剛接觸XGBoost的人閱讀。在這篇文章中,我們會學到參數調優的技巧,以及XGboost相關的一些有用的知識。以及,我們會用Python在一個數據集上實踐一下這個演算法。你需要知道的XGBoost(eXtreme Gradient Boosting)是Gradient Boosting演算法的一個優化的版本。特別鳴謝:我個人十分感謝Mr Sudalai Rajkumar (aka SRK)大神的支持,目前他在AV Rank中位列第二。如果沒有他的幫助,就沒有這篇文章。在他的幫助下,我們才能給無數的數據科學家指點迷津。給他一個大大的贊!內容列表1、XGBoost的優勢
2、理解XGBoost的參數
3、調整參數(含示例)1、XGBoost的優勢XGBoost演算法可以給預測模型帶來能力的提升。當我對它的表現有更多了解的時候,當我對它的高准確率背後的原理有更多了解的時候,我發現它具有很多優勢:1、正則化標准GBM的實現沒有像XGBoost這樣的正則化步驟。正則化對減少過擬合也是有幫助的。 實際上,XGBoost以「正則化提升(regularized boosting)」技術而聞名。2、並行處理XGBoost可以實現並行處理,相比GBM有了速度的飛躍。 不過,眾所周知,Boosting演算法是順序處理的,它怎麼可能並行呢?每一課樹的構造都依賴於前一棵樹,那具體是什麼讓我們能用多核處理器去構造一個樹呢?我希望你理解了這句話的意思。 XGBoost 也支持Hadoop實現。3、高度的靈活性XGBoost 允許用戶定義自定義優化目標和評價標准 它對模型增加了一個全新的維度,所以我們的處理不會受到任何限制。4、缺失值處理XGBoost內置處理缺失值的規則。 用戶需要提供一個和其它樣本不同的值,然後把它作為一個參數傳進去,以此來作為缺失值的取值。XGBoost在不同節點遇到缺失值時採用不同的處理方法,並且會學習未來遇到缺失值時的處理方法。5、剪枝當分裂時遇到一個負損失時,GBM會停止分裂。因此GBM實際上是一個貪心演算法。 XGBoost會一直分裂到指定的最大深度(max_depth),然後回過頭來剪枝。如果某個節點之後不再有正值,它會去除這個分裂。 這種做法的優點,當一個負損失(如-2)後面有個正損失(如+10)的時候,就顯現出來了。GBM會在-2處停下來,因為它遇到了一個負值。但是XGBoost會繼續分裂,然後發現這兩個分裂綜合起來會得到+8,因此會保留這兩個分裂。6、內置交叉驗證XGBoost允許在每一輪boosting迭代中使用交叉驗證。因此,可以方便地獲得最優boosting迭代次數。 而GBM使用網格搜索,只能檢測有限個值。7、在已有的模型基礎上繼續XGBoost可以在上一輪的結果上繼續訓練。這個特性在某些特定的應用上是一個巨大的優勢。 sklearn中的GBM的實現也有這個功能,兩種演算法在這一點上是一致的。相信你已經對XGBoost強大的功能有了點概念。注意這是我自己總結出來的幾點,你如果有更多的想法,盡管在下面評論指出,我會更新這個列表的!2、XGBoost的參數XGBoost的作者把所有的參數分成了三類:
1、通用參數:宏觀函數控制。
2、Booster參數:控制每一步的booster(tree/regression)。
3、學習目標參數:控制訓練目標的表現。
在這里我會類比GBM來講解,所以作為一種基礎知識。通用參數這些參數用來控制XGBoost的宏觀功能。1、booster[默認gbtree]選擇每次迭代的模型,有兩種選擇:
gbtree:基於樹的模型
gbliner:線性模型2、silent[默認0]當這個參數值為1時,靜默模式開啟,不會輸出任何信息。 一般這個參數就保持默認的0,因為這樣能幫我們更好地理解模型。3、nthread[默認值為最大可能的線程數]這個參數用來進行多線程式控制制,應當輸入系統的核數。 如果你希望使用CPU全部的核,那就不要輸入這個參數,演算法會自動檢測它。
還有兩個參數,XGBoost會自動設置,目前你不用管它。接下來咱們一起看booster參數。booster參數盡管有兩種booster可供選擇,我這里只介紹tree booster,因為它的表現遠遠勝過linear booster,所以linear booster很少用到。1、eta[默認0.3]和GBM中的 learning rate 參數類似。 通過減少每一步的權重,可以提高模型的魯棒性。 典型值為0.01-0.2。2、min_child_weight[默認1]決定最小葉子節點樣本權重和。 和GBM的 min_child_leaf 參數類似,但不完全一樣。XGBoost的這個參數是最小樣本權重的和,而GBM參數是最小樣本總數。 這個參數用於避免過擬合。當它的值較大時,可以避免模型學習到局部的特殊樣本。 但是如果這個值過高,會導致欠擬合。這個參數需要使用CV來調整。3、max_depth[默認6]和GBM中的參數相同,這個值為樹的最大深度。 這個值也是用來避免過擬合的。max_depth越大,模型會學到更具體更局部的樣本。 需要使用CV函數來進行調優。 典型值:3-104、max_leaf_nodes樹上最大的節點或葉子的數量。 可以替代max_depth的作用。因為如果生成的是二叉樹,一個深度為n的樹最多生成n2個葉子。 如果定義了這個參數,GBM會忽略max_depth參數。5、gamma[默認0]在節點分裂時,只有分裂後損失函數的值下降了,才會分裂這個節點。Gamma指定了節點分裂所需的最小損失函數下降值。 這個參數的值越大,演算法越保守。這個參數的值和損失函數息息相關,所以是需要調整的。6、max_delta_step[默認0]這參數限制每棵樹權重改變的最大步長。如果這個參數的值為0,那就意味著沒有約束。如果它被賦予了某個正值,那麼它會讓這個演算法更加保守。 通常,這個參數不需要設置。但是當各類別的樣本十分不平衡時,它對邏輯回歸是很有幫助的。 這個參數一般用不到,但是你可以挖掘出來它更多的用處。7、subsample[默認1]和GBM中的subsample參數一模一樣。這個參數控制對於每棵樹,隨機采樣的比例。 減小這個參數的值,演算法會更加保守,避免過擬合。但是,如果這個值設置得過小,它可能會導致欠擬合。 典型值:0.5-18、colsample_bytree[默認1]和GBM裡面的max_features參數類似。用來控制每棵隨機采樣的列數的佔比(每一列是一個特徵)。 典型值:0.5-19、colsample_bylevel[默認1]用來控制樹的每一級的每一次分裂,對列數的采樣的佔比。 我個人一般不太用這個參數,因為subsample參數和colsample_bytree參數可以起到相同的作用。但是如果感興趣,可以挖掘這個參數更多的用處。10、lambda[默認1]權重的L2正則化項。(和Ridge regression類似)。 這個參數是用來控制XGBoost的正則化部分的。雖然大部分數據科學家很少用到這個參數,但是這個參數在減少過擬合上還是可以挖掘出更多用處的。11、alpha[默認1]權重的L1正則化項。(和Lasso regression類似)。 可以應用在很高維度的情況下,使得演算法的速度更快。12、scale_pos_weight[默認1]在各類別樣本十分不平衡時,把這個參數設定為一個正值,可以使演算法更快收斂。學習目標參數這個參數用來控制理想的優化目標和每一步結果的度量方法。1、objective[默認reg:linear]這個參數定義需要被最小化的損失函數。最常用的值有:
binary:logistic 二分類的邏輯回歸,返回預測的概率(不是類別)。 multi:softmax 使用softmax的多分類器,返回預測的類別(不是概率)。
在這種情況下,你還需要多設一個參數:num_class(類別數目)。 multi:softprob 和multi:softmax參數一樣,但是返回的是每個數據屬於各個類別的概率。2、eval_metric[默認值取決於objective參數的取值]對於有效數據的度量方法。 對於回歸問題,默認值是rmse,對於分類問題,默認值是error。 典型值有:
rmse 均方根誤差(∑Ni=1?2N??????√) mae 平均絕對誤差(∑Ni=1|?|N) logloss 負對數似然函數值 error 二分類錯誤率(閾值為0.5) merror 多分類錯誤率 mlogloss 多分類logloss損失函數 auc 曲線下面積3、seed(默認0)隨機數的種子 設置它可以復現隨機數據的結果,也可以用於調整參數如果你之前用的是Scikit-learn,你可能不太熟悉這些參數。但是有個好消息,python的XGBoost模塊有一個sklearn包,XGBClassifier。這個包中的參數是按sklearn風格命名的。會改變的函數名是:
1、eta ->learning_rate
2、lambda->reg_lambda
3、alpha->reg_alpha
你肯定在疑惑為啥咱們沒有介紹和GBM中的』n_estimators』類似的參數。XGBClassifier中確實有一個類似的參數,但是,是在標准XGBoost實現中調用擬合函數時,把它作為』num_boosting_rounds』參數傳入。調整參數(含示例)我已經對這些數據進行了一些處理:City變數,因為類別太多,所以刪掉了一些類別。 DOB變數換算成年齡,並刪除了一些數據。 增加了 EMI_Loan_Submitted_Missing 變數。如果EMI_Loan_Submitted變數的數據缺失,則這個參數的值為1。否則為0。刪除了原先的EMI_Loan_Submitted變數。 EmployerName變數,因為類別太多,所以刪掉了一些類別。 因為Existing_EMI變數只有111個值缺失,所以缺失值補充為中位數0。 增加了 Interest_Rate_Missing 變數。如果Interest_Rate變數的數據缺失,則這個參數的值為1。否則為0。刪除了原先的Interest_Rate變數。 刪除了Lead_Creation_Date,從直覺上這個特徵就對最終結果沒什麼幫助。 Loan_Amount_Applied, Loan_Tenure_Applied 兩個變數的缺項用中位數補足。 增加了 Loan_Amount_Submitted_Missing 變數。如果Loan_Amount_Submitted變數的數據缺失,則這個參數的值為1。否則為0。刪除了原先的Loan_Amount_Submitted變數。 增加了 Loan_Tenure_Submitted_Missing 變數。如果 Loan_Tenure_Submitted 變數的數據缺失,則這個參數的值為1。否則為0。刪除了原先的 Loan_Tenure_Submitted 變數。 刪除了LoggedIn, Salary_Account 兩個變數 增加了 Processing_Fee_Missing 變數。如果 Processing_Fee 變數的數據缺失,則這個參數的值為1。否則為0。刪除了原先的 Processing_Fee 變數。 Source前兩位不變,其它分成不同的類別。 進行了量化和獨熱編碼(一位有效編碼)。如果你有原始數據,可以從資源庫裡面data_preparation的Ipython notebook 文件,然後自己過一遍這些步驟。首先,import必要的庫,然後載入數據。#Import libraries:
import pandas as pd
import numpy as np
import xgboost as xgb
from xgboost.sklearn import XGBClassifier
from sklearn import cross_validation, metrics #Additional scklearn functions
from sklearn.grid_search import GridSearchCV #Perforing grid search
import matplotlib.pylab as plt
%matplotlib inline
from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 12, 4
train = pd.read_csv('train_modified.csv')
target = 'Disbursed'
IDcol = 'ID'
注意我import了兩種XGBoost:xgb - 直接引用xgboost。接下來會用到其中的「cv」函數。 XGBClassifier - 是xgboost的sklearn包。這個包允許我們像GBM一樣使用Grid Search 和並行處理。在向下進行之前,我們先定義一個函數,它可以幫助我們建立XGBoost models 並進行交叉驗證。好消息是你可以直接用下面的函數,以後再自己的models中也可以使用它。def modelfit(alg, dtrain, predictors,useTrainCV=True, cv_folds=5, early_stopping_rounds=50):
if useTrainCV:
xgb_param = alg.get_xgb_params()
xgtrain = xgb.DMatrix(dtrain[predictors].values, label=dtrain[target].values)
cvresult = xgb.cv(xgb_param, xgtrain, num_boost_round=alg.get_params()['n_estimators'], nfold=cv_folds,
metrics='auc', early_stopping_rounds=early_stopping_rounds, show_progress=False)
alg.set_params(n_estimators=cvresult.shape[0])
#Fit the algorithm on the data
alg.fit(dtrain[predictors], dtrain['Disbursed'],eval_metric='auc')
#Predict training set:
dtrain_predictions = alg.predict(dtrain[predictors])
dtrain_predprob = alg.predict_proba(dtrain[predictors])[:,1]
#Print model report:
print "\nModel Report"
print "Accuracy : %.4g" % metrics.accuracy_score(dtrain['Disbursed'].values, dtrain_predictions)
print "AUC Score (Train): %f" % metrics.roc_auc_score(dtrain['Disbursed'], dtrain_predprob)
feat_imp = pd.Series(alg.booster().get_fscore()).sort_values(ascending=False)
feat_imp.plot(kind='bar', title='Feature Importances')
plt.ylabel('Feature Importance Score')
這個函數和GBM中使用的有些許不同。不過本文章的重點是講解重要的概念,而不是寫代碼。如果哪裡有不理解的地方,請在下面評論,不要有壓力。注意xgboost的sklearn包沒有「feature_importance」這個量度,但是get_fscore()函數有相同的功能。參數調優的一般方法。我們會使用和GBM中相似的方法。需要進行如下步驟:
選擇較高的學習速率(learning rate)。一般情況下,學習速率的值為0.1。但是,對於不同的問題,理想的學習速率有時候會在0.05到0.3之間波動。選擇對應於此學習速率的理想決策樹數量。XGBoost有一個很有用的函數「cv」,這個函數可以在每一次迭代中使用交叉驗證,並返回理想的決策樹數量。
2. 對於給定的學習速率和決策樹數量,進行決策樹特定參數調優(max_depth, min_child_weight, gamma, subsample, colsample_bytree)。在確定一棵樹的過程中,我們可以選擇不同的參數,待會兒我會舉例說明。
3. xgboost的正則化參數的調優。(lambda, alpha)。這些參數可以降低模型的復雜度,從而提高模型的表現。
4. 降低學習速率,確定理想參數。咱們一起詳細地一步步進行這些操作。第一步:確定學習速率和tree_based 參數調優的估計器數目。為了確定boosting 參數,我們要先給其它參數一個初始值。咱們先按如下方法取值:
1、max_depth = 5 :這個參數的取值最好在3-10之間。我選的起始值為5,但是你也可以選擇其它的值。起始值在4-6之間都是不錯的選擇。
2、min_child_weight = 1:在這里選了一個比較小的值,因為這是一個極不平衡的分類問題。因此,某些葉子節點下的值會比較小。
3、gamma = 0: 起始值也可以選其它比較小的值,在0.1到0.2之間就可以。這個參數後繼也是要調整的。
4、subsample,colsample_bytree = 0.8: 這個是最常見的初始值了。典型值的范圍在0.5-0.9之間。
5、scale_pos_weight = 1: 這個值是因為類別十分不平衡。
注意哦,上面這些參數的值只是一個初始的估計值,後繼需要調優。這里把學習速率就設成默認的0.1。然後用xgboost中的cv函數來確定最佳的決策樹數量。前文中的函數可以完成這個工作。#Choose all predictors except target IDcols
predictors = [x for x in train.columns if x not in [target,IDcol]]
xgb1 = XGBClassifier(
learning_rate =0.1,
n_estimators=1000,
max_depth=5,
min_child_weight=1,
gamma=0,
subsample=0.8,
colsample_bytree=0.8,
objective= 'binary:logistic',
nthread=4,
scale_pos_weight=1,
seed=27)
modelfit(xgb1, train, predictors)
從輸出結果可以看出,在學習速率為0.1時,理想的決策樹數目是140。這個數字對你而言可能比較高,當然這也取決於你的系統的性能。注意:在AUC(test)這里你可以看到測試集的AUC值。但是如果你在自己的系統上運行這些命令,並不會出現這個值。因為數據並不公開。這里提供的值僅供參考。生成這個值的代碼部分已經被刪掉了。<喎?"/kf/ware/vc/" target="_blank" class="keylink">="第二步-maxdepth-和-minweight-參數調優">第二步: max_depth 和 min_weight 參數調優我們先對這兩個參數調優,是因為它們對最終結果有很大的影響。首先,我們先大范圍地粗調參數,然後再小范圍地微調。
注意:在這一節我會進行高負荷的柵格搜索(grid search),這個過程大約需要15-30分鍾甚至更久,具體取決於你系統的性能。你也可以根據自己系統的性能選擇不同的值。param_test1 = {
'max_depth':range(3,10,2),
'min_child_weight':range(1,6,2)
}
gsearch1 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=140, max_depth=5,
min_child_weight=1, gamma=0, subsample=0.8, colsample_bytree=0.8,
objective= 'binary:logistic', nthread=4, scale_pos_weight=1, seed=27),
param_grid = param_test1, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch1.fit(train[predictors],train[target])
gsearch1.grid_scores_, gsearch1.best_params_, gsearch1.best_score_
F. 何謂優化設計,它的關鍵工作是什麼
優化設計是從多種方案中選擇最佳方案的設計方法。
關鍵工作:以數學中的最優化理論為基礎,以計算機為手段,根據設計所追求的性能目標,建立目標函數,在滿足給定的各種約束條件下,尋求最優的設計方案。
如何找到一組最合適的設計變數,在允許的范圍內,能使所設計的產品結構最合理、性能最好、質量最高、成本最低(即技術經濟指標最佳),有市場競爭能力,同時設計的時間又不要太長,這就是優化設計所要解決的問題。
(6)演算法模型優化步驟擴展閱讀
優化步驟
1、建立數學模型。
2、選擇最優化演算法。
3、程序設計。
4、制定目標要求。
5、計算機自動篩選最優設計方案等。通常採用的最優化演算法是逐步逼近法,有線性規劃和非線性規劃。
第二次世界大戰期間,美國在軍事上首先應用了優化技術。1967年,美國的R.L.福克斯等發表了第一篇機構最優化論文。1970年,C.S.貝特勒等用幾何規劃解決了液體動壓軸承的優化設計問題後,優化設計在機械設計中得到應用和發展。
G. 模型壓縮:剪枝演算法
過參數化主要是指在訓練階段,在數學上需要進行大量的微分求解,去捕抓數據中的微小變化信息,一旦完成迭代式的訓練之後,網路模型推理的時候就不需要這么多參數。而剪枝演算法正是基於過參數化的理論基礎而提出的。
剪枝演算法核心思想就是減少網路模型中參數量和計算量,同時盡量保證模型的性能不受影響。
那在AI框架中,實際上剪枝主要作用在右下角的端側模型推理應用場景中,為的就是讓端側模型更小,無論是平板、手機、手錶、耳機等小型IOT設備都可以輕松使用AI模型。而實際在訓練過程更多體現在剪枝演算法和框架提供的剪枝API上面。
實際上大部分剛接觸剪枝演算法的時候,都會從從宏觀層面去劃分剪枝技術,主要是分為Drop Out和Drop Connect兩種經典的剪枝演算法,如下圖所示。
1)Drop Out:隨機的將一些神經元的輸出置零,稱之為神經元剪枝。
2)Drop Connect:隨機將部分神經元間的連接Connect置零,使得權重連接矩陣變得稀疏。
下面會把剪枝的更多種方式呈現出來,可能會稍微復雜哈。從剪枝的粒度來劃分,可以分為結構化剪枝和非結構化剪枝,2個剪枝結構方法。下面來看看具體的剪枝方法有4種:
細粒度剪枝、向量剪枝、核剪枝在參數量與模型性能之間取得了一定的平衡,但是網路模型單層的神經元之間的組合結構發生了變化,需要專門的演算法或者硬體結構來支持稀疏的運算,這種叫做 結構化剪枝(Unstructured Pruning) 。
其中,非結構化剪枝能夠實現更高的壓縮率,同時保持較高的模型性能,然而會帶來網路模型稀疏化,其稀疏結構對於硬體加速計算並不友好,除非底層硬體和計算加速庫對稀疏計算有比較好的支持,否則剪枝後很難獲得實質的性能提升。
濾波器剪枝(Filter-level)主要改變網路中的濾波器組和特徵通道數目,所獲得的模型不需要專門的演算法和硬體就能夠運行,被稱為 結構化剪枝(Structured Pruning) 。結構化剪枝又可進一步細分:可以是channel-wise,也可以是filter-wise,還可以是在shape-wise。
結構化剪枝與非結構化剪枝恰恰相反,可以方便改變網路模型的結構特徵,從而達到壓縮模型的效果,例如知識蒸餾中的student網路模型、NAS搜索或者如VGG19和VGG16這種裁剪模型,也可以看做變相的結構化剪枝行為。
雖然剪枝演算法的分類看上去很多,但是核心思想還是對神經網路模型進行剪枝,目前剪枝演算法的總體流程大同小異,可以歸結為三種:標准剪枝、基於子模型采樣的剪枝、以及基於搜索的剪枝,如下圖所示。
標准剪枝是目前最流行的剪枝流程,在Tensorflow、Pytroch都有標準的介面。主要包含三個部分:訓練、剪枝、以及微調。
1) 訓練 :首先是對網路模型進行訓練。在剪枝流程中,訓練部分主要指預訓練,訓練的目的是為剪枝演算法獲得在特定基礎SOTA任務上訓練好的原始模型。
3) 微調 :微調是恢復被剪枝操作影響的模型表達能力的必要步驟。結構化模型剪枝會對原始模型結構進行調整,因此剪枝後的模型參數雖然保留了原始的模型參數,但是由於模型結構的改變,剪枝後模型的表達能力會受到一定程度的影響。實現上,微調網路模型,參數在計算的時候先乘以該Mask,Mask為1的參數值將繼續訓練通過BP調整梯度,而Mask為0的部分因為輸出始終為0則不對後續部分產生影響。
4) 再剪枝 :再剪枝過程將微調之後的網路模型再送到剪枝模塊中,再次進行模型結構評估和執行剪枝演算法。目的是使得每次剪枝都在性能更優的模型上面進行,不斷迭代式地進行優化剪枝模型,直到模型能夠滿足剪枝目標需求。
最後輸出模型參數儲存的時候,因為有大量的稀疏,所以可以重新定義儲存的數據結構, 僅儲存非零值以及其矩陣位置。重新讀取模型參數的時候,就可以還原矩陣。
除標准剪枝之外,基於子模型采樣的剪枝《EagleEye: Fast sub-net evaluation for efficient neural network pruning》最近也表現出比較好的剪枝效果。得到訓練好的模型之後,進行子模型采樣過程。一次子模型采樣過程為:
1)對訓練好的原模型中可修剪的網路結構,按照剪枝目標進行采樣,采樣過程可以是隨機的,也可以按照網路結構的重要性或者通過KL散度計算進行概率采樣。
2)對采樣後的網路結構進行剪枝,得到采樣子模型。子模型采樣過程通常進行 次,得到 個子模型( ≥1), 之後對每一個子模型進行性能評估。子模型評估結束之後,選取最優的子模型進行微調以得倒最後的剪枝模型。
基於搜索的剪枝主要依靠強化學習等一系列無監督學習或者半監督學習演算法,也可以是神經網路結構搜索相關理論。
給定剪枝目標之後,基於搜索的剪枝在網路結構中搜索較優的子結構,這個搜索過程往往伴隨著網路參數的學習過程,因此一些基於搜索的剪枝演算法在剪枝結束後不需要再進行微調。
這幾年神經網路剪枝pruning作為模型壓縮技術的四小龍之一,正在受到越來越多的關注。當然,各種更好的pruning參數選取方法一定還會層出不窮。另外,從趨勢來看,以下幾個方向值得關註:
打破固定假設 :挑戰已有的固有的假設,例如ICLR2019會議的best paper彩票假說《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks 》的出現。還有一開始提到的對於over-parameterization,與重用已有參數是否有有益的反思非常有意思。這樣的工作會給剪枝演算法非常大的啟發,從而根本改變解決問題的思路。
自動化剪枝 :隨著AutoML的大潮,越來越多的演算法開始走向自動化。模型壓縮能拉下嗎?當然不能。經過前面的介紹我們知道,像ADC,RNP,N2N Learning這些工作都是試圖將剪枝中部分工作自動化。如量化中的《HAQ: Hardware-Aware Automated Quantization》考慮網路中不同層信息的冗餘程度不一樣,所以自動化使用混合量化比特進行壓縮。
與NAS融合 :如前面模型剪枝流程中提到,剪枝演算法與神經網路搜索NAS的界限已經模糊了。NAS有針對結構化剪枝進行搜索方法,如One-Shot Architecture Search是先有一個大網路,然後做減法。NAS與模型壓縮兩個一開始看似關系不是那麼大的分支,在近幾年的發展過程中因為下游任務和部署場景的需求,最後似乎會走到一塊去。這兩個分支今天有了更多的交集,也必將擦出更多的火花。
與GAN融合 :這幾年機器學習最火熱的分支之一GAN,正在不斷滲透到已有領域,在pruning中也開始有它的身影。如2019年《Towards Optimal Structured CNN Pruning via Generative Adversarial Learning》讓generator生成裁剪後網路,discrimintor來判別是否屬於原網路還是裁剪後網路,從而進行更有效的網路結構化裁剪。
硬體稀疏性支持 :剪枝會給神經網路模型帶來稀疏性特徵,參數稀疏性在計算中會有大量的索引,所以並不能加速。現在雖然有像cuSPARSE這樣的計算庫,但底層硬體AI晶元本身設計並不是專門為稀疏數據處理打造的。如果能將稀疏計算和處理能力做進晶元那必將極大提高計算效率。僅2021年中國就推出了10+款基於ASIC的AI加速晶元,相信針對稀疏性場景的支持在未來會有所突破。
模型壓縮演算法中針對已有的模型,有:張量分解,模型剪枝,模型量化。針對新構建的網路,有:知識蒸餾,緊湊網路設計等方法。
剪枝只是模型壓縮方法中的一種,它與其它模型壓縮方法並不沖突,因此會與量化、蒸餾、NAS、強化學習等方法慢慢融合,這些都是很值得研究的方向。另外在上面的發展來看,打破固有的假設定義,與NAS、GAN、AutoML、RL等技術進行相互的融合,可能到最後會模糊purning方式,出現新的範式或者壓縮模式也是很吸引的。
H. 優化演算法筆記(十八)灰狼演算法
(以下描述,均不是學術用語,僅供大家快樂的閱讀)
灰狼演算法(Grey Wolf Algorithm)是受灰狼群體捕獵行為啟發而提出的演算法。演算法提出於2013年,仍是一個較新的演算法。目前為止(2020)與之相關的論文也比較多,但多為演算法的應用,應該仍有研究和改進的餘地。
灰狼演算法中,每隻灰狼的位置代表了解空間中的一個可行解。群體中,占據最好位置的三隻灰狼為狼王及其左右護法(衛)。在捕獵過程中這三隻狼將帶領著狼群蛇皮走位,抓捕獵物,直至找到獵物(最優解)。當然狼王不會一直是狼王,左右護法也是一樣,每一輪走位後,會根據位置的優劣重新選出新的狼王和左右護法。狼群中的每一隻灰狼會向著(也可能背向)這三隻位置最優的灰狼移動一定的距離,來決定這一步自己將如何走位。簡單來說, 灰狼個體會向則群體中最優的三個個體移動 。
很明顯該演算法的主角就是灰狼了。
設定目標灰狼為
,當前灰狼的為 ,則該灰狼向著目標灰狼移動後的位置 可以由一下公式計算得出:
灰狼群體中位置最好的三隻灰狼編號為1,2,3,那麼當前的灰狼i通過觀察灰狼1、灰狼2和灰狼3,根據公式(1)得出的三個位置為Xi1,Xi2,Xi3。那麼灰狼i將要移動到的位置可以根據以下供述計算得出:
可以看出該灰狼的目標位置是通過觀察三隻頭狼得到的三個目標位置的所圍成的區域的質心。(質心超出邊界時,取值為邊界值)。
灰狼演算法的論文描述很多,但是其公式和流程都非常簡單,主要對其參數A和C的作用效果進行了詳細描述。
C主要決定了新位置相對於目標灰狼的方位,而A則決定新位置向目標靠近還是遠離目標灰狼。當|A|>=1時,為遠離目標,表現出更強的全局搜索能力,|A|<1時靠近目標,表現出更強的局部搜索能力。
適應度函數 。
實驗一:
看看這圖像和結果,效果好極了。每當我這么認為時,總會出現意想不到的轉折。
修改一下最優解位置試一試, 。
實驗二 : 。
其結果比上面的實驗差了不少,但我覺得這才是一個優化演算法應有的搜索圖像。其結果看上去較差只是因為迭代次數較少,收斂不夠迅速,這既是優點也是缺點,收斂慢但是搜索更細致。
仔細分析灰狼演算法的流程,它並沒有向原點靠近的趨勢,那隻能理解為演算法群體總體上向著群體的中心移動。 猜想 :當初始化群體的中心恰好是正解時,演算法的結果將會非常的好。
下面使用 ,並將灰狼的初始位置限定在(50,100)的范圍內,看看實驗圖像是否和實驗二的圖像一致。
實驗三 . ,初始種群取值范圍為(50,100)
這圖像和結果跟實驗一的不是一樣的嗎?這說明從實驗二中得出的猜想是錯誤的。
從圖像和結果上看,都和實驗二非常相似,當解在解空間的中心時但不在原點時,演算法的結果將差一些。
為什麼會這樣呢?從演算法的流程上看,灰狼演算法的各個行為都是關於頭狼對稱的,當最優解在原點且頭狼在附近時,公式(1)將變為如下:
實驗五 . ,三隻頭狼添加貪心演算法。
從圖像可以看出中心的三個點移動的頻率要比其他點的移動頻率低。從結果上可以看出其結果相對穩定了不少,不過差距非常的小,幾乎可以認為是運氣好所導致。如果所有的個體都添加貪心演算法呢?顯然,演算法的全局搜索能力將進一步減弱,並且更容易向群體中心收斂,這並不是一個好的操作。
實驗六 . ,
在實驗五的基礎上為狼群添加一個統一的步長,即每隻狼每次向著目標狼移動的距離不能大於其步長,將其最大步長設為1,看看效果。
從圖像可以看出,受到步長的約束每隻狼的移動距離較小,在結束時還沒有收斂,其搜索能力較強但收斂速度過慢且極易陷入局部最優。現在將最大步長設置為10(1/10解空間范圍)使其搜索能力和收斂速度相對平衡,在看看效果。
從圖像可以看出,演算法的收斂速度快了不少,但從結果可知,相較於實驗五,演算法的提升並不太大。
不過這個圖像有一種似曾相識的感覺,與螢火蟲演算法(FireFly Algorithm)差不多,仔細對比這兩個演算法可以發現, 灰狼演算法相當於螢火蟲演算法的一個簡化 。實驗六種對灰狼演算法添加步長的修改,讓其離螢火蟲演算法更近了一步。
實驗七 . ,
在實驗六的基礎上讓最大步長隨著迭代次數增加遞減。
從實驗七的圖像可以看出,種群的收斂速度好像快了那麼一點,結果也變好了不少。但是和改進後的螢火蟲演算法相比仍然有一定的差距。
灰狼演算法在全局搜索和局部搜索上的平衡已經比較好了,嘗試過對其進行改進,但是修改使搜索能力更強時,對於局部最優的函數求解效果很差,反之結果的精度較低,總體而言修改後的演算法與原演算法相差無幾。
灰狼演算法是根據灰狼群體的捕獵行動而提出的優化演算法,其演算法流程和步驟非常簡單,數學模型也非常的優美。灰狼演算法由於沒有貪心演算法,使得其有著較強的全局搜索能力同時參數A也控制了演算法的局部搜索范圍,演算法的全局搜索能力和局部搜索能力比較平衡。
從演算法的優化圖像可以看出,灰狼演算法和螢火蟲演算法非常的相似。可以認為,灰狼演算法是對螢火蟲演算法的一種改進。螢火蟲演算法向著由於自己的個體飛行,而灰狼演算法則的條件更為苛刻,向著群體前三強前進,螢火蟲演算法通過步長控制搜索范圍,而灰狼演算法則直接定義搜索范圍參數A,並令A線性遞減。
灰狼演算法的結構簡單,但也不容易改進,數次改進後只是改變了全局搜索能力和局部搜索能力的比例,綜合能力並沒有太大變化。
由於原點對於灰狼演算法有著隱隱的吸引力,當測試函數目標值在原點時,其結果會異常的好。因此,灰狼演算法的實際效果沒有論文中的那麼好,但也不差,算是一個中規中矩的優化演算法。
參考文獻
Mirjalili S , Mirjalili S M , Lewis A . Grey Wolf Optimizer[J]. Advances in Engineering Software, 2014, 69:46-61. 提取碼:wpff
以下指標純屬個人yy,僅供參考
目錄
上一篇 優化演算法筆記(十七)萬有引力演算法
下一篇 優化演算法筆記(十九)頭腦風暴演算法
優化演算法matlab實現(十八)灰狼演算法matlab實現
I. 數據統計學習的5個基本流程
數據統計學習的5個基本流程
統計學、大數據應用很廣泛,常常被提及!統計學習也有一定的規律流程,下面我們大聖眾包小編分享一位朋友關於統計學習流程步驟的看法,看看他怎麼說。
統計學習現在市面上談論到的數據挖掘基本上都是基於統計學習的監督學習或非監督學習問題。尤其以監督學習應用面更廣。
統計學習的一般流程
得到一個有限的數據集合
確定所有的學習模型集合
確定模型選擇的准則,就是學習的策略
實現求解最優模型的演算法並通過學習方法選擇最優模型
利用學習得到的最優模型對新數據進行分析或預測
步驟一:得到一個有限的數據集合
涉及到以下多個流程:
1、數據的採集
2、原始數據的格式化、標准化
3、原始去噪,去掉錯誤的值(而不是誤差值,這里又涉及到一個復雜的問題,如何界定錯誤數據)
4、預處理(針對具體需要研究的問題、抽取相應地特徵組成需要研究的數據集合)
步驟二:確定所有的學習模型集合
這個問題取決於我們選擇怎麼樣的學習方法。常見得學習方法有:
1、感知機模型
2、k近鄰法
3、樸素貝葉斯法
4、決策樹
5、邏輯斯諦回歸和最大熵模型
6、支持向量機
7、提升方法AdaBoost
8、EM演算法
9、隱馬爾可夫模型
10、條件隨機場
而且這些演算法還可以進行變異、組合然後形成新的演算法模型。也是通常認為中數據挖掘比較核心的部分。
步驟三:確定模型選擇的策略
一般來說,當你確定了你的學習方法後,在學習的過程中會產生很多個模型。而如何在這些模型中間挑選最優的模型,成為了我們亟待解決的問題。
一般衡量一個模型的優秀程度我們使用兩個指標:
1、擬合能力
2、泛化能力
擬合能力
表示模型的計算結果和實際結果的相差程度,我們一般使用風險函數來衡量。而風險函數是損失函數的期望。所以我們其實是使用損失函數來衡量一個模型的期望。
常見的損失函數:
1、0-1損失函數
2、平分損失函數
3、絕對值損失函數
4、對數損失函數
損失函數越小,模型的擬合能力就越好。
泛化能力泛化能力是指模型對新數據的預測能力。一般來說,越復雜的模型的擬合能力越強,但是泛化能力越弱。所以我們需要選擇一個適當復雜度的模型,使其泛化能力和擬合能力都足夠強。
而衡量一個模型同時具有較好地泛化能力和擬合能力,我們一般用結構風險函數。
結構風險函數是在風險函數的基礎上面加上一個罰項。通過罰項來降低復雜度高的模型的結構風險函數值。從而達到篩選出合適的復雜度的模型的目的。
罰項一般取特徵空間w的范數,一般有:
1、L0范數
2、L1范數
3、L2范數
4、核范數…
步驟四:實現求解最優模型的演算法並通過學習方法選擇最優模型
求解最優模型的演算法其實就是求解結構風險函數最小值得演算法,即結構風險函數最優化的問題。
如果結構風險函數在我們所關心的區域中是凸函數的話,那麼任何局部最小解也是全局最優解。現在已經有穩定,快速的數值計算方法來求二次可微地凸函數的最小值。
然而,很多時候我們沒有辦法通過結構風險函數直接算出它的最小值。我們只能通過一些迭代的方式獲得局部最優解。
常見的通過迭代的方式獲得局部最優解的演算法有:
1、梯度下降法
2、牛頓法
3、共軛梯度法
4、線性搜索
5、置信域方法
另外還有一些演算法:
1、模擬退火
2、遺傳演算法
3、類免疫演算法
4、演化策略
5、差異演化演算法
6、微粒群演算法
7、神經網路
8、支持向量機
步驟五:利用學習得到的最優模型對新數據進行分析或預測
到這一步一般來說已經成功了,然後往往現實是殘酷的,辛辛苦苦20年,一朝回到解放前。
往往學習得到的模型在實際使用過程當中並不是那麼的理想。這裡面有很多種原因:
有可能是原始數據的原因
有可能是特徵選擇的原因
有可能是模型的原因
有可能是最優模型演算法的問題
有可能是代碼錯誤
總之,以上的所有步驟的所有細節都可能導致你的模型不夠優秀。這就需要你再次的思考這個問題,去不斷的優化你的模型。直到得到一個不錯的模型。
小結
其實數據挖掘涉及的東西遠比我上面說的這點東西多的多,我上面提到的還只是監督學習。就光我上面提到的幾個步驟。其實每一個步驟都有很多很多東西可以講,可以研究,工程方面的、演算法理論方面的等等等等。
一入數據挖掘深似海,從此奮斗到天明。
數據挖掘還是很有意思的,你可以用機器的力量、數學的力量理解世界的運行規律。去預測他或者利用你研究到的東西做一些有意思的事情。
J. 解線性規劃數學模型有哪些方法
模型建立:
從實際問題中建立數學模型一般有以下三個步驟;
1.根據影響所要達到目的的因素找到決策變數;
2.由決策變數和所在達到目的之間的函數關系確定目標函數;
3.由決策變數所受的限制條件確定決策變數所要滿足的約束條件。
線性規劃難題解法
所建立的數學模型具有以下特點:
1、每個模型都有若干個決策變數(x1,x2,x3……,xn),其中n為決策變數個數。決策變數的一組值表示一種方案,同時決策變數一般是非負的。
2、目標函數是決策變數的線性函數,根據具體問題可以是最大化或最小化,二者統稱為最優化。
3、約束條件也是決策變數的線性函數。
當我們得到的數學模型的目標函數為線性函數,約束條件為線性等式或不等式時稱此數學模型為線性規劃模型。
例:
生產安排模型:某工廠要安排生產Ⅰ、Ⅱ兩種產品,已知生產單位產品所需的設備台時及A、B兩種原材料的消耗,如表所示,表中右邊一列是每日設備能力及原材料供應的限量,該工廠生產一單位產品Ⅰ可獲利2元,生產一單位產品Ⅱ可獲利3元,問應如何安排生產,使其獲利最多?
解:
1、確定決策變數:設x1、x2分別為產品Ⅰ、Ⅱ的生產數量;
2、明確目標函數:獲利最大,即求2x1+3x2最大值;
3、所滿足的約束條件:
設備限制:x1+2x2≤8
原材料A限制:4x1≤16
原材料B限制:4x2≤12
基本要求:x1,x2≥0
用max代替最大值,s.t.(subject to 的簡寫)代替約束條件,則該模型可記為:
max z=2x1+3x2
s.t. x1+2x2≤8
4x1≤16
4x2≤12
x1,x2≥0
解法
求解線性規劃問題的基本方法是單純形法,已有單純形法的標准軟體,可在電子計算機上求解約束條件和決策變數數達 10000個以上的線性規劃問題。為了提高解題速度,又有改進單純形法、對偶單純形法、原始對偶方法、分解演算法和各種多項式時間演算法。對於只有兩個變數的簡單的線性規劃問題,也可採用圖解法求解。這種方法僅適用於只有兩個變數的線性規劃問題。它的特點是直觀而易於理解,但實用價值不大。通過圖解法求解可以理解線性規劃的一些基本概念。