導航:首頁 > 源碼編譯 > 邏輯斯蒂回歸的演算法

邏輯斯蒂回歸的演算法

發布時間:2022-09-25 07:14:41

Ⅰ 怎樣正確理解邏輯回歸(logistic regression)

邏輯回歸通常用於解決分類問題,“分類”是應用邏輯回歸的目的和結果,但中間過程依舊是“回歸”。

結果P也可以理解為概率,換句話說概率大於0.5的屬於1分類,概率小於0.5的屬於0分類,這就達到了分類的目的。

邏輯回歸有什麼優點

LR能以概率的形式輸出結果,而非只是0,1判定。

LR的可解釋性強,可控度高(你要給老闆講的嘛…)。

訓練快,feature engineering之後效果贊。

因為結果是概率,可以做ranking model。

邏輯回歸有哪些應用

CTR預估/推薦系統的learning to rank/各種分類場景。

某搜索引擎廠的廣告CTR預估基線版是LR。

某電商搜索排序/廣告CTR預估基線版是LR。

某電商的購物搭配推薦用了大量LR。

某現在一天廣告賺1000w+的新聞app排序基線是LR。

Ⅱ 邏輯斯蒂方程是什麼意思

Logistic Equation

駱勇

描述生物種群生長動態的數學模型,又稱自我抑制性生長方程。由佛哈特(P.F.Verhulst,1838)提出邏輯斯蒂生長曲線,其方程式為:

N=K/(1+Cert)

其微分形式為:

dN/dt=rN(1-N/K)

式中,N為該種群的個體數,K為環境所能容納的種群個體的最大數量,r為種群的內稟增長率。這個方程式同一般的指數方程比較,多了(1-N/K)這一修正項,其含義為種群增長不僅取決於r和N,而且受到環境容納能力即種群增長的「剩餘空間」的影響。當N=0時,種群為指數增長,當N=K時,dN/dt=0,即所有「空間」均被佔有,種群不再增長。而0<N<K時,種群生長受到「剩餘空間」(1-N/K)的修正。這個方程的積分式的曲線形式是以拐點為中心的中心對稱的S型,推導從略。式中C為積分常數,C=Ln(N/(K-N))。

植物病害群體的增長一般是用植物群體中發病植株或葉片的比例來描述,因此,最大值即環境的最大容量為1(100%),將K=1代入邏輯斯蒂方程,並按范德普朗克(J.E.Van der Plank,1963)的原始描述方法,用X代表病情,則得到以下微分方程式:

dX/dt=rX(1-X)

如用Xt表示經過時間t後的X值,用X0表示時間t=0時的初始X值,則當t=0時,可求得積分常數C=ln(X0/(1-X0))。方程可轉換為ln(Xt/(1-Xt))=ln(X0/(1-X0))+rt

如以X1、X2分別表示時間為t1和t2的病情,則上式可寫成

ln(X2/(1-X2))=ln(X1/(1-X1))+r(t2-t1)

式中ln(X/(1-X))稱為X的邏輯斯蒂值,記作logit(X)。在植病流行中,可利用兩個時間點的病情求得r值,或根據r值和初始病情預測經(t2-t1)時間後的病情。

在實際應用中,有些病害最大發病程度不會達到100%,因此必須明確方程所應用的范圍和前提。應用邏輯斯蒂方程應符合以下條件:①所有個體同等看待,即不考慮個體間存在差異。②K和r為不依賴於時間和年齡而變的常量。③病情預測或推算r值中,X1到X2的時間應該大於一個潛育期。④不考慮個體死亡率和菌源的遷入與遷出。

螺旋線蟲

spiral nematodes

王明祖

墊刃線蟲目、墊刃線蟲亞目、紐帶線蟲總科、紐帶線蟲科。這類線蟲在休止或被熱能殺死後,身體向腹面彎曲呈螺旋狀或「C」形。是植物根部常見的寄生線蟲。包括螺旋線蟲屬和盤旋線蟲屬。

螺旋線蟲屬

Helicotylenchus

廣泛分布在森林、果樹、花卉、牧草、多種農作物和蔬菜種植區。在植物根部外寄生,造成畸形根,嚴重的引起根腐爛。已知170多種,中國已報道近20種。

形態特徵

蟲體小型到中等大小(體長0.4~1.2毫米)。雌雄同形,蠕蟲狀。體環較粗,側帶區內具4條刻線,有時形成網格。尾感器位於肛門稍前方,極少數種類的位於尾中部。唇區低或稍高,不縊縮或稍縊縮,有或缺唇環。頭骨架角質化強。口針發達,長20微米以上,基部球強壯。背食道腺開口位於基部球後方1/4~1/2口針長處。排泄孔在食道峽部後端水平線附近。食道腺覆蓋腸前端背面、腹面和側面,以腹面最長。腸與直腸交界明顯。雌蟲雙卵巢,對生,直伸,常偏離蟲體中軸線,有較小而明顯的受精囊,卵母細胞單列。雌蟲尾短,半圓形,背弓弧度大,多數種類的尾末端具有尾尖突。雄蟲部分種類的口針稍退化,尾短(長度小於2倍肛門處體寬),近末端有透明部分、交合傘包到尾末端。引帶棒狀,固定型。

重要病原線蟲

螺旋線蟲可以各種蟲態在5~10厘米土壤層內越冬。春季,作物開始生長後,通過穿針身體前端侵入植物幼根內取食,偶爾全身進入植物組織。炎熱的夏天,群體數下降,為害較輕,當秋天溫度稍降,雨水充足時,有利線蟲繁殖,再次形成高峰危害。重要的種類有矮小螺旋線蟲,嚴重為害利馬豆和甘蔗等多種農作物。在蔗田,常與禾生腐黴菌(Pythium graminicola)結合,引起復合侵染,造成更大產量損失。赤色螺旋線蟲,世界廣布種,為害玉米、水稻等多種農作物以及煙草、咖啡、三葉草和多種牧草。在印度還為害甘蔗,約減產47%,病蔗製成的糖質量差。為害刺莧的多環螺旋線蟲,在約旦、以色列是谷類作物的重要病原線蟲,在象牙海岸、宏都拉斯為害香蕉,導致香蕉樹嚴重衰退。此外,還為害大部分種類的蔬菜作物。雙角螺旋線蟲,為害玉米、豆科作物和多種牧草。柯柏螺旋線蟲,主要侵害甘蔗、玉米、茶、水稻、馬鈴薯和咖啡等。擬強壯螺旋線蟲,為害玉米和黑麥。還有微葉螺旋線蟲、帶角螺旋線蟲、加拿大螺旋線蟲、變尾螺旋線蟲和端管螺旋線蟲寄生為害蔬菜、農作物和牧草。

盤旋線蟲屬

Rotylenchus

本屬線蟲以較高而縊縮的唇區、食道腺覆蓋腸前端背面及背側面、雌蟲尾末端寬圓等顯著特點區別於螺旋線蟲屬內的線蟲。在植物根部外寄生生活。已知近40種,中國報道的不到10種。

形態特徵

在具有4條刻線的側帶區可以形成不完整的網格。蟲體唇區較高,稍縊縮或縊縮明顯,頭骨架發達,口針強壯,基部球寬圓。背食道腺口位於基部球後方四分之一或小於四分之一口針長處。食道腺覆蓋腸前端的背面及背側面。雌蟲雙卵巢,對生,直伸,著生和發育對稱,具明顯的受精囊。尾感器位於肛門附近。雌蟲尾短,圓形,末端有環紋。雄蟲交合刺大而強壯,交合傘包至尾末端。

重要蟲種

線蟲的寄主有甜菜、三葉草、胡蘿卜、谷類作物、玉米、草梅、女貞、落葉松、雲杉等,為害後引起爛根。代表線蟲是強壯盤旋線蟲,廣泛分布在世界各地,是重要的經濟作物病原物,主要侵害豌豆、胡蘿卜、香蕉、咖啡、甘蔗、多種蔬菜作物、花卉、森林、禾本科農作物和牧草。還常與某些真菌,如根柱孢共同形成復合侵染造成更嚴重的損失。此外,假強壯盤旋線蟲、戈德盤旋線蟲、小盤旋線蟲也是常見的牧草和運動場禾草及經濟作物的病原線蟲,植物被害後,常誘致真菌和細菌侵染,引起復合病。

Ⅲ 大數據挖掘的演算法有哪些

大數據挖掘的演算法:
1.樸素貝葉斯,超級簡單,就像做一些數數的工作。如果條件獨立假設成立的話,NB將比鑒別模型收斂的更快,所以你只需要少量的訓練數據。即使條件獨立假設不成立,NB在實際中仍然表現出驚人的好。
2. Logistic回歸,LR有很多方法來對模型正則化。比起NB的條件獨立性假設,LR不需要考慮樣本是否是相關的。與決策樹與支持向量機不同,NB有很好的概率解釋,且很容易利用新的訓練數據來更新模型。如果你想要一些概率信息或者希望將來有更多數據時能方便的更新改進模型,LR是值得使用的。
3.決策樹,DT容易理解與解釋。DT是非參數的,所以你不需要擔心野點(或離群點)和數據是否線性可分的問題,DT的主要缺點是容易過擬合,這也正是隨機森林等集成學習演算法被提出來的原因。
4.支持向量機,很高的分類正確率,對過擬合有很好的理論保證,選取合適的核函數,面對特徵線性不可分的問題也可以表現得很好。SVM在維數通常很高的文本分類中非常的流行。

如果想要或許更多更詳細的訊息,建議您去參加CDA數據分析課程。大數據分析師現在有專業的國際認證證書了,CDA,即「CDA 數據分析師」,是在數字經濟大背景和人工智慧時代趨勢下,面向全行業的專業權威國際資格認證, 旨在提升全民數字技能,助力企業數字化轉型,推動行業數字化發展。 「CDA 數據分析師」具體指在互聯網、金融、零售、咨詢、電信、醫療、旅遊等行業專門從事數據的採集、清洗、處理、分析並能製作業務報告、 提供決策的新型數據分析人才。點擊預約免費試聽課。

Ⅳ 如何用R編一個子函數實現邏輯斯蒂回歸的牛頓演算法

##說明邏輯回歸屬於概率統計的分類演算法模型的演算法,是根據一個或者多個特徵進行類別標號預測。在R語言中可以通過調用logit函數執行邏輯回歸分類演算法並預測輸出概率。通過調用glm函數將family參數也就是響應分布指定為binominal(二項式),就是使用邏輯回歸演算法。
####操作同進述內容一樣准備好訓練數據集與測試數據集。

Number of Fisher Scoring iterations: 6
找到分類模型中包含的可能導致錯誤分類的非顯著變數,僅使用顯著的變數來訓練分類模型。

Number of Fisher Scoring iterations: 5
調用fit使用一個內置模型來預測testset數據集的輸出,可以通過調整概率是否高於0.5來改變類別標記的輸出結果。
#這是選擇預測之後的輸出結果,這個參數能用在binomial數據,也就是響應變數是二分型的時候,這個參數選成type=response,表示輸出結果預測響應變數為1的概率。
pred = predict(fit,testset,type = "response")
#將ped中概率大於0.5的設置TRUE,代表為「no」,沒有流失客戶,1
#將ped中概率小於0.5的設置FALSE,代表為「yes」,有流失
客戶,0
Class = pred > 0.5
summary(Class)
Mode FALSE TRUE
logical 28 990
對測試數據集的分類和預測結果進行統計分析計數:
tb = table(testset$churn,Class)
> tb
Class
FALSE TRUE
yes 15 126
no 13 864
將上一步驟的統計結果用分類形式表輸出,並生成混淆矩陣
churn.mod = ifelse(testset$churn == "yes",1,0)
> churn.mod

Ⅳ 邏輯斯蒂回歸模型是機器學習演算法么

當然。經典的機器學習演算法之一。用來處理回歸和分類問題。

Ⅵ 邏輯回歸演算法原理是什麼

邏輯回歸就是這樣的一個過程:面對一個回歸或者分類問題,建立代價函數,然後通過優化方法迭代求解出最優的模型參數,測試驗證這個求解的模型的好壞。

Logistic回歸雖然名字里帶「回歸」,但是它實際上是一種分類方法,主要用於兩分類問題(即輸出只有兩種,分別代表兩個類別)。回歸模型中,y是一個定性變數,比如y=0或1,logistic方法主要應用於研究某些事件發生的概率。

Logistic回歸模型的適用條件

1、因變數為二分類的分類變數或某事件的發生率,並且是數值型變數。但是需要注意,重復計數現象指標不適用於Logistic回歸。

2、殘差和因變數都要服從二項分布。二項分布對應的是分類變數,所以不是正態分布,進而不是用最小二乘法,而是最大似然法來解決方程估計和檢驗問題。

3、自變數和Logistic概率是線性關系。

以上內容參考:網路-logistic回歸

Ⅶ 邏輯斯蒂回歸原理與演算法

自變數,covariate中spss要求自變數必須是連續變數,而factor則不要求,根據自己數據的類型進行選擇。

Ⅷ 請問如何用logistic回歸分析做對某一問題的風險評估,

Logistic回歸在做風險評估時,一般採用二值邏輯斯蒂回歸(Binary Logistic Regression)。以滑坡災害風險評估為例。1、滑坡發生與否分別用0和1表示(1表示風險發生,0表示風險未發生);2、確定影響滑坡風險的影響因子,這個根據區域具體情況而定,一般包括:地層岩性、植被、降水、地貌、斷層、人類活動等等。如果是其他風險的話也根據具體情況而定(咨詢專家就可以知道)。3、構建回歸分析的樣本。Logistic回歸也是統計學裡面的內容,所以必須得構建統計分析的樣本。以構建滑坡風險統計分析的樣本為例,先找出滑坡發生的地區,同時計算滑坡發生地區的各個影響因子的指標值。再選擇滑坡未發生的地區,同時計算滑坡未發生地區各個影響因子的指標值。這樣,就構建了統計樣本,自變數為各個影響因子的指標值,應變數為0和1,。把樣本導入SPSS裡面進行分析,就可以構建自變數和因變數之間的非線性關系模型,然後用這個模型繼續求解其他區域滑坡風險的概率值。
希望我的答案對你能有幫助!

Ⅸ 邏輯斯蒂方程的推導:

某種商品的銷售:
其中?
首先要考慮社會的需求量.社會對產品的需求狀況一般依如下兩個特性確定.,但是隨時間的推移,x(t)的值為.,得.x(t)的增長率,廠家和商家總是採取各種措施促進銷售.,開始時,可建立如下微分方程,這類問題可以用邏輯斯蒂方程加以解決.
信息傳播問題
所謂信息傳播可以是一則新聞,25%的市民知道了這一信息.。式(1)稱為邏輯斯蒂方程(1ogistic
equation),全市有75%的人了解這一通知:
,得.(2)
其中,b和b為正常數.,式(2)稱為邏輯斯蒂曲線;
4.。他們都希望對這種產品的推銷速度做到心中有數.,銷售速度開始下降...,p表示已知信息的人口比例,到一定時間.,因此,可由初始條件確定,社會對產品的需求量為x=x(t),有10%的市民聽到這一通知.,有,將很大..。實際上..當t增大以後..(3)
例如:
(百萬件)
所以第三年末的市場銷售量大約為454:
1.;
3:
解得t=6,知道這一信息的人很少,2小時以後,這是由於環境的限制,有.,社會上大部分人都知道了這一信息.這里的數量關系可以用邏輯斯蒂方程來描述。如果問題的基本數量特徵是.,銷售量大量增加..;再由t=2時,分母越來越接近於1。
2;dt正比於需求量x(t)與需求接近飽和水平的程度a-x(t)之乘積,在初期。下面我們來預測一下第3年末的銷售量是多少,知道的人越來越多.,銷售速度不斷增大:
兩邊積分.當t=o時,這樣廠家便於組織生產.:
.,由t=0時;
2;
根據上述實際背景的兩個特徵.,銷售量也很小..,對這種產品的需求也飽和了.當b值較大而t較小時,由邏輯斯蒂方程可算出有75%的市民了解這一情況所需要的時間.,p=10%可得
b=9,p=25%可得..,通解為.,需求的增長速度dx/,知道的人很少.。若以t表示從信息產生算起的時間。比如,x(t)是增函數。
[編輯]
邏輯斯蒂方程的應用
1.人口限制增長問題
人口的增長不是呈指數型增長的、有限的資源和人為的影響,b=100:.,越來越接近於零,常數b經測定為b=lnl0,商家便於安排進貨,.(1)
分離變數.,且越來越接近於一個確定的值記比例系數為k
邏輯斯蒂方程
邏輯斯蒂方程(logistic
equation)
[編輯]
邏輯斯蒂方程的推導
當一種新產品剛面世時。
3.
對產品的需求有一個飽和水平.當產品需求量達到一定數量時。怎樣建立數學模型描述新產品推銷速度呢。
邏輯斯蒂方程的應用比較廣泛,最終人口的增長將減慢下來,增長速度就下降,,當某種商品調價的通知下達時,即6小時後....,到接近飽和時銷售量增加極為緩慢,這種商品飽和量估計a=500(百萬件)。
在方程(3)中,而當t增大時。
由,x(t)的值接近於a(飽和值),呈指數型增長.;
2。
[編輯]
邏輯斯蒂方程的基本性質
1。
當p=75%時。當這種商品信息傳播出去後:在時間t很小時..
假設在時刻t,則邏輯斯蒂方程變為:
,於是
x(t)近似於依指數函數增大.,這樣可以做到有計劃地生產.,人口增長規律滿足邏輯斯蒂方程.5百萬件,記比例系數為k
,大約5年可達飽和:
從而..商品銷售預測問題
例如.,一條謠言或市場上某種新商品有關的知識.,設飽和水平為a

Ⅹ Logistic函數(sigmoid函數)

Logistic函數的表示形式如下:

它的函數圖像如下,由於函數圖像很像一個「S」型,所以該函數又叫 sigmoid 函數。

滿足的性質:

1.對稱性,關於(0,0.5)中心對稱

2.邏輯斯諦方程即微分方程

最早logistic函數是皮埃爾·弗朗索瓦·韋呂勒在1844或1845年在研究它與人口增長的關系時命名的。廣義Logistic曲線可以模仿一些情況人口增長( P )的 S 形曲線。起初階段大致是 指數增長 ;然後隨著開始變得飽和,增加變慢;最後,達到成熟時增加停止。

當一個物種遷入到一個新生態系統中後,其數量會發生變化。假設該物種的起始數量小於環境的最大容納量,則數量會增長。該物種在此生態系統中有天敵、食物、空間等資源也不足(非理想環境),則增長函數滿足邏輯斯諦方程,圖像呈S形,此方程是描述在資源有限的條件下種群增長規律的一個最佳數學模型。在以下內容中將具體介紹邏輯斯諦方程的原理、生態學意義及其應用。

Logistic regression (邏輯回歸)是當前業界比較常用的機器學習方法,用於估計某種事物的可能性。之前在經典之作《數學之美》中也看到了它用於廣告預測,也就是根據某廣告被用戶點擊的可能性,把最可能被用戶點擊的廣告擺在用戶能看到的地方,然後叫他「你點我啊!」用戶點了,你就有錢收了。這就是為什麼我們的電腦現在廣告泛濫的原因了。

還有類似的某用戶購買某商品的可能性,某病人患有某種疾病的可能性啊等等。這個世界是隨機的(當然了,人為的確定性系統除外,但也有可能有雜訊或產生錯誤的結果,只是這個錯誤發生的可能性太小了,小到千萬年不遇,小到忽略不計而已),所以萬物的發生都可以用可能性或者幾率(Odds)來表達。「幾率」指的是某事物發生的可能性與不發生的可能性的比值。

Logistic regression可以用來回歸,也可以用來分類,主要是二分類。它不像SVM直接給出一個分類的結果,Logistic Regression給出的是這個樣本屬於正類或者負類的可能性是多少,當然在多分類的系統中給出的是屬於不同類別的可能性,進而通過可能性來分類。

假設我們的樣本是{ x , y},y是0或者1,表示正類或者負類, x 是我們的m維的樣本特徵向量。那麼這個樣本 x 屬於正類,也就是y=1的「概率」可以通過下面的邏輯函數來表示:

這里的 θ 是模型參數,也就是回歸系數,σ是sigmoid函數。這樣y=0的「概率」就是:

考查邏輯斯蒂回歸模型的特點,一個事件的幾率(oods)是指這件事發生的概率與不發生概率的比值,如果事件發生的概率是p,那麼該事件的幾率是p/(1-p),該事件的對數幾率(log odds)或者logit函數是

對於邏輯斯蒂回歸而言,可以得到如下的對數幾率

這就是說,在邏輯斯蒂回歸模型中,輸出y=1的對數幾率是輸入x的線性函數,或者說,輸出y=1的對數幾率是由輸入x的線性函數表示的模型,即邏輯斯蒂回歸模型。換句話說,y就是我們的關系變數,例如她喜不喜歡你,與多個因素有關,比如你的人品,你的長相,你是否有錢等。我們把這些因素表示成變數x 1 , x 2 ,…, x m ,那麼這個女生是怎麼考慮這些因素的呢,每個人心理其實都有一桿秤,例如有人比較看重你的人品,人品的權重是0.8,;也有人比較看重你有錢,有錢的權重設置成0.7等等。我們把這些對應於x 1 , x 2 ,…, x m 的權值叫做回歸系數,表達為θ 1 , θ 2 ,…, θ m 。他們的加權和就是你在心目中的得分。

在參數學習時,可以用極大似然估計方法求解。假設我們有n個獨立的訓練樣本{( x 1 , y 1 ) ,( x 2 , y 2 ),…, ( x n , y n )},y={0, 1}。那每一個觀察到的樣本( x i , y i )出現的概率是

對於整個樣本集,每個樣本的出現都是獨立的,n個樣本出現的似然函數為(n個樣本的出現概率是他們各自的概率乘積)

那麼上述的似然函數就是模型的代價函數(cost function),我們要求的參數就是θ*。我們稍微對上式進行轉換

對L(θ)的極大值,得到θ的估計值。問題變成了以對數似然函數為木匾函數的最優化問題。用L(θ)對θ求導,得到

無法解析求解的,所以一般使用迭代的方法求解,通常採用梯度下降法和擬牛頓法。

上面介紹的是兒分類的模型,用於二類分類。可以將其推廣為多項邏輯斯蒂回歸模型(multi-nominal regression model),用於多分類,假設離散隨機變數Y的取值是{1,2,3,...,K}那麼多項邏輯斯蒂回歸的模型是

同理,二項邏輯斯蒂回歸的參數估計的方法也可以推廣到多項邏輯斯蒂回歸。

[1]. 機器學習演算法與Python實踐之(七)邏輯回歸(Logistic Regression)

[2].《統計學習方法》 李航 著

閱讀全文

與邏輯斯蒂回歸的演算法相關的資料

熱點內容
excel能編程嗎 瀏覽:929
android系統框架的介紹 瀏覽:945
無盤系統伺服器如何配置 瀏覽:836
背負貸款如何緩解壓力 瀏覽:82
linux獲取日期時間 瀏覽:881
搬磚問題最合適的演算法 瀏覽:446
小米安卓機密碼忘記了如何解鎖 瀏覽:910
產電plc編程手冊 瀏覽:761
vscodephp 瀏覽:535
阿里雲linux桌面 瀏覽:754
php二維數組搜索 瀏覽:116
ps快捷命令工具箱 瀏覽:253
c4d教程pdf 瀏覽:462
linux集群安裝配置 瀏覽:154
stc單片機介紹 瀏覽:901
如何解壓失戀的人 瀏覽:493
安卓微信滯後怎麼辦 瀏覽:942
手機編程跟電腦編程一樣嗎 瀏覽:624
android代碼規範文檔 瀏覽:99
word如何加密批註 瀏覽:327