Ⅰ 怎样正确理解逻辑回归(logistic regression)
逻辑回归通常用于解决分类问题,“分类”是应用逻辑回归的目的和结果,但中间过程依旧是“回归”。
结果P也可以理解为概率,换句话说概率大于0.5的属于1分类,概率小于0.5的属于0分类,这就达到了分类的目的。
逻辑回归有什么优点
LR能以概率的形式输出结果,而非只是0,1判定。
LR的可解释性强,可控度高(你要给老板讲的嘛…)。
训练快,feature engineering之后效果赞。
因为结果是概率,可以做ranking model。
逻辑回归有哪些应用
CTR预估/推荐系统的learning to rank/各种分类场景。
某搜索引擎厂的广告CTR预估基线版是LR。
某电商搜索排序/广告CTR预估基线版是LR。
某电商的购物搭配推荐用了大量LR。
某现在一天广告赚1000w+的新闻app排序基线是LR。
Ⅱ 逻辑斯蒂方程是什么意思
Logistic Equation
骆勇
描述生物种群生长动态的数学模型,又称自我抑制性生长方程。由佛哈特(P.F.Verhulst,1838)提出逻辑斯蒂生长曲线,其方程式为:
N=K/(1+Cert)
其微分形式为:
dN/dt=rN(1-N/K)
式中,N为该种群的个体数,K为环境所能容纳的种群个体的最大数量,r为种群的内禀增长率。这个方程式同一般的指数方程比较,多了(1-N/K)这一修正项,其含义为种群增长不仅取决于r和N,而且受到环境容纳能力即种群增长的“剩余空间”的影响。当N=0时,种群为指数增长,当N=K时,dN/dt=0,即所有“空间”均被占有,种群不再增长。而0<N<K时,种群生长受到“剩余空间”(1-N/K)的修正。这个方程的积分式的曲线形式是以拐点为中心的中心对称的S型,推导从略。式中C为积分常数,C=Ln(N/(K-N))。
植物病害群体的增长一般是用植物群体中发病植株或叶片的比例来描述,因此,最大值即环境的最大容量为1(100%),将K=1代入逻辑斯蒂方程,并按范德普朗克(J.E.Van der Plank,1963)的原始描述方法,用X代表病情,则得到以下微分方程式:
dX/dt=rX(1-X)
如用Xt表示经过时间t后的X值,用X0表示时间t=0时的初始X值,则当t=0时,可求得积分常数C=ln(X0/(1-X0))。方程可转换为ln(Xt/(1-Xt))=ln(X0/(1-X0))+rt
如以X1、X2分别表示时间为t1和t2的病情,则上式可写成
ln(X2/(1-X2))=ln(X1/(1-X1))+r(t2-t1)
式中ln(X/(1-X))称为X的逻辑斯蒂值,记作logit(X)。在植病流行中,可利用两个时间点的病情求得r值,或根据r值和初始病情预测经(t2-t1)时间后的病情。
在实际应用中,有些病害最大发病程度不会达到100%,因此必须明确方程所应用的范围和前提。应用逻辑斯蒂方程应符合以下条件:①所有个体同等看待,即不考虑个体间存在差异。②K和r为不依赖于时间和年龄而变的常量。③病情预测或推算r值中,X1到X2的时间应该大于一个潜育期。④不考虑个体死亡率和菌源的迁入与迁出。
螺旋线虫
spiral nematodes
王明祖
垫刃线虫目、垫刃线虫亚目、纽带线虫总科、纽带线虫科。这类线虫在休止或被热能杀死后,身体向腹面弯曲呈螺旋状或“C”形。是植物根部常见的寄生线虫。包括螺旋线虫属和盘旋线虫属。
螺旋线虫属
Helicotylenchus
广泛分布在森林、果树、花卉、牧草、多种农作物和蔬菜种植区。在植物根部外寄生,造成畸形根,严重的引起根腐烂。已知170多种,中国已报道近20种。
形态特征
虫体小型到中等大小(体长0.4~1.2毫米)。雌雄同形,蠕虫状。体环较粗,侧带区内具4条刻线,有时形成网格。尾感器位于肛门稍前方,极少数种类的位于尾中部。唇区低或稍高,不缢缩或稍缢缩,有或缺唇环。头骨架角质化强。口针发达,长20微米以上,基部球强壮。背食道腺开口位于基部球后方1/4~1/2口针长处。排泄孔在食道峡部后端水平线附近。食道腺覆盖肠前端背面、腹面和侧面,以腹面最长。肠与直肠交界明显。雌虫双卵巢,对生,直伸,常偏离虫体中轴线,有较小而明显的受精囊,卵母细胞单列。雌虫尾短,半圆形,背弓弧度大,多数种类的尾末端具有尾尖突。雄虫部分种类的口针稍退化,尾短(长度小于2倍肛门处体宽),近末端有透明部分、交合伞包到尾末端。引带棒状,固定型。
重要病原线虫
螺旋线虫可以各种虫态在5~10厘米土壤层内越冬。春季,作物开始生长后,通过穿针身体前端侵入植物幼根内取食,偶尔全身进入植物组织。炎热的夏天,群体数下降,为害较轻,当秋天温度稍降,雨水充足时,有利线虫繁殖,再次形成高峰危害。重要的种类有矮小螺旋线虫,严重为害利马豆和甘蔗等多种农作物。在蔗田,常与禾生腐霉菌(Pythium graminicola)结合,引起复合侵染,造成更大产量损失。赤色螺旋线虫,世界广布种,为害玉米、水稻等多种农作物以及烟草、咖啡、三叶草和多种牧草。在印度还为害甘蔗,约减产47%,病蔗制成的糖质量差。为害刺苋的多环螺旋线虫,在约旦、以色列是谷类作物的重要病原线虫,在科特迪瓦、洪都拉斯为害香蕉,导致香蕉树严重衰退。此外,还为害大部分种类的蔬菜作物。双角螺旋线虫,为害玉米、豆科作物和多种牧草。柯柏螺旋线虫,主要侵害甘蔗、玉米、茶、水稻、马铃薯和咖啡等。拟强壮螺旋线虫,为害玉米和黑麦。还有微叶螺旋线虫、带角螺旋线虫、加拿大螺旋线虫、变尾螺旋线虫和端管螺旋线虫寄生为害蔬菜、农作物和牧草。
盘旋线虫属
Rotylenchus
本属线虫以较高而缢缩的唇区、食道腺覆盖肠前端背面及背侧面、雌虫尾末端宽圆等显着特点区别于螺旋线虫属内的线虫。在植物根部外寄生生活。已知近40种,中国报道的不到10种。
形态特征
在具有4条刻线的侧带区可以形成不完整的网格。虫体唇区较高,稍缢缩或缢缩明显,头骨架发达,口针强壮,基部球宽圆。背食道腺口位于基部球后方四分之一或小于四分之一口针长处。食道腺覆盖肠前端的背面及背侧面。雌虫双卵巢,对生,直伸,着生和发育对称,具明显的受精囊。尾感器位于肛门附近。雌虫尾短,圆形,末端有环纹。雄虫交合刺大而强壮,交合伞包至尾末端。
重要虫种
线虫的寄主有甜菜、三叶草、胡萝卜、谷类作物、玉米、草梅、女贞、落叶松、云杉等,为害后引起烂根。代表线虫是强壮盘旋线虫,广泛分布在世界各地,是重要的经济作物病原物,主要侵害豌豆、胡萝卜、香蕉、咖啡、甘蔗、多种蔬菜作物、花卉、森林、禾本科农作物和牧草。还常与某些真菌,如根柱孢共同形成复合侵染造成更严重的损失。此外,假强壮盘旋线虫、戈德盘旋线虫、小盘旋线虫也是常见的牧草和运动场禾草及经济作物的病原线虫,植物被害后,常诱致真菌和细菌侵染,引起复合病。
Ⅲ 大数据挖掘的算法有哪些
大数据挖掘的算法:
1.朴素贝叶斯,超级简单,就像做一些数数的工作。如果条件独立假设成立的话,NB将比鉴别模型收敛的更快,所以你只需要少量的训练数据。即使条件独立假设不成立,NB在实际中仍然表现出惊人的好。
2. Logistic回归,LR有很多方法来对模型正则化。比起NB的条件独立性假设,LR不需要考虑样本是否是相关的。与决策树与支持向量机不同,NB有很好的概率解释,且很容易利用新的训练数据来更新模型。如果你想要一些概率信息或者希望将来有更多数据时能方便的更新改进模型,LR是值得使用的。
3.决策树,DT容易理解与解释。DT是非参数的,所以你不需要担心野点(或离群点)和数据是否线性可分的问题,DT的主要缺点是容易过拟合,这也正是随机森林等集成学习算法被提出来的原因。
4.支持向量机,很高的分类正确率,对过拟合有很好的理论保证,选取合适的核函数,面对特征线性不可分的问题也可以表现得很好。SVM在维数通常很高的文本分类中非常的流行。
如果想要或许更多更详细的讯息,建议您去参加CDA数据分析课程。大数据分析师现在有专业的国际认证证书了,CDA,即“CDA 数据分析师”,是在数字经济大背景和人工智能时代趋势下,面向全行业的专业权威国际资格认证, 旨在提升全民数字技能,助力企业数字化转型,推动行业数字化发展。 “CDA 数据分析师”具体指在互联网、金融、零售、咨询、电信、医疗、旅游等行业专门从事数据的采集、清洗、处理、分析并能制作业务报告、 提供决策的新型数据分析人才。点击预约免费试听课。
Ⅳ 如何用R编一个子函数实现逻辑斯蒂回归的牛顿算法
##说明逻辑回归属于概率统计的分类算法模型的算法,是根据一个或者多个特征进行类别标号预测。在R语言中可以通过调用logit函数执行逻辑回归分类算法并预测输出概率。通过调用glm函数将family参数也就是响应分布指定为binominal(二项式),就是使用逻辑回归算法。
####操作同进述内容一样准备好训练数据集与测试数据集。
Number of Fisher Scoring iterations: 6
找到分类模型中包含的可能导致错误分类的非显着变量,仅使用显着的变量来训练分类模型。
Number of Fisher Scoring iterations: 5
调用fit使用一个内置模型来预测testset数据集的输出,可以通过调整概率是否高于0.5来改变类别标记的输出结果。
#这是选择预测之后的输出结果,这个参数能用在binomial数据,也就是响应变量是二分型的时候,这个参数选成type=response,表示输出结果预测响应变量为1的概率。
pred = predict(fit,testset,type = "response")
#将ped中概率大于0.5的设置TRUE,代表为“no”,没有流失客户,1
#将ped中概率小于0.5的设置FALSE,代表为“yes”,有流失
客户,0
Class = pred > 0.5
summary(Class)
Mode FALSE TRUE
logical 28 990
对测试数据集的分类和预测结果进行统计分析计数:
tb = table(testset$churn,Class)
> tb
Class
FALSE TRUE
yes 15 126
no 13 864
将上一步骤的统计结果用分类形式表输出,并生成混淆矩阵
churn.mod = ifelse(testset$churn == "yes",1,0)
> churn.mod
Ⅳ 逻辑斯蒂回归模型是机器学习算法么
当然。经典的机器学习算法之一。用来处理回归和分类问题。
Ⅵ 逻辑回归算法原理是什么
逻辑回归就是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,测试验证这个求解的模型的好坏。
Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别)。回归模型中,y是一个定性变量,比如y=0或1,logistic方法主要应用于研究某些事件发生的概率。
Logistic回归模型的适用条件
1、因变量为二分类的分类变量或某事件的发生率,并且是数值型变量。但是需要注意,重复计数现象指标不适用于Logistic回归。
2、残差和因变量都要服从二项分布。二项分布对应的是分类变量,所以不是正态分布,进而不是用最小二乘法,而是最大似然法来解决方程估计和检验问题。
3、自变量和Logistic概率是线性关系。
以上内容参考:网络-logistic回归
Ⅶ 逻辑斯蒂回归原理与算法
自变量,covariate中spss要求自变量必须是连续变量,而factor则不要求,根据自己数据的类型进行选择。
Ⅷ 请问如何用logistic回归分析做对某一问题的风险评估,
Logistic回归在做风险评估时,一般采用二值逻辑斯蒂回归(Binary Logistic Regression)。以滑坡灾害风险评估为例。1、滑坡发生与否分别用0和1表示(1表示风险发生,0表示风险未发生);2、确定影响滑坡风险的影响因子,这个根据区域具体情况而定,一般包括:地层岩性、植被、降水、地貌、断层、人类活动等等。如果是其他风险的话也根据具体情况而定(咨询专家就可以知道)。3、构建回归分析的样本。Logistic回归也是统计学里面的内容,所以必须得构建统计分析的样本。以构建滑坡风险统计分析的样本为例,先找出滑坡发生的地区,同时计算滑坡发生地区的各个影响因子的指标值。再选择滑坡未发生的地区,同时计算滑坡未发生地区各个影响因子的指标值。这样,就构建了统计样本,自变量为各个影响因子的指标值,应变量为0和1,。把样本导入SPSS里面进行分析,就可以构建自变量和因变量之间的非线性关系模型,然后用这个模型继续求解其他区域滑坡风险的概率值。
希望我的答案对你能有帮助!
Ⅸ 逻辑斯蒂方程的推导:
某种商品的销售:
其中?
首先要考虑社会的需求量.社会对产品的需求状况一般依如下两个特性确定.,但是随时间的推移,x(t)的值为.,得.x(t)的增长率,厂家和商家总是采取各种措施促进销售.,开始时,可建立如下微分方程,这类问题可以用逻辑斯蒂方程加以解决.
信息传播问题
所谓信息传播可以是一则新闻,25%的市民知道了这一信息.。式(1)称为逻辑斯蒂方程(1ogistic
equation),全市有75%的人了解这一通知:
,得.(2)
其中,b和b为正常数.,式(2)称为逻辑斯蒂曲线;
4.。他们都希望对这种产品的推销速度做到心中有数.,销售速度开始下降...,p表示已知信息的人口比例,到一定时间.,因此,可由初始条件确定,社会对产品的需求量为x=x(t),有10%的市民听到这一通知.,有,将很大..。实际上..当t增大以后..(3)
例如:
(百万件)
所以第三年末的市场销售量大约为454:
1.;
3:
解得t=6,知道这一信息的人很少,2小时以后,这是由于环境的限制,有.,社会上大部分人都知道了这一信息.这里的数量关系可以用逻辑斯蒂方程来描述。如果问题的基本数量特征是.,销售量大量增加..;再由t=2时,分母越来越接近于1。
2;dt正比于需求量x(t)与需求接近饱和水平的程度a-x(t)之乘积,在初期。下面我们来预测一下第3年末的销售量是多少,知道的人越来越多.,销售速度不断增大:
两边积分.当t=o时,这样厂家便于组织生产.:
.,由t=0时;
2;
根据上述实际背景的两个特征.,销售量也很小..,对这种产品的需求也饱和了.当b值较大而t较小时,由逻辑斯蒂方程可算出有75%的市民了解这一情况所需要的时间.,p=10%可得
b=9,p=25%可得..,通解为.,需求的增长速度dx/,知道的人很少.。若以t表示从信息产生算起的时间。比如,x(t)是增函数。
[编辑]
逻辑斯蒂方程的应用
1.人口限制增长问题
人口的增长不是呈指数型增长的、有限的资源和人为的影响,b=100:.,越来越接近于零,常数b经测定为b=lnl0,商家便于安排进货,.(1)
分离变量.,且越来越接近于一个确定的值记比例系数为k
逻辑斯蒂方程
逻辑斯蒂方程(logistic
equation)
[编辑]
逻辑斯蒂方程的推导
当一种新产品刚面世时。
3.
对产品的需求有一个饱和水平.当产品需求量达到一定数量时。怎样建立数学模型描述新产品推销速度呢。
逻辑斯蒂方程的应用比较广泛,最终人口的增长将减慢下来,增长速度就下降,,当某种商品调价的通知下达时,即6小时后....,到接近饱和时销售量增加极为缓慢,这种商品饱和量估计a=500(百万件)。
在方程(3)中,而当t增大时。
由,x(t)的值接近于a(饱和值),呈指数型增长.;
2。
[编辑]
逻辑斯蒂方程的基本性质
1。
当p=75%时。当这种商品信息传播出去后:在时间t很小时..
假设在时刻t,则逻辑斯蒂方程变为:
,于是
x(t)近似于依指数函数增大.,这样可以做到有计划地生产.,人口增长规律满足逻辑斯蒂方程.5百万件,记比例系数为k
,大约5年可达饱和:
从而..商品销售预测问题
例如.,一条谣言或市场上某种新商品有关的知识.,设饱和水平为a
Ⅹ Logistic函数(sigmoid函数)
Logistic函数的表示形式如下:
它的函数图像如下,由于函数图像很像一个“S”型,所以该函数又叫 sigmoid 函数。
满足的性质:
1.对称性,关于(0,0.5)中心对称
2.逻辑斯谛方程即微分方程
最早logistic函数是皮埃尔·弗朗索瓦·韦吕勒在1844或1845年在研究它与人口增长的关系时命名的。广义Logistic曲线可以模仿一些情况人口增长( P )的 S 形曲线。起初阶段大致是 指数增长 ;然后随着开始变得饱和,增加变慢;最后,达到成熟时增加停止。
当一个物种迁入到一个新生态系统中后,其数量会发生变化。假设该物种的起始数量小于环境的最大容纳量,则数量会增长。该物种在此生态系统中有天敌、食物、空间等资源也不足(非理想环境),则增长函数满足逻辑斯谛方程,图像呈S形,此方程是描述在资源有限的条件下种群增长规律的一个最佳数学模型。在以下内容中将具体介绍逻辑斯谛方程的原理、生态学意义及其应用。
Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。之前在经典之作《数学之美》中也看到了它用于广告预测,也就是根据某广告被用户点击的可能性,把最可能被用户点击的广告摆在用户能看到的地方,然后叫他“你点我啊!”用户点了,你就有钱收了。这就是为什么我们的电脑现在广告泛滥的原因了。
还有类似的某用户购买某商品的可能性,某病人患有某种疾病的可能性啊等等。这个世界是随机的(当然了,人为的确定性系统除外,但也有可能有噪声或产生错误的结果,只是这个错误发生的可能性太小了,小到千万年不遇,小到忽略不计而已),所以万物的发生都可以用可能性或者几率(Odds)来表达。“几率”指的是某事物发生的可能性与不发生的可能性的比值。
Logistic regression可以用来回归,也可以用来分类,主要是二分类。它不像SVM直接给出一个分类的结果,Logistic Regression给出的是这个样本属于正类或者负类的可能性是多少,当然在多分类的系统中给出的是属于不同类别的可能性,进而通过可能性来分类。
假设我们的样本是{ x , y},y是0或者1,表示正类或者负类, x 是我们的m维的样本特征向量。那么这个样本 x 属于正类,也就是y=1的“概率”可以通过下面的逻辑函数来表示:
这里的 θ 是模型参数,也就是回归系数,σ是sigmoid函数。这样y=0的“概率”就是:
考查逻辑斯蒂回归模型的特点,一个事件的几率(oods)是指这件事发生的概率与不发生概率的比值,如果事件发生的概率是p,那么该事件的几率是p/(1-p),该事件的对数几率(log odds)或者logit函数是
对于逻辑斯蒂回归而言,可以得到如下的对数几率
这就是说,在逻辑斯蒂回归模型中,输出y=1的对数几率是输入x的线性函数,或者说,输出y=1的对数几率是由输入x的线性函数表示的模型,即逻辑斯蒂回归模型。换句话说,y就是我们的关系变量,例如她喜不喜欢你,与多个因素有关,比如你的人品,你的长相,你是否有钱等。我们把这些因素表示成变量x 1 , x 2 ,…, x m ,那么这个女生是怎么考虑这些因素的呢,每个人心理其实都有一杆秤,例如有人比较看重你的人品,人品的权重是0.8,;也有人比较看重你有钱,有钱的权重设置成0.7等等。我们把这些对应于x 1 , x 2 ,…, x m 的权值叫做回归系数,表达为θ 1 , θ 2 ,…, θ m 。他们的加权和就是你在心目中的得分。
在参数学习时,可以用极大似然估计方法求解。假设我们有n个独立的训练样本{( x 1 , y 1 ) ,( x 2 , y 2 ),…, ( x n , y n )},y={0, 1}。那每一个观察到的样本( x i , y i )出现的概率是
对于整个样本集,每个样本的出现都是独立的,n个样本出现的似然函数为(n个样本的出现概率是他们各自的概率乘积)
那么上述的似然函数就是模型的代价函数(cost function),我们要求的参数就是θ*。我们稍微对上式进行转换
对L(θ)的极大值,得到θ的估计值。问题变成了以对数似然函数为木匾函数的最优化问题。用L(θ)对θ求导,得到
无法解析求解的,所以一般使用迭代的方法求解,通常采用梯度下降法和拟牛顿法。
上面介绍的是儿分类的模型,用于二类分类。可以将其推广为多项逻辑斯蒂回归模型(multi-nominal regression model),用于多分类,假设离散随机变量Y的取值是{1,2,3,...,K}那么多项逻辑斯蒂回归的模型是
同理,二项逻辑斯蒂回归的参数估计的方法也可以推广到多项逻辑斯蒂回归。
[1]. 机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)
[2].《统计学习方法》 李航 着