曲谱网 > 知识库 >

导航导航

logistic回归模型

发布日期:2019-11-23 13:49:00编辑:音乐人

曲谱自学网今天精心准备的是《logistic回归模型》,下面是详解!

多元回归分析与logistic回归的分析的区别和联系

1、概念不同:
(1)多重线性回归模型可视为简单直线模型的直接推广,具有两个及两个以上自变量的线性模型即为多重线性回归模型。
(2)logistic属于概率型非线性回归,是研究二分类(可扩展到多分类)观察结果与一些影响因素之间关系的一种多变量分析方法。
2、变量的特点
多元回归分析的应变量:1个;数值变量(正态分布);自变量:2个及2个以上;最好是数值变量,也可以是无序分类变量、有序变量。
logistic回归的分析应变量:1个;二分 类变量(二项分布)、无序 /有序多分类变量;自变量:2个及2个以上;数值变量、二分类变量、无序/有序多分类变量。
总体回归模型LogitP=(样本)偏回归系数含义表示在控制其它因素或说扣除其它因素的作用后(其它所有自变量固定不变的情况下),某一个自变量变化一个单位时引起因变量Y变化的平均大小。
表示在控制其它因素或说扣除其它因素的作用后(其它所有自变量固定不变的情况下),某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值(logitP的平均变化量),即lnOR。
3、适用条件LINE:
1、L:线性——自变量X与应变量Y之间存在线性关系;
2、I:独立性——Y值相互独立,在模型中则要求残差相互独立,不存在自相关;
3、N:正态性——随机误差(即残差)e服从均值为零,方差为 2的正态分布;
4、E:等方差——对于所有的自变量X,残差e的方差齐。
观察对象(case)之间相互独立;若有数值变量,应接近正态分布(不能严重偏离正态分布);二分类变量服从二项分布;要有足够的样本量;LogitP与自变量呈线性关系。

请问Logistic回归分析是什么意思?

logistic回归主要用于危险因素探索。因变量y为二分类或多分类变量,自变量既可以为分类变量,也可以为连续变量。
比如,探索胃癌发生的危险因素,胃癌作为因变量,分为两类,“是”或“否”。危险因素可以有一个多多个,比如性别、年龄、幽门螺杆菌感染等。通过logistic回归就可以发现哪些因素会影响胃癌的发生。

神经网络挖掘模型与logistic回归挖掘模型的不同点...

逻辑回归有点像线性回归,但是它是当因变量不是数字时使用。比如说因变量是布尔变量(如是/否响应),这时候就需要逻辑回归。它称为回归,但实际上是是根据回归进行分类,它将因变量分类为两个类中的任何一个。

网页链接

如上所述,逻辑回归用于预测二进制输出。例如,如果信用卡公司打算建立一个模型来决定是否向客户发放信用卡,它将模拟客户是否需要这张或者能够承担这张信用卡 。

它给出了事件发生概率的对数,以记录未发生事件的概率。最后,它根据任一类的较高概率对变量进行分类。

而神经网络(Neutral Network)是通过数学算法来模仿人脑思维的,它是数据挖掘中机器学习的典型代表。神经网络是人脑的抽象计算模型,我们知道人脑中有数以百亿个神经元(人脑处理信息的微单元),这些神经元之间相互连接,是的人的大脑产生精密的逻辑思维。而数据挖掘中的“神经网络”也是由大量并行分布的人工神经元(微处理单元)组成的,它有通过调整连接强度从经验知识中进行学习的能力,并可以将这些知识进行应用。

神经网络就像是一个爱学习的孩子,您教她的知识她是不会忘记而且会学以致用的。我们把学习集(Learning Set)中的每个输入加到神经网络中,并告诉神经网络输出应该是什么分类。在全部学习集都运行完成之后,神经网络就根据这些例子总结出她自己的想法,到底她是怎么归纳的就是一个黑盒了。之后我们就可以把测试集(Testing Set)中的测试例子用神经网络来分别作测试,如果测试通过(比如80%或90%的正确率),那么神经网络就构建成功了。我们之后就可以用这个神经网络来判断事务的分类了。

具体来说,”神经网络“是一组互相连接的输入/输出单元,其中每个连接都会与一个券种相关联。在学习阶段,通过调整这些连接的权重,就能够预测输入观测值的正确类标号。因此可以理解为人工神经网络是由大量神经网络元通过丰富完善的连接、抽样、简化和模拟而形成的一种信息处理系统。

Logistic回归分析计算方法

不要用软件算的...

不要用软件算的

logistic回归又称logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。
生态学中的虫口模型(亦即Logistic映射)可用来描述

x(n+1)=u*x(n)*(1-x(n)),u属于[0,4],x属于(0,1)这是1976年数学生态学家R. May在英国的《自然》杂志上发表的一篇后来影响甚广的综述中所提出的,最早的一个由倍周期分岔通向混沌的一个例子。后来经过Feigenbaum研究得出:一个系统一旦发生倍周期分岔,必然导致混沌。他还发现并确定了该系统由信周期分岔通向混沌的两个普适常数(也称为Feigenbaum常数)。对于一维 Logistic映射,研究的比较早也比较详细,比如该映射之所以产生混沌,有人归纳出它具有两个基本性质、逆瀑布、周期3窗口、U序列等等。但是一维Logistic映射仅有一个自由度,利用它只能产生一条线或一条曲线,而做图像,至少需要两个或以上个自由度,为此,孙海坚等人给出了LMGS定义。王兴元还扩展了LMGS定义,在此基础上,就可以分析2维及其以上的系统,分析图形与吸引子的结构特征,探讨了图形与吸引子之间的联系;并由一维可观察计算系统混沌定量判据的方法,计算了吸引子的 Lyapunov指数和Lyaounov维数。[1]二维 Logistic映射起着从一维到高维的衔接作用,对二维映射中混沌现象的研究有助于认识和预测更复杂的高维动力系统的性态。王兴元教授通过构造一次藕合和二次祸合的二维Logistic映射研究了二维Logistic映射通向混沌的道路,分析了其分形结构和吸引盆的性质,指出选择不同的控制参数,二维映射可分别按Feigenbaum途径等走向混沌,并且指出在控制参数空间中的较大的区域,其通向混沌的道路与Hopf分岔有关,在这些途径上可观察到锁相和准周期运动。二维滞后Logistic映射x(n+1)=y(n)y(N+1)=u*y(n)*(1-x(n)), u属于(0,2.28),[x,y]属于(0,1)该系统走向混沌的道路正是验证了二维Logistic映射与Neimark-Sacker分岔有密切的关系,对于研究其他的具有滞后的系统具有重要的意义。[1]

更多扩展补充

扩展

它的回归方程怎么解?

补充

1.Categorical Variables Codings
这个表显示了所做的多分类变量的哑变量变换。
2.Block 1: Method = Backward Stepwise (Conditional)->Omnibus Tests of Model Coefficients
对模型的系数进行的卡方检验,是否显著相关。
3.Model Summary->-2 Log likelihood
最大似然估计值,范围在(0,正无穷大),一般观察此值是否随步数变化递增或递减,以判断方程收敛情况。所以,-2LL可用于检验Logistic回归的显著性。-2LL反映了在模型中包括了所有自变量后的误差,用于处理因变量无法解释的变动部分的显著性问题,又称为拟合劣度卡方统计量。当-2LL的实际显著性水平大于给定的显著性水平α时,因变量的变动中无法解释的部分是不显著的,意味着回归方程的拟合程度越好。
3.Model Summary->R Square
在回归模型里面,R方是决定系数,表明该变量的参与能够决定因变量的一个比例。比方说,儿子的身高和父亲的身高之间的回归模型为:Y=a0+a1X,R方=0.942;这个值说明儿子的身高有94.2%可以取决于其父亲的身高。但在二值回归里面,这个R方是伪决定值,一般不能直接判断变量的决定值。
4.Hosmer and Lemeshow Test
这是一个方程拟合度检验,做的是虚无假设,假设拟合无偏差,查看sig值,如果是>0.05,说明应该接受结果,即认同拟合方程与真实的方程基本没有偏差。也就是说这个sig值越大越好。
5.Classification Table->Percentage Correct
观察最后一项值,Overall Percentage:88.3,这是说明通过该方程预测结果正确率可以达到88.3%,这里可以与Block 0里面的该值做比较,即引入变量比不引入变量后的预测正确率是提升还是减少,提升了多少。
6.Variables in the Equation
最主要的是要看懂这个表格里面的值。B:偏回归系数;S.E.:标准误差;(注意:这里是标准误差,而不是标准差,标准差指的是标准方差S.D.,有很多人在其后做系数标准化的时候以这个值为标准差代入计算,其实是错误的。);wald:检验因子;df:自由度;sig:显著性检验;EXP(B):OR值,也就是比数比。
设某变量的OR值为1.45。OR值的含义是指:如果该变量是连续变量,则该变量每增加1的时候,因变量为1预测正确率提升45%;如果是二分类变量,则是以0为基准,取值为1的时候预测正确率的比值;如果是多分类变量,则以常数重编码为0,0,0的变量为基准,其他几个分类对于它的比值。

我还没打完,字数超了,请继续扩展

扩展

继续说

补充

第一段:
二值Logistic回归模型与普通的回归模型一样,取因变量为Y,自变量为X1、X2...则有:Y=a0+a1X1+a2X2+...anXn;将Y写成Logistic形式为:Logit(P)=ln(p/1-p)=a0+a1X1+a2X2+...anXn

选择SPSS作为分析软件,Analyze->Regression->Binary
Logistic,以此选入因变量Dependent,下面选入所筛选的全部自变量Covaiates,(如果选入的是变量不全是二分类变量,则为非条件回归模型),注意,如果选入的是一个多分类变量,这里应该对该变量进行哑变量(虚拟变量)变换。做这样的变换的解释很简单,因为对于一个多分类变量,不能将1,2,3对其进行简单的标识,每个分类之间无数字化差距。如果要做哑变量变化,点击Categorical,选入多分类变量,Continue。这里注意选择Method,里面有多种变量进入方程的方式,通常选择Enter(一次性进入),和stepwise,有后退剔除式,做后退剔除式相对来说严格些,选择Backward:Conditional。

点击OK,系统进行建模,在这里观察几个主要表的分析数据:

最后一段:

这时,二值回归方程就可以写出来了。如果要考察各进入方程的变量之间的影响力大小,则应该对偏回归系数做标准化,标准化的公式为:β=B×S.D./1.8138;SPSS一般手工计算,SAS自带。观察β的绝对值,大者则影响力大,以此排序。

来自:求助得到的回答

probit回归与logistic回归有什么区别

probit与logistic的区别为:意思不同、用法不同、侧重点不同。

一、意思不同

1、probit:概率单位。

2、logistic:数理(符号)逻辑。

二、用法不同

1、probit:

probit模型服从正态分布。两个模型都是离散选择模型的常用模型。但logit模型简单直接,应用更广。而且,当因变量是名义变量时,Logit和Probit没有本质的区别,一般情况下可以换用。区别在于采用的分布函数不同,前者假设随机变量服从逻辑概率分布,而后者假设随机变量服从正态分布。

2、logistic:Logit模型是最早的离散选择模型,也是目前应用最广的模型。Logit模型是Luce(1959)根据IIA特性首次导出的;Marschark(1960)证明了Logit模型与最大效用理论的一致性;Marley(1965)研究了模型的形式和效用非确定项的分布之间的关系。

三、侧重点不同

1、probit:根据常态频率分配平均数的偏差计算统计单位。

2、logistic:离散选择法模型之一,Logit模型是最早的离散选择模型。

Logistic回归分析指标重要程度的主要过程是什么?

Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。
1. 应用范围:
① 适用于流行病学资料的危险因素分析
② 实验室中药物的剂量-反应关系
③ 临床试验评价
④ 疾病的预后因素分析
2. Logistic回归的分类:
① 按因变量的资料类型分:
二分类
多分类
其中二分较为常用
② 按研究方法分:
条 件Logistic回归
非条件Logistic回归
两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。
3.Logistic回归的应用条件是:
① 独立性。各观测对象间是相互独立的;
② LogitP与自变量是线性关系;
③ 样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;
④ 当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观察时间的影响(建议用Poisson回归)。
4. 拟和logistic回归方程的步骤:
① 对每一个变量进行量化,并进行单因素分析;
② 数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散,或是按照四分、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离散变量。
③ 对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量变换;
④ 在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变量。可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔除。这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般地,当纳入模型的变量偏多,可提高选入界值或降低剔除标准,反之,则降低选入界值、提高删除标准。但筛选标准的不同会影响分析结果,这在与他人结果比较时应当注意。
⑤ 在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项;两变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,但在实际应用中,各变量最好相互独立(也是模型本身的要求),不必研究交互作用,最多是研究少量的一级交互作用。
⑥ 对专业上认为重要但未选入回归方程的要查明原因。
5. 回归方程拟合优劣的判断(为线性回归方程判断依据,可用于logistic回归分析)
① 决定系数(R2)和校正决定系数( ),可以用来评价回归方程的优劣。R2随着自变量个数的增加而增加,所以需要校正;校正决定系数( )越大,方程越优。但亦有研究指出R2是多元线性回归中经常用到的一个指标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预测值与观测值之间差别的问题,因此在logistic回归中不适合。
② Cp选择法:选择Cp最接近p或p+1的方程(不同学者解释不同)。Cp无法用SPSS直接计算,可能需要手工。1964年CL Mallows提出:

Cp接近(p+1)的模型为最佳,其中p为方程中自变量的个数,m为自变量总个数。
③ AIC准则:1973年由日本学者赤池提出AIC计算准则,AIC越小拟合的方程越好。

在logistic回归中,评价模型拟合优度的指标主要有Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标、Akaike信息准则(AIC)、SC指标等。Pearson χ2、偏差(deviance)主要用于自变量不多且为分类变量的情况,当自变量增多且含有连续型变量时,用HL指标则更为恰当。Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标值均服从χ2分布,χ2检验无统计学意义(P>0.05)表示模型拟合的较好,χ2检验有统计学意义(P≤0.05)则表示模型拟合的较差。AIC和SC指标还可用于比较模型的优劣,当拟合多个模型时,可以将不同模型按其AIC和SC指标值排序,AIC和SC值较小者一般认为拟合得更好。
6. 拟合方程的注意事项:
① 进行方程拟合对自变量筛选采用逐步选择法[前进法(forward)、后退法(backward)、逐步回归法(stepwise)]时,引入变量的检验水准要小于或等于剔除变量的检验水准;
② 小样本检验水准α定为0.10或0.15,大样本把α定为0.05。值越小说明自变量选取的标准越严;
③ 在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感兴趣的研究变量选入方程;
④ 强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此。有些样本点(记录)对回归模型影响很大。对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。
⑤ 多重共线性的诊断(SPSS中的指标):a容许度:越近似于0,共线性越强;b特征根:越近似于0,共线性越强;c条件指数:越大,共线性越强;
⑥ 异常点的检查:主要包括特异点(outher)、高杠杆点(high leverage points)以及强影响点(influential points)。特异点是指残差较其他各点大得多的点;高杠杆点是指距离其他样品较远的点;强影响点是指对模型有较大影响的点,模型中包含该点与不包含该点会使求得的回归系数相差很大。单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的“有害”点。对特异点、高杠杆点、强影响点诊断的指标有Pearson残差、Deviance残差、杠杆度统计量H(hat matrix diagnosis)、Cook 距离、DFBETA、Score检验统计量等。这五个指标中,Pearson残差、Deviance残差可用来检查特异点,如果某观测值的残差值>2,则可认为是一个特异点。杠杆度统计量H可用来发现高杠杆点, H值大的样品说明距离其他样品较远,可认为是一个高杠杆点。Cook 距离、DFBETA指标可用来度量特异点或高杠杆点对回归模型的影响程度。Cook距离是标准化残差和杠杆度两者的合成指标,其值越大,表明所对应的观测值的影响越大。DFBETA指标值反映了某个样品被删除后logistic回归系数的变化,变化越大(即DFBETA指标值越大),表明该观测值的影响越大。如果模型中检查出有特异点、高杠杆点或强影响点,首先应根据专业知识、数据收集的情况,分析其产生原因后酌情处理。如来自测量或记录错误,应剔除或校正,否则处置就必须持慎重态度,考虑是否采用新的模型,而不能只是简单地删除就算完事。因为在许多场合,异常点的出现恰好是我们探测某些事先不清楚的或许更为重要因素的线索。
7. 回归系数符号反常与主要变量选不进方程的原因:
① 存在多元共线性;
② 有重要影响的因素未包括在内;
③ 某些变量个体间的差异很大;
④ 样本内突出点上数据误差大;
⑤ 变量的变化范围较小;
⑥ 样本数太少。
8. 参数意义
① Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。
② Logistic回归中的回归系数(bi)表示,其它所有自变量固定不变,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR或RR的对数值。需要指出的是,回归系数β的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病
扩展:
联系最强呢? (InL(t-1)-InL(t))三种方法结果基本一致。
③ 存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。
④ 模型估计出OR,当发病率较低时,OR≈RR,因此发病率高的疾病资料不适合使用该模型。另外,Logistic模型不能利用随访研究中的时间信息,不考虑发病时间上的差异,因而只适于随访期较短的资料,否则随着随访期的延长,回归系数变得不稳定,标准误增加。
9. 统计软件
能够进行logistic回归分析的软件非常多,常用的有SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package)等。

如何在spss进行logistic单因素回归分析

1、打开spss统计软件,然后单击“Analyze  -  Regression  -  Binary Logistic”。

2、出现“逻辑回归”窗口。将“高血压”放入“依赖变量”框,并将其他变量(如“性别”和“体重指数”)放入“分隔符”框中。

3、单击“分类”将分类变量的自变量放入右侧的“分类协变量”框中。在这种情况下,自变量“性别”,“饮食习惯,体育锻炼”是分类变量。在右侧的框中选择变量。 “参考类别”选择“最后”或“第一”,此处选择默认的“最后”。点击“继续”。

4、单击“保存”,选中“概率”,“组成员”,然后“继续”。

5、点击“选项”,勾选“Hosmer-Lymeshaw Fitting Goodness”和“95%Confidence Interval”,然后点击“Continue”。

6、方法“选择”输入“最后”确定“。

怎样应用SPSS进行多因素Logistic 回归分析

  Logistic回归主要分为三类,一种是因变量为二分类得logistic回归,这种回归叫做二项logistic回归,一种是因变量为无序多分类得logistic回归,比如倾向于选择哪种产品,这种回归叫做多项logistic回归。还有一种是因变量为有序多分类的logistic回归,比如病重的程度是高,中,低呀等等,这种回归也叫累积logistic回归,或者序次logistic回归。

  二值logistic回归:

  选择分析——回归——二元logistic,打开主面板,因变量勾选你的二分类变量,这个没有什么疑问,然后看下边写着一个协变量。有没有很奇怪什么叫做协变量?在二元logistic回归里边可以认为协变量类似于自变量,或者就是自变量。把你的自变量选到协变量的框框里边。

  细心的朋友会发现,在指向协变量的那个箭头下边,还有一个小小的按钮,标着a*b,这个按钮的作用是用来选择交互项的。我们知道,有时候两个变量合在一起会产生新的效应,比如年龄和结婚次数综合在一起,会对健康程度有一个新的影响,这时候,我们就认为两者有交互效应。那么我们为了模型的准确,就把这个交互效应也选到模型里去。我们在右边的那个框框里选择变量a,按住ctrl,在选择变量b,那么我们就同时选住这两个变量了,然后点那个a*b的按钮,这样,一个新的名字很长的变量就出现在协变量的框框里了,就是我们的交互作用的变量。

  然后在下边有一个方法的下拉菜单。默认的是进入,就是强迫所有选择的变量都进入到模型里边。除去进入法以外,还有三种向前法,三种向后法。一般默认进入就可以了,如果做出来的模型有变量的p值不合格,就用其他方法在做。再下边的选择变量则是用来选择你的个案的。一般也不用管它。

  选好主面板以后,单击分类(右上角),打开分类对话框。在这个对话框里边,左边的协变量的框框里边有你选好的自变量,右边写着分类协变量的框框则是空白的。你要把协变量里边的字符型变量和分类变量选到分类协变量里边去(系统会自动生成哑变量来方便分析,什么事哑变量具体参照前文)。这里的字符型变量指的是用值标签标注过得变量,不然光文字,系统也没法给你分析啊。选好以后,分类协变量下边还有一个更改对比的框框,我们知道,对于分类变量,spss需要有一个参照,每个分类都通过和这个参照进行比较来得到结果,更改对比这个框框就是用来选择参照的。默认的对比是指示符,也就是每个分类都和总体进行比较,除了指示符以外还有简单,差值等。这个框框不是很重要,默认就可以了。

  点击继续。然后打开保存对话框,勾选概率,组成员,包含协方差矩阵。点击继续,打开选项对话框,勾选分类图,估计值的相关性,迭代历史,exp(B)的CI,在模型中包含常数,输出——在每个步骤中。如果你的协变量有连续型的,或者小样本,那还要勾选Hosmer-Lemeshow拟合度,这个拟合度表现的会较好一些。

  继续,确定。

  然后,就会输出结果了。主要会输出六个表。

  第一个表是模型系数综合检验表,要看他模型的p值是不是小于0.05,判断我们这个logistic回归方程有没有意义。

  第二个表示模型汇总表。这个表里有两个R^2,叫做广义决定系数,也叫伪R^2,作用类似于线性回归里的决定系数,也是表示这个方程能够解释模型的百分之多少。由于计算方法不同,这两个广义决定系数的值往往不一样,但是出入并不会很大。

  在下边的分类表则表述了模型的稳定性。这个表最后一行百分比校正下边的三个数据列出来在实际值为0或者1时,模型预测正确的百分比,以及模型总的预测正确率。一般认为预测正确概率达到百分之五十就是良好(标准真够低的),当然正确率越高越好。

  在然后就是最重要的表了,方程中的变量表。第一行那个B下边是每个变量的系数。第五行的p值会告诉你每个变量是否适合留在方程里。如果有某个变量不适合,那就要从新去掉这个变量做回归。根据这个表就可以写出logistic方程了:P=Exp(常量+a1*变量1+a2*变量2.。。。)/(1+Exp(常量+a1*变量1+a2*变量2.。。。))。如果大家学过一点统计,那就应该对这个形式的方程不陌生。提供变量,它最后算出来会是一个介于0和1的数,也就是你的模型里设定的值比较大的情况发生的概率,比如你想推算会不会治愈,你设0治愈,1为没有治愈。那你的模型算出来就是没有治愈的概率。如果你想直接计算治愈的概率,那就需要更改一下设定,用1去代表治愈。

  此外倒数后两列有一个EXP(B),也就是OR值,哦,这个可不是或者的意思,OR值是优势比。在线性回归里边我们用标准化系数来对比两个自变量对于因变量的影响力的强弱,在logistic回归里边我们用优势比来比较不同的情况对于因变量的影响。举个例子。比如我想看性别对于某种病是否好转的影响,假设0代表女,1代表男,0代表不好转,1代表好转。发现这个变量的OR值为2.9,那么也就是说男人的好转的可能是女人好转的2.9倍。注意,这里都是以数值较大的那个情况为基准的。而且OR值可以直接给出这个倍数。如果是0,1,2各代表一类情况的时候,那就是2是1的2.9倍,1是0的2.9倍,以此类推。OR值对于方程没什么贡献,但是有助于直观的理解模型。在使用OR值得时候一定要结合它95%的置信区间来进行判断。

  此外还有相关矩阵表和概率直方图,就不再介绍了。

  

  

  

  多项logistic回归:

  选择分析——回归——多项logistic,打开主面板,因变量大家都知道选什么,因变量下边有一个参考类别,默认的第一类别就可以。再然后出现了两个框框,因子和协变量。很明显,这两个框框都是要你选因变量的,那么到底有什么区别呢?嘿嘿,区别就在于,因子里边放的是无序的分类变量,比如性别,职业什么的,以及连续变量(实际上做logistic回归时大部分自变量都是分类变量,连续变量是比较少的。),而协变量里边放的是等级资料,比如病情的严重程度啊,年龄啊(以十年为一个年龄段撒,一年一个的话就看成连续变量吧还是)之类的。在二项logistic回归里边,系统会自动生成哑变量,可是在多项logistic回归里边,就要自己手动设置了。参照上边的解释,不难知道设置好的哑变量要放到因子那个框框里去。

  然后点开模型那个对话框,哇,好恐怖的一个对话框,都不知道是干嘛的。好,我们一点点来看。上边我们已经说过交互作用是干嘛的了,那么不难理解,主效应就是变量本身对模型的影响。明确了这一点以后,这个对话框就没有那么难选了。指定模型那一栏有三个模型,主效应指的是只做自变量和因变量的方程,就是最普通的那种。全因子指的是包含了所有主效应和所有因子和因子的交互效应的模型(我也不明白为什么只有全因子,没有全协变量。这个问题真的很难,所以别扩展我啦。)第三个是设定/步进式。这个是自己手动设置交互项和主效应项的,而且还可以设置这个项是强制输入的还是逐步进入的。这个概念就不用再啰嗦了吧啊?

  点击继续,打开统计量对话框,勾选个案处理摘要,伪R方,步骤摘要,模型拟合度信息,单元格可能性,分类表,拟合度,估计,似然比检验,继续。打开条件,全勾,继续,打开选项,勾选为分级强制条目和移除项目。打开保存,勾选包含协方差矩阵。确定(总算选完了)。

  结果和二项logistic回归差不多,就是多了一个似然比检验,p值小于0.05认为变量有意义。然后我们直接看参数估计表。假设我们的因变量有n个类,那参数估计表会给出n-1组的截距,变量1,变量2。我们我们用Zm代表Exp(常量m+am1*变量1+am2*变量2+。。。),那么就有第m类情况发生的概率为Zn/1+Z2+Z3+……+Zn(如果我们以第一类为参考类别的话,我们就不会有关于第一类的参数,那么第一类就是默认的1,也就是说Z1为1)。

  

  有序回归(累积logistic回归):

  选择菜单分析——回归——有序,打开主面板。因变量,因子,协变量如何选取就不在重复了。选项对话框默认。打开输出对话框,勾选拟合度统计,摘要统计,参数估计,平行线检验,估计响应概率,实际类别概率,确定,位置对话框和上文的模型对话框类似,也不重复了。确定。

  结果里边特有的一个表是平行线检验表。这个表的p值小于0.05则认为斜率系数对于不同的类别是不一样的。此外参数估计表得出的参数也有所不同。假设我们的因变量有四个水平,自变量有两个,那么参数估计表会给出三个阈值a1,a2,a3(也就是截距),两个自变量的参数m,n。计算方程时,首先算三个Link值,Link1=a1+m*x1+n*x2,Link2=a2+m*x1+n*x2,Link3=a3+m*x1+n*x2,(仅有截距不同)有了link值以后,p1=1/(1+exp(link1)),p1+p2=1/(1+exp(link2)),p1+p2+p3=1/(1+exp(link3)),p1+p2+p3+p4=1..

  通过上边的这几个方程就能计算出各自的概率了。

  

  Logistic回归到这里基本就已经结束了。大家一定要记熟公式,弄混可就糟糕了。希望能对你有所帮助呦。

logistic回归分析模型

看了一些书知道了类似于此类公式的1/(1+exp(x))名为logistic回归分析模型,但又有些书上把logistic回归分析模型写为这样的公式exp(x)/(1+exp(x))请问这两个公式有什么区别吗,分别代...

看了一些书知道了类似于此类公式的1/(1+exp(x))名为logistic回归分析模型,但又有些书上把logistic回归分析模型写为这样的公式 exp(x)/(1+exp(x)) 请问这两个公式有什么区别吗,分别代表什么意思哪?请指教 展开

是1/(1+exp(-x))吧,分子分母同时乘以exp(x)就是你后面的exp(x)/(1+exp(x))了。
P=1/(1+exp(-x))是一条S型的非线性概率函数,logistic函数只是中间的一种特殊情况。Y=Ln【p/(1-p)】=logit(Y)=b+bx,通过logit变换后的模型叫logistic回归模型。
Ln【p/(1-p)】=b+bx,两侧取e指数就是p/(1-p)=exp(b+bx),解出来就是p=exp(b+bx)/(1+exp(b+bx)),又回到了第一个公式。

logistic回归模型

《Logistic回归模型:方法与应用》是2001年高等教育出版社出版的图书,作者是王济川。

大家都在看

最新资讯

推荐专题

儿童歌曲大全 儿童故事大全 卡农钢琴曲谱 天空之城钢琴曲谱 梦中的婚礼钢琴曲谱 梁祝》钢琴曲谱 童年的回忆钢琴曲谱 彩云追月钢琴曲谱 康定情歌钢琴曲谱 水边的阿狄丽娜钢琴曲谱 渔舟唱晚古筝曲谱 云水禅心古筝曲谱 高山流水古筝曲谱 浏阳河古筝曲谱 南泥湾古筝曲谱 梅花三弄古筝曲谱 笑傲江湖古筝曲谱 青花瓷古筝曲谱 月光下的凤尾竹葫芦丝曲谱 婚誓葫芦丝曲谱 荷塘月色葫芦丝曲谱 映山红葫芦丝简谱 军港之夜葫芦丝简谱 青花瓷葫芦丝简谱 蝴蝶泉边葫芦丝曲谱 美丽的神话葫芦丝曲谱 致爱丽丝电子琴谱 小苹果 电子琴谱 天空之城 电子琴谱 婚礼进行曲 电子琴谱 茉莉花 电子琴谱 红河谷曲谱