logistic回归模型在ROC分析中的应用

更新时间:2023-08-26 21:41:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

22

主垦里生缠进2QQZ生2县筮丝鲞筮!塑

logistic回归模型在ROC分析中的应用

陈卫中1潘晓平2倪宗瓒2

【提要】目的

探讨logistic回归模型在有协变量或多指标联合诊断试验ROC分析中的应用。方法

根据疾病状

态建立logistic回归模型。通过形成的预测概率或联合预测因子为分析指标,并结合非参数模型和双正态模型建立ROC曲线。结果通过实例阐述了整个分析过程,并说明了该试剂盒的有效性,同时利用两种模型得到了一致的结果。结论ROC分析中结合logistic回归模型简单有效,尤其适用于有协变量或多指标联合诊断试验的分析评价。

【关键词】诊断试验ROC曲线冠心病logistic模型双正态模型

ROC盐线(receiver

operatingcharacteristic

curve)

指标,对于某个截断点Pk有:若flYi≥g(Pk),‰=

1;若卢yf<g(P^),Y捕=0。对于有两个诊断指标的试验,其图形表示如图1所示,形成一个面而非一点。从而得到敏感度和特异度,构建ROC曲线。

分析被认为是一种诊断试验评价中的理想和经典的方法…。但在一个诊断试验中,由于变异的存在,必然有很多混杂因素(或协变量)对试验的评价产生影响,它们可能对疾病的状态产生影响,也可能对测量结果产生影响。其中可以识别的因素,一般在试验设计阶

段应加以控制,以真正显示该试验本身的价值。但在

实际工作中,由于病例来源问题,在设计阶段进行控制

非常困难,因此在统计分析阶段,尽可能地识别、控制

混杂因素(或协变量)显得尤为重要。一同时临床上对于同一种疾病的诊断或筛检,往往有各种不同的诊断方法或手段,涉及的诊断指标是非常多的。不同的指标对疾病各方面敏感性是不一样的,因此在对疾病做出诊断时如何充分利用这些指标的诊断信息,就显得非常重要。因此协变量的控制和多指标联合分析与ROC曲线结合的关键在于降维,本文以logistic回归为基础,给出了多变量线性组合的ROC分析方法。

多变量线性组合的ROC曲线及面积计算[2-71设共检测病例(阳性,D=1)Y1D个个体,正常(阴性,D=0)nD个个体,共检测铆个指标,记为:Y=

图1预测概率P为分析指标示意图

另一种是形成预测因子(combiningpredictors)L8(y),对式(1)进行变换得到:

‘(2)L口(y)=Y1+威y2+…+陆y。

其中酵=展/卢l,即第一个检测项目的系数为1,同时由于截距只是对数据发生的平行位移,在ROC曲线的构建中不存在影响,因此去掉截距后获得。

其构建的ROC曲线下面积(AUC),可以针对预

测概率P或预测因子参考非参数面积的计算得到。

即:

{Y1.…y。}。以疾病状态为结果变量,检测结果Y

为解释变量,建立模型,其具体形式可表示为:

g(“)=口+卢lY1+…+风Y二=flYi

(1)

AUC(6):里垡盟丛堕型堡幽(3)

nDn西

式中g(U)为连接函数(1inkfunction),必须严格单调且充分光滑,即有足够阶数的导数。对于ROC资料中疾病状态为二项分布,其连接函数可有多种选择,但通常情况下因为logit连接函数参数是OR(odds一般均选logit连接函数。

目前在ROC曲线分析中的,利用logistic回归模型进行转换可以两种方式:一是以预测概率P为分析

ra—

同时,由于预测因子为连续型资料,且服从正态分布[8J,故可以利用双正态模型(thebinormalmodel)[9】构建ROC曲线并求得相应曲线下面积,即:

tio)值的对数,较容易解释模型中参数变化的含义,故

Az=』鲁TPF(r)dFPF(圹①【。赢J(4)

式中口、b为双正态模型中的两个参数,可用

MLE法获得,其自然对数似然函数为:

ln2=∑kiln(pm)+∑liIn(加。)

(5)

最大似然估计获得的参数共有卜}1个,即,0=

1.成都医学院公共卫生学教研室(610081){01,02,03,04,…,以+1}_{a,b,t1,t2,…,t卜1},用对

堡bi!墅£』垒坐卫生垡蔓塑』尘墅§!i§!i箜:旦b2QQZ:y丑:24:基!:!

数似然函数对每个参数求一阶导数,利用近似New—ton—Raphson得分法(method的估计值。

of

表1

曲线下面积及其他参数的估计

scoring)迭代得到参数

软件实现

如果选择非参数法构建ROC曲线,全部过程可在SPSS中实现;如果选用双正态模型构建ROC曲线,可通过Rokit3.0实现曲线的构建和参数估计。

讨论

logistic回归模型在ROC曲线中的应用,考虑了混杂因素对疾病状态的影响,更注重诊断体系在医疗

实例分析

氧化低密度脂蛋白(OxidizedLDL,OxLDL)在冠心病的诊断中越来越受到人们的关注。研究证实,低密度脂蛋白向氧化低密度脂蛋白的转变是始动和促进动脉粥样硬化发生、发展的关键步骤。在某OxLDL临床诊断试验中,发现疾病组和正常组存在较多因素的不均衡,为控制混杂因素,使评价更加真实可靠,并增加试验的可重复性,拟进行有混杂因素的ROC曲线构建。

最终筛选出与冠心病有关的指标有4个:氧化低

实践中的价值。也就是说不单所评价指标对疾病有影响,其他诸如本研究中的年龄、性别、是否吸烟等因素的分布情况亦对疾病的发生起着重要作用,故将这些测量指标纳入对疾病产生影响的向量矩阵中,建立模型得到联合分布概率或联合预测因子,使其尽可能地更接近于总体的实际情况再进行评价。反过来说,它相当于根据混杂因素对疾病状态的影响,来调整测量指标值的大小,从而有效地控制了协变量。

从上面的介绍可以看出:①无论预测因子还是直接以概率P为分析指标,实质上都是对原始资料的一个单调变换,并不影响其在整个资料中的分布位置,故在ROC分析中,对模型的选择并不敏感;②由于GLM模型的系数由最大似然法获得,其保证了在所有可能依赖于疾病状态的组合中,是最佳线性组合,即:在某一特定敏感度下,能获得最大特异度;同时在特定特异度下,获得最大敏感度,从而能得到最大曲线下面积;③该预测因子符合正态分布,且是连续型资料,有利于进一步的分析;④该方法能将多指标综合为一个指标,从而实现了降维目的,可用于联合指标的诊断试验评价。

Applicationof

logistic

密度脂蛋白含量、性别、年龄和是否吸烟,其他指标均

无统计学意义。构建的logit模型为:

logit(P)=一10.3217+0.1111Yo。LDL一2.

0730k+3.0415K鳃删+0.9275Ysmoking

成Y0埔馏

(6)

k(Y)=y(址Dx+雕k+陆Lg神。p十

其中成=揣=一18.658

(7)

9,余类推分别

为:砖=27.3762,威=8.348

ROC曲线。

3。对资料进行转换后

形成了一个新的预测因子,可以利用前面的模型构造

ModelinROCCurveAnalysis

Zongzan.Chendu

ChertCollege

Weizhong,PanXiaoping,Ni

(610081),Chendu.

Medicine

【Abstract】

model

in

Objective

To

explore

the

on

application

oflogistic

ROC

curve

analysis.Methods

Basedthelogisticmodel,corn—

in

biningpredictors

or

probabilitieswere

gmned

andapplied

An

establishingem一

forpredic—

#ricalandbinormalmodelROCCUl~es.Results

tion

example

of

coronary

heartdiseasewas

presented

to

illustratethewhole

analysis

steps.Atthesametime,the

0.00

0.20

0.40

0.60

0.80

1.00

0.00

O.20

methodshowedconformablythattheOxLDL

Roc

F”

0.600.40

FPF

0.801.00

wassis

suitablefor

coronary

heartdiseasescreening.Conclusion

iseasy

or

anMy—

the

basedonthe

test

logisticmodel

covariates

and

convenient,especiallyusingin

图2未光滑和双正态模型ROC曲线

screening

with

multiplemarkersforclassification.test;ROC;Logistic

该诊断模型使用两种方法形成的ROC曲线下面积分别0.9885和0.9897,并有统计学意义,说明该试验具有较高的诊断学价值。同时两种模型的拟合结果相差不大,双正态模型构建的ROC曲线下面积稍高,可能和未光滑曲线造成的低估【10]有关。

【Keywords】Screening

modd

model;Binormal

参考文献

1.CopasJB,CorabittP.Overestimation

istic

Curve

ofthereceiveroperatingcharacter

forlogisticregression.Biometrika,2002,89(2):315.331.

24

史垦卫生缠盐2QQ2生2旦复2§鲞簋!翅

2.PepeMS,Cai

TX,ZhangZ.Combiningpredictors/orclassification

using

生,2003,19(9):1151—1152.

thearea

underthe

ROCcurve.UW

Biostatistics

Working

PaperSeries。

7.Fisher

RA.The

use

ofmultiplemeasurements

in

taxonomicproblems.

2004.Annals

of

Eugenics.1936,7:179—188.

3.Pepe

MS,Thompson

ML.Combining

diagnostic

testresultstoincrease8.ShermanRP.The

limiting

distributionofthe

maximumrankcorrelation

accuracyBiostatistics,2000。l(2):123—140.

estimator.1993Econometrics,1993,61:123.137.

4.Pepe

MS.TheStatistical

Evaluation

ofMedicalTestsfor

Classification9.MetzCE,HermanBA,ShenJ

H.Maximum-likelihoodestimationof

re—

and

Prediction.United

KingdomOxford:UniversityPress,2003.

ceiver

operating

characteristic(ROC)curvesfrom

continuously-dis

5.RobertJG.etal,Determination

andinterpretationoftheOptimalOperat—

tributeddata.Statist,Med,1998,17:1033.1053.ing

Point/orROCCurvesderivedthroughgeneralizedlinearmodels.Un—

10.HanleyJA,McNeilBJ.Themeaningand

use

ofthearea

under

areceiver

derstanding

Statistics.2003,2(4):219—242.operating

characteristic(ROC)curve.Radiology,1982,143(4):29 36.

6.刘润幸.使用SPSS作多变量观察值的ROC曲线分析.中国公共卫

应用妇幼病案统计管理软件的体会

徐州市妇幼保健医院(221009)冯洪梅徐州市第六人民医院(221006)徐锈萍

目前妇幼保健机构的日常管理与医疗信息,在获取时缺合查询功能,便可查询母婴的相关信息。

乏规范性和系统性,工作质量差、效率低,它阻碍了妇幼保健工4.灵活的统计功能

作的健康发展。因此,我院在原有HIS(医院信息系统)的基础CMIS妇幼系统可自己设置报表数据,修改数据源、计算公上,增加一套专业的CMIS妇幼病案统计管理软件(简称CMIS式、产生各类报表。例如:妇幼质控报表中的剖宫产医疗质量妇幼系统),除满足日常医疗指标报表、卫统报表、各种台帐和指标,通过开放在前台的预留的SQL(StructuredQuery

Lan—

多功能查询外,为妇幼临床、教学、科研、保健管理提供了全面guage,结构化查询语言)查询语句来维护。比如“子宫下段剖富系统的信息资料。

产术”的人数及原因,将手术编码为74.1,SQL表达式:select

from

tmrdopwherefmrdid=?andfopidin(’74.1’),其中的tm—

CMIS妇幼系统的特点

rdop为手术编码存放表表名,fmrdid为病案号的字段,fond为1.合二为一的病案、统计数据

手术编码的字段,括号内就是具体的手术编码,我们只要输入病案管理人员录入病案后,统计人员审核,针对病案首页相应的时间段,手术编码为74.1,各种手术指征会自动汇总到出现的问题,及时修正,使各类统计报表高效高质,保证了病案这个指标下,使计算机难以自动实现的妇幼指标顺利实现。可直接转化为EXCEL、HTML、TXT等格式文件,方便其他程序统计信息数据的准确、统一和唯一性。从而减少了工作的重调用。

复、交叉性。

2.完善的首页管理系统

系统的不足

病案首页质量辅助控制系统与病案处理二级审核处理方本系统欠缺的地方就是在智能化分析方面相对少些,目前式,通过网络调用HIS的部分信息,可以提高录入速度、准确只具备简单的数据运算分析,尚缺乏智能化的分析功能。

率,灵活地扩展了病案项目及妇幼信息管理,强化了信息管理CMIS妇幼系统通过l艋床实践在当前病案统计管理方面,的内容,使病案信息个性化。

尤其在妇幼专科系统方面具有实用性和科学性,医疗软件行业3.自定义组合查询功能

的发展方向是把计算机技术和相关行业的专业技能有机地结针对病案中的任何字段、任意的组合与排列(如模糊、大合起来。我国即将竣工的全国妇幼信息系统工程和即将出台于、小于、不匹配等条件)进行查询。如输入产科病案时,录入的<妇幼保健信息系统统计分析规范>,CMIS妇幼系统不失为产妇的胎次、产次、分娩方式、Apgar评分等信息,通过自定义组

一个好的样本。

logistic回归模型在ROC分析中的应用

作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:

陈卫中, 潘晓平, 倪宗瓒, Chen Weizhong, Pan Xiaoping, Ni Zongzan

陈卫中,Chen Weizhong(成都医学院公共卫生学教研室,610081), 潘晓平,倪宗瓒,PanXiaoping,Ni Zongzan(四川大学华西公共卫生学院卫生统计学教研室)中国卫生统计

CHINESE JOURNAL OF HEALTH STATISTICS2007,24(1)6次

参考文献(10条)

1.Metz CE;Herman BA;Shen J H Maximum-likelihood estimation of receiver operating characteristic(ROC) curves from continuously-distributed data 1998

2.Sherman RP The limiting distribution of the maximum rank correlation estimator[外文期刊] 19933.Hanley JA;McNeil BJ The meaning and use of the area under a receiver operating characteristic(ROC) curve 1982(04)

4.Fisher RA The use of multiple measurements in taxonomic problems 19365.刘润幸 使用SPSS作多变量观察值的ROC曲线分析[期刊论文]-中国公共卫生 2003(09)

6.Robert JG Determination and interpretation of the Optimal Operating Point for ROC Curves derivedthrough generalized linear models[外文期刊] 2003(04)

7.Pepe MS The Statistical Evaluation of Medical Tests for Classification and Prediction 20038.Pepe MS;Thompson ML Combining diagnostic test results to increase accuracy[外文期刊] 2000(02)9.Pepe MS;Cai TX;Zhang Z Combining predictors for classification using the area under the ROC curve2004

10.Copas JB;Corabitt P Overestimation of the receiver operating characteristic curve for logisticregression[外文期刊] 2002(02)

引证文献(8条)

1.魏曾曾.王维利 简式简明心境问卷界定胃癌根治术患者术前负性心境状态的临界值研究[期刊论文]-中华护理杂志 2011(2)

2.李长平.职心乐.刘晓红.崔壮.魏风江.柯慧.李妍.马骏 AIC结合最优子集法构建logistic回归模型在预测2型糖尿病并发末梢神经病变中的应用[期刊论文]-中国卫生统计 2010(6)

3.蔡永林.郑裕明.成积儒.李军.莫永坤.钟青燕 应用基于Logistic回归的ROC曲线评价鼻咽癌EB病毒抗体联合检测[期刊论文]-中华实验和临床病毒学杂志 2009(5)

4.陈晓光.邵柏.张海波.张红花.成荣华.徐翮飞.张齐 飞行时间质谱技术在HIV诊断应用性研究[期刊论文]-中国国境卫生检疫杂志 2008(5)

5.张建国 ROC曲线分析的基本原理以及在体质与健康促进研究中的应用[期刊论文]-体育科学 2008(6)6.张国龙.陈景武 医学研究中Logistic回归与其他方法的结合应用[期刊论文]-数理医药学杂志 2007(6)7.魏曾曾.王维利 简式简明心境问卷界定胃癌根治术患者术前负性心境状态的临界值研究[期刊论文]-中华护理杂志 2011(2)

8.李长平.职心乐.刘晓红.崔壮.魏风江.柯慧.李妍.马骏 AIC结合最优子集法构建logistic回归模型在预测2型糖尿

本文链接:http://www.77cn.com.cn/Periodical_zgwstj200701007.aspx

本文来源:https://www.bwwdw.com/article/7g1i.html

Top