流行病学研究的选题和设计1.5

更新时间:2024-01-10 23:26:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第六章 流行病学研究的选题和设计

第六章 流行病学研究的选题和设计

提要:像其它医学科学研究一样,流行病学研究的选题要遵循创新性、科学性、实用性和可行性基本原则。流行病学研究的选题范围十分广泛,包括研究疾病、健康及其影响因素的分布规律和预防控制疾病、促进健康的策略与措施。流行病学研究设计要着重考虑研究对象、处理因素和效应指标的安排,遵循随机、对照、重复和盲法基本原则,努力提高研究的精确性与真实性,通常先由描述性研究提出病因假设、然后应用分析性研究检验假设和实验研究验证假设,在此基础上开展长期的干预和监测研究,并进一步的评价干预的效果和进行改进;通过这样的研究程序提高研究证据并应用于疾病预防控制实践。在进行流行病学研究设计时,需要明确研究目的,选择样本量足够、具有良好代表性的研究对象,选择合适的流行病学研究类型,暴露和结局变量要求客观、灵敏和特异,研究实施要求严格按照设计要求进行,做好质量控制,应用正确方法分析研究数据,并在此基础上形成研究设计方案。本章将详细讨论流行病学研究选题和设计中涉及的以上具体问题。

第一节 流行病学研究的选题

一、流行病学研究选题应遵循的基本原则

通常在流行病学研究选题是要注意以下几个基本原则,那就是流行病学研究的选题要具有创新性、科学性、实用性和可行性。如果一项选题越符合这四项基本原则,则越具有研究的必要性,但是有时一项流行病学研究选题可能不能同时满足这四项基本要求,也不能说就没有研究的必要性,因为流行病学是一门应用学科,因此有些情况下更强调流行病学研究选题的实用性。

(一)创新性

科学研究贵在创新,创新性是科学研究的核心和灵魂。要做到创新,就需要非常熟悉研究选题领域的进展与研究水平,具有坚实的专业理论基础知识和本领域的研究背景,并具有创新思维,能够发现具有创新思想的研究设想,从而形成研究选题。创新性可以体现在多个方面,并以不同的程度与方式表现出来,显著的和高层次的创新要求产生和建立新的理论与方法,促进学科的显著发展、推动社会的进步,创新也可以是完善、丰富现有的理论与方法。有人认为创新很难,其实不然,创新无处不在,无时不有,关键是要具有创新思想,不仅研究选题要求创新,甚至在数据分析、结果呈现、论文撰写等方面都可体现创新。例如大家都习惯应用统计表的方式表达OR值及其95%可信区间,如果使用统计图表达,则十分直观,一个具有新意的论文题目不仅能够准确揭示论文的内容,同时也令人印象深刻,例如”The rising tide of cardiovascular diseases in American Indians: The Strong Heart Study (Diabetes Care, 1997; 6: 123-156) 这样的论文题目给人多么强烈的印象。创新也要求我们不做重复性的工

1

第六章 流行病学研究的选题和设计

作,要选择前人没有解决或没有完全解决的问题进行研究。如果都是千篇一律的模仿或固守所谓的经验,科学就不可能前进与发展。这里还要强调考虑创新性时,不要忽视实用性,没有理论和实践应用价值的创新和首创将是毫无意义的,创新不是无中生有,是已有工作基础积累、升华的产物,避免把“创新”扩大化,填补国内外空白不能说是创新和特色。

(二)科学性

我们流行病学在讨论因果联系的判断标准时要求得到的联系要有科学依据,要不违背现代生物学、医学等理论,在科学上“言之成理”。因此任何流行病学的研究选题一定要有充分的科学依据,不管选题大小,都应该是一个科学的问题,能够应用现有的科学知识来推测、分析和解释。科学性是鉴别伪科学的唯一标准,那些违背科学性原则的研究就是伪科学。

(三)实用性

流行病学研究是为了应用研究结果促进流行病学的进一步发展,研究的目的是为了应用,即使理论上的研究成果,也是为了应用研究发现和建立的新理论来指导实践问题,同时流行病学的应用学科特性也决定了流行病学研究选题时尤其要强调其实用性,没有使用价值的研究是浪费资源,也是毫无意义的研究。 (四)可行性

选题时还要考虑研究的可行性,即完成课题的主客观条件,包括完成课题必需的仪器设备、现有的实验条件、足够的科研经费、必要的人员配置、时间安排甚至相关部门的支持等。如果这些条件不能够满足,即便一项课题的创新性科学性和实用性很好,也只能是纸上谈兵,无望成功。

二、流行病学研究选题的范围与来源

John M. Last给流行病学的定义为流行病是研究特定人群中健康相关状态与事件的分布及其决定因素并应用这些研究结果来控制健康问题的学问,接下来进一步指出该定义中的“研究”包括监测、观察、假设检验、分析性研究和实验性研究;“分布”是分析疾病的时间、地区和人群的特征;“决定因素”包括影响健康的物理、生物、社会、文化和行为因素;“健康相关状态与事件”是指疾病、死亡原因、行为危险因素、对预防制剂的反应、卫生服务的提供与使用;“特定人群”是那些能够确定其特征的人群;流行病学的“应用”是保护、促进和维护健康。由此定义可以看出流行病学的研究范围与研究内容十分广泛,任何疾病、健康问题、影响疾病和健康的因素、预防控制疾病的策略与措施都可以是流行病学研究的选题。流行病学研究的选题途径可以来源于自己的工作实践、也可以来自同行专家的建议、还可以是各级各类招标课题指南中的流行病学研究课题或者与流行病学相关的研究课题。

2

第六章 流行病学研究的选题和设计

第二节 流行病学研究设计遵循的原则

研究设计(study design)即有关科学研究的具体内容、方法的设想和计划。它包括专业设计和统计设计两部分:专业设计是从各专业角度考虑研究的科学安排,包括选题、建立假说、确定研究对象、测量指标、技术方法等;统计设计是对资料搜集、整理和分析全过程总的设想和安排,它从统计学的角度考虑设计的科学性和逻辑性,使研究结果具有真实性与可靠性。

一、医学科学研究的基本要素

在医学科学研究中有三个重要的方面在研究设计中要认真进行考虑,那就是研究对象、处理因素和效应指标。流行病学的研究对象通常是人群,本章第三节将进一步详细讨论。处理因素是对研究对象施加或去除某因素,观察其对研究对象的影响。通常在实验流行病学中对实验组采取的干预措施就是处理因素,而在观察性研究中我们不采取任何的干预,但是可以把研究中的暴露因素看作是处理因素。效应指标是处理因素作用与研究对象而产生的变化的反应,效应指标是研究的结局变量,可以是生理、生化、病理学指标,也可是分子生物学标志物或者是疾病的发生和死亡,不管是什么效应指标,一定要具备良好的真实性(包括灵敏和特异)和可靠性。设计好这三个要素即可以回答研究的问题,即应用什么样的研究因素,作用于什么样的研究人群,得到了什么样的研究结果。

二、流行病学研究设计遵循的基本原则 (一)对照(control)

1. 设立对照的意义 对照是比较的基础,设立对照的意义在于使实验组和对照组在研究因素(也称为处理因素)以外的其他因素(也称为非处理因素)基本一致,从而使研究因素的效应得以显露。其意义可用以下符号表达:

T(处理因素)?S(非处理因素)?e(实验效应)?s(非处理因素影响的结果)实验组 对照组 处理因素的效应

T?S1||?e?s1||O?S2T??o?s2e式中,T表示处理因素,e表示处理因素引起的效应指标的变化,S1表示非处理因素,

s1表示非处理因素引起的效应指标变化。对照组没有处理因素(O),因此其引起的效应指

3

第六章 流行病学研究的选题和设计

标变化0。如果对照设置合适,即S1?S2。那么两组由于非处理因素引起的效应指标变化也相等,即s1?s2。从而使处理因素的效应T?e得以显露。对照组设立后,应对各组的基线情况进行比较,检验开始时的状态是否均衡。

2.设立对照的原则:要求除研究因素外,其它特征即非研究因素在比较的不同组别中分布均衡,例如研究对象的人口统计学特征性别、年龄、受教育水平、婚姻状况、社会经济地位在实验组和对照组的分布均衡、可比。

3.常见的对照形式:在流行病学研究中常见的对照种类有病例对照研究中的非研究疾病对照、队列研究中的非暴露组对照和实验流行病学中的各种对照。病例对照研究中的对照要求对照不患有所研究的疾病或与研究因素相关的疾病,同时要求除研究因素外的其他特征要与病例或病例组相同或相近,如果是匹配设计(即要求根据每一个病例的要匹配的条件来选择其相应的对照),就需要按照匹配条件设立对照。队列研究中的对照要求不暴露于研究因素并在其他特征上与暴露组均衡可比,队列研究的对照还可以由一般人群对照、暴露组内部不同暴露等级组别之间的对照,也称为内对照。实验流行病学中的对照形式更为丰富,根据不同的研究性质,可以设立不施加任何处理因素的空白对照、给予与受试药物在外形、气味上完全一致但无任何治疗作用的安慰剂(placebo)对照、应用标准疗法、标准物质处理的标准对照、应用以前传统疗法的结果作比较的历史对照、同一研究对象干预前后比较的自身对照和前面提到的匹配对照等。 有关对照的进一步的讨论请参考本书其他章节的内容。

(二)重复(replication)

重复是指在相同实验条件下进行多次研究或多次观察,以提高实验的可靠性和科学性,包括三种情形:

1. 整个实验的重复 确保实验的重现性。如对同一调查对象在短时期内先后调查两次或者是不同的调查员分别对同一调查对象进行调查,比较两次调查结果是否一致,如为计量资料可计算组内相关系数(intraclass correlation coefficient, ICC),如结果为二分类资料可计算kappa系数,这两个指标取值均在0~1之间,取值越接近1,说明两次调查结果的一致性越好,越接近0,说明实验的重现性差,此时应当分析调查问卷设计的是否合理或者诊断标准是否非常明确。

2. 用多个受试对象进行重复 换言之,要有足够的样本含量,避免把个别情况误认为普遍情况,如欲了解2006年河南省食管癌的死亡率,仅调查1000人是不能真实反映问题的,按照现有的食管癌死亡水平29/10万估计,可能1000人中没有1例死于食管癌。

4

第六章 流行病学研究的选题和设计

3. 同一受试对象的重复观察 它保证了观察结果的精度。如血压的测量一般都测3次,取3次的平均值。

由以上可以看出,重复最主要的作用是估计误差,只有在相同研究条件下对同一观测指标进行多次重复测定,才能计算出误差大小;重复的另一作用就是减小抽样误差,多次重复测定的均数或大样本率的误差较小,提高了研究的精确性。

(三) 随机化(randomization)

随机化,就是每一个受试对象都有同等的机会被抽取或分配到不同的实验组和对照组,是对付大量不可控制的非处理因素在各组间分布均匀的一种统计学措施,也是对实验结果进行外推的重要前提,它贯穿于实验设计和实施的全过程中,体现在:

1. 抽样的随机 使每个符合条件的研究对象都有同等的机会被抽取,从而保证所得样本有代表性。常用的随机化抽样方法有单纯随机抽样,系统抽样,分层抽样以及整群抽样,祥见有关统计学书籍。

2. 分组的随机 使每个受试对象被分配到各组的机会相等,是达到组间均衡性的重要手段。随机化的方法很多,如抽签法,掷硬币法,随机数字表或通过计算机产生的伪随机数字进行分组。随机分组的单位既可以是个体也可是群体,前者如实验某种疫苗有无预防作用而开展的小范围人体实验;后者如为了解自来水加氟能否预防龋齿而开展的大范围人群实验。

3. 实验顺序的随机 每个试验个体接受处理先后的机会均等,从而平衡试验顺序对观察指标的影响。

(四) 盲法(blindness)

流行病学研究中的便宜可以来自各方面和各个环节,通过随机化和设立对照消除和控制了很多影响研究结果的非处理因素,但是研究中来自研究对象和研究者的与疗效评价、检测结果判断、数据分析方面的不客观和不公正态度,甚至心理因素也会引入很大的偏倚。那么研究者就进一步采取措施来消除这些偏倚,既让研究对象、研究观察者和数据的分析者部分或全部不知道研究的分组情况,这样就消除了他们因为个人主观倾向的主观偏见带来的偏倚,这样的方法就称为盲法。如果让研究对象不知道研究的分组情况,例如在某一生物制品的现场试验中实验组注射受试的生物制品,对照组注射安慰剂(假设是生理盐水),以消除研究对象带来的偏倚,这种方法称为单盲(single blindness)。如果想进一步消除研究者例如预防效果的评价者带来的偏倚,而让其不知道研究的分组情况就是双盲(double blindness)。研究中还有一类人员负责结果的评判和数据的分析,他们如果带有主官的对研究有利或不利倾向性尤其是对于那些结果不明显的案例的处理,就有可能引入偏倚,影响其评价的客观性。

5

第六章 流行病学研究的选题和设计

所以有必要时也要对他们实行盲法,即为三盲(triple blindness)。盲法应用的不同形式归纳如下表:

表6.1 盲法应用的形式

盲法应用的形式 研究中牵涉的人员 单盲 研究对象 研究的观察者 研究的评价/分析者 研究的设计者 × √ √ √ 双盲 × × √ √ 三盲 × × × √ “×”表示不知道试验的分组情况 “√”表示知道实验的分组情况

三、流行病学研究的精确性与真实性

一般来说,流行病学研究的目的不外乎是揭示研究事件的特征及其与研究因素的联系,并对研究因素的效应作出科学的评价。因此每一种流行病学研究均可视为是一种“测量”。流行病学研究设计的目的就是要保证这种“测量”的准确性,以极小的误差来估计测量目标的参数值,使研究结果较好地反映真实情况。在流行病学研究中,无论是观察性研究还是实验性研究,从研究设计、实施、分析至结果解释、推论的整个过程中,研究的准确性可受到许许多多因素的影响,使研究结果与真实情况存在偏差,有时甚至会得出与实际情况完全相反的结论。造成这种偏差的原因归纳起来有二:一是随机误差(random error),二是系统误差(systematic error),即偏倚。流行病学研究设计的原则与策略,就是如何减少这两类误差,以达到准确的“测量”。减少随机误差以提高测量的精确性(precision),减少偏倚以提高测量的真实性(validity)。

(一)提高研究的精确性

流行病学研究中的精确性与随机误差有关,减少随机误差即可以使研究的精确性提高。随机误差亦称随机变异,其产生的原因有多种,主要来源于对研究对象的选择过程,即抽样过程。这种随机变异被称为抽样误差或抽样变异。抽样误差不仅仅发生于现况研究的抽样调查中,所有的流行病学研究,包括病例对照研究与队列研究等都有可能存在抽样误差。用于研究的研究对象,无论从字面上是否提到“抽样”,都是将研究结果推论到人群的一个样本;即使研究对象包含了一个特定人群的所有个体,其也可被视为更大范围人群的一个样本。因

6

第六章 流行病学研究的选题和设计

此,在统计学上提及的“如果以整个人群而不是其中的一个样本作为研究对象,则不存在抽样误差”的说法与流行病学研究的观点不相一致。因为用于研究的研究对象,实际上总是一个样本。

抽样误差仅是流行病学研究中随机误差的来源之一。其它如研究变量的测量等环节也易产生随机误差,从而影响研究的精确性。提高研究精确性的方法可以通过两种途径:一是增加研究的样本含量;二是提高研究信息获取的效率及研究效率。 1.样本含量的估计

增加研究的样本含量是减少抽样误差、提高研究精确性的最基本的方法。但是样本过大可导致人力、物力、时间和费用的增加,提高研究成本。在实际工作中我们通常根据研究的目的与需要确定适宜的样本大小,并通过合理的抽样,使样本的特征能够代表目标人群,即可以做到通过合适的样本量来提高研究的精确性。具体的样本量计算方法参考本章第三节讨论的内容、本书中的各具体研究方法章节或其他专业书籍。 2.研究效率

(1)样本构成:样本的构成与研究效率密切相关。例如一项研究样本为100,000人的随访研究,研究的目的是分析每天服用小剂量的阿斯匹林(30-50mg/日)是否可降低缺血性心脏病的死亡率及降低的程度。表面上看,如此大样本量的研究,似乎精确性很高。但是如果在这些研究对象中,暴露于研究因素即每天服用阿斯匹林者仅有100人,在这种情况下,尽管有99,900人作为比较对象,自100个暴露者所获得的信息,可能很难全面评价阿斯匹林的效应,达到预期的研究目的。假如在这100,000人中,暴露于研究因素者与未暴露者各为50,000人,暴露者与对照者的比例为1:1,但是如果研究对象的年龄均为30-39岁,该研究的效率也很低。因为虽然暴露者与非暴露者的理想构成可以提高研究的精确性,但是由于该年龄组人群心血管疾病死亡率很低,自该人群所获得的发病和死亡的信息不足以评估研究因素的效应,因此亦很难达到预期的研究目的。即便研究对象总的年龄构成符合要求,如果暴露组与非暴露组年龄分布不均,如暴露组年龄为40-49岁,对照组年龄均≥50岁,也会严重影响研究结果。当然其影响程度取决于在数据分析时,如何处理年龄这一混杂因子。由此可见不仅是样本含量,研究设计的许多方面均可影响研究效率,从而影响研究的精确性。这些影响因素包括研究对象暴露者的比例、已患病或将要患病者的比例,以及在分析中必须考虑控制的一些重要变量的分布等。

(2)分层设计:在许多流行病学研究中,常常应用分层技术,分层有时也会影响研究效率。例如在一项流行病学研究中,样本大小适宜,研究对象暴露于研究因素者与未暴露者

7

第六章 流行病学研究的选题和设计

的比例适宜。如果采用分层技术,很可能会造成各层中暴露者与非暴露者的构成比例极不一致的情况。有的层内是较多的暴露者与较少的对照比较,有的层内则是较多的对照与较少的暴露者比较,甚至在有的层内的格子中会出现零的情况。在这种情况下研究效率可受到严重影响,降低研究的精确性。用于分层的变量越多,这种现象越容易出现,即使是大样本的研究也难免产生这一问题。

研究中使用分层技术时,当预期要分的层数及观察组的研究对象固定时,可用增加对照样本含量的方法来提高研究效率。如果预期的层间暴露与非暴露者的比例或效应值变异很大,非暴露人群又易获得,研究对象中暴露者与非暴露者的比例可增至1:10或更大,从而保证研究效率。例如,当研究职业性肿瘤时,某职业暴露的人群可能较少,而且年龄、性别等人口学特征有一定的特殊性,根据暴露水平进行分层分析时,如果每层的人数较少,为提高统计效率可以适当地扩大对照组即非暴露组的人数。如此可使方差减小,使在同一?标准下获得较小的?值,从而提高把握度。值得指出的是,虽然理论上这种方法可以提高统计效率,但是提高的程度往往有限。而且,统计效率能否真正提高也因研究因素的性质及分布的不同而异。

保证分层研究效率的另一方法是,在选择对照时通过配比技术,使研究对象在各层间暴露与非暴露于研究因素者的比例达到均衡,即使两组中分层变量的分布一致,从而提高研究的精确性。配比一般被认为是一种控制混杂的方法,在这种情况下,配比实质上也是提高研究效率的手段之一。

(3)研究效率的衡量:流行病学研究的研究效率可以用两种尺度予以衡量。一是将研究中所获得的信息总量与样本量(或观察人数)相比较;另一种是将研究中所获得的信息总量与所需的成本相比较。如上述若在研究设计时采用配比技术,可以增加信息获得量、提高研究效率,但配比必然会带来研究成本的增加。研究效率问题最好通过将所获得的信息与研究成本相比较,而不是与研究对象的数量比较来衡量。因为即使是出于同一研究目的,选择不同的研究对象,所获得的信息量与成本往往是不可比的。例如,在回顾性队列研究中,常应用人群资料作比较,这种资料容易获得,获得这样的资料比自暴露队列获得信息的费用要低很多。在病例对照研究中,如果研究疾病是一种罕见病,病例数很少,获得病例的花费大,而对照可能很容易获得,在这种情况下通常是通过增加对照组研究对象数量的策略来获得较多的信息,而所需费用可能较少。但是应该说明的是,在这种情况下,并非随着对照数量的增加信息的获得量也会成比例地增加。

8

第六章 流行病学研究的选题和设计

(二)提高研究的真实性

研究的真实性包括两个部分,一是内部真实性(internal validity),二是外部真实性(external validity)。内部真实性是指对研究对象本身进行推论的真实性;外部真实性也称普遍性,或外推性,是指对研究对象以外的人群推论的真实性。有学者认为,研究的外部真实性取决于样本人群对目标人群的代表性;也有学者认为,科学普遍性的本质是形成与研究变量(因素)有关的抽象,而抽象的概念所涉及的是其本身而并非限定于某一人群。但无论如何,一项研究的内部真实性应是其外部真实性的基础和前提。

除上述随机误差之外,在研究过程中可能产生的各类偏倚,均可影响研究的真实性。与偏倚有关的问题,详见本书第 章。

四、流行病学的研究的程序和步骤

流行病学研究,与所有的科学研究一样,是一个动态的循环过程,没有明确的起点和终点。流行病学研究通常遵循这样的研究程序,即首先应用描述性研究来产生和形成假设,经由分析性研究(包括病例对照研究和队列研究)检验假设,采用实验流行病学研究方法来验证假设,并在此基础上进一步开展干预和建立疾病发病率或死亡率及其危险因素的监测系统。

流行病学往往以观察为基础,以描述性研究为起点来呈现所研究疾病或健康状态及其可能的影响因素在不同时间、地区和人群的分布特征,同时,虽然是描述性研究,但也可以应用分析性研究中的病例对照研究方法,分析暴露因素与疾病的关系,提出初步的关于暴露因素与疾病或健康状态关系的病因假设。由于描述性研究没有区分暴露和疾病的时间关系,两者在研究对象中同时存在,不能得出因果联系,比较的对照不是研究时按照研究设计特别设立的,仅是数据分析时按照暴露有无分组而成,因而提供的证据级别最低,那么,接下来就需要应用设立有特别对照、用于研究暴露因素与疾病关系的分析流行病学方法进行检验。首先运用病例对照研究进行初步检验,虽然这种方法设立了对照,从疾病的结局追溯疾病的病因(从因推果),但是联系的时间关系仍不能确定,尚需对该病因进行由因及果的纵向性研究,即应用队列研究来观察暴露于某因素与不暴露于某因素的人群中相应疾病的发生率,由此检验暴露因素与疾病发生的关系,进一步提高证据的级别。从因果推断的要求出发,要想确立疾病的病因,必须提供实验证据,那么接下来就需要通过实验流行病学方法验证病因,提出最高级别的研究证据。通过这样由描述到分析再到实验的研究程序,逐步提高了研究的证据,我们就可根据研究结果提出疾病的干预策略和措施转,将其变成公共卫生政策,应用到疾病的预防控制工作中,开展长期的干预工作,并在此基础上建立疾病发病率、死亡率及

9

第六章 流行病学研究的选题和设计

其危险因素暴露律的长期监测系统,研究其长期趋势、评价与干预措施的效果并进行及时地改进,最终控制以至消灭疾病的目的。这样的过程如下图所示:

疾病监测 长期干预 公共卫生政策 效果评价并进行改实验研究 验证病因假设 干预效果评价 分析性研究 检验病因假设 描述性研究 提出病因假设

图6.1 流行病学研究的程序

以上我们从宏观上介绍了流行病学研究的程序,那么当我们确定要采用某一种流行病学研究方法后,通过哪些步骤来实施流行病学研究呢?流行病学研究应遵循的步骤和其它医学研究没有两样,同样要通过选题、研究设计、研究实施、数据整理与统计学分析和研究报告或论文撰写这些环节来完成,本章第一节讨论了流行病学研究的选题问题,第三节将详细讨论研究设计、实施、数据分析等流行病学研究过中需要考虑的问题。

第三节 流行病学研究设计应考虑的几个关键问题

一 、明确研究目的

前面我们讨论了流行病学研究的选题,一旦选题决定后,就需要明确研究目的。本研究的研究假设是什么?要回答什么问题?最好把研究的目的定量化,一项研究中虽然可以解决一个以上的研究问题,但不宜过多,要重点突出。

二、研究对象的选择

1.流行病学研究对象的总体要求

能否根据研究目的正确选择研究对象,直接关系到研究结果的真实性,因此在设计中要对研究对象做出明确的规定。虽然不同的研究目的和流行病学研究类型不同,研究对象的要

10

第六章 流行病学研究的选题和设计

求不同,但都有其共同之处。我们通常考虑选择研究对象的流动性小,居住地相对稳定、交通方便,以便于研究的实施;研究对象生活和居住的社区内有较好的医疗卫生设施,便于进行体格检查和实验室检测;研究对象在人口学和其他特征上对目标人群具有良好的代表性;研究对象具有较高的拟研究疾病的患病率或发病率、具有较高的拟研究的暴露因素的流行率,这样易于选择到符合要求的研究对象和易于得到结局变量;同时要求研究对象能够认真遵循研究的要求,配合研究工作,研究对象执行研究要求的程度成为依从性(compliance)。

2. 研究对象的纳入和排除标准

当具体的研究目的和研究类型确定后,就需要对研究对象做出更明确和具体的要求,为了确保选择到符合设计要求的研究对象,不仅要制定详细的研究对象的纳入标准,还要有排除的标准。纳入标准规定了符合的条件,如果具备这些条件则可以作为研究对象;排除标准规定了在纳入条件基础上的不符合条件,如果具备这些特征则需要剔除这些研究对象,通过这样的程序即可保障选择到合适的研究对象。在确定纳入和排除标准时,首先要对研究对象的人口学特征作出明确的规定,然后规定其他特征或条件,例如疾病及其合并症、可能的禁忌症、危险因素的暴露情况、知情同意书(informed consent)的签署情况、研究对象的依从情况等。所有的标准都要采用国际通用或国内统一的、规范和标准化的诊断或方法,以便与他人的工作做比较。例如某研究的纳入标准为:年龄在18-60岁,收缩压130-160 mmHg,和/或舒张压在85-100 mmHg, 无继发性高血压,未使用抗高血压药物,男性血清肌酐<1.3 mg/dl, 女性血清肌酐<1.2 mg/dl,排除条件为:更严重的高血压(2期和3期)和有严重心血管疾病史的对象。但要注意,被排除的对象愈多,结果推广的面愈窄,因此在设计时要综合考虑,慎重制定排除标准。

3.知情同意书的签署

在进行研究前,研究对象必须对他们参加的研究所涉及的问题知情,并同意参加此项研究,研究者要要求其签订知情同意书,知情同意书的内容主要包括(1)说明研究范围、研究目的、预期的治疗结果等;(2)描述潜在的危险因素及可预知的危害以及可能或预期的益处;(3)陈述如何保密;(4)指出研究对象可以自愿选择参与或不参与研究,并且任何时候均可退出研究等。知情同意体现了医学伦理学中的“尊重”原则,即研究对象有权了解该研究对健康的危害性及可获得的结果。

三、研究方法的选择 1.流行病学研究方法的分类

要正确选择流行病学的研究方法,首先需要全面了解和掌握这些方法的种类及其分类的

11

第六章 流行病学研究的选题和设计

方法。按照是否对研究对象施加干预措施,我们可以将流行病学研究方法分为两大类,即观察性研究(observational study)和实验性研究(experimental study)。流行病学中还有一类研究方法为理论流行病学和流行病学方法学的研究,理论流行病学是应用数学的方法研究疾病的影响因素与疾病发生的关系,方法学的研究主要探讨流行病学研究的设计、实施和数据分析的方法。如果在不施加干预措施的情况下,即在不改变研究对象目前的疾病状态及暴露特征的情况下,在人群中开展流行病学研究,即为观察性研究。如果这种观察性研究的目的是研究疾病或健康状况及其影响因素在不同时间、地区和人群的分布状态,这种研究方法被称为描述性研究(descriptive study),典型的描述性研究包括现况研究和生态学研究。如果在观察性研究设计中特别设立了对照或对照组,通过比较来研究疾病的病因或危险因素,就称之为分析性研究(analytical study),分析性研究包括病例对照研究和队列研究。实验性研究根据研究目的、研究对象和干预措施施加的方式不同又分为现场试验、社区干预试验和临床试验。

2.流行病学研究方法的选择指征

根据不同的研究目的,采用的研究方法也不同。如果要研究疾病的分布特征,那么就应用描述流行病学、疾病监测和筛检的方法。如果要探讨疾病的病因或危险因素,则需要应用从描述、实验到理论流行病学的所有流行病学研究方法,只是提供的证据级别不同而已。如果是为了早期发现病人、评价筛检实验就需要应用筛检的方法。如果是研究疾病的自然史,可以应用筛检和纵向研究方法。为了验证病因、评价干预措施的效果,我们可以采用现场试验、社区干预试验或疾病监测的方法。如果遇到原因不明疾病的爆发疫情或其它突发公共卫生事件,则需要综合应用各种流行病学方法,研究其病因、制定预防控制措施并评价其效果。 在选择流行病学研究方法时还需考虑到疾病的患病率和发病率的高低、危险因素暴露率的高低、研究的人力、物力和经费情况,选择适宜的研究方法。

3.各种流行病学研究方法的比较

每种流行病学研究方法都有其优点和局限性,表 总结了各种方法的特征,供读者参考。 表6.2 流行病学研究方法不同特点的比较 特征 研究目的 横断面研究 描述分布,提出病因假设 研究对象 全人群/代表人群 病例/对照 暴露/非暴露 病例对照研究 病因研究 队列研究 病因研究 实验研究 病因研究、干预效果评价 高危人群 12

第六章 流行病学研究的选题和设计

是否适合罕见病 研究多种暴露 研究多种结局 频率指标 联系指标 潜在偏倚 实施难易度 研究周期 研究费用 使用频率 因果关系 证据强度 不适用 适用 适用 患病率 OR 选择/信息 易 短 低 高 非因果 低 适用 适用 不适用 OR 不适用 不适用 适用 发病率 RR 不适用 不适用 适用 发病率 RR 选择/信息 不易 长 高 不高 因果联系 最高 选择/信息/混杂 信息/混杂 易 短 低 高 由果推因 较高 不易 长 高 不高 因果联系 高 四、样本含量的估计

在研究工作中,我们经常会遇到这样的问题,比如,要了解某地高血压的患病率,应该调查多少人?假定要比较贫血患者服用某种药物前后血红蛋白平均增加量有无不同,应该调查多少病人?此类问题涉及样本含量的估计。

(一)样本含量估计的意义

样本含量(sample size)估计充分反映科研设计中“重复”的基本原则,是在保证研究结论具有一定可靠性的前提下所需要的最小观察单位数,常需在研究设计阶段对样本含量进行科学地估计。样本含量过小过大都有其弊端:样本量过大,诚然会降低抽样误差,但同时会增加实际工作的困难,导致人力、物力和时间上的浪费;过多观察对象的引入,可能影响调查数据的质量;另外,过大的样本量虽可得到统计学上的差异,但缺乏实际推广意义。样本含量过小,抽样误差则会较大,所得研究指标不稳定,用以推断总体的精密度和准确度较差;此外,样本含量越小,检验功效亦越低,会使应有的差别不能显示出来,出现“假阴性”结果。因此正确地估计样本含量是实验设计中的一个重要环节。

但是,样本含量的估算又是个比较复杂的问题,从样本含量的估算方法上看,有三种途径:一种是经验法,即根据前人的研究结果总结的经验或者咨询同行专家而确定样本例数,该方法较为粗略;一种是查表法,是根据已知的条件查样本例数估计表而确定样本含量,但该方法易受列表的限制;再一种计算法,即根据确定的条件代入专用公式计算而确定样本含

13

第六章 流行病学研究的选题和设计

量,此种方法便于掌握,也最为常用。本节从实际应用的需要出发,分别针对描述性研究和分析性研究或实验研究所需的样本量作一估计。

(二)影响样本含量估计的因素

1.第一类错误的概率?,即检验水准,?越小所需样本含量越多。对于相同的检验水准,双侧检验比单侧检验所需的样本含量更大。?通常取0.05或0.01。

2.检验功效1–?或第二类错误的概率?。检验功效越大,所需样本含量越多。一般要求检验功效在0.80及以上。

3.研究因素对研究事件的效应大小,即总体参数间的差值?(容许误差)。?越大,所需样本含量愈小。?可通过预试验估计,或根据专业要求由研究者规定。在分析性流行病学研究中,?与发病率(或暴露率)和RR(或OR)有关,发病率越低或RR越接近1,所需样本含量越大。

4.总体标准差?或总体概率?。?反映研究指标的变异度,?愈大,所需样本含量自然愈多。总体概率?越接近0.5,则所需样本含量愈多。?或?一般未知,多由预试验、查阅文献、经验估计获得。

5.研究中比较组的多少。研究中比较的组别越多,则样本含量越大。

6.欲分析变量的多少。如果一项研究有多个研究变量,根据不同变量估计出的样本含量通常不等,此时应以样本量最大的为研究样本。如果因条件限制不能满足多个研究变量所需的样本量,应分清主要指标和次要指标并尽量满足主要指标所要求的样本量。

对于多因素logistic回归(multiple logistic regression)分析和比例风险分析(proportional hazards analysis),1个自变量(independent variable regression)至少要有10个结局(outcomes)变量,而在多因素线性回归(multiple linear regression)分析中,1个自变量要有20个研究对象。

7.研究所采用的抽样调查方法。一般而言,整群抽样>单纯随机抽样>系统抽样>分层抽样的抽样误差,因此各种抽样方法所需样本量也不同,整群抽样一般需更大的样本量,而分层抽样所需样本量则较少。如果采用多阶段抽样,还要考虑复杂抽样设计(Complex sampling survey)的抽样权重,样本含量的计算更为复杂。后边我们介绍的样本含量的计算都是基于单纯随机抽样,该种方法抽样误差计算简便,也是其它抽样方法的基础。

(三)不同流行病学研究类型的样本含量估计方法 1. 描述性研究中样本含量的估计

14

第六章 流行病学研究的选题和设计

描述性研究的主要目的是估计总体参数,在估算样本含量时主要考虑?,?,?或?,根据研究指标类型的不同可以分为:

(1)单样本均数的样本含量估计 通过抽样调查了解人群某些指标(如血压、身高、总胆固醇等)的平均水平时,其样本含量可通过下式估算:

N?[z???]2 公式 (6-1)

式中N为样本含量,?为容许误差,即样本均数与总体均数之差,?为总体标准差,该指标通常未知,常以S(样本标准差)来代替。Z?是检验水准?下的正态临界值,?有单双侧之分,当取双侧?=0.05时,Z?/2?1.96。为了实际应用方便,公式(6-1)可简写为N?4S2?2。

【例6.1】 欲调查成年男性血清胆固醇含量,根据以往的经验,血清胆固醇含量的标准差为60 mg/dL,要求误差不超过10 mg/dL,若?取0.05(双侧),需调查多少人?

N?4S2?24?602==144

102(2)单样本频率的样本含量估计 通过抽样调查了解人群某种疾病的发病水平时,其样本含量可通过二项分布的原理估算:

N?(z??)2??(1??) 公式(6-2)

上式中?估计的总体患病率,其它指标含义同前。当?取0.05(双侧)时,上式可简写为:N?4?(1??)?2。

【例6.2】某疾病预防控制中心为了制订驱蛔虫计划,编制经费、药品预算,需要抽样调查当地儿童的蛔虫感染率。根据以往的经验,儿童蛔虫感染率为30%左右,若规定容许误差?=0.1? (即?3%),?取0.05(双侧),则样本含量至少应为多少人?

N?4?(1??)4?0.3?0.7==933 22?(0.1?0.3)2. 分析性研究或实验性研究中样本含量的估算

其主要目的在于推断病因假设或者验证病因假设,即推断欲比较的效应间有无差别,因此估算样本含量时除了考虑?,?,?或?外,还需考虑检验效能1–?。根据资料类型

15

第六章 流行病学研究的选题和设计

和统计设计类型的不同,我们从以下四个方面介绍样本含量的估算。

(1) 配对设计两样本均数或单样本均数的检验 主要目的在于了解治疗前后或不同处理方案作用后某项指标有无差异,或样本所来自的未知总体均数是否与已知总体均数相同,其样本含量的估算采用公式(6-3)

N?[(z??z?)??]2 公式(6-3)

式中,Z?是?所对应的正态临界值,使用时只取单侧,其它指标含义同前。 【例6.3】为了解汽车司机的脉搏数是否高于一般人群,某研究者随机抽取了15名汽车司机作预试验,测得其标准差为S=7.2次/分。假如汽车司机的脉搏数高于一般人群3.0次/分才有专业意义,问?=0.05,?=0.10时,需要多大样本含量?

本例S=7.2次/分,?=3.0次/分,?和?均取单侧,查Z界值表,得Z?=1.645,Z?=1.282,代入公式(6-3)

N?[(z??z?)??]2?[(1.645?1.282)7.22]?50

3.0如果为配对设计,则?取?d,N为对子数。

(2)完全随机设计两样本均数的检验,其样本含量的计算采用

N?[(z??z?)??]2(Q1?Q2) 公式(6-4)

?1?1Q1和Q2为两组的抽样比,即Q1=n1/N,Q2=n2/N。当两组观察例数相等时,Q1=Q2?0.5。

【例6.4】 欲比较A,B两种降压药对高血压患者的疗效有无差别。现以收缩压为例,据文献报道:服用A药后血压平均下降26.2 mmHg,服用B药后血压平均下降23.7mmHg,若?=5.0 mmHg,?取双侧0.05,?取0.20,如果两组例数相等,问每组需要多少病例?如A药组样本含量占整个样本含量的60%,则每组又各需多少病例?

已知?=5.0mmHg,?=2.5mmHg,?取双侧0.05,?取单侧0.20,查Z界值表,得Z?=1.96,Z?=0.842。

16

第六章 流行病学研究的选题和设计

当两组样本含量相等时, Q1=Q2=0.5,代入公式(6-4),可算得:

N?[(z??z?)??]2(Q1?Q2)?[?1?1(1.96?0.842)5.02](0.5?1?0.5?1)?126

2.5n1?n2?2/N?63,即每组均需病例63例。

当A药组样本含量占整个样本含量的60%时,Q1= 0.6 ,Q2=0.4,代入公式(6-4),可算得:

N?[(z??z?)??]2(Q1?Q2)?[?1?1(1.96?0.842)5.02](0.6?1?0.4?1)?131

2.5则A药组样本含量n1=131×0.6=79, B药组样本含量n2=131×0.4=52。由上可见,当其它条件不变时,如果两组观察单位数相等,会节约样本含量。 (3)完全随机设计两样本频率检验

N?[z??c(1??c)(Q1?1?Q2)?z??1(1??1)/Q1??2(1??2)/Q2)?1?1??2]2 公式(6-5)

式中?1和?2为两样本来自的总体率(在队列研究和实验研究中,?1和?2分别指两组的发病率或阳性率,若总体率未知,也可用样本率代替;?c为两总体合计概率,

?c?Q1?1?Q2?2;其它指标含义同前。

【例6.6】 拟进行一项实验研究,研究某镇痛药的不同剂量镇痛效果有无差别。预实验中,2.5mg剂量组的有效率为55%,5.0mg剂量组的有效率为65%。若取?=0.05(单侧),

?=0.20,如果两组例数相等,问每组需要多少例?

已知?1=0.55,?2=0.65,?c=0.55×0.5+0.65×0.5=0.60

N?[z??c(1??c)(Q1?Q2)?z??1(1??1)/Q1??2(1??2)/Q2)?1?1?1??2]21.6450.60?0.40(0.5?1?0.5?1)?0.8420.55(1?0.55)/0.5?0.65(1?0.65)/0.52?[] 0.65?0.55?592 故每组各需296例。

病例对照研究设计样本含量的计算方法和队列研究及实验研究相同,只是由于病例对

17

第六章 流行病学研究的选题和设计

照研究不能计算发病率,而只能计算暴露率,因此?1和?2分别指病例组和对照组的暴露率,二者间有如下关系:?1=?2OR,?c为合计率。 1??2(OR?1)【例6.7】拟进行一项病例对照研究,研究吸烟与肺癌的关系。估计吸烟者的相对危险度为2.0,人群吸烟率为20%,设?=0.05(双侧),?=0.10(单侧)。估算当病例和对照比例为1:1,以及1:1.5时需要的样本含量。

已知?2=0.20,则?1=?2OR0.20?2==0.333, 1??2(OR?1)1?0.20?1?c=0.333×0.5 +0.20×0.5=0.267

N?[z??c(1??c)(Q1?1?Q2)?z??1(1??1)/Q1??2(1??2)/Q2)?1?1??2]2 1.960.267?0.733?4?1.2820.333?0.667/0.5?0.2?0.8/0.52=[]0.333?0.20?461即病例组和对照组各需调查231例。

将?c=0.333×0.4 +0.20×0.6=0.2532,Q1?0.4,Q2?0.6代入公式(6-5),得

N?[z??c(1??c)(Q1?1?Q2)?z??1(1??1)/Q1??2(1??2)/Q2)?1?1??2]21.960.2532?0.7468?4.166?1.2820.333?0.667/0.4?0.2?0.8/0.62=[] 0.333?0.20?477病例组n1?477?0.4?191 对照组n2?477?0.6?286 (4)配对设计两样本频率的比较

如病例和对照采用1:1匹配时,样本含量的计算可采用Schlesselman推荐的公式。

m?Z?/2?Z??(1??)/(??1/2)2 公式(6-6) 式中 ??OR/(1?OR),m为结果不一致的对子数。 则需要的总对子数为:

??2N?m/[?1(1??2)??2(1??1)] 公式(6-7)

18

第六章 流行病学研究的选题和设计

【例6.8】研究口服避孕药与先天性心脏病的关系,设?=0.05(双侧),?=0.10(单侧),对照组暴露比例?2=0.3,估计的OR=2,若采用病例和对照采用1:1匹配的方式,问需调查多少例。 已知?2=0.30,OR=2,则?1=?2OR0.30?2==0.46 1??2(OR?1)1?0.30?1??OR/(1?OR)=2/3=0.667 m?Z?/2?Z??(1??)/(??1/2)22??=?1.96/2?1.2820.667?0.333?/(0.667?0.5)22 ?90N?m/[?1(1??2)??2(1??1)]?90/[0.46?0.70?0.30?0.54] ?186即病例和对照各需调查186例。

五、研究变量的确定

根据因果联系的关系,在流行病学研究中的变量可分为两大类,即暴露变量(也称为自变量)和结局变量(也称为因变量)。暴露变量是指影响疾病的发生或健康状况的分布的变量,是原因变量;而疾病或健康状况的状态是结局变量,即结局变量是在暴露变量的作用下产生反应的变量。区别与明确研究的暴露变量和结局变量具有重要的流行病学与生物统计学意义,首先它有助于选择拟研究的变量,对调查问卷的设计具有指导作用。其次数据分析阶段可以指导正确选择数据分析方法及模型的建立。

在选择研究变量时首先需要考虑选择哪些暴露变量和结局变量,主要根据研究目的和具体的研究选题来选择,与研究目的有关的项目要详尽,不可遗漏,不要包括无关的变量。同时要充分考虑到暴露变量和结局变量之间关系的生物学及逻辑学的合理性。然后要对每个变量的定义和测量方法做出明确的规定,采用标准的问卷、规范的定义、国际或国内统一的诊断标准。

1.暴露变量的选择

常见的暴露变量包括研究对象人口统计学特征、行为危险因素、营养/膳食因素、体力活动、精神/心理因素、家族/遗传因素、职业/环境特殊暴露因素、社会经济因素、生理、生化和分子生物学标志物等。

19

第六章 流行病学研究的选题和设计

2.结局变量的选择

不同的研究课题和研究目的其结局变量不同,结局变量又可分为“硬”结局变量(hard outcome)和“软”结局变量(soft outcome),前者包括疾病的发生、死亡,也称为直接结局变量;后者是指病因和疾病发生之间的那些中间变量,例如,如果“硬”结局变量是冠心病的发生,那么血脂的各项测量指标、血压水平就是“软”结局变量,也称为间接结局变量。“硬”结局变量提供的证据级别高,但有时需要随访较长时间才可获得。如果不以得到直接结局变量,也可以应用间接结局变量。

六、 调查问卷的设计

调查问卷(questionnaire),是在正式调查前制作好的包括各调查项目的书面材料或电子文件材料,可以是简单的调查提纲,或包括很多调查项目的完整的调查问卷格,也可以是标准的量表,如艾森克人格问卷,SCL-90心理测定量表等。

(一)调查问卷的结构

一份完整的调查问卷主要包括标题、编码、说明、备查项目、分析项目5个部分。下面我们以这些内容在调查问卷中出现的先后顺序分别作一介绍。

1 标题:概括说明调查的主要内容,标题应简明扼要。如世界卫生组织(WHO)《健康和卫生系统反应性》量表,InterASIA中国部分-“中国心血管健康多中心合作研究”。

2 编码部分:包括抽样编码,调查员编码,资料录入人员编码(在资料录入时进行编码)等。设置调查员编码和资料录入人员编码的主要作用在于进行质量控制,此外一个大型的现场调查还应该设置有抽样编码,一方面便于进行现场质量控制,避免重复编码,另一方面便于对不同地区(或试验中心)进行独立分析。如InterASIA研究中采用了四阶段抽样的方式:

第一阶段:抽样单位是省市。分别从南部和北部各抽取5个城市,共抽得10个省。对这10个省市进行编码01~10,其中01代表北京。

第二阶段:抽样单位是县和城市。即从第一个阶段所选的省中随机抽取一个城区(编码01)和一个县(编码02),共抽得10个城区和10个县。

第三阶段:抽样单位是街道、镇或乡,从每个城区和县随机抽取1个街道(编码01)和1个镇或乡(编码02),共抽得10个街道和10个镇或乡。

第四阶段:抽样单位是个体。全体街道或镇的居民名单将作为样本来源(限年龄在35-74岁),每个现场抽得男(编码1)、女性(编码2)居民各400人。

20

第六章 流行病学研究的选题和设计

抽样编码 抽样编码可采用5级编码(共10位数),编码规则如下: 第1,2位 第3,4位 第5,6位 第7位 第8~10位 省市编码 县和城市编码 街道或乡镇编码 性别编码 调查对象编码 最后三位数是调查对象编码,对于来自同一街道或镇的男性居民(或女性居民),可从001开始,依次编码直至400。

例如抽样编码

0 1 0 1 0 1 1 1 2 0 表示来源于北京某城区某街

道编号为120的男性居民。

为了醒目和核对资料方便,编码部分常和标题一块排在调查问卷的封面上。

3 说明部分:该部分一般放在调查问卷的开头,常以简短的指导语告诉被调查者本调查的目的和意义等,旨在获得被调查者的积极配合。

4 备查项目:如研究者姓名、身份证号码、家庭住址、联系方式、调查日期、问卷开始的时间和结束时间、调查者签名等。这些项目不用于分析,而是为了便于今后核查异常值、填补缺失值、进行随访和评价调查质量而设置。例如如果个别调查员的问卷时间显著短于平均时间,则这些问卷的质量就十分可疑。

5 分析项目:包括被访者一般情况和调查研究项目。

(1)被访者一般情况 指被调查者的一些人口统计学特征,如性别、年龄、文化程度、职业等。这些项目主要用于对被调查者进行均衡性检验或进行分组分析,从而探讨这些因素对分析结果有无影响。

表6.3 InterASIA中国部分—“中国心血管健康多中心合作研究”调查问卷(部分) 研究目的: 为进一步了解和掌握21世记初我国不同地区、不同性别和不同职业人群中心血管疾病包括冠心病和脑卒中患病率水平和影响患病的因素,了解目前冠心病和脑卒中患病与相关心血管病如血脂代谢紊乱、糖耐量异常或糖尿病、超重或肥胖和高血压关系及医疗费用、疾病负担和保健需求,为5~10年前瞻性研究完成基线调查,开展InterASIA中国部分-“中国心血管健康多中心合作研究”。 姓名: 家庭住址: 省 市(县) 街道(乡) 门牌号(村) 邮政编码: 电话:(家) (办公室)

21

第六章 流行病学研究的选题和设计

一、一般情况 A1 居住地 A2 出生日期 A3 性别 A4 你完成了多少年学校教育? 1 ?城市 2 ?农村 ??月??日????年 1 ?阳历 2 ?阴历 1 ? 男 2 ? 女 1 未上学……0 2 小 学……1 2 3 4 5 6+ 3 中 学……7 8 9 10 11 12+ 4大专/大学…1 2 3 4 5+ (2)调查研究项目 也就是本研究欲分析的所有暴露变量和结局变量,是调查问卷中最重要的部分,它的设计好坏将关系到整个研究的成败。

从调查项目的提问形式和类型来看,可分为开放型问题和封闭型问题。开放型问题不设置选项,而是由研究者借助于一定的测量工具进行测量(如体重、血压、血脂)或让被访者按照自己的想法和方式回答问题,如询问“你最近有没有不舒服?若有,哪个(些)地方不舒服?此种方式收集到的资料往往信息比较大,但其主要缺点是因被访者表达能力差异或数据分析人员的理解差异而造成信息偏倚;或者被访者急于完成调查问卷而有意不填造成缺失太多;此外也给资料的分析带来了困难。封闭型问题是研究者事先设置好几个选项,让被访者从中选择一个或几个(见表6.4 )。封闭性问题回答方便也便于统计分析,但选项的设置要合理,不能出现有争议的问题。如婚姻状况:①未婚;②已婚或同居,显然不合适,还应加上③离异或丧偶。

表6.4 心血管健康多中心合作研究调查问卷(部分)

二、血压/血脂/糖尿病 B1 你上次测量血压(由医务人员)是什么时候? 1 2 3 4 5 6 ?不到6个月 ?6个月至1年 ?1至5年 ?5年以上 ?未测过(转问B9) ?不知道 B2你最近一次的血压是多少? B3医生告诉过你有高血压吗? (二)调查问卷设计的基本原则

???/???mmHg 999/999 ?不知道 1 ?是 2 ?否(转问B9) 9 ?不知道 1 调查问卷说明部分应以委婉的语言突出研究的目的和意义,还要让被访者觉得能够从

22

第六章 流行病学研究的选题和设计

中受益从而积极配合调查。尽量不用“???的临床研究”之类的术语,这样会让被访者觉得研究者纯粹是为了自己的科研需要而进行研究。

2 调查问卷要精练,其中分析项目一个也不能少,备查项目不易太多。 3 分析项目

(1)尽量采用量化的指标,避免不确切的用词。如询问“你们家是否经常吃肉?”,被访者对“经常”的理解不同会引起调查结果的偏性。可以改为:“近3个月来你们家平均一个月吃几次肉?”,“平均每次每人吃几两?”

(2)避免暗示性提问。如询问“高脂饮食会引起高血压,你同意这种观点吗?”,研究者可能会习惯性的回答“是”这种提问方式会引出有严重偏倚的结论,应努力避免。

(3)每个调查项目都要用通俗的文字准确无误地表达出来。 不应使被调查者产生误解或出现不同的理解。

(4)注意提问的顺序,提问的内容应由易到难。

调查问卷设计好之后,应先进行预调查,根据预调查反馈的信息对调查问卷反复修订完善,同时也要对调查问卷的信度、效度、可接受性进行考查,形成本次调查的最终调查问卷,方能进行正式调查。

七、研究的实施

1. 建立研究工作的组织机构,制定现场工作手册

大型的或多中心协作的流行病学研究需要建立管理课题的组织机构,通常设立有研究的指导委员会(steering committee),下设各现场中心(field center)、数据中心(data coordinating center)、论文撰写与发表委员会(proposal and publication committee)等,负责解决课题设计、实施、数据分析和论文发表等事宜。同时需要制定现场工作的手册,包括的主要内容为课题研究的背景、研究的组织机构、研究目的、研究设计、研究的实施步骤等,该手册指导现场工作的开展。

2. 现场的准备工作

在现场开始之前首先要对项目参加者进行责任分工,并根据分工不同进行规范培训,之后还要进行考核。其次要准备好现场携带仪器设备和各种物品,需要指出的是要得到高质量研究结果,测量工具和仪器的校准十分重要。经过上述准备工作之后就要预调查并进行充分的宣传和动员。

3.现场的具体操作

在保障研究质量的前提下规划每天的工作量,将研究对象分为若干个小组,将不同的小

23

第六章 流行病学研究的选题和设计

组分在不同的时间进行调查和测量,具体的时间间隔由各个小组的实际的人数以及现场操作的速度来决定。在现场需要设立不同的功能分区,首先需要一个控制整个现场工作的前台,然后根据具体的研究课题可以设立体格检查室、人体测量室、问卷室等,并按照工作程序将其进行编号。研究对象需要首先来到前台,在这里进行登记、再次被告知研究目的和意义、如何配合研究工作、签署知情同意书、领取各种测量表格和问卷。完成当天的调查工作后要对当天现场工作进行审查、总结,做好质量控制。

八、 研究数据的统计学分析策略 (一) 流行病学数据分析方法的选择指南

1.流行病学数据的分析程序 在进行流行病学数据分析之前,首先需要根据数据的性质了解数据分析的程序,作为数据分析的指导。具体的分析程序见图6.2和图6.3。

数值变量 正态性检验(样本量较小时用) 变量变换 正态 非正态 参数检验 非参数检验 图6.2 数值变量的分析程序

单因素分析 ?2检验 分层分析 分类变量 多因素分析 logistic回归分析 Cox回归分析 其它分析方法 图6.3 分类变量的分析程序

2.根据研究设计类型选择

24

第六章 流行病学研究的选题和设计

(1)完全随机设计

在完全随机设计中,若是两组比较需要应用t检验或?2检验。若是病例对照研究设计则要按照病例对照研究数据的分析方法进行分析。多组比较需应用方差分析、行×列表?2检验或分级的病例对照研究数据的分析方法。

(2)配对(自身实验前后)设计

这种类型的设计需要按照配对的t检验,?2检验及配对的病例对照研究方法进行数据分析。

(3)重复测量的设计

这类设计方法是在给定一个处理因素后在不同的时间重复测量某一效应变量的改变情况。如欲评价生物制品接种后的免疫学效果,在接种后的2周、4周、6周和8周测定抗体滴度,即为此类设计类型。对于这种设计类型的数据需应用重复测量资料的方差分析(数值变量)或logit模型(分类变量)进行分析。

(4)多因素设计

若在研究设计中有多个自变量,则可根据因变量的性质选择合适的多因素分析方法。如果自变量是数值变量,则可考虑应用多元回归分析方法、协方差分析方法。如果是分类变量,则可选择logistic回归分析方法、判别分析方法及聚类分析方法等。

3、根据变量的类型选择

变量的类型不同,则其分析方法不同(表6.5)。

表6.5 不同变量类型的数据分析方法选择

自变量 因变量 数值变量 数值变量 相关分析,多元回归分析 分类变量 有序变量 t检验,方差分析,协方差分相关分析,多元回析,多元回归分析 归分析 分类变量 t检验,方差分析,logistic回归分析,判别分析,聚类分析 ?2检验,logistic回归分析 ?2检验 有序变量 方差分析,logistic回归分析,判别分析,聚类分析 ?2检验,logistic回归分析 相关分析,?检验 2生存时间 生存分析 25

第六章 流行病学研究的选题和设计

表6.6根据不同的研究设计类型和变量类型归纳了常用的数据统计分析方法供读者参考,在实际的流行病学数据分析工作中,读者也可以根据具体的研究设计、研究目的和数据类型咨询生物统计学家及流行病学家。

表6.6 不同研究设计和数据类型的数据分析方法选择

变量类型 两组比较 研究设计类型 两组以上比较 实验前后比较 方差分析 配对t检验 重复测量的方差分析 分类变量 重复测量 两变量间的相关分析 Pearson相关系数或Spearman秩相关系数 数值变量 t检验 ?2检验 ?2检验 Kruskal-Wallis分析 配对?2检验 Wilcoxon符号秩和检验 logit模型 列联系数 Spearman秩相关系数 有序变量 Mann-Whitney 秩和检验 生存时间 生存分析 (二) 不同流行病学研究类型的数据分析方法 1.描述性研究的数据分析方法

(1)研究对象人口统计学特征的描述:详细描述研究样本在性别、年龄、受教育水平、职业、婚姻状况、社会经济地位等方面的分布情况,这样便于了解研究对象的基本特征并可以用于和其他研究进行比较。

(2)疾病分布特征的分析:按照研究对象不同的人群特征(性别、年龄、受教育水平、职业、婚姻状况、社会经济地位等)、地区特征(城乡、南北、山区、平原或行政区划等)和时间特征(季节、月份或年份等)进行分组,计算和比较某疾病的患病率或某数值变量的均值和抽样误差,并应用正确的统计学方法检验不同组别的差异。如有必要,在比较时需要进行率的标化。

(3)暴露因素与疾病关系的分析:按照暴露因素的有无或暴露水平分级,比较某疾病的患病率或某数值变量的均值。也可以应用分析流行病学方法(如病例对照研究)中测量联系和联系强度的指标比值比(odds ratio, OR),计算暴露因素与疾病的OR值和OR值95%

26

第六章 流行病学研究的选题和设计

可信区间,不仅计算单因素分析的OR值,也需要计算多因素调整的OR值。这些计算方法可参照第八章的内容。这里需要强调的是现况研究中病因的论证强度最低,提供的证据级别不高,仅能提供初步的病因线索。

2分析性研究的数据分析方法 (1)病例对照研究

病例对照研究数据的分析程序如下(图6.4),详细的分析方法请参考第七章的内容。

病例对照研究数据 成组设计 配比设计 粗OR→分级OR→剂量反应关系分析 趋势?检验 2分层OR 2分级OR→剂量反应关系分析 趋势?检验 分层OR 混杂与效应修饰分析

混杂与效应修饰分析

图6.4 病例对照研究数据的分析程序

(2)队列研究

队列研究数据的分析程序如图6.5所示,详细的分析方法参看第八章。

队列研究数据

人时、发病密度/累积发病率的计算

粗RR、AR、AR%、PAR及PAR%的计算

分层RR、AR、AR%、PAR及PAR%的计算 分级RR、AR、AR%、PAR及PAR%的计算

图6.5 队列研究数据的分析程序 3 实验研究的数据分析方法

27

第六章 流行病学研究的选题和设计

实验研究的数据分析方法可以分析效果指数,保护率或干预组与对照组某疾病的发病率,危险因素的暴露率及数值变量均值水平的差异,可能的显著性检验方法有?2检验、t检验及方差分析等。

第四节 流行病学研究方案的制定

一、研究方案的基本内容

本章前三节我们讨论的流行病学研究的选题、设计的基本原则及在研究设计时需要考虑的几个关键问题,现在我们需要将这些原则与方法应用到具体的课题设计书中,形成研究方案,作为在研究进行过程中各环节的实施与质量控制的依据,以保证能按计划顺利进行。研究方案是整个研究过程所依循的文件,其有关内容应明确、具体和详细。研究方案通常包括以下内容:①研究课题名称;②研究背景;③研究目的;④研究对象;⑤研究方法;⑥研究进度;⑦研究基础;⑧预期成果;⑨质量控制方法;⑩参考文献。 (一)课题名称

课题名称是建立在研究的内容与研究的具体目标之上的对研究内容的高度概括性的总结,通过简练、规范和专业的语言来准确反映研究课题的核心内容。因而标题的文词要简练,表达要规范、标准和准确,语言要专业化和学术化,并能突出研究中具有创新和特色的研究内容,同时要求在课题名称中体现医学研究的三要素及研究对象、处理因素和效应指标。如果必要,还要给出课题名称的英文翻译。当题目需要较多的文字来描述时,可将课题名称分为主标题和副标题的形式予以表达。为了国际交流的方便,我们还可以考虑给研究课题一个简称和徽标(logo),便于标示本课题。在发表论文和学术交流时,可以将此简称作为副标题,并在必要时展示课题的徽标。 (二)研究背景

研究背景指进行该项研究的动机、意义及相关依据。通常是根据文献复习或以往相关研究工作的结果或经验进行整理,目的是集中介绍该研究的立题依据。内容包括自己以往的研究以及国内、外学者所进行的相关研究现状和趋势。通常对与该研究课题密切相关的研究工作应予详细介绍,如研究的年代,所用的方法,研究结论或已经解决的问题等。哪些问题已经清楚或已有共识,哪些问题尚不明了,尚需验证或尚待进一步解决,以及解决这一(些)问题的意义、价值等。

(三)研究目的

研究目的是研究课题的核心,因为与研究有关的一切工作都是围绕目的而进行的,如目

28

第六章 流行病学研究的选题和设计

标人群的确定、研究对象和研究方法的选择等。在确定研究目的在遵循第二节中讨论的基本原则的基础上,在这里要给出准确的表述。 (四)研究对象的选择

包括目标人群的确定,研究对象的样本含量,研究对象的选择原则、标准、来源,以及选择的方法如抽样、匹配等。

(五)研究方法

研究方法包括所选用的研究方法类型及研究中所涉及的有关技术或工具等,一般包括以下几点。

1 研究方法类型:如是横断面研究、病例对照研究、临床试验,还是不同方法类型的交叉设计。

2 资料收集方法:包括调查问卷的拟定、调查员培训、观察指标;信息获取方法,如访谈、函访、常规资料的摘录等;以及需测量项目的测量指标、测量方法、以及标准化等。 3 数据整理分析方法:包括数据是手工整理还是计算机整理、所用的分析软件、数据分析策略及具体分析方法如多因素分析模型、交互作用分析模型等等。

在研究方案中,通常是将上述有关方法整理成一流程图,以使整个研究过程与使用方法一目了然。 (六)研究进度

研究进度部分介绍研究的总体时间安排,如整个研究工作分几个步骤,每一步骤计划于何时完成,以便对整个研究工作的时间安排心中有数,有利于对整个研究工作的进度控制。通常是按照上述流行病学研究的过程分为几个阶段,将每一阶段的时间进度予以安排,如研究计划制订阶段、研究实施阶段、数据整理分析阶段以及课题总结与论文撰写等。最好是根据各阶段的时间安排编制研究时间进度表。 (七)研究基础与预期成果

研究条件包括与完成该项研究有关的人力、物力条件,如课题组成员情况,组织情况,所需仪器设备,相关的研究工作基础以及研究所需经费落实的情况等。研究方案中应说明已具备的条件与尚待解决的条件及拟解决的途径。

预期成果指完成该研究后可以得到的结果或数据,及其理论或应用价值与学术水平的预测,其与研究目的相呼应。 (八)质量控制

如前所述,流行病学研究设计的目的是为了提高研究的精确性与真实性,以达到准确的

29

第六章 流行病学研究的选题和设计

测量。研究的质量控制是贯串于研究设计、研究实施以及结果分析与总结的各个环节的。在研究过程的各个环节产生误差或偏倚,均可影响研究的精确性与真实性。因此在研究方案中应根据已有知识,分析在每个环节可能产生的误差或偏倚的可能性,充分估计在研究中可能出现的各种问题,制定详细的质量控制对策与措施。在流行病学现场研究中,有许多环节很容易导致误差或偏倚的发生。

1 研究对象的选择过程:包括样本大小的估计,抽样方法,研究对象的选择标准、来源、方法等。如在病例对照研究中,病例与对照选自人群或医院病人,以何种方法选择;在队列研究中,暴露队列与非暴露队列的选择;在实验性研究中,研究对象的划定以及分组等。 2数据收集过程:包括调查问卷的设计,获取信息的方式、方法,用于测量的仪器设备,调查员的选择与培训,以及研究对象的配合情况。如应答率,依从性等。

3数据整理阶段:包括数据完整性的核对,对不符合要求数据的处理,数据的量化方法,数据录入人员的技术水平,录入准确性的核对等环节。

4 数据分析与总结阶段:包括选用的数据分析策略、分析摸型、有关变量的使用以及对分析结果的解释与推论等。

二、研究方案的对照检查提纲

一项流行病学研究的研究方案拟定后,往往需要反复检查、斟酌、修改,以保障在研究完成后能达到预期的研究目的。以下是一份针对病例对照研究设计方案的对照检查提纲(Schlesselman,1982),不仅可以指导病例对照研究的设计方案,对其他类型的流行病学研究设计也具有参考价值。 (一)研究背景

1 是否已全面复习了有关的文献? (1)国外的文献复习了没有? (2)国内的文献复习了没有?

(3)最近发表的主要的综述性文献阅读了没有? 2 是否对以往有关的研究结果做了评价? (1)相关流行病学研究工作。

(2)与流行病学研究有关的研究工作,如基础研究、动物实验等。

3 基于已了解的背景,需要在那些方面做进一步的研究?还需要获取那些新知识? 4 本研究是否与问题3所提出的研究任务相吻合?本研究能否对已有的研究作重要的补充、充实或验证?

30

第六章 流行病学研究的选题和设计

5 本研究的目的和意义是什么?本研究将使哪些人和哪些学科领域受益?社会、经济效益如何?

(二)研究目的

1 该项研究的具体目的是什么?是探索性的开拓性研究,还是从某一方面深入的分析性研究?

2 该研究的主要假设是什么?是否很简练而明确地将假设予以表达? 3 是否还想研究、分析假设之外更多一些的问题?具体包括哪些? (三)研究设计

1 该研究的方法是否能够检验所提的假说?所选用的具体方法是否对本研究最为合适?是否需要其它方法?可否证明所选用方法的正确性? 2 所需的研究对象数是否有把握获得? 3 如果可以使用盲法进行研究,是否已经采用?

4 统计分析的方法是如何考虑的,会不会在分析阶段还需要其它方法?

5 调查问卷与试验仪器以及试剂、药品是否都已齐备?有无在实施过程中更换的可能性?

6 研究现场的条件是否了解?与合作者是否已达成了协议?合作内容是否均作了安排?

7 物质的、经济的、技术的、行政的等各方面的申请或安排,是否可以得到有关部门的批准?

8 所需经费、设备和人力是否已经精确地估算? (四)研究对象的选择

研究对象不外四种类型,即病人,非病人,暴露于研究因素者,非暴露于研究因素者。 1 对所有这些对象,定义是否均已明确?

2 对病例来说,排除该病和确定该病的标准是否很明确、具体?使用的是新发病例还是现患病例?是在规定地区内选择的,还是临时由其它地区选择的?可否获得足够的样本数?具体措施是什么?

3 若为病人对照,要明确是来自医院还是来自社区。一个病例选配几个对照?配比的变量、数目和方法是否明确、恰当?

其它研究类型的研究对象可模仿上述例子予以对照核查。 (五)研究的准备与实施

31

第六章 流行病学研究的选题和设计

1 要不要进行预试验?

2 调查问卷是否已经准备好?计划调查和测定的项目是否均已列入?不必要的项目是否都已删掉了?是否还需要其它表格?

3 调查问卷是由研究对象本人回答还是由调查员去调查?调查员是否已经经过良好的培训?

4 是否需要自医院的病案或其它信息来源摘录信息?是否需要用其它特殊表格来记录体检或实验室检查的结果?

5 能够评价所用各种研究方法或工具的真实性与可靠性吗? 6 可用什么方法来提高和促进被调查者回忆的精确性与完整性?

7 所获得的信息是否足以进行分析比较,例如病例与对照之间某些方面较细致的比较? 8 是否收集了关于潜在的混杂因素的信息?

9 何人负责收集、保存数据和控制数据的质量?何人负责监督调查员和其他工作人员的工作。

10 是否编写了供调查员、信息摘抄员等人使用的工作手册?是否对其中有关事项都做了明确的规定?如何能使各有关工作人员均能准确地按既定的工作程序操作? (六)数据整理与分析

1 数据总的处理分析方案是什么?对要研究的变量、指标是否已明确? 2 如果拟分析剂量反应关系,是否对资料已做了相应的准备? 3 如何在分析时检验和排除某些因素可能带来的偏倚? 4 如何评价相关因素之间的交互作用?

5 若作分层分析,在数据整理分析时的分层是否和设计时一致? 6 如何评价无应答者对研究结果的影响?有否搜集这方面的资料? 7 数据的分析可否评价设计时的假说,达到预期的研究目的?

(胡东生 杨永利 编)

参考文献

1. Howard BV, Lee ET, Cowan LD, Devereux RB, Galloway JM, Go OT, Howard WJ,

Rhoades ER, Robbins DC, Sievers ML, Welty TK. Rising tide of cardiovascular disease in American Indians. The Strong Heart Study, Circulation. 1999;99(18): 2389-95 2. Last JM. Dictionary of Epidemiology

3. Rothman KJ, Greeland Sander. Modern Epidemiology (2nd Edition). Lippincoff-Ravan

32

第六章 流行病学研究的选题和设计

Publishers, 1998

4.方积乾主编.卫生统计学,第5版,北京:人民卫生出版社,2003 5.毛文秉译.流行病学,台北:茂昌图书有限公司 6.谭红专主编·现代流行病学·北京·人民卫生出版社,2001

7.Brownson RC, Petitti DB. Applied Epidemiology: Theory to practice, Oxford University Press, 1998

8.GenSalt Study 操作手册

9.王素萍主编.流行病学,中国协和医科大学出版社,

10.Woodward M. Epidemiology: Study design and data analysis (2nd Edition), Chapman & Hall/CRC, 2005

11. Katz MH. Multivariable analysis: A practical guide for clinicians (2nd Edition). Cambridge University Press, 2006

12. 姜庆五主编。流行病学,科学出版社 13.InterAsia 研究操作手册

14.Page RM, Cole GE, Timmreck TC·Basic epidemiological methods and biostatistics: A practical guidebook·Boston·Jones and Bartlelt Publishers, 1995 15.李立明主编·流行病学·第5版·北京·人民卫生出版社,2004

16.Schlesselman JJ, eds. Case-control Studies: Design, Conduct, Analysis. New York: Oxford

University Press, 1982

33

本文来源:https://www.bwwdw.com/article/24so.html

Top