大学英语成绩考试结构效度研究(1)

更新时间:2023-08-06 06:42:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

维普资讯 http://www.77cn.com.cn

20 0 6年 6月

海南大学学报人文社会科学版Hu nt s& S ca ce c sJ u a fHan nv ri ma i e i o il in e o r l o ia U ie s y S n n t

Jn2 0 u .0 6Vo. 4 No 2 12 .

第2 4卷第 2期

大学英语成绩考试结构效度研究王天发,钟凌

(海南大学外国语学院,南海口 5 0 2 )海 72 8

[摘

要】从统计学角度,运用 S S P S和 GT S IE T软件分析了一套试卷的信度与结构效度,现试卷的发

总体信度和客观题部分的信度离理想值差距甚远。各大题之间的相关性大都没有实质意义。5道大题实际只考了 2个因素。 ( )即 1书面表达能力; 2听力与语言知识。用 G T S () IE T软件对客观题部分所做的项目分析表明:2 3%的题目不合格,在难度和区分度方面存在问题。对词汇语法部分不合格的题目进行了分类研究。

[关键词】成绩考试;度;信结构效度;目分析项[中圈分类号】 1. H3 04[文献标识码】 A[文章编号】04—1 1 (0 6 0 0 7 0 10 7 0 20 )2- 4— 7 2

测试是教学中一个至关重要的环节。成绩考试 (civm n s)然不像高考和其他全国性水平考 ahee etet虽 t试 ( r cec s) po i yt t那样可以直接决定考生的命运, i f n e但也在很大程度上影响着考生的学习和生活。成绩考试往往决定着学生能否获得奖学金和是否需要重修甚至退学。成绩考试的结果还直接影响学生的学习兴趣和动机。近年来已有一些对成绩测试的研究…,成绩测试的结构效度问题 (但即成绩测试到底考了些什么 )很少有人问津。笔者考查一所大学的一份期末考试题的信度和结构效度,析了多项选择题还分

中存在的不足,试图回答以下问题:一 ) (整套试卷的信度是否达标?如果信度不够,是什么原因造成的? ( )二试卷的结构效度如何?考了哪些因素? ( )三哪些多项选择题在难度和区分度方面存在不足?是什么原因造成的?一

信度与效度

试卷质量的高低取决于其信度与效度。信度是效度的必要条件 8 J。有信度的试卷不一定有效度,’但有效度的试

卷一定有较高的信度。 I )信度一信度 (ei it) rlbly指测试的结果是否可靠可信[4,回答两个问题 L: a i 3它 j 4考试分数多大程度上是由测 量误差 (即非语言能力 )引起的?怎样将这些因素的影响减低到最小程度?试卷的难度和长度直接影响

信度。长试卷比短试卷可靠。标准化试卷的题量不应低于 9题目L。对于特定的受试群体 (et o— 0个 1 J t p sp uao )言,简单或太难的试卷会导致分数过于集中在某些分数段以及很小的方差,而影响信度。 ltn而 i太从此外,试的实施 (考如答题时间、听力考试的录音质量、音设备等 )听以及主观题的评分是否一致 (评分如标准、分员之间的评分是否一致、分员自身是否前后一致等 )评评都会影响试卷的信度】。 4 5

试卷的信度可用不同方法验证,简便易行的是通过 SS最 P S软件计算 C n ahO系数。对包含主观 o r bc t题的试卷而言, C nahO值最低应在 07以上。其 r bc t o .( )度二效效度 ( a dt)“ vl i指测试所考的,否就是所要考的” 39比如, i y是【4。 J如果要考阅读能力,际却把写作能实

力同时考了,效度就成问题了。效度主要有以下几类~:内容效度 ( otn vl i )结构效度 ( o— cne t a dt、 iy c n s u t a dt)同期效度 ( o cr n v ii )预测效度 ( rdc v a dt)反拨效度 ( ak ah w s一 t c vl i、 r i y cn ur t a dt、 e l y p i i v ii和 e te l y b cw s/ ah[收稿日期】20 0 0 5— 7一l l [作者简介】王天发 (9 6一)男, 16,四川万源人,南大学外国语学院副教授,士,要从事二语习得和英语海硕主教学的研究。24 7

维普资讯 http://www.77cn.com.cn

王天发等:学英语成绩考试结构效度研究大

bc adt cneuni adt) akvl i i y或 osqet vl i。在各种效度中结构效度是各种效度之本, M i y没有结构效度,其他效度均站不住脚。结构效度指测试“否有效地测量了某一语言理论所假定的能力因素”。结构效度

的是验证通常通过相关矩阵和因子分析来考查试卷各大项之间的关系。

二、究方法研( )试卷介绍一

研究试卷为某大学 20 04年 1月使用过的一套期末考题。考试的内容和形式在学期初已经在教研会上讨论通过:查听说读写 4种技能;考覆盖读写教程和听说教程的全部内容;型和权重与大学英语四级题考试完全相同(听力 2%,即 0阅读 4%,汇语法 1%, 0词 5综合填空 1%, 0写作 1%, 5满分 10分。其中选择 0题7 5道, 5%,占 5主观题 2道, 4% )期末成绩占总成绩的 7%, 1占 5; 0口试 (笔试前两周进行 ) 2%,在占 0 课堂表现占 1%。笔试试卷由几组教师各自负责一部分,后由一位教学经验丰富的老教师综合,后 0然最由教研室主任审查通过。本研究只涉及笔试部分。 大学英语四级考试已经对教学产生深远的影响,多数学校的成绩测试题目均仿照其模式。各学校大

的命题程序也大同小异。由于诸多条件的制约,绝大多数命题人员未接受过专门训练。因此,文研究本的试卷具有一定代表性。 ( )查对象二调 3 7个班的 1 0 70多名学生参加了该考试,格率为 5 .%。参加本研究的是来自一个自然班的学生,及 91

共 3。该班被选中是因为其及格率 (9 5 )常接近全年级的平均及格率,于 3 7名 5.%非位 7个班中的第 1 8名,为受试对象具有一定的代表性。作 ( )三数据收集与处理主观题 (括阅读和写作 )包中的阅读部分由教研室安排以流水作业的形式集体阅卷,文由两位教师作评判,求其平均分,在分数差距较大时,由他们讨论定夺。两位作文批阅者所给分数的相关系数为 08 9 .9,相关程度高。每个考生各大题的得分用 S S I. P SO 0处理。然后将每个学生的全部选择题答案输人计算机, GT S用 IE T软件做项目分析。GT S IE T软件系广东外语外贸大学开发的选择题项目分析软件。

三、果与讨论结( )度一信

用 SS I . P SO 0计算出的 Cobc t为 0 56,不到可接受的最低要求 0 75,明试卷没有信 rnahO值 .3 6达 .[说 度,题质量不可靠

。这一问题主要是由以下原因造成:试1 .整套试卷难度过大 (表 1。各大项的平均分都很低,听力外均未达到及格水平 ( 0 )见 )除 6%。平均总分仅 5 .及格率只有 5 .%。选择题部分的总体难度适中 (“目分析”,信度很差,整个试 92, 95见项 )但对卷的信度必然产生影响。表 1基本统计数据

2 .总分虽然基本成正态分布,分数分布仍然不平衡 (图 1,但见 )主要体现在最高分仅 7 6分。标准差很小,明分数过分集中在某些分数段。偏度值为一 . 1,正态分布图上偏向右边。说 0 54在 3 .各大题分数分布凌乱,成正态分布,不阅读题尤其突出 (图 2。见 )4 IE T分析表明: .GT S多达 3%的选择题在难度和区分度上不合格 (“目分析”。 2见项 )

以上所有这些因素都必然影响试卷的信度。25 7

维普资讯 http://www.77cn.com.cn

2O O 6年斜聚8 6 4 2 O

海南大学学报人文社会科学版

第 2期

瓣聚

3 0 00 4 . s 5. 4 . 5 0 0D S D 6 0 5. 7 . 7 . S o. 6 O 00 5 0

总分 图 1总分正态分布图

阅读分数图2阅读题分数分布图

( )结构效度二 1相关矩阵( orl i ar ) . cr a o m tx e tn i

相关系数取值在一1之间。09~1间表明相关性很高,系密切;.—1 .之关 07~09之间,关性高, .相关系明显;. 07之间, 04~ .中等相关,实质性关系;. 0 4之间,相关,有 0 2~ .低有某种关系,关系小;.但 0 2以下,关性甚小,以忽略不计。两道大题之间如果成负相关,明在一道大题上做得很好的学生在另相可表

外一道大题上都做得很差。至于一套试卷各大题之间的相关系数应该达到多少才合适,术界有些争学议。杨惠中认为应在在 03~ .间 L, . 07之 8而李筱菊主张应达到 04以上才有意义 J。桂诗春、春岩 J . l凹宁对相关系数的解释支持李筱菊的观点。笔者取 0 4为实质性或非实质性相关的临界值。两题的相关系 .

数过低,明考的是完全不同的能力,说可能是语言之外的其他因素在起作用;相关

系数过高表明考的是同一

能力,留其中的一个即可。保

表 2显示,大题与总分之间均在 00各 .1水平上存在显著相关。阅读与总分之间达到 0 8 8属高相 .3,关,说明阅读最能体现学生的英语水平,也说明学校的教学重心在阅读]这与教学实际相吻合。各大题,之间都在 00 .5或 0O水平上相关, .1但相关系数大都在 0 4以下, .没有实质性关系。听力和词汇语法 2项仅与综合填空一项相关,相关系数分别为 0 33和 039, .9 .8属于低相关;写作只与阅读低相关 ( .6;合 03 )综填空较好,听力和词汇语法低相关,阅读中度相关。阅读和综合填空之间的相关性 ( .4 )实质意与与 0 49有义,明综合填空做得好的学生阅读也做得好。各大项之间的相关性很不理想,响了整套试卷的信度说影和效度。表 2相关系数

在 00 .5水平上相关 (尾 )¥在 0 O水平上相关 (尾 )双。 .1双。

下面再对 5道大题进行因子分析,了解考了哪些因素。2 .因子分析 (atr n l i) fc ay s oa s

为了进一部探讨 5道大题之间的关系,需进行因子分析。表 3和表 4分别是因子分析的统计量和因子矩阵。用主成分分析法进行因子分析,取出 2个因子,提因为只有 2个因子的特征值 ( iev u )于 e na e大 g l

1它们解释了 6 ., 35的方差。

26 7

维普资讯 http://www.77cn.com.cn

王天发等:大学英语成绩考试结构效度研究表 3因子分析的初始统计量和最终统计■

表 4因子矩阵

表5

因子旋转

因子矩阵中 (表 4各个原始变量的系数没有明显的差别,以据此对这 2个因子命名,必须对有见 )难还关因子进行旋转¨。。。表 5是旋转后的因子负荷矩阵。旋转后的负荷系数明显向两极分化了。第一个因

子中,听力、综合填空和词汇语法 3项有绝对值较大的负荷值。3道大题均为选择题。词汇语法部分 7% 0的题目是语法,而完形填空的 2 0题中一半是语法和词汇题,因此, 2道题主要考了语法和词汇知识。至这于这 2道语言知识题为什么与技能型的听力理解属于同一个因子,尚待研究,许与信度不高有关。笔也

者将该因子命名为听力和语言知识。第二个因子中负荷系数绝对值最大的是写作 ( .6, 0 86)考查运用英语表达思想的能力,因此,可将第二个因子命名为书面表达能力。 ’阅读的情况很特别,仅在“面表达能力”一因子中有较高的负荷 ( .9 )而且跨两个因子,不书这 0 64, 在

第一个因子中也有一定负荷值( .9 )这与试题有关。4分的阅读题中有 2分是选择题, l分是填 0 37, 0 2另 8空题,求考生用简洁的语言作答。看起来似乎既考了阅读能力又在一定程度上考了表达能力。其实不要然。选择题部分有一篇短文,面的 4个二选一题目( )后 8分完全可根据题干的意思选择,根本不需要看文章。笔者在课堂上做过实验:不给出短文的情况下,在大部分学生将这 4个题目全做对了。另外一篇短文后面有 l填空题 (0分 )考的全是细节, 0道 1,答案很明显,在文章中,需要在文中相应的地方找出一都只两个词填上即可,似乎是在专考跳读 (cn ig能力。短文阅读除了考查跳读能力以获取明信息 (ufc sann ) sr e a m s g ),主要是考查学生在语篇水平上的阅读能力以获取潜信息 ( neligm sae, es e外更 a udr n esg )包括文章的 y主题 (oi)结构 (t c r)意图 ( ups)功能 ( ntn、气 (oe和态度 ( ttd ) 3 tp、 c sut e、 r u proe、 f co )语 u i t ) n a ue】 i t,以及读者对下文的预测能力(rd tn, p i o )等等。而试卷 2 ec i 5道阅读题中,这类高层次的阅读技能题只有一道。另有两个题目虽然在题干中使用了“论”眼 (t a eierdta)但实际内容却是明晰的。因此,推字 icnb fr t, n e h阅读在第二个因子中较高的负荷应该打个大折扣。( )项目分析三

选择题一直是大学英语各种考试中最常用的形式,节专门分析选择题。做项目分析可以给命题提本供反馈信息,以改进命题工作,同时还可将好的题目保留下来供以后使用。1 .项目分析标准

项目分析通常参照以下标准 M:

( )答对率 ( 1 P或 P) t。答对率系答对人数与参考

人数之比,少人将这一指标等同于难度系数。取不值范围在 0—之间, 1数值越小难度越大。 . 0 5为理想值,考虑到猜测因素,多项选择题的答对率可为 0 6 .左右。总题数的 7%应控制在 0 3~ .间。 0 . 0 7之 ( )难度 ( d。P 2 P ) d是 GT S IE T特有的一个系数,取值范围在 1~2 5之间,3为理想值。总题数的 l6%应控制在 9~1间。 8 7之

( )区分度 ( bs。区分度用来区分优生和差生。取值范围在一1~1之间。整套试卷的区分度及 3 R i)27 7

维普资讯 http://www.77cn.com.cn

20 06年

海南大学学报人文社会科学版

第 2期

各题答案的区分度应大于 0 3越高越好。0 2以下者不可使用。总题数的 9%应在 0 3以上。干扰项 ., . 5 .的区分度应大于 0 1越高越好。 ., ( )选择每个干扰项的^ 4数在 1% - 5 0 2%为宜。超过 3%干扰性太强, 0低于 5%则太弱,都不可使用。 在这些指标中,难度和区分度比其他两个重要,区分度是最重要的一个指标。以下将用这些标准来检验试卷中的选择题。2 .项目分析

用 GT S IE T对客观题所做的信度分析,提供 R。和两个值 (主观题的考试只能计算后者 )带。信度值在 0~1间。理想的 R.求达到 09,值达到 0 8[】。表 6显示,试卷的客观题部分的 R.之 .要 . .03勰 J本 .为

07, .2值为 06, .0离上述要求甚远。难度系数 ( d为 1., P ) 2 2接近理想值 l, 3说明客观题的总体难度基本合格,试题为中等难度。0 4 .4的区分度 ( )明选择题部分具有较好的区分能力。 R。表裹 6选择题基本信息

再来看 7 5道题目的区分度和答对率情况 (见表 7。 )裹 7选择题区分度 ( )答对率 ( )难易题目分布 R、 P及

区度分I 瞽

筌皇 亏

j-

合厶+计 _}

尽管客观题部分的总体难度适中( d=1 .2见表 6,表 7可见,易的题目明显偏多,理想分 P 22, )从较是布的 2 4倍。有 2 . 4道题 ( 2 ) 3%达不到区分度的最低要求。这些题目见表 8 。裹 8区分度不达标的题目

表中数字为题目

番号。

表 8中列出的题目都不符合要求,修改。笔者只讨论词汇语法部分。这部分不合格的 l题可需要 O道分为以下几类:( )干扰项的干扰性不理想 1

例如:5 Wehdl e i h uef reyas— m te eie a eU v 2 . a vdi t s o s r he er— i nh ot yfh r c dt h v 8 et a d d o mo oa n w e g b r o d e n ih o h o .28 7

维普资讯 http://www.77cn.com.cn

王天发等:大学英语成绩考试结构效度研究B.wh l ie C. a s D.sn e ic

裹9第2 5题统计数据P:1 . 2【 2 2Pd:1 0 2. 4 Pi 1 . 2: 2 6.

P:0 5 .9

注:)P=全部 7 1 t 5个选择题的难度; i 3 P= 0个词汇语法题的难度; d= P本小题的难度;答对率。 P= 2 )选择每一个干扰项的人数在 1%~ 5 0 2%为宜。 3 )带 _的选项为答案,下同。 I

本题的难度和答对率都不错, B和 C的干扰性太小, D的干扰性太大,惑了太多人,但而迷应该换掉。再如:7 t s rm teer eti s 2 .I i f al s t o h i me it et(表 1 ) n rs见 e . 0A.wh c B.wh r C.ho ih ee w D.t a h t

me ea os d ew r ru d t m wt n bgn t t yt ol ao n e i u h d h h

裹 1第2 0 7思统计数据P d:1 . 20 4 P:0 5 .9

裹 1第3 1 3题统计数据P d:1 . 3 69 P:0 1 .6

虽然 A和 C的区分度非常高,惑的人太少,但诱干扰作用太小。B根本没有任何作用,为 w e 改 hn会好得多。当然,可能是学生都已掌握这一考点,此,道题就没有必要了。也如这( )教学不足 2

有时题目本身没有什么问题,区分度差可能是因为教师没讲清楚,没引起学生的注意,或或考的是学生没学到的知识点。搭配题常会出现这样的问题。例如:3 i slessit ul e i 3 .H s e ls pr af shm— f iq i i—

tet k (表 1 ) h s.见 a 1

A.fr B. a C.t D.wi 0 s

o h t

本题考点 q ai r t. u lys f 可能是教材中没出现过,出现的地方太不起眼没有引起学生的注意。3 f b os h或 2题和 3 7题也是同样的问题。

( )泄露答案 3

4 5和 4 9题考同一个考点:拟语气。两道题的题干互为答案 (虚斜体词 ) 5题的前半部分泄露了 4。4 9题的答案,9题的后半部分泄露了 4 4 5题的答案。4 5.Sh u d g e n p a t s p e o y, o l r e l sdia p a s me da n r———————————一

o u at n o re rh.

A.t e e wo l e l e h r u d b i f C.t e e w u d h r l e a y l e h r o l a d y b i n f4 9.Th sbu i e s i s .But i sn s sr ky i——

B.t e i a d y b y l e h r w l h r l e a i e l n f D.t e l b o l e h r wi e n i e l f,

we wo l b i h. ud e rc B. s o d we s c e d h ul u c e D.c u d we s c e d o l u c e

A.mih u c e g twe s c e d C.wo d we s c e d ul u c e

() 4考点过多

3除了答案错误外,有考点过多的问题, 4题还不符合一题一个考点]的原则。本题考点多达 3个:撕( r mb r用分词还是不定式; B) A) me e后 e (主动语态和被动语态; C分词的逻辑主语是用形容词性的物主 ()代词还是名词性的物主代词。3 4.Id n’ e mbe o tr me r——

me t a o k tb o . h29 7

维普资讯 http://www.77cn.com.cn

20 0 6正

海南大学学报人文社会科学版

第 2期

A i v .hm t g e oi

B i b igg e .hs en i n v

C i gv g .hs i n i

D i e ggvn .hm b i e n i

四、论结笔者所分析的试卷不管是整卷还是客观题部分,它们的信度都很差。各大题之间大都没有实质的相关性。因子分析表明 5道大题实际只考了 2个因素, ( )面表达能力; 2听力和语言知识。用 GT即 1

书 () I- E T对试卷一上的 7选择题进行的项目分析显示,多达 3%的题目不合格。试卷二上 3 S 5道有 2 0分的阅读题有 8分的题不是在考语篇水平上的阅读能力,而是在考不需要上下文的单句理解,另外 1的题全部 0分

在考非常单一的同一技能,即跳读 (cn i )而跳读仅仅是众多阅读技能中比较低级的一种, san g, n严格地说不能算真正意义上的阅读]。所有这些问题,上本文未讨论的其他问题 ( 加如试卷的编排、印错误、打 答案错误等 )导致了试卷没有信度和效度。, 笔者所分析的试卷是在近 20 00名学生中使用的,学生的学习兴趣、习观念和学习方法是否产生对学不良的反拨效应有待进一步研究。虽然对成绩考试的反拨效应研究得还不多,成绩考试是否公正科但学,是否具有合格的信度和效度,然在多方面影响学生的学习和生活,必因此,有必要对英语教师的命很题工作进行系统培训。笔者仅从统计学的角度分析了一份试卷的质量,未从语言教学的本质角度讨论该试卷的效度,这方面的研究有待进一步探讨。[参考文献][]周越美, 1张艳莉.透视大学英语教学考试质量——案例分析[] J .外语界, o 2 6:l一 8 2 o ( )7 7 .[] H N I G G.97A G iet agaeTsig eeomet vlai n eerh[ .B in: oeg a gaeT ahn dR - 2 E N N 1 8 ud L nug et:D vl n,E a t nadR sac M] ej g F ri Ln g ec i a e o n p u o i n u gnsa c r s e r h P e s,2 01 0 .

[]李筱菊.语言测试科学与艺术[ . 3 M]长沙:湖南教育出版社,19 . 9 7[] B C MANL u dmet o s e t n a gaeT t g[ .O fr O fr nvrt rs,19 . 4 AH .F n a na C ni r i si L n g ei l d ao n u s n M] xo d: xo U i syPes 90 d ei[] LD 5 A O R.L n aeT t g[ .N wY r Mc rw Hi,9 1 agg e i M] e ok: G . l 16 . u sn a l []余盛明.对英语高考复试试题的评

估[] 6 J .现代外语, 97 4:0— 8 19 ( )4 4 .[]桂诗春, 7宁春岩.语言学方法论[ .北京: M]外语教学与研究出版社, 9 7 19 .[]杨惠中.大学英语四、 8六级考试效度研究[ .上海: M]上海外语教育出版社,19 . 9 9[] Y N uzog G ISih n h nlhPo c ny et sdi hn: eot c]/ E .N w Drco snLnu e et . 9 A G H i n, U hcu .T eE gi rf i c T e C ia A R pr[/ L EY P e i t n i aga T i h s ie s U n ei g s n gNe Yo k: e g mo r s d.1 8 5—6 w r P r a n P e s Lt 9 5: 9 6.

[0]刘建达, 1杨满珍 .成段改错试题考了什么?[] J .现代外语, 0 1 2:7 2 0 ( ) 10—10 8.

[任编辑:责吴晓珉]

A l to t y o n Engi h Ac i v m e t Te t Va i i n S ud f a da l h e e n s sW ANG i -a, T a f ZHONG n n Lig( c ol f o i agae,H ia ivri, io 72 8, hn ) Sho o r g Ln ugs a nUn e t Ha u50 2 C ia Fe n n sy k

Ab t a t h a e n t k s a a y i f n a h e e n s, sn o u e o -a e - P S O 0 a d sr c:T e p p r ' f s ma e a lsso c iv me t e t u i g t c mp trs ̄ r s S S I . n n a t wo w nGI TES T,whih e p s s a lc fr la i t n b t e t s s a wh l d t e 7 mu tp e c oc u s o s c x o e a k o ei b ly i o h t e t a oe a 5 i h n h li l - h ie q e t n . i

Ba e n t e a o e a ay i,t e p p rc n n e o c t g r e a d e p o e t e c u e ft e 1 o a u a y a d s d o b v l ss h a e o t u s t ae o z x lr a s s o 0 v c l r h n i i n h h b nsr c u e t

n h ta e n tg o n u h,wh c r p s n a v fma y o e nie st s i i a t a tu t r q s o st a r o o d e o g e u i ih a e r r e t t e o n t r u v rii n Ch n t e e i h e h flo t e p a t e o ol w r c i f“CET- re t d t a h n h c o n e e c i g”. i

Ke r s c i v me tts;r l i t;c n t c ai i;i m ay i y wo d:a h e e n t e i l e b y a i o sr t l t t a l s u v dy e n s

20 8

本文来源:https://www.bwwdw.com/article/mrum.html

Top