基于Google学术搜索与中国引文数据库的引文检索比较分析

更新时间:2023-05-17 08:06:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

基于Google学术搜索与中国引文数据库的引文检索比较分析

图书馆理论与实践综合评述2008(4)

●冯向春(广东茂名学院

图书馆,广东茂名525000)

基于Google学术搜索与中国引文数据库的

引文检索比较分析

[关键词]引文检索;Google学术搜索;中国引文数据库

[摘要]基于引文检索的Google学术搜索与中国引文数据库的异同点,比较两者检索功能的强弱,评价两者的检索效果,认为:中国引文数据库的引文检索功能较强,检索效果良好;Google学术搜索优势在于能够检索图书和内部刊物被引情况,两者结合使用才能全面评价学术文献的价值。最后,对两者的发展趋势作出预测。

[中图分类号]G250.72;G250.74;G354[文献标志码]B

[文章编号]1005-8214(2008)04-0020-031Google学术搜索与中国引文数据库简介

1.1Google学术搜索

Google公司在2004年年底推出了基于学术资源服务的GoogleScholar。GoogleScholar是一项免费服务,可以帮助用户快速寻找学术资料,如专家评审文献、论文、书籍、预印本、摘要和技术报告。2006年年初,Google公司又宣布将GoogleScholar扩展至中文学术文献领域。GoogleScholar在索引中涵盖了来自多方面的信息,信息来源包括万方数据资源系统、维普资讯,以及网上可以搜索到的各类文献。GoogleScholar同时提供了中文版界面(http://scholar.google.com),供中国用户更方便地搜索全球的学术科研信息。

GoogleScholar的最大特点是:(1)可根据相关性对搜索结果进行排序,最相关的信息显示在页面上方,同时尽可能排除了非学术信息检索结果的出现。这一排序同时考虑到每篇文章的全文内容、作者、发表该文章的刊物,以及该文章被其他学术著作引用的次数等要素,可帮助用户找出在该学术领域最相关、最有价值的文章。(2)GoogleScholar可搜索到用西欧语言、中文和日文等多种语言撰写的文章,可以检索到国内没有购买的国外论文数据库,而且是第一个可以搜索中文学术信息的外文搜索引擎。1.2中国引文数据库

中国引文数据库的数据,来源于中国学术期刊(光盘版)电子杂志社出版的源数据库产品中的文献和参考文献,如:中国期刊全文数据库、中国优秀博硕士学位论文全文数据库、中国重要会议论文全文数据库、中国重要报纸全文数据库、中国图书全文数据库、中国年鉴全文数据库等。目前实现了期刊、学位论文、会议文献的引用文献和被引用文献的链接。中国引文数据库的主要特点是除了可以检索学术期刊被引之外,还可以检索博硕士论文、会

议论文等其它类型文献的被引情况。

2Google学术搜索与中国引文数据库的比较

2.1相同点及其之间的差异

2.1.1可以检索单篇论文的被引频次

某一学术论文被其他论文或专著引用的情况,是判断其学术价值和影响力的重要指标,受到学术界及科研管理机构的极大重视。GoogleScholar与中国引文数据库都可以检索某一篇论文的被引频次。在GoogleScholar基本检索框内(也可用高级搜索框)输入论文的完整题名,点击“搜索”按钮便可以看到查询结果。在结果显示页面上,该篇论文作为首条记录被显示。记录格式主要包括了文章题名及链接、作者、文章出处、发表时间、来源数据库、文章摘要信息、被引频次及链接、相关文章及链接、网页搜索及链接、图书馆搜索及链接等字段内容。其中,点击被引用次数的链接,可以查看引证文献,即引用该文章的其他论文,这便是GoogleScholar的引文检索功能。图书馆搜索链接是GoogleScholar特色项目之一,通过它可以找到藏有这项学术成果的图书馆,该馆是GoogleScholar的合作伙伴之一。

利用中国引文数据库查找某篇论文的被引情况,如查找“开放内容的类型及其知识产权管理”被引情况,进入初级检索界面,选择“被引文献题名”检索项并精确匹配,输入题名检索即可。检索结果显示了被引频次为10。而GoogleScholar检索到该文的被引频次为8。在同一时间段使用这两个不同的引文检索工具,查找同一篇文章的被引用次数,结果有所不同。

2.1.2可以查找某一作者的论文被引频次

GoogleScholar与中国引文数据库都可以通过输入作者姓名,查找该作者发表的学术论文被他人引用的情况。被引用次数多的,证明该作者在某学科研究领域具有较高的学术地位,也可以了解该作者的研究方向,或者对某些专题研究的系统深入程度。GoogleScholar通过高级搜索功能,或者在普通检索框里输入短语“作者:×××”,才能实现对作者的精确检索。如果是在普通检索框里直接输入作者姓名,在检索结果里,包含作者姓名的关键词不仅出现在作者姓名字段里,而且会出现在题名字段或其它字段里,即返回许多不相关的检索结果。如分别在普通检索框和高级检索框中直接输入作者“陈传夫”,前者返回的结果记录数是722条,后者返回的却只有105条记录。同样的检索课题,而中国引文数据库的检索结果显示的记录是52条。显然,两个引文检索系统的检索结果差别较大。2.1.3可以查找某期刊的文章被引频次

要查找某期刊的文章,选择中国引文数据库的“被引

基于Google学术搜索与中国引文数据库的引文检索比较分析

图书馆理论与实践

文献来源”检索项,点选“精确”匹配,输入期刊名称检索即可查到某期刊的文章被引频次。但在GoogleScholar里,必须使用高级检索功能里的“出版物”检索,才能提高查准率。检索一些比较通俗化的期刊名称,例如查找《图书馆》刊发的文章,如果仅使用普通检索,即包含“图书馆”三个关键字的期刊都被检索命中,甚至文章标题、摘要、书名等包含了“图书馆”字样的,都被显示。2.1.4两者都不能免费获取全文

GoogleScholar提供可广泛搜索学术文献的简便方法,在搜索结果里,仅提供被引文献的摘要和出版信息,虽然声称可以提供一些免费全文,但数量极少,尤其是中文文献全文。如果要获取全文,需用网上支付、手机支付等方式购买,GoogleScholar提供了这些支付方式的指引。而中国引文数据库,其全文下载阅读权限仅限于网上包库、镜像站版、光盘版、流量计费、个人阅读卡等收费用户。2.2不同点

2.2.1检索功能

检索系统的检索功能是否完善,直接影响到该系统能否被充分利用。检索功能一般包括初级检索、高级检索、专业检索和二次检索等。表1对GoogleScholar和中国引文数据库的检索功能进行了比较。

表1

检索功能

初级检索高级检索二次检索分类浏览专业检索检索限定

综合评述2008(4)

准率。分类浏览是指按学科分类浏览,浏览式检索特别适合信息检索的初学者。GoogleScholar均不支持这两种较为人性化的检索方法。

(4)专业检索。专业检索是指使用运算符号构建一些检索表达式来达到更精准的检索。GoogleScholar在搜索帮助中较为详细地列出了高级操作符的使用方法,如[股票看涨期权限OR看跌期权限][“国际版权”]等,这些功能也可视为专业检索。中国引文数据库提供了主要针对专业信息用户而开发的专业检索,但没有具体的语法说明和举例,不方便用户使用该项检索。

(5)检索限定。GoogleScholar通过使用偏好来限定界面语言和搜索语言、结果数量显示方式、结果视窗和文献管理软件,通过高级检索限定出版时间。中国引文数据库可以限定精确匹配、出版时间、被引频次、时间和相关度的排序、结果数量显示方式。后者能够实现对检索结果的排序,满足了某些用户的特定需要,如对最新高被引文献的获取,科研数据统计的需要等。

(6)GoogleScholar检索速度比中国引文数据库要快。GoogleScholar平均搜索用时是0.08秒,而中国引文数据库的平均搜索时间却要0.37秒,当数据库并发用户已满时,必须重新登录系统,GoogleScholar则不存在这个问题。2.2.2检索结果

为了便于比较GoogleScholar和中国引文数据库的检索质量,笔者选取图书馆学情报学专业的17种核心期刊为调查对象,核心期刊根据《中文核心期刊要目总览》(2004年版)。期刊出版年限为1979—2006年,期刊名称精确匹配检索,数据调查时间为2007年4月23日。

为了增加检索结果的可比性,分别利用GoogleScholar与中国引文数据库检索同一篇文章的被引情况。

本文只列出各个刊物最高被引频次的文章(见表2)。

表2

Google学术搜索与中国引文数据库期刊被引文章检

GoogleScholar中国引文数据库被引频次被引频次

2102151311121404752108379289

252914310705481063691104

Google学术搜索与中国引文数据库检索功能比较

引文系统

GoogleScholar

中国引文数据库

题名、作者、第一作者、作者单

关键词位、关键词、出版物、时间、出版

者、基金名称、摘要、全文

逻辑与、逻辑或、逻辑非

出版日期不支持支持不支持支持支持支持支持支持

(1)初级检索。GoogleScholar秉承其传统搜索的风格,

在普通搜索页面(视为初级检索)上,提供任意关键词查找,检索功能相当简单。这里所说的关键词不像中国引文数据库那样,专指文章关键词,而是任意的,既可指文章关键词、著者关键词,也可指题名关键词和摘要关键词等。关键词专指度低,查准率就低。中国引文数据库除了关键词检索之外,还有题名、作者、作者单位、出版物、出版时间、出版者、基金名称、摘要等检索字段可供选择。可检字段多,检索灵活。

(2)高级检索。中国引文数据库高级检索界面指示明晰,自由组合度高,在作者、题名、机构、关键词、基金、来源刊物等字段之间均可相互构成逻辑“与”“或”“非”的关系进行检索,用户只需点击增加符号“+”,选择下拉菜单里的“并且”“或者”和“不包含”三者之中的任一项,输入对应检索词便可。而GoogleScholar只能实现作者、出版物、出版年之间的逻辑“与”检索功能,不能很好地满足用户的多样化检索需求。例如,想查找某一作者不是以第一作者身份发表的文章被引情况,通过中国引文数据库的逻辑“非”,即可轻松获得你所要的检索结果;而GoogleScholar的高级检索功能却无能为力。

(3)二次检索和分类浏览。二次检索指的是在上一次检索的结果集上进行的检索,逐步缩小检索范围,提高查

索结果比较

期刊被引文章

张晓林.走向知识服务:寻找新世纪图书情报工作的生长点.中国图书馆学报,2005(5)

汪冰.电子图书馆理论与实践研究.图书情报工作,1999(3)

邹志仁.试论大学生的信息素质教育.大学图书馆学报,2003(3)

曾民族.网络信息检索现状和性能评价.情报学报,1997(2)

王世伟.从“读者第一”到“图书馆员第一”———知识经济带给图书馆管理的思考之一.图书馆杂志,1999(2)

孟连生.中文科学引文分析.情报科学,1983(3)

曹望虹.论数字图书馆的发展对馆员素质的要求.图书馆建设,2001(1)

索传军.论网络化图书馆的信息资源建设.图书馆,1999(1)

武保民,都平平.高校图书馆建立“学科馆员”制度的现实思考.情报杂志,2002(5)

黄宗忠,王晓燕.论复合图书馆与图书馆发展趋向.图书馆论坛,1998(1)张晓林,袁莉等.基于Web的个性化信息服务机制.现代图书情报技术,20011)

基于Google学术搜索与中国引文数据库的引文检索比较分析

图书馆理论与实践

邱均平,沙勇忠等.论数字图书馆的知识管理.情报资料工作,2001(5)邱均平.信息计量学(四):第四讲文献信息离散分布规律———布拉德福定律.情报理论与实践,2004(4)

王知津,张学福.数字图书馆及其对图书馆员的影响.图书馆工作与研究,2000(2)

黄宗忠.论21世纪的虚拟图书馆与传统图书馆(上).图书馆理论与实践,1998(1)

黄宗忠.论图书馆的新模式———复合图书馆.图书情报知识,2002(3)郭明容.对图书馆建立特色数据库的思考.现代情报,2000(3)

综合评述2008(4)

7461

839

书的引证文献。黄宗忠“论21世纪的虚拟图书馆与传统

图书馆(上)”一文被引频次的差异,也缘于此。

(3)中国引文数据库全文回溯建库滞后于其来源库,也是造成检索结果差异的原因之一。例如,利用中国引文数据库检索《图书馆杂志》文章被引情况,仅能检索到2005—2006年文章被引情况,但通过中国引文数据库的来源库之一的中国期刊网检索《图书馆杂志》(2006年加入中国期刊网),1982—2007年的全文文章均有提供。显然,中国引文数据库建库速度滞后于中国期刊网。所以中国引文数据库检索不到《图书馆杂志》1999年发表的文章被引情况,才会出现检索结果为“0”的假象。

(4)GoogleScholar由于网络链接的复杂性和不稳定性,其检索结果存在重复现象。如上述查找某一作者的论文被引频次中,检索作者“陈传夫”文章被引情况,即使是高级检索,获得的检索记录也有105条,而在这其中,重复记录就有十几条。

(5)GoogleScholar的检索结果一般是高被引文章显示在先,但又不严格按被引频次排序,并且不能在构建检索表达式时预先设定排序方式。其检索结果排序是按文章研究的相关度和价值排序,并在左边列出了文章高被引的知名作者,便于人们进一步检索获知这些作者所取得的科学研究成果。3结论

(1)GoogleScholar与中国引文数据库均能检索中文学术期刊文章被引情况。除此之外,GoogleScholar还可以检索中外图书、内部刊物的被引情况,中国引文数据库可以检索博硕士学位论文、重要会议论文的被引情况。两者都可作为科学研究的辅助工具。

(2)无论是初级检索还是高级检索,中国引文数据库可检字段多,各字段之间可以进行多种逻辑组配,检索更方便、灵活和准确。二次检索和分类浏览也是中国引文数据库值得称道的地方。

(3)中国引文数据库检索质量胜于GoogleScholar。由于网络链接的复杂性和不稳定性,GoogleScholar的检索结果会出现重复、错误的链接,而且检索结果显示方式缺乏人性化。

(4)GoogleScholar与中国引文数据库应同时结合使用,提高检索效率。由于两者的数据库来源不同,收录刊物的范围不尽相同,所以两者的数据有重复,但有各自特色之处,用户应去重取全,才能更客观全面地反映和评价文献被引的真实情况。

(5)GoogleScholar是在多语言Google搜索引擎的基础上开发成功的,是Google搜索引擎的增值产品,全球网络公众知名度较高,但GoogleScholar的检索技术还需完善,既要满足普通信息用户的需求,更要满足学术信息用户的专业信息检索需求。4展望

4.1GoogleScholar与图书情报机构、资源供应商之间合作化发展趋势

GoogleScholar是针对科学家和研究人员推出的新的搜索服务,其特色之处就是与图书馆和数据库商强强联合。推出的“图书馆链接”计划可以将用户的文献检索结果直接定位到相关图书馆。目前全球已有100(下转第32页)

5362

19910230

16510136

表2的检索结果表明,同一篇文章在GoogleScholar与中国引文数据库里的被引用次数是不相同的,甚至有的差别很大。如汪冰发表在《图书情报工作》的“电子图书馆理论与实践研究”,王世伟发表在《图书馆杂志》的“从‘读者第一’到‘图书馆员第一’———知识经济带给图书馆管理的思考之一”,前者相差206次,后者相差140次。笔者分别点击GoogleScholar与中国引文数据库的基于上述17篇文章的引证文献链接,探究原因。

(1)数据库来源和收录范围不同是导致GoogleScholar与中国引文数据库的检索结果不一致的根本原因。GoogleScholar的中文源数据库是维普资讯和万方系统的科技期刊库,中国引文数据库除了中国期刊网之外,来源库还包括学位论文和会议论文全文库等。三大中文期刊全文库的收录范围又不尽相同,维普资讯甚至收录一些内部刊物,中国期刊网重点收录学术期刊1994年以后刊发的文章。例如,邹志仁的“试论大学生的信息素质教育”一文,GoogleScholar检索到的被引频次是131,其中有1条记录是来源于内部刊物———《福建图书馆学刊》;中国引文数据库检索到的被引频次是143次,其中,有10条记录是来源于中国优秀硕士学位论文库,3条记录来源于中国重要会议论文全文库。排除数据库来源和收录范围因素,实际上,GoogleScholar和中国引文数据库的检索结果是一致的,均为130篇期刊引证文献。孟连生的“中文科学引文分析”一文的被引频次也属于此种情况。

(2)GoogleScholar检索到的某些引证文献是错误的,即被引文献与引证文献之间不存在引用关系。这是GoogleScholar检索技术不够成熟的表现,难免不令用户对其权威性产生怀疑。例如“信息计量学(四):第四讲文献信息离散分布规律———布拉德福定律”一文,GoogleScholar被引频次是61次,中国引文数据库显示的被引频次却是9次,结果差别很大。原因是邱均平曾经在《情报理论与实践》发表了信息计量学(一)、(二)、(三)……(十二)等系列学术文章,其中的任一篇文章被引用了,GoogleScholar系统都默认是“信息计量学(四):第四讲文献信息离散分布规律———布拉德福定律”一文被引用了,因此,得出61篇引证文献的错误检索结果。错误产生的原因就是GoogleScholar支持模糊检索,标题包含有“信息计量学”这个关键词的文章都被检索命中。又如作者汪冰发表了题名为“电子图书馆理论与实践研究”的论文一篇和专著一部,题名虽同,但文献类型不同,利用GoogleScholar检索期刊论文被引情况,检索结果里面却包含了图

基于Google学术搜索与中国引文数据库的引文检索比较分析

图书馆理论与实践信息学 文文献学献学2008(4)

此外,各种知识组织系统的应用也是改进文本系统检

索效果的重要方式。

显然,在词法、句法等的研究和应用方面,目前仍然有大量的工作要做,文献领域工作者长期积累的对词汇控制规律的了解,是推进词汇控制应用的重要力量。同样,对链接因素、用户因素和其他相关因素的研究和纳入也需要类似的努力,如计算机界已经对链接因素、用户因素等

[4,5]

近年来相关因素纳入的另一个结合进行了许多探索。

例子,是在检索返回资源的显示中,将文献类型,如百科全书词条、个人主页、机构官网等作为改进排序的因素之一,取得了较好效果。如何在检索系统中发现并有效纳入这类因素,仍是这类系统关注的一个内容。

关键词搜索引擎的处理技术为文本检索系统的改进,提供了十分有价值的经验。从表5可以看出,传统文献数据库的数据特点与网络资源既有不同又有相似之处。事实上,目前在一些文献数据库中,已开始逐步将网络关键词搜索引擎的技术方法引入系统,用以改进和优化检索效果。

表5

网络资源数据与文献数据处理中部分因素比较

文献资源因素文献结构数据发表来源、地址引用数据(部分数据库)

新相关因素

元数据中的分类、主题标识

检索记录

文献库人工标引文献库人工标引

说明

素加以考察。显然,将上述内容单纯作为检索问题进行探

讨是不合适的,必然会严重限制对后组式系统组织规律和方法的探索,应当改变。后组式检索系统,尤其是关键词搜索引擎、文本检索系统等多元结合的特点决定了它们的发展需要多个领域专业人员的共同努力去加以推进。传统文献组织领域的专业人员不能局限于传统的检索语言领域,而应当结合长期研究和实践的积累对研究范围进行拓展。对后组式系统的研究可以适应时代发展,扩展视野,将我们的知识贡献于这一新的领域的开掘,同时也可以在对后组式系统充分了解的基础上,在更加广阔视野的基础上从事信息组织领域的研究和探索。

[参考文献]

[1]马张华,黄智生.网络信息资源组织[M].北京:

北京大学出版社,2007:92-102.[2]BrinS,PageL.TheAnatomyofaLarge-ScaleHypertextual

WebSearchEngine[J].ComputerNetworksandISDNSys-tems,1998,30(1-7):107-117.[3]ArasuA.SearchingtheWeb[EB/OL].[2007-08-13].http://oak.cs.ucla.edu/ ̄cho/papers/cho-toit01.pdf.[4]Page,etal.ThePageRankcitationranking:Bringingorderto

theWeb[EB/OL].[2007-08-13].http://www-db.stan-ford.edu/ ̄backrub/pageranksub.ps.

[5]王建勇,等.海量web搜索引擎系统中用户行为的分

布特征及其启示[J].中国科学E辑,2001,31(4):372-384.

[作者简介]马张华(1948-),男,教授,出版有《网络信息资源组织》《信息组织》等著作。[收稿日期]2007-11-30[责任编辑]王

网络资源因素HTML标记URL链接锚定文本相关数据,如主题指

南中类目数据

检索日志

4结语

后组式检索系统的后组、自由组配、隐含等特点,决定了对其组织体系的研究不能照搬先组式系统的方法,而应当结合其资源对象和应用环境,对其基本构成成分及要

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

进了我国期刊发展和科学文献计量研究,并满足了国内学(上接第22页)多家图书馆加入了该链接,国家图书馆则

是国内首家。读者通过GoogleScholar进行信息检索后,可术研究人员的多层次需求,将在竞争中立于不败之地。方便地检索国家图书馆数字资源门户,进一步获取数字资4.3学术研究工具助推学术资源向开放存取方向发展源全文,获取国家图书馆馆藏信息,获取文献传递、馆际尽管目前GoogleScholar与中国引文数据库都不能向用

[1]

互借服务。北京师范大学图书馆也成功地将GoogleSchol-户提供免费学术资源,但都能提供免费检索,就说明它们ar纳入了图书馆学术资源服务体系,与万方数据资源系已经掌握了数字化的资料,至于什么时候把它变为“开放统、维普资讯等国内外著名数据库商的合作也日趋紧密。存取”,那仅仅是时间,或者说是商业角度和版权制度的

[3]

合作发展的最终目标是共赢,将有越来越多的图书馆和数问题了。

[2]

据库供应商加入GoogleScholar发展计划。GoogleScholar不仅推动了中文学术资源走向世界,而且方便了中国用户[参考文献]获取与利用国外科研学术成果,同时也为自身发展赢得了[1]夏旭.基于Google学术搜索的引文检索研究[J].情机会。报理论与实践,2006(6):697-701.4.2中国引文数据库将加快数据库建设步伐[2]张文彦.Google给图书馆带来的十大机遇与挑战

中国引文数据库是中国知网的增值服务产品,有较为[J].图书馆杂志,2005(10):62-63.固定的信息检索用户(图书馆用户和一些网络散户),数[3]奇迹文库.也说Google的学术搜索[EB/OL].[2007-据库检索技术成熟可靠,可利用这些优势,扩充信息源,05-02].http://www.qiji.cn/drupal/node/7538.如图书和报纸等类型资源,收录一些尚未收录的学术期刊,加快全文回溯建库速度等。同时,为了长远发展目[作者简介]冯向春(1977-),女,广东茂名学院图书馆标,加入了《中国学术期刊文献评价统计分析系统》的合馆员,发表论文10篇。作计划,成为该系统的基础数据源之一,为各学科期刊之[收稿日期]2007-10-27[责任编辑]王岗间的比较与评价提供了准确、客观、公正的数据参考,促

本文来源:https://www.bwwdw.com/article/lbz4.html

Top