基于卷积神经网络的深度学习算法与应用研究

更新时间:2024-05-19 14:30:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

1对深度学习的国内外研究现状值得一看;2讲了神经网络和卷积神经网络的基础知识;3深度学习在车标上的应用基于卷积神经网络的深度学习算法与应用研究摘要深度学习(DL,DeepLearning)是计算机科学机器学习(ML,MachineLearning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标一人工智能(AI,ArtificialIntelligence)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。它在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。将深度学习与各种实际应用研究相结合也是一项很重要的工作。本文整理和总结了国内外关于深度学习的发展历程和最新的研究成果,对人工神经网络及经典的卷积神经网络所涉及到的概念和算法进行了简要介绍,将卷积神经网络算法进行了改进并应用于光学字T符识别(OCR,OpticalTrafficsignCharacterRecognition)和交通标示识别(TSR,recognition)问题,分别在理论和应用层面对卷积神经网络的架构和性能进行研究分析。本文的主要工作如下:1、在LeNet-5网络模型的基础上进行改进,构造了若干各层具有不同神经元个数和层间连接方式的特征抽取滤波器层的卷积神经网络模型,将各个模型应用到光学数字识别问题上,通过这些不同的卷积神经网络模型在实验中学习过程表现出的特性和识别性能分析比较各种模型的优劣。2、通过借鉴自适应增强(Adaboost)的思想,构建了一个多列卷积神经网络模型,并将其应用在交通标示识别实际应用问题中,将数据进行预处理,训练卷积神经网络,实现卷积神经网络对交通标示的高性能识别。3、通过实验最终验证卷积神经网络在手写数字识别和交通标示识别问题上的应用可行性。并与其他现有的分类器进行比较,分析卷积神经网络模型在各种实际应用问题上的性能。关键词:卷积神经网络,深度学习,模式识别,光学字符识别,交通标示识别lIRESEARCHoNALGoRITHMANDAPPLICATIoNoFDEEPLEARNINGBASEDoNCoNVoLUTIoNALNEURALNETWORKABSTRACTDeeplearningisanewresearchdirectioninthefieldofcomputerscienceandmachinelearning.Itwasintroducedintomachineandmakeslearning,machinelearninglearningclosertoitsoriginalrulesgoals:artificialtheintelligence.Deepleamsinherentandabstracthierarchiesofsampledata.ThehierarchiesCanbeusedtohelpexplaintoletthedata,suchastext,imagesandsounds.Itaimsthemachineacquirelearningabilitytocognizetext,imageandvoicedata,etc.Asacomplexmachinelearningalgorithms,recognitionaccuracyofondeeplearningimageandaudioisfarbeyondtheprevioustechnologies.SuccessDeepleaminghasalsoachievedgreatdatainthesearchtechnology,mining,machinelearning,machinetranslation,naturallanguagemultimedialearning,speech,processing,recommendationandpersonalizationtechnology,ere.Ithassolvedmanycomplicatedpatternrecognitionintelligenceproblem,andpromotedtechnology.ItisatheprogressoftheartificialveryimportantworktocombinedeepIlilearningwithapplicationresearch.Thedevelopmentofdeeplearningandthelatestresearchresultsathomeandabroadhavebeenreviewedconceptandandsummarizedneuralinthisarticle.Theclassicalalgorithmofartificialnetworkandconvolutionalneuralnetworkwasbrieflyneuralintroduced.TheappliedinSignconvolutionalnetworkalgorithmisimprovedandOCR(OpticalCharacterstructureRecognition)andTSR(TrafficandRecognition).TheareperformanceofdeepneuralnetworkstudiedrespectivelyfromtheoryandaLsapplication.Themainworkinthispaperisfollows:1.TheneuralnetworkisimprovedbasedonLeNet-5networkmodelmodelsareinthispaper.Anumberofconvolutionalneuralnetworkconstructed,eachwithdifferentstyleoflayerconnectionanddifferentnumberofneuronsintheconvolutionllayerforfeatureextraction.Eachmodelisappliedtotheissueofopticaldigitalrecognition,andthenweanalyzeprocessandcompareperformanceofvariousmodelsthroughlearningandtheefficiencyofrecognitionintheexperiment.2.Basedontheideologyofadaptiveenhancement(Adaboost),amulti.columnconvolutionneuralnetworkmodeliSbuild.ItiSusedinthetrafficsignrecognition.Thepreprocesseddataisusedtotrainthemulti-columnconvolutionalneuraloftrafficnetworktorealizehighperformancesignrecognition.IV3.Finally,wevalidateapplicationfeasibilityofconvolutionneuralnetworkonopticalcharacterrecognitionandtrafficsignrecognitionthroughtheexperiment.Itiscomparedwithotherstate-of-the-artrecognitionalgorithms.Theisefficiencyoftheconvolutionlneuralnetworkanalyzedintheactualengineeringapplication.KEYWORDS:Convolutionalneuralnetworks;Deeplearning;PatternsignrecognitionrecognRion;Opticalcharacterrecognition;TrafficV

目录摘要…………………………………………………………………………………IABSTRACT…………………………….......…….….....……………..………….…………….…………III目录…………………………………………………………………………………………………………..VI第一章绪论………………………………………………………………………一l1.1课题研究背景和意义………………………………………………………一11.2国内外研究现状……………………………………………………………..41.2.1深度学习在语音识别领域研究现状………………………………….41.2.2深度学习在图像识别领域研究现状………………………………….51.2.3深度学习在自然语言处理领域研究现状…………………………….61.3存在的问题…………………………………………………………………~71.4本文主要内容………………………………………………………………..8第二章人工神经网络和卷积神经网络的结构及算法……………………………92.1人工神经网络………………………………………………………………..92.1.1单个神经元……………………………………………………………92.1.2神经网络………………………………………………………………102.1.3多层感知器(MLP)……………………………………………….122.1.4反向传导算法………………………………………………………一132.2卷积神经网络………………………………………………………………172.2.1稀疏连接……………………………………………………………一172.2.2权重共享………………………………………………………………182.2-3最大池采样…………………………………………………………。182.2.4Sofhnax回归…………………………………………………………192.2.5卷积神经网络整体架构……………………………………………。22第三章基于手写数字识别的卷积神经网络性能研究……………………………233.1MNIST手写数字识别库简介………………………………………………233.2卷积神经网络构造和改进方法……………………………………………233.2.1卷积神经网络模型--(ConyNet-1)…………………………………25Ⅵ3.2.2卷积神经网络模型一-(ConvNet-2)…………………………………253.2.3卷积神经网络模型一=(ConvNet-3)…………………………………263.3实验结果…………………………………………………………………….273.3.1LeNet-5网络模型的实验结果……………………………………….27Net一1网络模型的实验结果…………………………………~29Net-2网络模型的实验结果……………………………………303.3.2Conv3.3.3Conv3.3.4ConvNet.3网络模型的实验结果……………………………………3l3.4实验结果对比分析…………………………………………………………323.5本章小结……………………………………………………………………33第四章卷积神经网络在交通标示识别中的应用…………………………………344.1卷积神经网络和多层感知器相结合的交通标示识别系统………………344.1.1卷积层的构建………………………………………………………..344.1.2采样层的构造方法…………………………………………………~354.1.3分类层的构建………………………………………………………..354.1。4图像预处理…………………………………………………………..354.1.5卷积神经网络实验结果……………………………………………。364.1.6卷积神经网络和多层感知器结合的实验结果………………………394.2基于多列深度卷积神经网络的交通标示识别系统………………………404.2.1单个深度卷积神经网络的构建……………………………………。4l4.2.2单个深度卷积神经网络的训练过程………………………………..424.2.3构建多列深度卷积神经网络………………………………………一444.2.4多列深度卷积神经网络实验结果…………………………………一454.3实验结果对比分析…………………………………………………………474-4本章小结……………………………………………………………………48第五章总结和展望…………………………………………………………………495.1工作总结……………………………………………………………………495.2展望………………………………………………………………………………………………….50参考文献……………………………………………………………………………一5l本文作者硕士期问的科研成果……………………………………………………。55VⅡ致谢…………………………………………………………………………………………………………..56独创性声明……………………………………………………………………..57VIU第一章绪论本章首先介绍了本课题的背景、研究意义和国内外研究现状,主要介绍深度学习的发展历程和国内外研究现状,然后介绍了深度学习存在的问题和不足之处,最后概述本文的主要工作。1.1课题研究背景和意义深度学习是机器学习的一个分支领域。而在很多情况下,机器学习几乎成了人工智能的替代概念。简单地说,就是通过机器学习算法,使计算机有能力从大量已有数据中学习出潜在的规律和特征,以用来对新的样本进行智能识别或者预期未来某件事物的可能性【1】。自上世纪1980年代以来,从机器学习算法模型层次结构的角度来看,机器学习的发展历程大致经历了两个阶段:浅层学习阶段和深度学习阶段【2】。应该指出的是,机器学习的历史发展阶段划分问题并不是只有唯一的答案,从不同的角度看也会得到不同结论。第一个发展阶段:浅层学习(shallowlearning)上世纪1980年代后期,反向传播算法(即BackPropagation算法,简称BP)的出现及其在人工神经网络学习过程中的应用13】,极大推进了机器学习的发展,引领了基于统计机器学习模型的发展浪潮。这个热潮一直延续至今。研究人员发现,反向传播算法的采用,可以使人工神经网络模型在训练过程中自动修正自身参数,使得网络模型能够更大程度拟合训练数据,从而通对使用大量的训练样本对神经网络进行训练学习得到统计规律,以预测未知事件的可能。和以往基于人工规则的方式相比,这种基于统计规律的机器学习模式在诸多方面显示出极大优越性。尽管这个时期的人工神经网络也可以称为多层感知器(MultilayerPerceptron)【4】,但实际上它是一种浅层模型只包含一层隐藏层节点。进入1990年代以后,各种浅层机器学习模型陆续问世,比如最大熵法(如LogisticRegression,逻辑回归)15]Boosting【6|、支持向量机(SVM,SupportVectorMachines)17]等。这些机器学习模型架构大都可以看作不含隐藏层节点(如逻辑回归),或只有一层隐层节点(如Boosting、SVM)。此类模型无论是在理论研究上还是在实际应用中都取得很大成功。然而与之相反的是,浅层人工神经网络由于在理论分析上存在的困难,网络模型在训练过程中需要特定的技巧和很多经验知识,所以在这个阶段浅层人工神经网络的发展显得相对落后。进入21世纪以后,随着互联网的快速发展,人们可以接触到越来越多的信息,大型互联网企业每天也会产生海量的数据。于是如何从海量数据提取出高价值的信息成为人们需要面对的问题,这使得对大量数据进行智能分析和预测成为一种迫切需求。这个时期,浅层学习算法模型在很大程度上满足了这种需求,在互联网应用领域取得巨大成功。其中最成功的应用有网页搜索排序系统(如微软bing和雅虎的搜索引擎)、搜索广告系统(如百度的“凤巢”和谷歌的AdWords)、内容推荐系统、广告点击率预估、垃圾邮件过滤等【8】。第二个发展阶段:深度学习(deeplearning)2006年,机器学习大师、多伦多大学教授GeoffreyHinton及其学生Ruslan发表在世界项级学术期刊《科学》上的一篇论文引发了深度学习在研究领域和应用领域的发展热潮[91。这篇文献提出了两个主要观点:1.多层人工神经网络模型有很强的特征学习能力,深度学习模型学习得到的特征数据对原数据有更本质的代表性,这将大大便于分类和可视化问题;2.对于深度神经网络很难训练达到最优的问题,可以采用逐层训练方法解决。将上层训练好的结果作为下层训练过程中的初始化参数。在这一文献中深度模型的训练过程中逐层初始化采用无监督学习方式。自2006年起,学术界对于深度学习的研究持续升温。加拿大多伦多大学、蒙特利尔大学和美国纽约大学、斯坦福大学等成为深度学习的研究重镇。2010年,深度学习项目首次获得来自美国国防部f-jDARPA计划的资助,参与方有美国NEC研究院、纽约大学和斯坦福大学【101。大脑神经系统是由丰富的层次结构组成,这是深度学习获得支持的一个重要理论依据。Hubel和Wiesel通过对猫的视觉系统进行了大量实验的基础上揭示了视觉神经系统的运作机理,也因此获得1981年的诺贝尔生理学或医学奖【111。而在仿生角度之外,由于数学论证的难度和深度模型的复杂度,关于深度学习理论方面的研究工作现在还停留在初始阶段。但在工程应用方面深度学习模型已显现出极大潜力。自2011年起,谷歌和微软研究院的语音识别方向研究专家先后采用深度神经网络技术将语音识别的错误率降低20%.30%,这是长期以来语音识别研究领

域取得的重大突破。2012年,深度神经网络在图像识别应用方面也获得重大进展,在ImageNet评测问题中将原来的错误率降低了9%112]。同年,制药公司将深度神经网络应用于药物活性预测问题取得世界范围内最好结果,《纽约时报》也报道了这一显著成果113】。斯坦福大学机器学习教授AndrewNg是OoogleBrain项目领导者,致力于在谷歌推动深度学习算法的应用。2012年6月,AndrewNO带领的科学家们在谷歌神秘的x实验室创建了一个有16000个处理器的大规模神经网络,包含数十亿个网络节点,让这个神经网络处理大量随机选择的视频片段。经过充分的训练以后,机器系统开始学会自动识别猫的图像。这是深度学习领域最著名的案例之一,引起各界极大的关注[14】。如今谷歌、微软和百度等拥有大数据资源的知名高科技公司在深度学习领域纷纷加大投入,力争夺取该技术领域的制高点,在以后的竞争中抢占先机。在大数据时代,这正是由于他们看到了更加复杂强大的深度学习模型能从根本上揭示海量数据中潜在的复杂而又丰富的数据信息,并对即将发生的某些事件可能性做出更精确预测。深度学习和大数据处理工业界中一直广为流传的观点是:在大数据情况下,使用简单机器学习模型比复杂算法模型更有效。简单的线性回归模型是在大数据处理分析中用的最多的。而现在深度学习在各个领域取得的成果使人们对此观点有了新的认识。简而言之,大数据条件下,也许只有更复杂、表达能力更强的模型,才能充分挖掘出海量数据中隐藏的丰富信息。或许我们只有使用更强大的深度学习模型,才能从海量信息中寻找到更多有价值的潜在信息。我们以语音识别为例来说明上述观点。语音识别是一个典型的大数据机器学习问题,在语音数据声学建模过程中,通常需要处理数十亿以上规模的数据样本。谷歌公司曾进行过一个语音识别实验,在实验中深度神经网络对训练和测试样本数据预测误差相差不大【‘5】。这个结果和常识是相反的,在正常情况下深度模型对训练数据的误差通常会比测试数据的误差大得多。对此,只有一个合理解释,这是因为大数据样本里含有大量的信息维度,即使是像深度神经网络这样高容量的复杂模型对大数据样本也是欠拟合的,传统的混合高斯声学模型的效果更差,训练结果无法和大数据样本拟合。这也显示了深度学习对于大数据处理的重要性。浅层模型的一个重要特点是假设依靠人工经验预先提取出样本数据的特征,强调浅层模型主要职责是作出分类或预测。在浅层模型的运用不会出现差错的前提下,特征提取的好坏就成为左右整个模型系统性能的重要因素。为此,通常一个开发团队在提取更好的数据特征的工作上要花费更多的人力,这需要开发人员深入地理解待解决的问题才能对样本提取出合适的特征以便浅层模型进行处理。这需要反复地摸索才能达到这种程度,有时可能会花数年的时间,研究进度会大大延迟。因此,采用人工设计特征提取方式得到样本特征,是一个不可扩展的途径。深度学习本质上是构建含有多隐层的机器学习架构模型,通过大规模数据进行训练,得到大量更具代表性的特征信息。从而对样本进行分类和预测,提高分类和预测的精度【l61。这个过程是通过深度学习模型的手段达到特征学习的目的。深度学习模型和传统浅层学习模型的区别在于:1.深度学习模型结构含有更多的层次,包含隐层节点的层数通常在5层以上,有时甚至包含多达10层以上的隐层节点;2.明确强调了特征学习对于深度模型的重要性,即通过逐层特征提取,将数据样本在原空问的特征变换到一个新的特征空问来表示初始数据,这使得分类或预测问题更加容易实现。和人工设计的特征提取方法相比,利用深度模型学习得到的数据特征对大数据的丰富内在信息更有代表性。所以,未来的发展趋势是深度学习模型在大数据分析中将得到更多的关注。1.2国内外研究现状深度学习极大地促进了机器学习的发展,受到世界各国相关领域研究人员和高科技公司的重视,语音、图像和自然语言处理是深度学习算法应用最广泛的三个主要研究领域,我们分别介绍深度学习在各个领域理论和应用层面的研究现状。1.2.1深度学习在语音识别领域研究现状长期以来,语音识别系统大多是采用混合高斯模型(GMM)来描述每个建模单元的统计概率模型‘171。由于这种模型估计简单,方便使用大规模数据对其4训练,该模型有较好的区分度训练算法保证了该模型能够被很好的训练。在很长时间内占据了语音识别应用领域主导性地位。但是这种混合高斯模型实质上是一种浅层学习网络建模,特征的状态空间分布不能够被充分描述。而且,使用混合高斯模型建模方式数据的特征维数通常只有几十维,这使得特征之间的相关性不能被充分描述。最后混合高斯模型建模实质上是一种似然概率建模方式,即使一些模式分类之间的区分性能够通过区分度训练模拟得到,但是效果有限。从2009年开始,微软亚洲研究院的语音识别专家们和深度学习领军人物Hinton取得合作。2011年微软公司推出了基于深度神经网络的语音识别系统,这一成果将语音识别领域已有的技术框架完全改变【18】。采用深度神经网络后,样本数据特征间相关性信息得以充分表示,将连续的特征信息结合构成高维特征,通过高维特征样本对深度神经网络模型进行训练。由于深度神经网络采用了模拟人脑神经架构,通过逐层地进行数据特征提取,最终得到适合进行模式分类处理的理想特征。深度神经网络建模技术,在实际线上应用时,能够很好地和传统语音识别技术结合,语音识别系统识别率大幅提升【191。国际上,谷歌也使用深层神经网络对声音进行建模,是最早在深度神经网络的工业化应用领域取得突破的企业之一。但谷歌的产品中使用的深度神经网络架构只有4.5层,与之相比百度使用的深度神经网络架构多达9层,正是这种结构上的差别使深度神经网络在线学习的计算难题得以更好的解决。这使得百度的线上产品能够采用更加复杂的神经网络模型这种结构差异的核心其实是百度更好地解决了深度神经网络在线计算的技术难题,因此百度线上产品可以采用更复杂的网络模型。这对将来拓展大规模语料数据对深度神经网络模型的训练有更大的帮助。1.2.2深度学习在图像识别领域研究现状对于图像的处理是深度学习算法最早尝试应用的领域。早在1989年,加拿大多伦多大学教授YannLeCun就和他的同事们一起提出了卷积神经网络(ConvolutionalNeuralNetworks)【20】。卷积神经网络也称为CNN,它是一种包含卷积层的深度神经网络模型。通常一个卷积神经网络架构包含两个可以通过训练产生的非线性卷积层,两个固定的子采样层和一个全连接层,隐藏层的数量一般至少在5个以上。CNN的架构设计是受到生物学家Hubel和Wiesel的动物视S觉模型启发而发明的,尤其是模拟动物视觉皮层V1层和V2层中简单细胞(SimpleCell)和复杂细胞(ComplexCell)在视觉系统的功能【111。起初卷积神经网络在小规模的应用问题上取得了当时世界最好成果。但在很长一段时间里一直没有取得重大突破。主要原因是由于卷积神经网络应用在大尺寸图像上一直不能取得理想结果,比如对于像素数很大的自然图像内容的理解,这使得它没有引起计算机视觉研究领域足够的重视。直到2012年10月,Hinton教授以及他的两个学生采用更深的卷积神经网络模型在著名的ImageNet问题上取得了世界最好成果,使得对于图像识别的研究工作前进了一大步19】。Hinton构建的深度神经网络模型是使用原始的自然图像训练的,没有使用任何人工特征提取方法。自卷积神经网络提出以来,在图像识别问题上并没有取得质的提升和突破,直到2012年Hinton构建的深度神经网络才取得惊人成果。这主要是因为对算法的改进,在网络的训练中引入了权重衰减的概念,有效的减小权重幅度,防止网络过拟合。更关键的是计算机计算能力的提升,GPU加速技术的发展,这使得在训练过程中可以产生更多的训练数据,使网络能够更好的拟合训练样本【21】。2012年国内互联网巨头百度公司将相关最新技术成功应用到人脸识别和自然图像识别问题,并推出了相应的产品。现在深度学习网络模型已能够理解和识别一般的自然图像。深度学习模型不仅大幅提高了图像识别的精度,同时也避免了需要消耗大量的时间进行人工特征提取的工作,使得在线运算效率大大提升。深度学习将有可能取代以往人工和机器学习相结合的方式成为主流图像识别技术。1.2.3深度学习在自然语言处理领域研究现状自然语言处理(NLP)问题是深度学习在除了语音和图像处理之外的另一个重要应用领域。数十年以来,自然语言处理的主流方法是基于统计的模型,人工神经网络也是基于统计方法模型之一,但在自然语言处理领域却一直没有被重视。语言建模是最早采用神经网络进行自然语言处理的问题。美国的NEC研究院最早将深度学习引入到自然语言处理研究工作中,其研究人员从2008年起采用将词汇映射到一维矢量空间方法和多层一维卷积结构去解决词性标注、分词、命名实体识别和语义角色标注四个典型的自然语言处理问题【221。他们构建了同一个网络模型用于解决四个不同问题,都取得了相当精确的结果。总体而言,深度学习在自然语言处理问题上取得的成果和在图像语音识别方6面还有相当的差距,仍有待深入探索。1.3存在的问题1.理论问题深度学习在理论方面存在的困难主要有两个,第一个是关于统计学习,另一个和计算量相关。相对浅层学习模型来说,深度学习模型对非线性函数的表示能力更好。根据通用的神经网络逼近理论,对任何一个非线性函数来说,都可以由一个浅层模型和一个深度学二;=J模型很好的表示,但相对浅层模型,深度学习模型需要较少的参数。关于深度学习训练的计算复杂度也是我们需要关心的问题,即我们需要多大参数规模和深度的神经网络模型去解决相应的问题,在对构建好的网络进行训练时,需要多少训练样本才能足以使网络满足拟合状态。另外,网络模型训练所需要消耗的计算资源很难预估,对网络的优化技术仍有待进步。由于深度学习模型的代价函数都是非凸的,这也造成理论研究方面的困难。2.建模问题在解决深层学习理论和计算困难的同时,如何构建新的分层网络模型,既能够像传统深层模型一样能够有效的抽取数据的潜在特征,又能够像支持向量机一样便于进行理论分析,另外,如何针对不同的应用问题构建合适的深层模型同样是一个很有挑战性的问题。现在用于图像和语言的深度模型都拥有相似卷积和降采样的功能模块,研究人员在声学模型方面也在进行相应的探索,能不能找到一个统一的深度模型适用于图像,语音和自然语言的处理仍需要探索。3.工程应用问题在深度学习的工程应用问题上,如何利用现有的大规模并行处理计算平台进行大规模样本数据训练是各个进行深度学习研发公司首要解决的难题。由于像Hadoop这样的传统大数据处理平台的延迟过高,不适用于深度学习的频繁迭代训练过程。现在最多采用的深度网络训练技术是随机梯度下降算法。这种算法不适于在多台计算机问并行运算,即使采用GPU加速技术对深度神经网络模型进行训练也是需要花费漫长的时间。随着互联网行业的高速发展,特别是数据挖掘的需要,往往面对的是海量需要处理的数据。由于深度学习网络训练速度缓慢无法满足互联网应用的需求。7

接。这样大大降低了神经网络架构的参数规模。2.2-2权重共享在卷积神经网络中,卷积层的每一个卷积滤波器重复的作用于整个感受野中,对输入图像进行卷积,卷积结果构成了输入图像的特征图,提取出图像的局部特征。每一个卷积滤波器共享相同的参数,包括相同的权重矩阵和偏置项‘281。特征图像in层/m-1层O图2.7权重共享不葸图在上图中m层特征图像包含3个神经元,不同的连接线之间权重参数是共享的,我们仍然可以用梯度下降法去学习共享权重参数,只需要对原有的梯度下降法做一个很小的改进,共享权重的梯度是共享连接参数梯度之和。共享权重的好处是在对图像进行特征提取时不用考虑局部特征的位置。而且权重共享提供了一种有效的方式,使要学习的卷积神经网络模型参数数量大大降低。2.2.3最大池采样另一个关于卷积神经网络的重要概念是最大池采样【291,它是一种非线性降采样方法。在通过卷积获取图像特征之后是利用这些特征进行分类。我们可以用所有提取到的特征数据进行分类器的训练,但这通常会产生极大的计算量。例如:对于一个48x48像素的图像,假设我们通过在卷积层定义了300个4x4大小的卷积滤波器,每一个卷积核与图像卷积都会得到一个(48—4+1)×(48.4+1)维的卷积特征,由于有300个特征,所以每个样例都会得到一个45x45×300:607,500维的卷积特征向量。学习一个如此规模特征输入的分类器十分困难,很容易出现过拟合现象,得不到合理的结果。所以我们在获取图像的卷积特征后,要通过最大池采样方法对卷积特征进行降维。我们将卷积特征划分为数个nxn的不相交区域,用这些区域的最大(或1R平均)特征来表示降维后的卷积特征。这些降维后的特征更容易进行分类。最大池采样在计算机视觉中的价值体现在两个方面:(1)它减小了来自上层隐藏层的计算复杂度(2)这些池化单元具有平移不变性,即使图像有小的位移,提取到的特征依然会保持不变。为了理解池化的不变性,我们假设有一个最大池层级联在卷积层之后。一个像素点可以在输入图像上的八个方向平移。如果最大池层的滤波窗口尺寸是2×2的,卷积层中一个像素往8个可能的方向平移,其中有三个方向会产生同样的输出。如果最大池层的滤波窗口增加到3×3,平移不变的方向会增加到5个。由于增强了对位移的鲁棒性,最大池采样方法是一个高效的降低数据维度的采样方法。2.2.4Softmax回归SoRmax回归是在逻辑回归的基础上扩张而来,它的目的是为了解决多分类问剐301。在这类问题中,训练样本的种类一般在两个以上。Softmax回归在类似MNIST手写数字识别问题中可以取得很好的分类效果,这个问题是为了对0-9这10个手写数字进行区分。Softmax回归是有监督学习算法,它也可以与深度学习或无监督学习方法结合使用。在逻辑回归中,训练样本集由n1个带标签样本构成:{(x‘n,yO)),(x‘21,y‘2’),...,(工‘…,Y‘“’)),其中输入特征x‘。’∈吼”1。(其中,特征向量x的维度为n+l,XO=1为截距项)逻辑回归是为了解决二分类问题,因此分类标签为y‘。’∈{O,1)。假设函数如下:%(x)2瓦面1面呵(2-23)将训练模型参数目,使它能够最小化代价函数:J(口)=一去[喜y(i)?。g%伍。’,+c?一y国,,。gc?一h—cx回,,]。2.24,在softmax回归中,我们需要面对的是多分类问题,类标Y可以取k个不同的值(k>2)。因此,对于训练集{(x‘n,y‘1’),(工‘21,y‘2’),...,(z‘…,y‘”’)),有y(’’∈{1,2,...,七)。例如,在GTRSB交通标示识别问题中,有k=43个不同的分类。对于训练样本X,我们用假设函数对每一个类别j估算出概率值P(Y=Jx)。也就是估计样本x被划归为每一种分类结果的可能概率。因此,假设函数将要输出一个k维向量来表示这k个估计的概率值,这些向量元素之和为1。那么假设函数%(x)可表示为:P(Y国=1Ix(0;口)P靠a)lho(x6’1=p(y回=2Ixo’;臼)e西删∑0巧一p(y6’=kIx6’;椤)(2-25)其中钆幺,...,吼∈彤“是模型参数。艺:≥万项是为了对概率分布进行归一化处理,使所有概率的和等于1。我们使用符号口对所有模型参数进行表示,在Soflmax回归实现中,将占用一个kx(n+1)的矩阵表示,这个矩阵是将B,幺,.,嚷按行罗列得到,如下所示:口=(2-26)Soilmax回归代价函数现在我们对softmax回归代价函数进行分析。在下面公式中,1{?)是示性函数,它t艇_gt规则为:1(表达式的值为真)=1,1{表达式的值为假}=O。代价函数可表示为:删卜搬抄一灿g参]p27,这个公式是逻辑回归代价函数的推广。逻辑回归代价函数可以以同样的方式表示:印)一击巨甲)log(1-h∥)))+yO)log%妒)]=一!m『-L艺i=l壹j_-o,ty(i)=,,-。印@国=,Ix‘i);目,]累加。在Soflmax回归中将样本x分类为类别J的概率为:c2-28,从以上公式可以看出,Softmax回归代价函数与逻辑回归代价函数有很相似的表示形式,不同的是在Sofbnlax回归代价函数中对k个可能分类的概率值进行p@。1=jIx。).目)3参‘2-29)对于代价函数最小化问题,现在还没有快速解法。通常都是使用迭代优化算法。对代价函数求导后,代价函数的梯度公式如下:V。删一去善敝1{y∞=j)一划。刮xtiho))](2-30)V。,@)本身是一个向量,它的第,个元素号导是-,(目)对够的第,个分量的偏导数。得到以上求解偏导数公式后,就可以将它代入梯度下降法算法中,对代价函数,(曰)进行最小化。在梯度下降法的实现中,每次迭代过程中都需要对参数进行更新:g=9一aV以J(目)(-『=1,2,...,七)。在实现sofl=rnax回归算法时,通常会对上面的代价函数进行改进,在代价函数中增加一个衰减项【3l】。在本文对代价函数的改进中,我们通过在式(2—27)中添加一个权重衰减项i/z厶k己n%2,它会对过大的参数值进行惩罚。回归代价函数公式将变为如下形式:删卜擂扣“钏崦参,+害善k萎n爵化过程中陷入局部收敛,能够得到最优解。陋3t,增加了第二项权重衰减项后,代价函数就成为一个凸函数,这样就防止了优为了对其进行优化,我们需要计算l,(曰)的导数,在此给出它的求导公式如V私垆一去争(i)(1{y(i)----j)_∥)=jlx0);O))】+五嘭2.2.5卷积神经网络整体架构(2-32)最后,通过最小化代价公式J(a),就可以实现softmax回归分类模型。卷积神经网络是一种多层的监督学习神经网络,隐含层的卷积层和池采样层是实现卷积神经网络特征提取功能的核心模块。该网络模型通过采用梯度下降法最小化损失函数对网络中的权重参数逐层反向调节,通过频繁的迭代训练提高网络的精度【32】。下图是卷积神经网络整体架构图。(s1)4:特征图像(s2)6:特征图像卷积子采样卷积子采样l全连接MI。P图2.8卷积神经网络整体架构图卷积神经网络的低隐层是由卷积层和最大池采样层交替组成,高层是全连接层对应传统多层感知器的隐含层和逻辑回归分类器。第一个全连接层的输入是由卷积层和子采样层进行特征提取得到的特征图像。最后一层输出层是一个分类器,可以采用逻辑回归,softmax回归甚至是支持向量机对输入图像进行分类。本文第四部分构建的卷积神经网络就是采用soflmax回归对交通标示图像的特征进行分类。

第三章基于手写数字识别的卷积神经网络性能研究3.1MNIST手写数字识别库简介手写数字IvlNIST数据库有一个训练样本集包括60000个样例,和一个测试样本集包括10000个样例,它是一个更大的NIST手写数字数据库的子集。这些数字训练样本已经大小归一化和集中到一个固定大小的图像。IVlNIST数据库是由NIST的SD.1和SD.3数据库构建而成,包含一系N-进制手写数字图俐331。NIST数据库将sD.3数据库作为训练样本集,sD.1作为测试样本集。SD.3比SD—l更加清晰容易识别。SD.3数据库是由人口调查局员工笔迹收集而来,SD一1是从高中在校学生收集的。要从学习过程中得到合理的结论需要结果独立于训练样本和测试样本的选择。因此我们需要通过混合NIST的数据集创建一个新的数据库。MNIST训练样本集来自SD一3的30000个样本和来自SD—l的30000个样本组成。我们的测试样本集由5000个SD.3样本和5000个SD.1样本组成。这60000个训练样本来自大约250个人的手写体数字以确保训练样本集合测试样本集是不相交的。3.2卷积神经网络构造和改进方法经过训练后得到的卷积神经网络的分类过程和多层感知前馈神经网络类似,将待识别的图像作为输入样本,通过逐层前向传播一直到输出层输出最后的分类结果。神经网络的输入层在接受到一副图像作为输入数据后,由第一个卷积层的6个滤波器卷积产生6幅特征图像,即C1层。这6幅特征图像包含了输入图像经过不同滤波器卷积后获得的特征信息。接着通过一个2×2尺寸的滤波器对特征图像进行降采样得到第一个采样层(S2)的特征图像,S2层特征图的尺寸是Cl层的一半,由于降采样层采用最大池采样方法,提取出的特征信息更有代表性,而且增强了神经网络对于噪声和其他干扰的鲁棒性。即使图像存在噪声或者遮挡和残缺,在连续的特征提取和采样过程中这些干扰会逐渐降低。卷积神经网络一直重复卷积和降采样操作,一直到获取C5层,输入图像被降解为120个单像素大小的特征图像,将120个单像素大小特征图像与输出层的10个节点以全’1连接的方式相连,通过分类器将图像进行分类,得到最终的分类输出结果。卷积神经网络的架构可以通过很多方法加以改进,就像在多层前馈神经网络中,将误差函数增加一个惩罚项以使得训练后获取的权值参数趋于稀疏。在训练中引入竞争机制使神经网络在某些特定条件下只让少量神经元节点保持激活状态,大部分处于抑制状态等【341。本部分的主要工作是针对卷积神经网络架构中各层滤波器数量大小和层问连接方式对网络模型的训练过程和分类效果的影响。比较分析不同卷积层滤波器数量大小对于神经网络最终性能的影响。LeNet一5是针对手写数字识别而设计的卷积神经网络架构,对各层参数和连接方式进行了特别的设计135]。本节将以此网络模型为基础,去除它针对手写数字识别进行的特殊设计,构建一个参数和连接方式可调节的典型卷积神经网络。以此为基础,通过调节网络模型的各层滤波器数量参数和连接方式,构建若干不同的网络模型进行试验,对结果进行对比分析。输入c1‘623x28x282301:1Oxlo出输:3’16c5:120”…连接图3.1LcNet-5网络模型架构图本章采用基于LeNet一5改进的网络架构进行手写数字识别实验。输入层是尺寸统一为32X32大小的手写数字图像。第一个卷积层(C1)包含6个卷积特征图像,通过5X5大小的卷积窗口对图像进行卷积操作提取输入图像的内在特征,卷积操作后得到的每个特征图像尺寸大小为28x28。然后采用最大池降采样方法对C1层的6幅特征图像进行降采样操作得到6幅尺寸大小为14x14的特征图像。C3层是一个卷积层,将C3层卷积滤波器的尺寸大小设为5X5,C3和S2层之问通过如图3.2所示的方式进行连接。S4层是通过对C3层的特征图像进行降采样操作得到的。C5层是对S4层特征图像卷积操作得到,两层之间是用全连接的方式,即C5层每个卷积滤波器对S4层16个特征图像执行卷积,C5层得到120个单像素特征图像。通过以上各步骤以后图像被降解为单像素特征图像以进行分24类操作。C5层通过全连接的方式和最后一层输出层连接,输出层的十个节点代表手写数字图像的十种分类可能。输出结果是一个长度为10的一维向量,向量中的最大分量所对应的位置就是网络模型输出的最终分类结果。对于训练样本集的标签同样也采用这种编码方式。例如“0000010000“表示样本的分类结果是第五类,也就是样本被识别为数字5。0O11234567891011131415●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●2345●●●●●●●●●●●●●●●●●●●●图3.2LeNet.5网络模型c3和s2层连接示意图3.2.1卷积神经网络模型一(ConyNet一1)ConyNet一1的网络模型和LeNet一5基本相同,我们在以下方面做出了改进:1、LeNet-5中网络架构均采用双曲正切函数(tanh函数)作为所有节点的激励函数。在ConvNet.1的网络模型中我们使用sigmoid函数来替代tanh函数作为各层的激励函数,这使得神经网络中各层的输出值均处于[0,l】区间范围内,输出层的输出结果也在【0,1】区间范围。2、在这个网络模型中我们省略了全连接层(F6层)直接将C5层和输出层以全连接的方式进行连接,而不是像LeNet-5神经网络模型一样采用径向基函数连接方式。3、在神经网络训练过程中我们将学习速率设定在0.005,而不是LeNet-5模型使用的特殊学习速率。我们之所以做出以上改动是因为LeNet-5模型针对手写数字识别进行了特别的设计。网络中各参数的设定和图像预处理过程都是基于经验知识进行了特殊的处理。例如特殊学习速率的设定,双曲正切函数中参数的选择等等。如果将如果将该模型应用到其他对象的识别,参数的设定和图像预处理方式又需要通过较长时间的观察和调整,才能得到一组合适的参数和处理方式。这使得LeNet.5网络模型不能被快速的移植应用于不同对象的识别工作。3.2.2卷积神经网络模型二(ConyNet-2)在ConvNet.1网络模型的基础上进行改动构建ConvNet.2网络模型。C1层25特征图像的个数减少为4个,同样对Cl层降采样后得到的S2层特征图像数量也是4个。采用同样的方式将C3层和S4层的特征图像减少为11个,将C5的特征图像数量减少为80个,其余部分的构造方式保持不变。其中c3层和S2层之间采用下图所示连接方式。12573●)l24●●8●9●●6●●●●●●●0●●●●●●●●3●●●加●●●●图3_3ConyNet-2网络模型C3和S2层连接示意图图3.3所示连接方式和图3.2采用相同思想。如图3.3所示,C3层第0到5个卷积滤波器和S2层中2个特征图像相连接,共有6种可能的组合,这6个卷积滤波器对S2层其中2个特征图像隐藏的特征进行提取。C3层第6到9个卷积滤波器和S2层的3个特征图像相连接,提取S2层其中3个特征图像的潜在特征,C3层最后一个卷积滤波器和S2层所有的特征图像相连接。这样经过卷积操作后C3层的特征图像将包含s2层多个特征图像的所有可能组合,这使得网络模型有能力提取比S2层所包含的更加抽象的图像特征。同时相比S2层,C3层特征图像包含的潜在特征信息相对于输入图像有更好的位移,旋转,光照不变性。ConvNet-2网络模型与ConvNet.1相比在三个卷积层减少了卷积滤波器和对应的特征图像的数量,减少了网络模型需要训练的参数数量,但与此同时也使得网络模型能学习到的卷积滤波器数量减少,提取的图像特征信息也相应减少。3.2.3卷积神经网络模型三(ConyNet:-3)和ConvNet-2网络模型相反,ConvNet.3模型在ConvNet一1架构的基础上增加了网络模型中各层的卷积滤波器的个数。其中Cl层的滤波器数量增加到8个,C3层增加到24个,C5层增加到180个。采用与ConvNet-1同样的连接方式将C3和S2层之间的特征图像进行连接以确保提取出的主要特征来自相同的特征图像的组合。与ConvNet.1网络模型相比ConvNet-3增加更多的卷积滤波器和与之对应的特征图像,特征图像的数量是ConvNet-2网络模型的两倍以上,这也使26得网络需要训练的参数规模大大增加。3.3实验结果本部分采用了MNIST手写数字样本集中的一个子集,分别从其训练样本集和测试样本集随机抽取500个数据作为训练样本集,500个数据作为测试样本集。由此可以看出,和MNIST数据样本集包含的60000个训练样本相比,本章所采用的500个样本规模只占了其中很少的一部分,而且和网络模型中需要训练产生的大约4000至5000个参数相比,样本数据的数量显得相对偏少,这也使得本章所构建的网络模型最终训练得到的结果无法和LeNet一5网络模型所取得的0.95%[36]的误分类识别效果相比。但是本章的关注点在于卷积神经网络各网络层次中卷积滤波器的个数等结构参数对于神经系统识别性能产生的影响,特别是在很多情况下无法取得理想的训练样本数量,可供训练的数据比较少时去验证卷积神经网络的在训练和识别方面的性能。在实际实验的过程中,我们采用以上所述的卷积神经网络模型结构以及500个训练样本和500个测试样例本的数据规模,卷积神经网络在训练过程中经过13层次左右迭代取得收敛。整个训练过程通常要耗时3-4个小时左右。本章的实验共分4个部分,在随机选定的相同数据样本集上进行训练,采用的网络模型分别为LeNet一5、ConvNet.1、ConvNet-2和ConvNet一3,和LeNet-5网络模型相比我们简化了神经网络各层中采用的激励函数,并且采用的全连接的方式将最后卷积抽样得到的单像素图像和输出分类层连接。在本章构建的ConvNet.1、ConvNet.2和ConvNet一3这3个网络模型中,网络的深度都是一样的,不同的是模型中每一层设定的特征图像个数和连接方式。以卷积层C1层为例,ConyNet-1中的C1层包含6个特征图像,ConyNet-2中的Cl层包含4个特征图像,ConvNet.3中的Cl层包含8个特征图像。通过观察各个网络模型在实验过程中产生的误分类概率、线形图的变化以及网络收敛性能的变化比较分析不同网络模型的训练速率和对手写数字的识别性能。3.3.1LeNet-5网络模型的实验结果LeNet-5网络模型在训练过程中的误分类率,简称MCR(Misclassificationrate)如下图所示。27

MCR嘲|{。\‘\/i/\\——^\P—一二_jIteration_.....iiliii_|___。≥i图3.4LeNet-5网络模型在实验中的误分类曲线图其中横坐标表示的是网络训练过程中的迭代次数,纵坐标表示的是LeNet.5网络模型在训练过程中对MNIST手写数字样本集的误识别率。从上图中可以看出,在训练进行到第8次迭代以后,LeNet.5网络模型的误分类率达到最低值8%。虽然在后续训练过程中对误分类率有所降低,但在第9代之后有所上升,在11次迭代之后保持稳定状态。所以我们认为LeNet-5网络模型在第8次迭代之后网络训练收敛,取得最佳训练效果。表3.1中是一些常见的分类算法在MNIST手写数字数据识别问题上取得的最佳效果,可以看出LeNet-5在MNIST手写数字样本库上的识别效果是O.95%,和一些其他的常用分类方法比较在识别性能上有比较大的优势。LeNet-5网络模型是目前用于图像识别取得最好实验效果的算法之一。在本节实验中,LeNet一5网络模型的最低误识别率8%和表中LeNet-5取得的0.95%的识别率有很大差距,这是因为表3.1中的分类器在训练时都是采用整个MNIST训练集对分类器进行训练【3刀,训练样本集包含60000个手写数字样本,测试样本集包含10000个样本,庞大的数据规模保证了分类器的训练能取得很好的效果。但在很多实际分类问题中,很难获取到如此多的训练数据,这使得一些规模较大结构更复杂的网络模型不能得到充分的训练,网络模型可能处于欠拟合的状态。本文是通过随机选取其中500个训练样本,主要目的是用来对比分析在数据样本数量不够充分的条件下网络模型的学习能力和识别效果。<气f9穸3Pt二晕7哼6王孑p凭q,气5留?pS蜃灭哞8孑k飞6g9参a7o)玉了二7O、罩旁哩8图3.5LeNet-5网络模型最终误分类样本表3.1几种常用算法在MNIST数据集上的误分类效果p7】分类器单层感知线性分类器K近邻法多层感知器支持向量机LeNet.5网络模型3.3.2Conv预处理方式无无无抗扭曲无误分类率(%)11.84.622.851.390.95Net-1网络模型的实验结果ConvNet.1网络模型与LeNet.5网络模型的基本结构是相似的,主要的区别是它去除了LeNet.5针对手写字体识别所做的特殊设计,没有采用从长期经验中获取的参数,并且将最后一层卷积层和分类器直接采用全连接的方式相连,使网络模型的结构变得简单更有通用性。ConvNet.1网络模型在实验中的误分类曲线如图3.6所示。通过对比可以发现ConvNet.1网络模型在收敛后的误分类率比LeNet一5模型略高。MCRplol,O8\、、、口6O4}.2口2————\..——、、—————、’—、~101214O图3.6ConvNet-I网络模型在实验中的误分类曲线图同时,我们还可以看出,ConyNet-1网络模型在训练中的误分类曲线的变化比LcNct.5更加稳定,在第12次迭代训练后网络的误分类率下降到最低点10%,在以后训练周期中,误分类曲线没有太大的波动变化,网络模型在此时训练趋于稳定,达到收敛状态。从实验结果可以看出在去除LcNet一5网络模型中的经验参数,对网络架构进行简化之后,我们构建的ConvNet.1网络模型的识别性能和LcNet.5相比没有明显的降低。并且在训练中误分类曲线的变化更加稳定。<q9石?5,暑’号蠢孑5%76g垂3≮1鼋3缪0V∑_刁fl、70罩嘎勺罗≯q|?气∽?/4a匆夕怎9图3.73.3.3ConyConvNet.1网络模型最终误分类样本Net-2网络模型的实验结果在ConvNet-2网络模型训练过程中,训练在迭代到第8代开始收敛,此时对应的误分类值是11.2%。和ConvNet—l网络模型的训练结果对比可以看出,ConvNet-2网络模型的误识别率有小量的上升。但ConvNet-2在训练中收敛速度明显比ConvNet-1要快,ConvNet.2在第8次训练周期后就达到稳定状态,ConvNet.2要在第12次才能达到最佳状态。这是因为ConvNet.2网络模型各层的卷积滤波器数量的减少使得网络需要训练的权重参数相应减少,网络训练时间也随之减少。j囊ii誊j_i…MCR啦曩≥j…r。‘………‘’1…’……。……’‘…。…。…1‘。。。…。……‘r。‘。‘……‘…1‘‘…‘‘………一?…?……?-1il…—08O6O4O2O0≥i_:_2ii4-_6_ii。。Itetati赫㈨8j10一12t4一誊i图3.8ConyNet-2网络模型在实验中的误分类曲线图该实验的结果表明,减少卷积滤波器的数量以后,用同样数量的训练样本对网络进行训练,网络依然能很好的提取到输入图像的特征数据用于对图像进行分荚。这也使得网络参数规模减小,网络训练所需的时间减少,同时也提高了网络对其它分类问题的适用性。§S石々S87二Sb7Sa|I夕9叠叹6弩{o3’争D夕7,罩多事图3.93.3.4ConyConyLo彦9q≥t吩5刍气专,气己≯气名,厶q々a,Net-2网络模型最终误分类样本Net-3网络模型的实验结果ConvNet-3网络模型和ConvNet.1相比,网络中各层卷积滤波器个数增加了一倍,这也使得需要学习的网络模型的参数规模大幅增加。卷积滤波器的增加可以使网络学习到更多潜在特征,网络的特征提取能力得到增强,但同时网络的训练难度也随之增加,我们需要更多的样本数据去进行训练。从图3.10可以看出,在训练过程中,网络的误分类率曲线变化波动很大,非常不稳定。误分类率在第8代和第12代趋于收敛,随后又很快上升。图中结果显示ConvNet一3网络模型在500个训练样本条件下训练过程更难取得收敛,在12次迭代之后取得的17.6%的最低误分类率和ConvNet—l和ConvNet一2相比都要高。这是由于ConvNet.3网络模型各层的卷积滤波器个数过多,网络训练过程中需要学习的参数规模大大增加。和网络中需要学习的参数数量相比,我们所能提供的用于网络训练的样本规模不够充足,已经难以满足训练的要求。从卷积滤波器和图像特征角度考虑,过多的卷积滤波器数量,不够充分的训练样本数据使网络模型很难学习到图像的稳定特征,网络处于欠拟合状态,造成网络训练不能收敛,对图像的识别效果也更差。莲三婆三三董三三兰童三羔茎三jjj圭二三型本实验的结果表明在训练样本数据有限的条件下,增加网络模型中卷积滤波器的数量将使得需要学习的权重参数数量增加,这可能造成网络在训练的过程中难以达到稳定状态,网络的识别效果也会随之降低。3S67Lgt∥p9p各P-盘6q葛q75参气芎,色1宇S、i7夕S二,气飞罗石,夕气‘刍o%歹3≯73冬吠)多多争D夕?6℃嘎善多哆仅矿:嚏声辱乒气2,厶0'oq々a,%,r1震≯5∥4夕图3.1lConyNet.3网络模型最终误分类样本3.4实验结果对比分析通过对比以上各小节实验过程中得到的各网络模型训练数据,可以看出,在只有少量训练样本的情况下,也就是说训练样本的数量不够充分。ConyNet-1网络模型所能取得的识别性能和LeNet.5网络模型是相似的。在ConyNet.2网络模型中适当地减少各层卷积滤波器的个数,网络依然能够保持一定的识别率,而且网络的训练速度也更快。ConvNet-3网络模型在ConvNet.1的基础上在各隐层增加了一定数量的卷积滤波器,网络的识别性能降低,网络在训练过程中不能很好的取得收敛效果。表3-2四种网络模型的实验结果对比分类器LeNet.5ConvNet-1ConvNet-2COllVNet-3Cl6648C3161611C5120120误分类率(%)81011.217.6收敛周期81280180824不稳定本章实验中所采用的数据集中的训练样例只有500个,相对较少。如果训练

本文来源:https://www.bwwdw.com/article/msj7.html

Top