语音识别简介 

更新时间：2023-10-02 23:09:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

语音识别

索引

1. 2. 3. 4. 5. 6. 7. 8. 9.

语音识别的发展简史 ............................................................................................................................... 1 语音识别的发展趋势 ............................................................................................................................... 2 语音识别的系统类型 ............................................................................................................................... 4 语音识别的基元选择 ............................................................................................................................... 4 特征参数提取 ........................................................................................................................................... 5 语音识别系统性能评分标准 ................................................................................................................... 5 语音识别应用分类 ................................................................................................................................... 6 语音识别应用的特点 ............................................................................................................................... 6 面向具体任务的语音识别 ....................................................................................................................... 8

1. 语音识别的发展简史

语音识别研究从二十世纪50年代开始到现在已经历半个多世纪的蓬勃发展，在这期间获得了巨大的进展。这里仅仅按照一些重要方法的出现和发展为线索进行简要回顾。

50年代，研究人员大都致力于探索声学—语音学的基本概念。1952年AT& T Bell实验室实现了一个单一发音人孤立发音的十个英文数字的语音识别系统，方法主要是度量每个数字的元音音段的共振峰。1956年，RCA Lab 开展的一项独立研究也是试图识别单一发音人的10不同的音节，同样采用了度量共振峰的方法。1959年，英国University College的研究人员尝试用谱分析和模板匹配方法构建了一种音素识别器，用以识别4个元音和9个辅音。而MIT林肯实验室的研究人员则是构建一种非特定人的元音识别器，用于识别嵌在/b/-vowel+/t/语境中的10个元音。

60年代，相继出现并发表了语音识别的几个重要的思想。但是，伴随着这个年代的开始却是几个日本的实验室进入语音识别领域，并构建一些专用的硬件用于语音识别系统。东京Radio Research Lab首先构建了一个用硬件实现的元音识别器。语音信号经过精心制作的带通滤波器进行谱分析和通道输出谱加权处理后，用多数逻辑决策电路选择输入语音中元音的识别结果。1962年，东京大学进行了另一个音素识别器的硬件实现的尝试。它使用过零率方法分离语音信号的不同部分，并进行识别。1963年，日本NEC Lab对数字进行语音识别的尝试可以算得上最值得注意的工作，因为它不仅是NEC研究语音识别的开端，还导致一个长期的和卓有成效的研究计划。

在60年代中，三个研究项目的开展对其后20多年的语音识别研究和开发产生了重大影响。第一个研究项目在RCA Lab开始于60年代后期，目的是研究语音事件在时间刻度上不均匀性的现实解决办法。在能够可靠检测出语音事件的始末点的基础上，发展了一套时间归正的基本方法，显著降低了识别匹配评分的变化程度。几乎与此同时，前苏维埃的研究人员Vintsyuk提出使用动态规划来对齐两个不同长度的语音音段。尽管动态时间弯折(DTW)概念的实质和用于连接词识别的算法雏形已经包含在Vintsyuk的工作中，但直到80年代才在西方广为人知，并发扬光大。

60年代的最后一项成就是研究人员Reddy用动态跟踪音素的方法进行连续语音识别的开创性工作。Reddy的这项工作最终在CMU（他在60年后期加入CMU）培育出长期进行的并获极大成功的语音识别研究计划，在连续语音识别系统的研究方面至今仍然保持世界领先的水平。

70年代，语音识别研究取得了一系列具有里程碑意义的成就。首先，在模式识别思想、动态规划方法、线

性预测思想等基础研究的成功应用的支撑下，孤立词发音和孤立语句发音的识别成为了可行的有用技术。70年代的另一个里程碑是在IBM开始了一个长期持续的、卓有成效的大词汇量连续语音识别研究的集体努力。他们在20多年中研究了三项不同的工作，其中之一就是简单备忘录的听写系统Tangorn。在这期间，AT&T Bell Lab开展了一系列目的在于建立真正的非特定人语音识别系统的实验。研究提出了范围广泛的一类复杂的聚类算法，用于确定能够表示大量人群的不同词语的所有声学变化的不同模式的数量。这些研究经过10多年的精炼后，成为构建非特定人的模式聚类技术，现在已经得到充分理解并广泛应用。

继孤立词语识别成为70年代研究的主要焦点之后，连接词语识别的问题则是80年代研究的焦点。其目标是创建基于用由单个词的模式串接在一起进行匹配，并能识别由词汇串接组成的流畅话语的可靠系统。形式化并实现了大量连接词语音识别的算法，例如两层动态规划方法，一遍法，层建法，帧同步层建法。这些“优化”匹配处理的每一种方法都有它自己的实现优点，并对相当多的任务进行过探索研究。

语音识别研究在80年代的最大特点是从基于模板的方法向统计模型方法的转变，特别是转向研究隐马尔柯夫模型HMM的理论、方法和实现问题。虽然个别实验室（主要是IBM, Institute for Defense Analysis, Dragon Systems）对HMM的方法论早已非常熟知和充分理解，但直到80年代中期在HMM的理论和方法广泛发表以后，才使原本艰涩的HMM纯数学模型工程化，从而为更多研究者了解和认识，并被世界上几乎每一个从事语音识别的实验室所采用。

贯穿整个80年代，大词汇量连续语音识别系统研究受到了DARPA的有力推动。DARPA发起有关语音识别的巨大研究计划的目的是，对于1000条词汇的数据库管理任务的连续语音达到高的词汇识别精度。这方面的主要研究贡献产生于CMU, BBN, Lincoln Labs, SRI, MIT,AT&T Bell Lab.

90年代，语音识别研究的重点转向自然语言的识别处理，任务转移到航空旅行信息的索取。同时，语音识别技术不断应用于电话网络，增强话务员服务和自动化。

2000年以来，人机语音交互成为研究的焦点。研究重点包括即兴口语的识别和理解，自然口语对话，以及多语种的语音同声翻译。

中国的语音识别研究工作最早开始于中科院声学所。50年代后期，中科院声学所用频谱分析的方法研究了汉语10个元音的语音识别，到70年代后期，构建了基于模板匹配的孤立词语音识别系统。在80年代后期，主持研究了八五期间中科院人机语音对话研究项目。在此期间国内大专院校和研究所相继开始了语音识别研究。声学所、自动化所、北大、清华等研究机构在中国的语音识别研究的方向和内容等方面起了积极的催化和引导作用。

继“863”计划期间，汉语大词汇量语音识别—听写机技术成为研究的重点之后，汉语自然口语对话和语音翻译在“973”计划期间成为新的研究焦点。

2. 语音识别的发展趋势

语音识别技术经过全球半个多世纪的研究，目前已经发展到了接近实用的阶段。在实验室环境下，大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。在这样的水平基础上，语音识别技术开始尝试从实验室演示系统走向实用化商品。以IBM Via Voice和Dragon Dictation为代表的几个听写机系统的出现使“语音识别”一时声名远扬，引起了社会的广泛关注。一些人认为这些系统基本可以使用，但由于校对和更正识别的错误还很麻烦和浪费时间，降低了语音识别的便捷优势。也有人因为听写的正确识别率受到识别的内容，使用的环境或讲话习惯口音等因素的影响大大降低，认为目前的语音识别系统还无法满足实用要求。AT&T和MIT等将语音识别技术应用在一些有限词汇的特定任务上，如电话自动转接、电话查询、数字串识别。在这些识别任务中，当讲话的内容是系统所期待的，使用环境的声学特性与训练数据的声学特性相差不太大时，语音识别的正确识别率可以相当接近100%。不过在实际应用中当这些前提条件被破坏时，对可用性也会产生一定的影响。人们还试图在手持设备上应用语音识别技术，目前这种应用主要受到计算平台的性能和价格的制约。换言之，语音识别技术要进入成熟的商业运用还有一段艰难的路程，还必须在很多方面取得突破性进展。

1.提高可靠性。

一方面，语音识别技术需要能排除各种声学环境因素的影响。在公共场合，人能够有意识地摒弃环境噪声并从中获取自己所需要的特定声音，但几乎不可能指望计算机能听懂你的话。来自四面八方的环境噪声和背景话音，让它茫然而不知所措，极大地限制了语音识别技术的应用范围，目前，要在嘈杂环境中使用语音识别技术必须有特殊的抗噪(Noise Cancellation) 麦克风才能进行，这对多数用户来说是不现实的。另一方面，在日常生活中人们说话有较大的随意性（Spontaneous），常常不经过特殊准备，并带有明显的言语习惯，例如，说话时带有地方口音、重复、更正、插入、犹豫、停顿、咳嗽、咂嘴、不受语法限制等。相对于在讲话方式和讲话内容都经过特殊准备的符合语法规则的流畅的标准“朗读式语音”而言的，这种自然口语语音的识别要困难得多。提高可靠性的目的是当使用环境的声学特性与训练语音的收集环境的声学特性不一致或用户的言语方式与训练语音的言语方式不一致时，语音识别系统性能的下降不会太大。

2.增加词汇量。

系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。如果语音识别系统使用的声学模型和语音模型太过于局限，当用户所讲的词汇超出系统已知的范围，或突然从中文转为英文、法文、俄文，计算机就会常常输出混乱奇怪的结果。随着系统建模方法的改进、搜索算法效率的提高和硬件资源的发展，将来的语音识别系统可能会做到词汇量无限制和多种语言混合，用户在使用时可以不必在语种之间来回切换，不受或少受词汇量的限制。

3.应用拓展。

语音识别是一种赋能技术，现有的很多人机交互界面都可能通过补充语音识别功能而得到改善，还可以塑造或创造一批新的机器和新的信息服务行业进入人的生活。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事，在许多“手忙”、“手不能用”、“手所不能及”，“懒得动手”的场景中，包括象驾驶室、一些危险的工业场合、远距离自动信息获取、家电控制等方面，语音识别技术可能带动一系列崭新或更便捷功能的设备出现，更加方便人的工作和生活。

由于知识层次和知识领域的差异，现实生活中有相当一部分人很难得到现代化生活可能给带来的便利，包括信息服务和其他各类先进设备可提供的帮助。语音识别技术有助于改善这种情况，使社会各个阶层更多的人享受到更多的社会信息资源和现代化服务，提高整个社会的信息化程度和现代化程度。计算机通信技术的发展，使互联网在信息聚集和传播方面成为很先进社会基础设施，但由于使用手段的限制，还有相当多的人或在相当多的场合还无法广泛普及使用。有线固定电话和无线移动电话网络的应用虽然已经广泛普及到几乎社会所有阶层，但电话网络现在的最主要的功能还是话音通信。如果将两者结合，用电话网络作为互联网的语音入口，用语音识别作为人与网上信息交互的便捷工具，则可以在相当大的范围，使人们享受到更多的社会信息资源和现代化服务，促进社会的进步。例如，用电话与信息代理机器交谈，随时得到天气、娱乐、旅行、学习的日常生活信息，了解政府的各种政策法规等等。

将语音识别与语言理解、文字翻译、语音合成进行系统创新集成的语音同声翻译技术，可以用于突破不同语种的人说话交流的语言壁垒。

4.降低成本减小体积。

降低成本是任何技术商业化的重要前提，一般的途径是通过规模生产来摊薄成本。目前降低语音识别技术成本的主要困难在于这项技术仍然处在逐步改进的过程中，对于多数要求较高的功能和性能的应用，往往都带有量身定制的特点，规模生产定型产品的条件尚不成熟。只有在功能和性能非常有限的语音识别应用方面，可以规模生产一些低成本产品，但这些产品的应用常常又受到功能和性能瓶颈的限制。微型化是语音识别技术商业应用的另一个重要途径，这取决于语音识别技术本身进步的程度，也和微电子芯片技术的进一步发展关系密切。将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上，大幅度降低产品成本，是语音识别技术真正进入大规模应用的重要条件。

21世纪是信息和网络的时代，Internet、宽带IP网、公用电话网、移动电话网把全球各地连接起来，巨大的信息资源能够通过网络在短暂时间内迅速扩散到全球范围，几乎所有人与机器进行信息交互相关的需求和服务，例如自然口语对话、信息索取、电子商务、数字图书馆、远程教育、语音翻译等，都可能会在网络上实现。语音识别技术研究和应用的重要发展趋势是，让人在任何地方，任何时间，对任何事都能够通过语音交互的方

式，更加方便地享受到更多的社会信息资源和现代化服务。人类将越来越多地体验到语音识别技术可能的便捷优点。

3. 语音识别的系统类型

语音识别技术常常根据各种使用限制建构成为不同类型的系统。 1. 限制用户的说话方式

按照语音识别系统对用户说话方式的限制，可以分为孤立词语音识别系统、连续语音识别系统、即兴口语语音识别系统。

1）孤立词语音识别系统（isolate-word speech recognition system）是指用户在对系统说话时，相邻的词汇之间的发音要有明显停顿，在这种发音方式下，词汇之间语音信号的声学特征基本不受下文的影响，词汇在语音信号中的起始点和结束点的检测比较容易，系统实现难度较低。

2）连接词语音识别（connected-words speech recognition）是指中小规模词汇但用词汇本身作为识别基本单元的连续语音识别系统。

3）连续语音识别系统（continue speech recognition system）是指中大规模词汇但用子词作为识别基本单元的连续语音识别系统。

连接词语音识别系统和连续语音识别系统的共同点是，人在说话时，音流中相邻的词汇之间的发音没有停顿，词汇之间语音信号的声学特征、语调和韵律都受到强烈的下文影响，词汇在语音信号中的起始点和结束点的检测非常困难，系统实现难度较大。

4）即兴口语语音识别系统(spontaneous speech recognition system) 是指用户使用随意的、至少没有在讲话方式上经过特殊准备的语言与系统对话。“即兴口语语音”是相对“朗读式语音”而言的，朗读式语音指符合语法规则的、流畅的，在讲话方式和讲话内容都经过特殊准备的语言，这种语音是以往大多数连续语音识别系统所假设的用户输入方式。即兴口语语音同连续朗读式语音相比有许多不同的特性，它通常是不流畅的，包含许多随机事件，如语音重入、语音更正、语音插入、犹豫、停顿、咳嗽、咂嘴声等，这些特性使得自然口语语音的识别要比朗读式语音识别困难得多。

2. 限制用户的用词范围

根据系统所拥有的词汇量大小，可以分为： ? ?

小词汇量、中等词汇量（电话拨号、命令控制）；大词汇量以及无限词汇量语音识别系统（听说场合）

小词汇量、中等词汇量的识别系统主要用于语音控制系统，例如电话拨号，命令控制等。大词汇量以及无限词汇量语音识别系统可以用在更一般化的场合，如听写等。

3. 限制系统的用户对象

根据系统对用户的依赖程度可以分为特定人和非特定人语音识别系统。

特定人系统可以是个人专用系统或特定群体系统，如特定性别、特定年龄、特定口音等。

4. 语音识别的基元选择

语音识别的基元的主要任务是在不考虑说话人试图传达的信息内容的情况下，将声学信号表示为若干个具有区别性的离散符号。可以充当语音识别基元的单位可以是词句、音节、音素或更小的单位，具体选择什么样的基元，经常受识别任务的具体要求和设计者的知识背景影响。一般来说，词句基元广泛应用于中小词汇量语音识别系统，但不适合大词汇量系统，原因在于词句做基元时，大词汇量系统的模型库太庞大，要求庞大的训练数据，识别匹配计算复杂度高，难以满足实时性要求。音节基元在其它语种，例如英语中也有应用，但多见于汉语语音识别，主要因为汉语是单音节结构的语言，音节数目比较有限，大约1300个带调音节，但若不考虑声调，约有408个无调音节。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可

行的。音素基元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母（包括零声母有22个）和韵母（共有28个）构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。

关于基元颗粒度的确定，主要需要权衡基元的数目和基元声学特性的稳定性。基元的颗粒度大，基元声学稳定性高，但需要的数据量大，匹配的计算复杂度也大。相反，颗粒度小，计算复杂度和训练数据量要求相对较小，但基元声学稳定性受协同发音的影响很大，不利于提高识别性能。选取颗粒度合适的基元，也是有待深入研究的课题。（基元颗粒度越小，计算度底当不稳定，识别准确率低）

5. 特征参数提取

特征参数提取的目的是对语音信号进行分析处理，从而突出所载荷的语言声音信息的特征，尽可能抑制与语言声音信息无关的特征，同时压缩特征的数据量。语音识别系统主要提取以短时谱为基础的各种表征，最为成功的典型特征包括：线性预测倒谱系数LPCEPSTRA和美倒谱系数MFCC。

LP谱：表示的技术基础是语音信号产生的声源—滤波器理论。在这种理论框架下，语言声音信息主要由声道滤波器的传输函数来载荷，并且可以通过线性预测的方法从语音信号本身获取声道滤波器的传输函数。

美谱：表示的核心思想是把人的听觉系统对频率感知的非线性特征用于语音识别特征中。具体地说，在1千赫兹以下的低频段，人耳对频率感知是线性的；在1千赫兹以上频段，人耳对频率感知呈现对数非线性的。

LP谱或美谱经过倒谱变换成为倒谱系数，使得倒谱系数之间的相关性进一步降低。这样提取的倒谱系数在HMM模型中可以使协方差矩阵简化为对角矩阵，从而减小计算代价。

6. 语音识别系统性能评分标准

为了确定哪些任务能用语音识别系统来完成，了解针对语音识别系统的实验室评分标准是值得的。表5-1给出了很大一类语音识别系统的性能评分，它们都是在实验室环境中（如高质量麦克风、低环境噪声）得到的。表中分别针对多种识别方式，例如，特定技术、特定任务，特定任务语法、特定模式、特定词汇表，给出了语音识别系统的单词错误率性能（用“％”表示）。

表5-1语音识别系统的性能评分技术孤立词

任务

句法

模式话者相关SD 话者无关SI

词库

10个数字 39个字母

1109个基本英语词 10个数字 39个字母 129个航班词

连接词

数字串航班订票

长度已知数字串有限状态网络（困惑度=4）

流畅语音

从表中可以看出，对于适合用孤立词识别的任务，在不考虑任务内容和语法限制的情况下，特定说话人（SD）