语音阅读算法_语音识别技术的基本方法

⑴ 语音朗读软件的好坏取决于什么

语音朗读软件的好坏取决于其采用的算法及配套的语音库。
企业级的语音朗读软件如Interphonic一般采用大语料库，这样朗读的效果是最好的。
个人、家庭、普通办公单位使用播音王2008系列软件（淘宝上有售），采用Vivivoice技术，是通过对小语料库进行特征提取，然后用算法进行模拟和语音合成，音色多，效果也很好。
以上两种都是科大讯飞公司自主产权的世界领先的语音合成技术。

⑵ 手机语音识别并且转化为文字的技术原理是什么，请简单说下

不管是微软家的Cortana、三星家的S-voice苹果家的Siri，还是国内一些独立做语音辨认的比方讯飞、Rokid，在原理在实质上没有几差别：就是语音输入后，停止特征提取，将提取的特征值放进模型库里，再不时地停止锻炼和匹配，最终解码得到结果。

假如要细说的话就比拟复杂了，比方模型库中又分为声学模型和言语模型。其中言语模型是依据不同品种的言语，对词串停止统计建模，目前普遍采用的是基于(n-1)阶马尔可夫链统计的n元语法模型。
这里细致说下声学建模吧。首先经过前端特征提取取得声学特征，再进一步对声学特征停止统计建模。建模运用到的贝叶斯统计建模框架，也就是最大后验概率决策原则。这里算法这种深奥的东西就不说了，除非深度开发，否则直接套用就行了，我本人也是博古通今，还是念书的时分学的。
说说提取声学特征该如何完成：当语音输入之后，首先停止模电转换，将模仿信号转变为数字信号，再停止静音切除去掉无关噪音，然后停止分帧。将此时的信号分红一帧一帧之后（每一帧并不是独立存在的而是相互关联的），还要停止一系列的信号处置，包括预加重、加窗之后，再停止FFT变换之后，再经过Mel参数的滤波和取对数、离散余弦变换等一系列算法处置后，能够停止用梅尔频率倒谱系数（MFCC）停止特征提取，得到声学特征。
觉得越说越复杂了……后面简单点说吧。前面说了言语模型，而声学模型就是将声学特征统计建模后得到的。得到了模型库之后就能够停止模型锻炼和形式匹配了。
所谓模型锻炼就是指依照一定的原则，从大量已知语音形式中获取一个最具特征的模型参数。而形式匹配则相反，是依据一定原则，将未知语音形式与模型库中的某一个模型取得最佳匹配。
最后的解码过程又能够分红动态解码网络和静态解码网络两种：动态网络会编译一个状态网络并构成搜索空间，把单词转换成一个个的音素后将其依照语序拆分红状态序列，再依据音素上下文分歧性准绳将状态序列停止衔接。

而静态网络普通是针对一些特殊词（孤立词）的辨认网络，它的构造就简单多了：先将每条特殊词扩展成HMM状态序列，然后再计算得分，选择得分最大的作为辨认输出结果。由于静态网络是依据声学概率计算权重，不需求查询言语模型概率，因而解码速度很快。
这样的一个流程大致上就是语音辨认技术的主要原理。
最后再说点题外话吧，语音辨认技术其实应用以及很普遍了，比方在北美很多企业的电话自动效劳都会用到，只需用户直接说出想要的命令，就能够自动查询到需求的效劳，不需求像过去那样按键。手机应用里运用语音辨认技术比方微信的声音锁，讯飞、搜狗语音输入等等很多就不说了，而个人最看好的是声控语音拨号系统、家用机器人、智能家电等范畴，以语音交流的方式取代过去的传统人机互动。国内在这个范畴的语音辨认尝试也是相当多的，比方Rokid这样能够语音辨认命令还具有深度学习才能的家用机器人，能够自动播放视频、音乐，以至以后能够语音对话机器人叫个饿了么外卖，叫个滴滴出行等等。我今年夏天去参观过他们的语音辨认开发部门，他们用的是本人独立开发的一套流程在跑，整个语音模型库也是依据中国人发音习气（连读、口音）做的。当时测试的产品辨认度挺冷艳的，有种真正在人机交互的觉得，等于经过这个机器人接入口来控制其他电子产品，令人耳目一新。

⑶ 语音识别的原理是什么

目前，主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成
信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征，供声学模型处理。同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。语言模型。语言模型对系统所针对的语言进行建模。理论上，包括正则语言，上下文无关文法在内的各种语言模型都可以作为语言模型，但目前各种系统普遍采用的还是基于统计的N元文法及其变体。解码器。解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。从数学角度可以更加清楚的了解上述模块之间的关系。首先，统计语音识别的最基本问题是，给定输入信号或特征序列，符号集（词典），求解符号串使得：
W = argmaxP(W | O) 通过贝叶斯公式，上式可以改写为
由于对于确定的输入串O，P(O)是确定的，因此省略它并不会影响上式的最终结果，因此，一般来说语音识别所讨论的问题可以用下面的公式来表示，可以将它称为语音识别的基本公式。 W = argmaxP(O | W)P(W)
从这个角度来看，信号处理模块提供了对输入信号的预处理，也就是说，提供了从采集的语音信号(记为S)到特征序列O的映射。而声学模型本身定义了一些更具推广性的声学建模单元，并且提供了在给定输入特征下，估计P(O | uk)的方法。
为了将声学模型建模单元串映射到符号集，就需要发音词典发挥作用。它实际上定义了映射的映射。为了表示方便，也可以定义一个由到U的全集的笛卡尔积，而发音词典则是这个笛卡尔积的一个子集。并且有：
最后，语言模型则提供了P(W)。这样，基本公式就可以更加具体的写成：
对于解码器来说，就是要在由,,ui以及时间标度t张成的搜索空间中，找到上式所指明的W。
语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来，语音识别技术取得显着进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

⑷ 语音识别的准确率可以达到100%吗有何依据

如今这个时代，在中国几乎是人人手上都有一部智能手机，这种小巧的电子产品正在潜移默化地改变人们的生活方式和工作方式。作为智能手机的典型特征之一，语音识别是必不可少的。这是一项在人与机器之前搭起沟通桥梁的技术，没有了它我们便无法通过手机将语音转成文字，也无法通过语音与智能语音助手对话。

当然我们不能忽略了机器学习的特点，那就是通过大量训练来将自己的能力趋于完善，目前各大公司都在进行大量的语音识别训练，可以预见的是准确率会越来越高。

⑸ 语音识别技术的基本方法

一般来说,语音识别的方法有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。该方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模型及语音知识过于复杂，现阶段没有达到实用的阶段。
通常认为常用语言中有有限个不同的语音基元，而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现：
第一步，分段和标号
把语音信号按时间分成离散的段，每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号
第二步，得到词序列
根据第一步所得语音标号序列得到一个语音基元网格，从词典得到有效的词序列，也可结合句子的文法和语义同时进行。模板匹配的方法发展比较成熟，目前已达到了实用阶段。在模板匹配方法中，要经过四个步骤：特征提取、模板训练、模板分类、判决。常用的技术有三种：动态时间规整(DTW)、隐马尔可夫（HMM）理论、矢量量化（VQ）技术。
1、动态时间规整(DTW)
语音信号的端点检测是进行语音识别中的一个基本步骤，它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置，从语音信号中排除无声段。在早期，进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60年代日本学者Itakura提出了动态时间规整算法(DTW：DynamicTimeWarping)。算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中，未知单词的时间轴要不均匀地扭曲或弯折，以使其特征与模型特征对正。
2、隐马尔可夫法(HMM)
隐马尔可夫法(HMM)是70年代引入语音识别理论的，它的出现使得自然语音识别系统取得了实质性的突破。HMM方法现已成为语音识别的主流技术，目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。
3、矢量量化(VQ)
矢量量化(VectorQuantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是：将语音信号波形的k个样点的每一帧，或有k个参数的每一参数帧，构成k维空间中的一个矢量，然后对矢量进行量化。量化时，将k维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量，实现最大可能的平均信噪比。
核心思想可以这样理解：如果一个码书是为某一特定的信源而优化设计的，那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真，也就是说编码器本身存在区分能力。
在实际的应用过程中，人们还研究了多种降低复杂度的方法，这些方法大致可以分为两类：无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点，目前仍处于实验探索阶段。
由于ANN不能很好的描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别。

⑹ 语音识别科大讯飞语音识别正确处理符号

我记得以前看过一个电影，男主角家里的开关什么的好像用的就是语音识别，很神奇的

⑺ TTS语音是什么意思

[编辑本段]TTS概述

TTS是Text To Speech的缩写，即“从文本到语音”。它是同时运用语言学和心理学的杰出之作，在内置芯片的支持之下，通过神经网络的设计，把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换，转换时间之短可以秒计算。在其特有智能语音控制器作用下，文本输出的语音音律流畅，使得听者在听取信息时感觉自然，毫无机器语音输出的冷漠与生涩感。TTS语音合成技术即将覆盖国标一、二级汉字，具有英文接口，自动识别中、英文，支持中英文混读。所有声音采用真人普通话为标准发音，实现了120-150个汉字/秒的快速语音合成，朗读速度达3-4个汉字/秒，使用户可以听到清晰悦耳的音质和连贯流畅的语调。现在有少部分MP3随身听具有了TTS功能。
TTS是语音合成应用的一种，它将储存于电脑中的文件，如帮助文件或者网页，转换成自然语音输出。TTS可以帮助有视觉障碍的人阅读计算机上的信息，或者只是简单的用来增加文本文档的可读性。现在的TTL应用包括语音驱动的邮件以及声音敏感系统。TTS经常与声音识别程序一起使用。现在有很多TTS的产品，包括Read Please 2000， Proverbe Speech Unit，以及Next Up Technology的TextAloud。朗讯、 Elan、以及 AT&T都有自己的语音合成产品。
除了TTS软件之外，很多商家还提供硬件产品，其中包括以色列WizCom Technologies公司的 Quick Link Pen，它是一个笔状的可以扫描也可以阅读文字的设备；还有Ostrich Software公司的Road Runner，一个手持的可以阅读ASCII文本的设备；另外还有美国DEC公司的DecTalk TTS，它是可以替代声卡的外部硬件设备，它包含一个内部软件设备，可以与个人电脑自己的声卡协同工作。
[编辑本段]TTS解析
TTS文语转换用途很广，包括电子邮件的阅读、IVR系统的语音提示等等，目前IVR系统已广泛应用于各个行业（如电信、交通运输等）。
TTS所用的关键技术就是语音合成(SpeechSynthesis)。早期的TTS一般采用专用的芯片实现，如德州仪器公司的TMS50C10/TMS50C57、飞利浦的PH84H36等，但主要用在家用电器或儿童玩具中。
而基于微机应用的TTS一般用纯软件实现，主要包括以下几部分：
●文本分析-对输入文本进行语言学分析，逐句进行词汇的、语法的和语义的分析，以确定句子的低层结构和每个字的音素的组成，包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等。
●语音合成-把处理好的文本所对应的单字或短语从语音合成库中提取，把语言学描述转化成言语波形。
●韵律处理-合成音质(Qualityof Synthetic Speech)是指语音合成系统所输出的语音的质量，一般从清晰度(或可懂度)、自然度和连贯性等方面进行主观评价。清晰度是正确听辨有意义词语的百分率；自然度用来评价合成语音音质是否接近人说话的声音，合成词语的语调是否自然；连贯性用来评价合成语句是否流畅。
要合成出高质量的语音，所采用的算法是极为复杂的，因此对机器的要求也非常高。算法的复杂度决定了目前微机并发进行多通道TTS的系统容量。
TTS在CTI的应用中的基本构架
在一般的CTI应用系统中，都会有IVR（交互式语音应答系统）。IVR系统是呼叫中心的重要组成部分，通过IVR系统，用户可以利用音频按健电话输入信息，从系统中获得预先录制的数字或合成语音信息。具有TTS功能的IVR可以加快服务速度，节约服务成本，使IVR为呼叫者提供7*24小时的服务。
目前常见的IVR系统大都是通用的工控机平台上插入语音板卡组成，并支持中文语音合成TTS等技术。
一个典型的包含TTS服务的电话服务流程可分为：
用户电话拨入，系统IVR响应，获得用户按键等信息。
IVR根据用户的按键信息，向数据库服务器申请相关数据。
数据库服务器返回文本数据给IVR。
IVR通过其TCP通讯接口，将需要合成的文本信息发送给TTS服务器。
TTS服务器将用户文本合成的语音数据分段通过TCP通讯接口发送给IVR服务器。
IVR服务器把分段语音数据组装成为独立的语音文件。
IVR播放相应的语音文件给电话用户。
一般的公网接入（IVR）大都采用工控机+语音板卡，而合成的语音数据则通过局域网传给IVR。这种结构只适用于简单的应用场合。

⑻ 语音识别算法请教。

通过google找到一篇清华的论文，应该对你有帮助：http://cst.cs.tsinghua.e.cn/~fzheng/THESES/200204-D-WF.pdf其中介绍到的MFCC应该是现在比较实用的特征提取方法。

⑼ TTS的TTS解析

TTS文语转换用途很广，包括电子邮件的阅读、IVR系统的语音提示等等，目前IVR系统已广泛应用于各个行业（如电信、交通运输等）。
TTS所用的关键技术就是语音合成(SpeechSynthesis)。早期的TTS一般采用专用的芯片实现，如德州仪器公司的TMS50C10/TMS50C57、飞利浦的PH84H36等，但主要用在家用电器或儿童玩具中。
而基于微机应用的TTS一般用纯软件实现，主要包括以下几部分：
●文本分析-对输入文本进行语言学分析，逐句进行词汇的、语法的和语义的分析，以确定句子的低层结构和每个字的音素的组成，包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等。
●语音合成-把处理好的文本所对应的单字或短语从语音合成库中提取，把语言学描述转化成言语波形。
●韵律处理-合成音质(Qualityof Synthetic Speech)是指语音合成系统所输出的语音的质量，一般从清晰度(或可懂度)、自然度和连贯性等方面进行主观评价。清晰度是正确听辨有意义词语的百分率；自然度用来评价合成语音音质是否接近人说话的声音，合成词语的语调是否自然；连贯性用来评价合成语句是否流畅。
要合成出高质量的语音，所采用的算法是极为复杂的，因此对机器的要求也非常高。算法的复杂度决定了目前微机并发进行多通道TTS的系统容量。
除了TTS软件之外，很多商家还提供硬件产品，其中包括以色列WizCom Technologies公司的 Quick Link Pen，它是一个笔状的可以扫描也可以阅读文字的设备；还有Ostrich Software公司的Road Runner，一个手持的可以阅读ASCII文本的设备；另外还有美国DEC公司的DecTalk TTS，它是可以替代声卡的外部硬件设备，它包含一个内部软件设备，可以与个人电脑自己的声卡协同工作。
TTS在CTI的应用中的基本构架
在一般的CTI应用系统中，都会有IVR（交互式语音应答系统）。IVR系统是呼叫中心的重要组成部分，通过IVR系统，用户可以利用音频按健电话输入信息，从系统中获得预先录制的数字或合成语音信息。具有TTS功能的IVR可以加快服务速度，节约服务成本，使IVR为呼叫者提供7*24小时的服务。
目前常见的IVR系统大都是通用的工控机平台上插入语音板卡组成，并支持中文语音合成TTS等技术。
一个典型的包含TTS服务的电话服务流程可分为：
用户电话拨入，系统IVR响应，获得用户按键等信息。
IVR根据用户的按键信息，向数据库服务器申请相关数据。
数据库服务器返回文本数据给IVR。
IVR通过其TCP通讯接口，将需要合成的文本信息发送给TTS服务器。
TTS服务器将用户文本合成的语音数据分段通过TCP通讯接口发送给IVR服务器。
IVR服务器把分段语音数据组装成为独立的语音文件。
IVR播放相应的语音文件给电话用户。
一般的公网接入（IVR）大都采用工控机+语音板卡，而合成的语音数据则通过局域网传给IVR。这种结构只适用于简单的应用场合。

⑽ 谁知道语音识别这方面的知识！！！

高性能汉语数码语音识别算法

李虎生刘加刘润生

摘要：提出了一个高性能的汉语数码语音识别(MDSR)系统。 MDSR系统使用Mel频标倒谱系数(MFCC)作为主要的语音特征参数，同时提取共振峰轨迹和鼻音特征以区分一些易混语音对，并提出一个基于语音特征的实时端点检测算法，以减少系统资源需求，提高抗干扰能力。采用了两级识别框架来提高语音的区分能力，其中第一级识别用于确定识别候选结果，第二级识别用于区分易混语音对。由于采用了以上改进， MDSR系统识别率达到了98.8%.
关键词：汉语; 数码语音识别
分类号：TN 912.34 文献标识码：A
文章编号：1000-0054(2000)01-0032-03

High performance digit mandarin
speech recognition

LI Husheng LIU Jia LIU Runsheng
(Department of Electronic Engineering,Tsinghua University, Beijing 100084, China)

Abstract：High-performance mandarin digit speech recognition (MDSR) system is developed using MFCC (mel frequency cepstrum coefficient) as the main parameter identifying the speech patterns. The formant trajectory and the nasal feature are extracted to identify confused words. A feature-based, real-time endpoint detection algorithm is proposed to rece the system resource requirements and to improve the disturbance-proof ability. A two-stage recognition frame enhances discrimination by identifying candidate words in the first stage and confused word pairs in the second stage. These improvements result in a correct recognition rate of 98.8%.
Key words：mandarin；digit speech recognition▲

汉语数码语音识别 (mandarin digit speech recognition, MDSR) 是语音识别领域中一个具有广泛应用背景的分支，它的任务是识别“0”到“9”等10个非特定人汉语数码语音，在电话语音拨号、工业监控、家电遥控等领域有着极大的应用价值〔1〕。但与英语数码语音识别相比， MDSR的性能尚未达到成熟应用水平，这是因为 1) 汉语数码语音的混淆程度较高； 2) 汉语是一个多方言语种，说话人会带有或多或少的地方口音； 3) 在许多应用背景中，MDSR需要在运算和存储资源都较为紧张的数字信号处理器(digital signal processor, DSP)系统上实现，这为MDSR算法的设计带来了很大的限制。由于以上原因，MDSR是一项相当困难的任务。
针对汉语数码语音识别提出了一系列高性能的算法，使MDSR识别率达到了98.8%。由这些算法构成的识别系统框图如图1所示。
MDSR系统〔1〕提取的语音特征参数包括用于识别的参数和用于端点检测的参数。

图1 MDSR系统框图

1 语音前端处理

语音前端处理包括语音特征提取和端点检测两部分。

1.1 语音特征提取
1.1.1 基本识别参数
目前常用的语音识别参数有基于线性预测编码(LPC)的线性预测倒谱系数(LPCC)和基于Mel频标的倒谱系数(MFCC)〔2〕。实验证明，采用MFCC参数时系统识别率高于采用LPCC参数。因此本文的基本识别参数采用MFCC参数及一阶差分MFCC参数。

1.1.2 共振峰轨迹
在MDSR中，易混淆语音“2”和“8”可以由其第2，3共振峰的变化趋势区分开〔3〕。因此可将共振峰轨迹作为识别参数之一，并选用峰值选取算法来提取共振峰轨迹〔3〕。

1.1.3 鼻音特征参数
汉语数码语音中，“0”的元音具有鼻音的特征，而“0”容易与具有非鼻化元音的“6”混淆，因此鼻音特征可用于提高“0”的识别率。鼻音的特征包括〔4〕：
1) 鼻音在频谱低端(约0.25kHz左右)有1个较强的共振峰。
2) 鼻音在中频段(约0.8～2.3kHz)的能量分布较为均匀，没有明显的峰或谷。
采用以下2个参数表征鼻音的特征：
1) 低频能量比：

(1)

其中fn为鼻音低频共振峰频率， B为鼻音低频共振峰带宽。Fk为对语音作快速Fourior变换(FFT)后第k个频率点的能量，〔f1，f2〕则为语音“6”能量集中的频带。
2) 频谱质心：

(2)

其中〔fL,fH〕为0.8～2.3kHz的中频段。由于MDSR系统采用的基本识别参数为MFCC参数，其计算过程中需要作FFT，所以低频能量比和频谱质心两个参数可以顺带算出，不会影响特征提取的实时完成。

1.2 端点检测
本文提出了基于语音特征的实时端点检测算法(feature-based real-time endpoint detection, FRED)，充分利用汉语数码语音的特点，在实时提取特征参数后完成端点检测，检测到的端点只精确到帧的量级。
根据语音学知识〔4〕， MDSR中各类语音的频谱特点如表1

表1 汉语数码语音频谱特点

频谱特征
浊音元音低频(0.1至0.4kHz间)能量较高；中频(0.64至2.8kHz)能量较高
浊辅音低频(0.1至0.4kHz间)能量较高；中频(0.64至2.8kHz)能量较低
清辅音高频(3.5kHz以上)能量较高

采用3个频谱能量分布参数｛R1，R2，R3｝分别反应频谱高频、低频和中频的分布特征。其定义如下：
(3)
(4)

其中： i表示第i帧， N为语音帧长，也即FFT点数， Fk为对语音帧作FFT后各频率点能量， T为语音的总帧数，式(3)，(4) 中求和号的上下限由表1中相应频率范围确定，当N为256，采样频率为实验所用语音库的11kHz时， f0＝81， f1＝9， f2 ＝2， f3＝65， f4＝15.由于进行了能量归一化，所以上述特征与语音的强度是无关的。由于计算MFCC参数时需要作FFT，因此频谱能量分布参数可以顺带算出。此外，用于端点检测的参数还包括短时能量参数E0(i)〔5〕.
由以上参数， FRED算法过程为：
1) 根据采入信号首尾两帧确定能量阈值；
2) 根据参数R2确定语音浊音段；
3) 根据参数R1与E0向浊音段两端扩展式搜索语音起始帧；
4) 根据参数R3确定元音段。
FRED算法的特点是：
1) 利用了语音的本质特征进行端点检测，能够很好地适应环境的变化和干扰，实验证明FRED算法可以有效地提高识别率； 2) 将语音端点定在帧的量级上，保证了特征参数在采样时实时提取，节省了系统运行时间，大大减少了系统所需的存储量； 3) 能够准确地确定语音的元音段，从而将辅音与元音分割开，有利于对语音局部特征的辨识。

2 识别算法

实验表明， MDSR的识别错误集中在少数几对易混语音中〔1〕，因此本文采用了两极识别框架，即第一级完成对识别结果的初步确定，第二级完成对易混淆语音的进一步辨识。

2.1 第一级识别
在第一级识别中采用的基本方法为离散隐含Malkov模型(DHMM)算法〔5〕，用Viterbi算法〔5〕计算各个数码语音模型产生采入语音的概率Pr。
由于HMM是一个有人为假设的模型，所以有不可避免的缺陷。其中一个缺陷是在HMM中各状态的持续时间呈几何分布，即

P(Li=n)=anii(1-aii)， (5)

其中： Li为状态i的持续时间， aii为状态i跳转回自身的概率。按照式(5)，状态持续时间越长，其概率越小，这是不符合实际情况的。用Γ分布来描述状态持续时间〔5〕，即

(6)

其中αi和βi为Γ分布的参数， Fi为归一化因子参数，以上各参数在训练时由训练语音样本估计出。在识别时，用Viterbi算法获得的最佳状态路径中各状态持续时间的概率对Pr作修正：

(7)

其中： λ为加权系数， S为状态数。识别结果则由修正后的概率P�′r获得。实验证明，用状态持续时间分布对Pr进行修正所得的识别性能有明显的提高。

2.2 第二级识别
对第一级识别的错误作分析，我们发现大部分错误都集中在少数几对易混语音中。表2列出了识别错误最多的6对语音(其中“1”念为〔yao〕)占所有错误的百分比及其区分特征。可见这6对语音占所有错误的91%，所以如果能够在第二级识别中对这几对语音作进一步的辩识，整个MDSR系统的性能会有很大的提高。

表2 易混语音错误百分比及其区分特征

易混语音占识别错误百分比/% 区分特征
“2”“8” 45 共振峰轨迹变化趋势
“1”“9” 12 不同的辅音
“1”“6” 11 不同的辅音
“0”“6” 11 鼻音特征的有无
“3”“4” 8 不同的元音
“6”“9” 4 辅音的清浊性

由表2可见，易混语音“2”“8”， “0”“6”， “6”“9”可以用表征其区分特征的参数，根据一定的规则进行判决，而“1”“9”， “1”“6”， “3”“4”则可以利用端点检测中元、辅音分割的结果，训练元音部分和辅音部分的HMM参数，在识别时针对相应部分再作一次局部HMM识别。表3列出了各对易混语音第二级识别的方法。
表3 第二级识别方法

易混语音第二级识别方法规则判决的特征参数或
局部HMM的辨识部位
“2”“8” 规则判决共振峰轨迹
“1”“9” 局部HMM辨识辅音
“1”“6” 局部HMM辨识辅音
“0”“6” 规则判决鼻音特征
“3”“4” 局部HMM辨识元音
“6”“9” 规则判决频谱分布参数R1

3 实验结果

实验使用了一个包含160人从“0”到“9”的各一遍发音的语音库来测试系统的性能，库中语音采样率为11kHz，量化精度为16bit线性量化，录音背景为普通办公室环境。
首先测试了特征参数采用LPCC参数，端点检测采用快速端点检测算法〔6〕，只用Viterbi算法进行一级识别时的基本结果，然后测试了逐个加入本文所提出的各种方法后的识别率，结果如表4。可见，所采用的每一种方法都使系统性能较之于基本系统有了显着的提高，最后达到98.8%的识别率。

表4 算法性能比较

采用的算法识别率/%
基本结果 91.1
采用MFCC参数 92.9
FRED算法 95.4
状态持续时间分布 96.0
第二级识别 98.8

4 结论
采用了一系列算法，有效地提高了MDSR系统的识别率，实现了一个高性能的MDSR系统，其特点为：
1) 采用了两极识别框架，增强了对易混语音的区分能力。
2) 充分利用针对汉语数码语音的语音学知识，提高了端点检测的抗干扰能力，提取了用于区分易混语音的共振峰轨迹、鼻音特征等声学特征，进一步提高了系统识别率。
3) 各算法所需的运算量和存储量都较小，有利于MDSR在DSP系统上的实现。■

基金项目：国家自然科学基金项目(69772020)和国家“八六三”高技术项目(863-512-9805-10)
作者简介：李虎生 (1975-)，男(汉)，四川，硕士研究生
作者单位：李虎生(清华大学，电子工程系，北京，100084)
刘加(清华大学，电子工程系，北京，100084)
刘润生(清华大学，电子工程系，北京，100084)

参考文献：

〔1〕顾良，刘润生. 汉语数码语音识别：困难分析与方法比较〔J〕. 电路与系统学报， 1997， 2 (4)： 32－39.
Gu Liang, Liu Runsheng. Mandarin digit speech recognition： state of the art, difficult points analysis and methods comparison 〔J〕. J of Circuits and Systems, 1997, 2(4)： 32－39. (in Chinese)
〔2〕Davis S B, Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences 〔J〕. IEEE Trans, on Speech and Audio Signal Processing, 1980, 28 (4)： 357－366.
〔3〕李虎生，杨明杰，刘润生. 用共振峰轨迹提高汉语数码语音识别性能〔J〕. 清华大学学报， 1999， 39(9).
Li Husheng, Yang Mingjie, Liu Runsheng. Use formant trajectory to improve the performance of mandarin digit speech recognition 〔J〕. J of Tsinghua University, 1999, 39(9)： 69－71. (in Chinese)
〔4〕吴宗济，林茂灿. 实验语音学教程〔M〕. 北京：高等教育出版社， 1989.
Wu Zongji, Lin Maocan. Tutorial on Experimental Phonetics 〔M〕. Beijing： Higher Ecation Press, 1989. (in Chinese)
〔5〕杨行峻，迟惠生. 语音信号数字处理〔M〕. 北京：电子工业出版社， 1995.
Yang Xingjun, Chi Huisheng. Digit Speech Signal Processing 〔M〕. Beijing： Publishing House of Electronic Instry, 1995. (in Chinese)
〔6〕顾良. 汉语数码语音识别方法研究及DSP系统设计〔D〕. 北京：清华大学， 1997.
Gu Liang. Research on Methodologies for Mandarin Digit Speech Recognition and Design of its DSP System 〔D〕. Beijing： Tsinghua University, 1997. (in Chinese)
http://www.oxbad.com/DSP/maindoc/audio/PAGE/5.HTM

导航:首页 > 源码编译 > 语音阅读算法

语音阅读算法

与语音阅读算法相关的资料