導航:首頁 > 源碼編譯 > 語音演算法模板

語音演算法模板

發布時間:2022-07-17 08:08:51

㈠ dtw演算法在語音識別系統的應用,

DTW是動態時間規整演算法,在語音識別系統中通常用於特定人識別,特定人識別即A用戶使用這個語音識別系統,B用戶使用就會出現語音識別出錯或無法識別的現象。
DTW在語音識別系統中,是一個需要用戶事先訓練的系統。從操作方面上,首先需要訓練,對需要控制的命令錄制對應的語音;使用時只要說出與訓練時同樣的語音命令,即可出現識別結果,實現聲控。

DTW在語音識別系統中充當數據匹配比對模塊。語音識別系統首先採集用戶的語音,經過端點檢測,找出用戶的有效語音而把其他非語音段給刪除;然後經過MFCC特徵提取,得到用戶聲音的特徵,最後進入DTW,進行歐式距離的比對,距離最小對應的模板,即為識別結果。

希望以上信息對你有所幫助。

㈡ 語音識別技術的基本方法

一般來說,語音識別的方法有三種:基於聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經網路的方法。 該方法起步較早,在語音識別技術提出的開始,就有了這方面的研究,但由於其模型及語音知識過於復雜,現階段沒有達到實用的階段。
通常認為常用語言中有有限個不同的語音基元,而且可以通過其語音信號的頻域或時域特性來區分。這樣該方法分為兩步實現:
第一步,分段和標號
把語音信號按時間分成離散的段,每段對應一個或幾個語音基元的聲學特性。然後根據相應聲學特性對每個分段給出相近的語音標號
第二步,得到詞序列
根據第一步所得語音標號序列得到一個語音基元網格,從詞典得到有效的詞序列,也可結合句子的文法和語義同時進行。 模板匹配的方法發展比較成熟,目前已達到了實用階段。在模板匹配方法中,要經過四個步驟:特徵提取、模板訓練、模板分類、判決。常用的技術有三種:動態時間規整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術。
1、動態時間規整(DTW)
語音信號的端點檢測是進行語音識別中的一個基本步驟,它是特徵訓練和識別的基礎。所謂端點檢測就是在語音信號中的各種段落(如音素、音節、詞素)的始點和終點的位置,從語音信號中排除無聲段。在早期,進行端點檢測的主要依據是能量、振幅和過零率。但效果往往不明顯。60年代日本學者Itakura提出了動態時間規整演算法(DTW:DynamicTimeWarping)。演算法的思想就是把未知量均勻的升長或縮短,直到與參考模式的長度一致。在這一過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特徵與模型特徵對正。
2、隱馬爾可夫法(HMM)
隱馬爾可夫法(HMM)是70年代引入語音識別理論的,它的出現使得自然語音識別系統取得了實質性的突破。HMM方法現已成為語音識別的主流技術,目前大多數大詞彙量、連續語音的非特定人語音識別系統都是基於HMM模型的。HMM是對語音信號的時間序列結構建立統計模型,將之看作一個數學上的雙重隨機過程:一個是用具有有限狀態數的Markov鏈來模擬語音信號統計特性變化的隱含的隨機過程,另一個是與Markov鏈的每一個狀態相關聯的觀測序列的隨機過程。前者通過後者表現出來,但前者的具體參數是不可測的。人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據語法知識和言語需要(不可觀測的狀態)發出的音素的參數流。可見HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩性和局部平穩性,是較為理想的一種語音模型。
3、矢量量化(VQ)
矢量量化(VectorQuantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用於小詞彙量、孤立詞的語音識別中。其過程是:將語音信號波形的k個樣點的每一幀,或有k個參數的每一參數幀,構成k維空間中的一個矢量,然後對矢量進行量化。量化時,將k維無限空間劃分為M個區域邊界,然後將輸入矢量與這些邊界進行比較,並被量化為「距離」最小的區域邊界的中心矢量值。矢量量化器的設計就是從大量信號樣本中訓練出好的碼書,從實際效果出發尋找到好的失真測度定義公式,設計出最佳的矢量量化系統,用最少的搜索和計算失真的運算量,實現最大可能的平均信噪比。
核心思想可以這樣理解:如果一個碼書是為某一特定的信源而優化設計的,那麼由這一信息源產生的信號與該碼書的平均量化失真就應小於其他信息的信號與該碼書的平均量化失真,也就是說編碼器本身存在區分能力。
在實際的應用過程中,人們還研究了多種降低復雜度的方法,這些方法大致可以分為兩類:無記憶的矢量量化和有記憶的矢量量化。無記憶的矢量量化包括樹形搜索的矢量量化和多級矢量量化。 利用人工神經網路的方法是80年代末期提出的一種新的語音識別方法。人工神經網路(ANN)本質上是一個自適應非線性動力學系統,模擬了人類神經活動的原理,具有自適應性、並行性、魯棒性、容錯性和學習特性,其強的分類能力和輸入-輸出映射能力在語音識別中都很有吸引力。但由於存在訓練、識別時間太長的缺點,目前仍處於實驗探索階段。
由於ANN不能很好的描述語音信號的時間動態特性,所以常把ANN與傳統識別方法結合,分別利用各自優點來進行語音識別。

㈢ 語音ic常用語音格式有哪些

常用語音格式 PCM格式: Pulse Code Molation 脈沖編碼調制,它將聲音模擬信號采樣後得到量化後的語音數據,是最基本最原始的一種語音格式。同它極為類似的還有RAW格式和SND格式。它們都是純語音格式。 WAV格式:Wave Audio Files 是微軟公司開發的一種聲音文件格式,也叫波形聲音文件,被Windows平台及其應用程序廣泛支持。WAV格式支持許多壓縮演算法,支持多種音頻位數、采樣頻率和聲道,但WAV格式對存儲空間需求太大不便於交流和傳播。WAV文件裡面存放的每一塊數據都有自己獨立的標識,通過這些標識可以告訴用戶究竟這是什麼數據,這些數據包括采樣頻率和位數,單聲道(mono)還是立體聲(stero)等。映發微信息科技(上海)總部--台灣九齊語音IC華東總代理。 ADPCM格式:是利用對過去的幾個抽樣值來預測當前輸入的樣值,並使其具有自適應的預測功能與實際檢測值進行比較,隨時對測得的差值自動進行量化級差的處理,使之始終保持與信號同步變化。它適用於語音變化率適中的情況,而且聲音回放過程簡短。它的優點是對於人聲的處理比較逼真,一般達到90%以上,已廣泛地應用於電話通信領域。 MP3格式: Moving Picture Experts Group Audio Layer III,簡稱為MP3。它是利用 MPEG Audio Layer 3 的技術,採取了名為感官編碼技術的編碼演算法:編碼時先對音頻文件進行頻譜分析,然後用過濾器濾掉噪音電平,接著通過量化的方式將剩下的每一位打散排列,最後形成具有較高壓縮比的mp3文件,並使壓縮後的文件在回放時能夠達到較接近原音源的聲音效果。它的實質是vbr(Variant Bitrate 可變波特率)可以根據編碼的內容動態地選擇合適的波特率,因此編碼的結果是在保證了音質的同時又照顧了文件的大小。 mp3壓縮率10倍甚至12倍。是最初出現的一種高壓縮率的語音格式。 Linear Scale格式:根據聲音的變化率大小,把聲音分成若干段,對每段用線性比例進行壓縮,但是它的比例是可變的。SUNLINK公司和ALPHA公司的Linear Scale格式為5bit。 Logpcm格式:基本上對整個聲音進行線性壓縮,將最後若干位去掉。這種壓縮方式在硬體上很容易實現,但音質比Linear Scale差一些,特別是音量較小聲音比較細膩的情況下效果較差。

㈣ 語音識別演算法有哪些

DTW 特定人識別
HMM 非特定人識別
GMM
神經網路

㈤ 語音識別技術的系統結構

一個完整的基於統計的語音識別系統可大致分為三部分:
(1)語音信號預處理與特徵提取;
(2)聲學模型與模式匹配;
(3)語言模型與語言處理、
語音信號預處理與特徵提取
選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句)、音節和音素三種,具體選擇哪一種,由具體的研究任務決定。
單詞(句)單元廣泛應用於中小詞彙語音識別系統,但不適合大詞彙系統,原因在於模型庫太龐大,訓練模型任務繁重,模型匹配演算法復雜,難以滿足實時性要求。
音節單元多見於漢語語音識別,主要因為漢語是單音節結構的語言,而英語是多音節,並且漢語雖然有大約1300個音節,但若不考慮聲調,約有408個無調音節,數量相對較少。因此,對於中、大詞彙量漢語語音識別系統來說,以音節為識別單元基本是可行的。
音素單元以前多見於英語語音識別的研究中,但目前中、大詞彙量漢語語音識別系統也在越來越多地採用。原因在於漢語音節僅由聲母(包括零聲母有22個)和韻母(共有28個)構成,且聲韻母聲學特性相差很大。實際應用中常把聲母依後續韻母的不同而構成細化聲母,這樣雖然增加了模型數目,但提高了易混淆音節的區分能力。由於協同發音的影響,音素單元不穩定,所以如何獲得穩定的音素單元,還有待研究。
語音識別一個根本的問題是合理的選用特徵。特徵參數提取的目的是對語音信號進行分析處理,去掉與語音識別無關的冗餘信息,獲得影響語音識別的重要信息,同時對語音信號進行壓縮。在實際應用中,語音信號的壓縮率介於10-100之間。語音信號包含了大量各種不同的信息,提取哪些信息,用哪種方式提取,需要綜合考慮各方面的因素,如成本,性能,響應時間,計算量等。非特定人語音識別系統一般側重提取反映語義的特徵參數,盡量去除說話人的個人信息;而特定人語音識別系統則希望在提取反映語義的特徵參數的同時,盡量也包含說話人的個人信息。
線性預測(LP)分析技術是目前應用廣泛的特徵參數提取技術,許多成功的應用系統都採用基於LP技術提取的倒譜參數。但線性預測模型是純數學模型,沒有考慮人類聽覺系統對語音的處理特點。
Mel參數和基於感知線性預測(PLP)分析提取的感知線性預測倒譜,在一定程度上模擬了人耳對語音的處理特點,應用了人耳聽覺感知方面的一些研究成果。實驗證明,採用這種技術,語音識別系統的性能有一定提高。從目前使用的情況來看,梅爾刻度式倒頻譜參數已逐漸取代原本常用的線性預測編碼導出的倒頻譜參數,原因是它考慮了人類發聲與接收聲音的特性,具有更好的魯棒性(Robustness)。
也有研究者嘗試把小波分析技術應用於特徵提取,但目前性能難以與上述技術相比,有待進一步研究。 聲學模型通常是將獲取的語音特徵使用訓練演算法進行訓練後產生。在識別時將輸入的語音特徵同聲學模型(模式)進行匹配與比較,得到最佳的識別結果。
聲學模型是識別系統的底層模型,並且是語音識別系統中最關鍵的一部分。聲學模型的目的是提供一種有效的方法計算語音的特徵矢量序列和每個發音模板之間的距離。聲學模型的設計和語言發音特點密切相關。聲學模型單元大小(字發音模型、半音節模型或音素模型)對語音訓練數據量大小、系統識別率,以及靈活性有較大的影響。必須根據不同語言的特點、識別系統詞彙量的大小決定識別單元的大小。
以漢語為例:
漢語按音素的發音特徵分類分為輔音、單母音、復母音、復鼻尾音四種,按音節結構分類為聲母和韻母。並且由音素構成聲母或韻母。有時,將含有聲調的韻母稱為調母。由單個調母或由聲母與調母拼音成為音節。漢語的一個音節就是漢語一個字的音,即音節字。由音節字構成詞,最後再由詞構成句子。
漢語聲母共有22個,其中包括零聲母,韻母共有38個。按音素分類,漢語輔音共有22個,單母音13個,復母音13個,復鼻尾音16個。
目前常用的聲學模型基元為聲韻母、音節或詞,根據實現目的不同來選取不同的基元。漢語加上語氣詞共有412個音節,包括輕音字,共有1282個有調音節字,所以當在小詞彙表孤立詞語音識別時常選用詞作為基元,在大詞彙表語音識別時常採用音節或聲韻母建模,而在連續語音識別時,由於協同發音的影響,常採用聲韻母建模。
基於統計的語音識別模型常用的就是HMM模型λ(N,M,π,A,B),涉及到HMM模型的相關理論包括模型的結構選取、模型的初始化、模型參數的重估以及相應的識別演算法等。 語言模型包括由識別語音命令構成的語法網路或由統計方法構成的語言模型,語言處理可以進行語法、語義分析。
語言模型對中、大詞彙量的語音識別系統特別重要。當分類發生錯誤時可以根據語言學模型、語法結構、語義學進行判斷糾正,特別是一些同音字則必須通過上下文結構才能確定詞義。語言學理論包括語義結構、語法規則、語言的數學描述模型等有關方面。目前比較成功的語言模型通常是採用統計語法的語言模型與基於規則語法結構命令語言模型。語法結構可以限定不同詞之間的相互連接關系,減少了識別系統的搜索空間,這有利於提高系統的識別。

㈥ 求語音識別解決方案。

用IBM滴好,支持系統全局語音化

IBM ViaVoice

㈦ 怎麼將SPCE061A語音識別的訓練模板存入flash中而不用存儲RAM中

如果將訓練模板存儲到flash中,你在使用這些數據時就會比較慢。
按照你的要求,設計過程一般是這樣的:
第一次生成的訓練樣板用寫flash的方式保存到flash中。識別時還是使用RAM中的數據。
第二次上電時,程序設計首先將flash中的訓練樣板數據讀到ram中,識別則還是使用ram中的數據。

凌陽單片機實現的是特定人語音識別,使用的演算法是DTW。
我們在DSP5416和DSP6713上均實現了特定人和非特定人識別。

㈧ 語音編解碼的723.1(雙速率語音編碼演算法)

類型:Audio
制定者:ITU-T
所需頻寬:5.3Kbps(22.9)
特性:能夠對音樂和其他音頻信號進行壓縮和解壓縮,但它對語音信號來說是最優的。G.723.1採用了執行不連續傳輸的靜音壓縮,這就意味著在靜音期間的比特流中加入了人為的雜訊。除了預留帶寬之外,這種技術使發信機的數據機保持連續工作,並且避免了載波信號的時通時斷。
優點:避免了載波信號的時通時斷。
缺點:語音質量一般
應用領域:voip
版稅方式:Free
備註:G.723.1演算法是 ITU-T建議的應用於低速率多媒體服務中語音或其它音頻信號的壓縮演算法,其目標應用系統包括H.323、H.324等多媒體通信系統 。該演算法已成為IP電話系統中的必選演算法之一。

㈨ 誰知道語音識別這方面的知識!!!

高性能漢語數碼語音識別演算法

李虎生 劉加 劉潤生

摘 要: 提出了一個高性能的漢語數碼語音識別(MDSR)系統。 MDSR系統使用Mel頻標倒譜系數(MFCC)作為主要的語音特徵參數,同時提取共振峰軌跡和鼻音特徵以區分一些易混語音對,並提出一個基於語音特徵的實時端點檢測演算法,以減少系統資源需求,提高抗干擾能力。採用了兩級識別框架來提高語音的區分能力,其中第一級識別用於確定識別候選結果,第二級識別用於區分易混語音對。由於採用了以上改進, MDSR系統識別率達到了98.8%.
關鍵詞:漢語; 數碼語音識別
分類號:TN 912.34 文獻標識碼:A
文章編號:1000-0054(2000)01-0032-03

High performance digit mandarin
speech recognition

LI Husheng LIU Jia LIU Runsheng
(Department of Electronic Engineering,Tsinghua University, Beijing 100084, China)

Abstract:High-performance mandarin digit speech recognition (MDSR) system is developed using MFCC (mel frequency cepstrum coefficient) as the main parameter identifying the speech patterns. The formant trajectory and the nasal feature are extracted to identify confused words. A feature-based, real-time endpoint detection algorithm is proposed to rece the system resource requirements and to improve the disturbance-proof ability. A two-stage recognition frame enhances discrimination by identifying candidate words in the first stage and confused word pairs in the second stage. These improvements result in a correct recognition rate of 98.8%.
Key words:mandarin;digit speech recognition▲

漢語數碼語音識別 (mandarin digit speech recognition, MDSR) 是語音識別領域中一個具有廣泛應用背景的分支,它的任務是識別「0」到「9」等10個非特定人漢語數碼語音,在電話語音撥號、工業監控、家電遙控等領域有著極大的應用價值〔1〕。但與英語數碼語音識別相比, MDSR的性能尚未達到成熟應用水平,這是因為 1) 漢語數碼語音的混淆程度較高; 2) 漢語是一個多方言語種,說話人會帶有或多或少的地方口音; 3) 在許多應用背景中,MDSR需要在運算和存儲資源都較為緊張的數字信號處理器(digital signal processor, DSP)系統上實現,這為MDSR演算法的設計帶來了很大的限制。由於以上原因,MDSR是一項相當困難的任務。
針對漢語數碼語音識別提出了一系列高性能的演算法,使MDSR識別率達到了98.8%。由這些演算法構成的識別系統框圖如圖1所示。
MDSR系統〔1〕提取的語音特徵參數包括用於識別的參數和用於端點檢測的參數。

圖1 MDSR系統框圖

1 語音前端處理

語音前端處理包括語音特徵提取和端點檢測兩部分。

1.1 語音特徵提取
1.1.1 基本識別參數
目前常用的語音識別參數有基於線性預測編碼(LPC)的線性預測倒譜系數(LPCC)和基於Mel頻標的倒譜系數(MFCC)〔2〕。實驗證明,採用MFCC參數時系統識別率高於採用LPCC參數。因此本文的基本識別參數採用MFCC參數及一階差分MFCC參數。

1.1.2 共振峰軌跡
在MDSR中,易混淆語音「2」和「8」可以由其第2,3共振峰的變化趨勢區分開〔3〕。因此可將共振峰軌跡作為識別參數之一,並選用峰值選取演算法來提取共振峰軌跡〔3〕。

1.1.3 鼻音特徵參數
漢語數碼語音中,「0」的母音具有鼻音的特徵,而「0」容易與具有非鼻化母音的「6」混淆,因此鼻音特徵可用於提高「0」的識別率。鼻音的特徵包括〔4〕:
1) 鼻音在頻譜低端(約0.25kHz左右)有1個較強的共振峰。
2) 鼻音在中頻段(約0.8~2.3kHz)的能量分布較為均勻,沒有明顯的峰或谷。
採用以下2個參數表徵鼻音的特徵:
1) 低頻能量比:

(1)

其中fn為鼻音低頻共振峰頻率, B為鼻音低頻共振峰帶寬。Fk為對語音作快速Fourior變換(FFT)後第k個頻率點的能量, 〔f1,f2〕則為語音「6」能量集中的頻帶。
2) 頻譜質心:

(2)

其中〔fL,fH〕為0.8~2.3kHz的中頻段。由於MDSR系統採用的基本識別參數為MFCC參數,其計算過程中需要作FFT,所以低頻能量比和頻譜質心兩個參數可以順帶算出,不會影響特徵提取的實時完成。

1.2 端點檢測
本文提出了基於語音特徵的實時端點檢測演算法(feature-based real-time endpoint detection, FRED),充分利用漢語數碼語音的特點,在實時提取特徵參數後完成端點檢測,檢測到的端點只精確到幀的量級。
根據語音學知識〔4〕, MDSR中各類語音的頻譜特點如表1

表1 漢語數碼語音頻譜特點

頻 譜 特 征
濁 音 元 音 低頻(0.1至0.4kHz間)能量較高; 中頻(0.64至2.8kHz)能量較高
濁輔音 低頻(0.1至0.4kHz間)能量較高; 中頻(0.64至2.8kHz)能量較低
清輔音 高頻(3.5kHz以上)能量較高

採用3個頻譜能量分布參數{R1,R2,R3}分別反應頻譜高頻、低頻和中頻的分布特徵。其定義如下:
(3)
(4)

其中: i表示第i幀, N為語音幀長,也即FFT點數, Fk為對語音幀作FFT後各頻率點能量, T為語音的總幀數,式(3),(4) 中求和號的上下限由表1中相應頻率范圍確定,當N為256,采樣頻率為實驗所用語音庫的11kHz時, f0=81, f1=9, f2 =2, f3=65, f4=15.由於進行了能量歸一化,所以上述特徵與語音的強度是無關的。由於計算MFCC參數時需要作FFT,因此頻譜能量分布參數可以順帶算出。此外,用於端點檢測的參數還包括短時能量參數E0(i)〔5〕.
由以上參數, FRED演算法過程為:
1) 根據采入信號首尾兩幀確定能量閾值;
2) 根據參數R2確定語音濁音段;
3) 根據參數R1與E0向濁音段兩端擴展式搜索語音起始幀;
4) 根據參數R3確定母音段。
FRED演算法的特點是:
1) 利用了語音的本質特徵進行端點檢測,能夠很好地適應環境的變化和干擾,實驗證明FRED演算法可以有效地提高識別率; 2) 將語音端點定在幀的量級上,保證了特徵參數在采樣時實時提取,節省了系統運行時間,大大減少了系統所需的存儲量; 3) 能夠准確地確定語音的母音段,從而將輔音與母音分割開,有利於對語音局部特徵的辨識。

2 識別演算法

實驗表明, MDSR的識別錯誤集中在少數幾對易混語音中〔1〕,因此本文採用了兩極識別框架,即第一級完成對識別結果的初步確定,第二級完成對易混淆語音的進一步辨識。

2.1 第一級識別
在第一級識別中採用的基本方法為離散隱含Malkov模型(DHMM)演算法〔5〕,用Viterbi演算法〔5〕計算各個數碼語音模型產生采入語音的概率Pr。
由於HMM是一個有人為假設的模型,所以有不可避免的缺陷。其中一個缺陷是在HMM中各狀態的持續時間呈幾何分布,即

P(Li=n)=anii(1-aii), (5)

其中: Li為狀態i的持續時間, aii為狀態i跳轉回自身的概率。按照式(5),狀態持續時間越長,其概率越小,這是不符合實際情況的。用Γ分布來描述狀態持續時間〔5〕,即

(6)

其中αi和βi為Γ分布的參數, Fi為歸一化因子參數,以上各參數在訓練時由訓練語音樣本估計出。在識別時,用Viterbi演算法獲得的最佳狀態路徑中各狀態持續時間的概率對Pr作修正:

(7)

其中: λ為加權系數, S為狀態數。識別結果則由修正後的概率P�′r獲得。實驗證明,用狀態持續時間分布對Pr進行修正所得的識別性能有明顯的提高。

2.2 第二級識別
對第一級識別的錯誤作分析,我們發現大部分錯誤都集中在少數幾對易混語音中。表2列出了識別錯誤最多的6對語音(其中「1」念為〔yao〕)占所有錯誤的百分比及其區分特徵。可見這6對語音占所有錯誤的91%,所以如果能夠在第二級識別中對這幾對語音作進一步的辯識,整個MDSR系統的性能會有很大的提高。

表2 易混語音錯誤百分比及其區分特徵

易混語音 占識別錯誤百分比/% 區分特徵
「2」「8」 45 共振峰軌跡變化趨勢
「1」「9」 12 不同的輔音
「1」「6」 11 不同的輔音
「0」「6」 11 鼻音特徵的有無
「3」「4」 8 不同的母音
「6」「9」 4 輔音的清濁性

由表2可見,易混語音「2」「8」, 「0」「6」, 「6」「9」可以用表徵其區分特徵的參數,根據一定的規則進行判決,而「1」「9」, 「1」「6」, 「3」「4」則可以利用端點檢測中元、輔音分割的結果,訓練母音部分和輔音部分的HMM參數,在識別時針對相應部分再作一次局部HMM識別。表3列出了各對易混語音第二級識別的方法。
表3 第二級識別方法

易混語音 第二級識別方法 規則判決的特徵參數或
局部HMM的辨識部位
「2」「8」 規則判決 共振峰軌跡
「1」「9」 局部HMM辨識 輔音
「1」「6」 局部HMM辨識 輔音
「0」「6」 規則判決 鼻音特徵
「3」「4」 局部HMM辨識 母音
「6」「9」 規則判決 頻譜分布參數R1

3 實驗結果

實驗使用了一個包含160人從「0」到「9」的各一遍發音的語音庫來測試系統的性能,庫中語音采樣率為11kHz,量化精度為16bit線性量化,錄音背景為普通辦公室環境。
首先測試了特徵參數採用LPCC參數,端點檢測採用快速端點檢測演算法〔6〕,只用Viterbi演算法進行一級識別時的基本結果,然後測試了逐個加入本文所提出的各種方法後的識別率,結果如表4。可見,所採用的每一種方法都使系統性能較之於基本系統有了顯著的提高,最後達到98.8%的識別率。

表4 演算法性能比較

採用的演算法 識別率/%
基本結果 91.1
採用MFCC參數 92.9
FRED演算法 95.4
狀態持續時間分布 96.0
第二級識別 98.8

4 結 論
採用了一系列演算法,有效地提高了MDSR系統的識別率,實現了一個高性能的MDSR系統,其特點為:
1) 採用了兩極識別框架,增強了對易混語音的區分能力。
2) 充分利用針對漢語數碼語音的語音學知識,提高了端點檢測的抗干擾能力,提取了用於區分易混語音的共振峰軌跡、鼻音特徵等聲學特徵,進一步提高了系統識別率。
3) 各演算法所需的運算量和存儲量都較小,有利於MDSR在DSP系統上的實現。■

基金項目:國家自然科學基金項目(69772020)和國家「八六三」高技術項目(863-512-9805-10)
作者簡介:李虎生 (1975-), 男(漢), 四川, 碩士研究生
作者單位:李虎生(清華大學,電子工程系,北京,100084)
劉加(清華大學,電子工程系,北京,100084)
劉潤生(清華大學,電子工程系,北京,100084)

參考文獻:

〔1〕顧良, 劉潤生. 漢語數碼語音識別: 困難分析與方法比較 〔J〕. 電路與系統學報, 1997, 2 (4): 32-39.
Gu Liang, Liu Runsheng. Mandarin digit speech recognition: state of the art, difficult points analysis and methods comparison 〔J〕. J of Circuits and Systems, 1997, 2(4): 32-39. (in Chinese)
〔2〕Davis S B, Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences 〔J〕. IEEE Trans, on Speech and Audio Signal Processing, 1980, 28 (4): 357-366.
〔3〕李虎生, 楊明傑, 劉潤生. 用共振峰軌跡提高漢語數碼語音識別性能 〔J〕. 清華大學學報, 1999, 39(9).
Li Husheng, Yang Mingjie, Liu Runsheng. Use formant trajectory to improve the performance of mandarin digit speech recognition 〔J〕. J of Tsinghua University, 1999, 39(9): 69-71. (in Chinese)
〔4〕吳宗濟, 林茂燦. 實驗語音學教程 〔M〕. 北京: 高等教育出版社, 1989.
Wu Zongji, Lin Maocan. Tutorial on Experimental Phonetics 〔M〕. Beijing: Higher Ecation Press, 1989. (in Chinese)
〔5〕楊行峻, 遲惠生. 語音信號數字處理 〔M〕. 北京: 電子工業出版社, 1995.
Yang Xingjun, Chi Huisheng. Digit Speech Signal Processing 〔M〕. Beijing: Publishing House of Electronic Instry, 1995. (in Chinese)
〔6〕顧良. 漢語數碼語音識別方法研究及DSP系統設計 〔D〕. 北京: 清華大學, 1997.
Gu Liang. Research on Methodologies for Mandarin Digit Speech Recognition and Design of its DSP System 〔D〕. Beijing: Tsinghua University, 1997. (in Chinese)
http://www.oxbad.com/DSP/maindoc/audio/PAGE/5.HTM

閱讀全文

與語音演算法模板相關的資料

熱點內容
噴油螺桿製冷壓縮機 瀏覽:577
python員工信息登記表 瀏覽:375
高中美術pdf 瀏覽:158
java實現排列 瀏覽:511
javavector的用法 瀏覽:979
osi實現加密的三層 瀏覽:230
大眾寶來原廠中控如何安裝app 瀏覽:911
linux內核根文件系統 瀏覽:240
3d的命令面板不見了 瀏覽:523
武漢理工大學伺服器ip地址 瀏覽:146
亞馬遜雲伺服器登錄 瀏覽:521
安卓手機如何進行文件處理 瀏覽:70
mysql執行系統命令 瀏覽:928
php支持curlhttps 瀏覽:142
新預演算法責任 瀏覽:443
伺服器如何處理5萬人同時在線 瀏覽:249
哈夫曼編碼數據壓縮 瀏覽:424
鎖定伺服器是什麼意思 瀏覽:383
場景檢測演算法 瀏覽:616
解壓手機軟體觸屏 瀏覽:348