導航:首頁 > 源碼編譯 > 語音識別隱馬爾可夫三個演算法

語音識別隱馬爾可夫三個演算法

發布時間:2022-06-26 17:13:31

① 語音識別——隱馬爾科夫

HMM模型,就是估計向量流與已經存在的HMM模型的動態的匹配概率。

語音經常用MFCC作觀察向量。常見的是13維,加上 一級差分,和二級差分,共39維,最常見了。

② 如何用簡單易懂的例子解釋隱馬爾可夫模型

和HMM模型相關的演算法主要分為三類,分別解決三種問題:
1)知道骰子有幾種(隱含狀態數量),每種骰子是什麼(轉換概率),根據擲骰子擲出的結果(可見狀態鏈),我想知道每次擲出來的都是哪種骰子(隱含狀態鏈)。
這個問題呢,在語音識別領域呢,叫做解碼問題。這個問題其實有兩種解法,會給出兩個不同的答案。每個答案都對,只不過這些答案的意義不一樣。第一種解法求最大似然狀態路徑,說通俗點呢,就是我求一串骰子序列,這串骰子序列產生觀測結果的概率最大。第二種解法呢,就不是求一組骰子序列了,而是求每次擲出的骰子分別是某種骰子的概率。比如說我看到結果後,我可以求得第一次擲骰子是D4的概率是0.5,D6的概率是0.3,D8的概率是0.2.第一種解法我會在下面說到,但是第二種解法我就不寫在這里了,如果大家有興趣,我們另開一個問題繼續寫吧。
2)還是知道骰子有幾種(隱含狀態數量),每種骰子是什麼(轉換概率),根據擲骰子擲出的結果(可見狀態鏈),我想知道擲出這個結果的概率。
看似這個問題意義不大,因為你擲出來的結果很多時候都對應了一個比較大的概率。問這個問題的目的呢,其實是檢測觀察到的結果和已知的模型是否吻合。如果很多次結果都對應了比較小的概率,那麼就說明我們已知的模型很有可能是錯的,有人偷偷把我們的骰子給換了。
3)知道骰子有幾種(隱含狀態數量),不知道每種骰子是什麼(轉換概率),觀測到很多次擲骰子的結果(可見狀態鏈),我想反推出每種骰子是什麼(轉換概率)。
這個問題很重要,因為這是最常見的情況。很多時候我們只有可見結果,不知道HMM模型里的參數,我們需要從可見結果估計出這些參數,這是建模的一個必要步驟。
問題闡述完了,下面就開始說解法。(0號問題在上面沒有提,只是作為解決上述問題的一個輔助)

③ 什麼是隱馬爾科夫模型

‍‍‍‍

隱馬爾科夫模型(HiddenMarkovModel,HMM),和回歸、分類那些處理相互獨立的樣本數據的模型不同,它用於處理時間序列數據,即樣本之間有時間序列關系的數據。從這一點來說,它和卡爾曼濾波演算法很像。事實上,HMM和卡爾曼濾波的演算法本質是一模一樣的,只不過HMM要假設隱藏變數是離散的,而卡爾曼濾波假設隱藏變數是連續的。隱藏變數是HMM里的關鍵概念之一,可以理解為無法直接觀測到的變數,即HMM中Hidden一詞的含義;與之相對的是觀測變數,即可以直接觀測到的變數;HMM的能力在於能夠根據給出的觀測變數序列,估計對應的隱藏變數序列是什麼,並對未來的觀測變數做預測。比如語音識別,給你一段音頻數據,需要識別出該音頻數據對應的文字。這里音頻數據就是觀測變數,文字就是隱藏變數。我們知道,對單個文字而言,雖然在不同語境下有輕微變音,但大致發音是有統計規律的。當我們說出一句話時,文字與文字之間也是有一些轉移規律的。比如,當我們說出「比」這個字時,下一個大概率的字一般是「如」「較」等。雖然文字千千萬,但文字與文字之間的轉移卻是有章可循的。有了文字的發音特徵,以及文字與文字之間的轉移規律,那麼從一段音頻中推測出對應的文字也就可以一試了,在當前深度學習一統江湖的時代,已經很少有人還在用HMM做語音識別了。

‍‍‍‍

④ 求論文(語音識別)

與機器進行語音交流,讓機器明白你說什麼,這是人們長期以來夢寐以求的事情。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。語音識別是一門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內,語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。
語音識別聽寫機在一些領域的應用被美國新聞界評為1997年計算機發展十件大事之一。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重要的科技發展技術之一。
語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和資訊理論、發聲機理和聽覺機理、人工智慧等等。 任務分類和應用 根據識別的對象不同,語音識別任務大體可分為3類,即孤立詞識別(isolated word recognition),關鍵詞識別(或稱關鍵詞檢出,keyword spotting)和連續語音識別。其中,孤立詞識別 的任務是識別事先已知的孤立的詞,如「開機」、「關機」等;連續語音識別的任務則是識別任意的連續語音,如一個句子或一段話;連續語音流中的關鍵詞檢測針對的是連續語音,但它並不識別全部文字,而只是檢測已知的若干關鍵詞在何處出現,如在一段話中檢測「計算機」、「世界」這兩個詞。
根據針對的發音人,可以把語音識別技術分為特定人語音識別和非特定人語音識別,前者只能識別一個或幾個人的語音,而後者則可以被任何人使用。顯然,非特定人語音識別系統更符合實際需要,但它要比針對特定人的識別困難得多。
另外,根據語音設備和通道,可以分為桌面(PC)語音識別、電話語音識別和嵌入式設備(手機、PDA等)語音識別。不同的採集通道會使人的發音的聲學特性發生變形,因此需要構造各自的識別系統。
語音識別的應用領域非常廣泛,常見的應用系統有:語音輸入系統,相對於鍵盤輸入方法,它更符合人的日常習慣,也更自然、更高效;語音控制系統,即用語音來控制設備的運行,相對於手動控制來說更加快捷、方便,可以用在諸如工業控制、語音撥號系統、智能家電、聲控智能玩具等許多領域;智能對話查詢系統,根據客戶的語音進行操作,為用戶提供自然、友好的資料庫檢索服務,例如家庭服務、賓館服務、旅行社服務系統、訂票系統、醫療服務、銀行服務、股票查詢服務等等。 前端前端處理是指在特徵提取之前,先對原始語音進行處理,部分消除雜訊和不同說話人帶來的影響,使處理後的信號更能反映語音的本質特徵。最常用的前端處理有端點檢測和語音增強。端點檢測是指在語音信號中將語音和非語音信號時段區分開來,准確地確定出語音信號的起始點。經過端點檢測後,後續處理就可以只對語音信號進行,這對提高模型的精確度和識別正確率有重要作用。語音增強的主要任務就是消除環境雜訊對語音的影響。目前通用的方法是採用維納濾波,該方法在雜訊較大的情況下效果好於其它濾波器。處理聲學特徵 聲學特徵的提取與選擇是語音識別的一個重要環節。聲學特徵的提取既是一個信息大幅度壓縮的過程,也是一個信號解卷過程,目的是使模式劃分器能更好地劃分。由於語音信號的時變特性,特徵提取必須在一小段語音信號上進行,也即進行短時分析。這一段被認為是平穩的分析區間稱之為幀,幀與幀之間的偏移通常取幀長的1/2或1/3。通常要對信號進行預加重以提升高頻,對信號加窗以避免短時語音段邊緣的影響。常用的一些聲學特徵* 線性預測系數LPC:線性預測分析從人的發聲機理入手,通過對聲道的短管級聯模型的研究,認為系統的傳遞函數符合全極點數字濾波器的形式,從而n 時刻的信號可以用前若干時刻的信號的線性組合來估計。通過使實際語音的采樣值和線性預測采樣值之間達到均方差最小LMS,即可得到線性預測系數LPC。對 LPC的計算方法有自相關法(德賓Durbin法)、協方差法、格型法等等。計算上的快速有效保證了這一聲學特徵的廣泛使用。與LPC這種預測參數模型類似的聲學特徵還有線譜對LSP、反射系數等等。
* 倒譜系數CEP:利用同態處理方法,對語音信號求離散傅立葉變換DFT後取對數,再求反變換iDFT就可得到倒譜系數。對LPC倒譜(LPCCEP),在獲得濾波器的線性預測系數後,可以用一個遞推公式計算得出。實驗表明,使用倒譜可以提高特徵參數的穩定性。
* Mel倒譜系數MFCC和感知線性預測PLP:不同於LPC等通過對人的發聲機理的研究而得到的聲學特徵,Mel倒譜系數MFCC和感知線性預測 PLP是受人的聽覺系統研究成果推動而導出的聲學特徵。對人的聽覺機理的研究發現,當兩個頻率相近的音調同時發出時,人只能聽到一個音調。臨界帶寬指的就是這樣一種令人的主觀感覺發生突變的帶寬邊界,當兩個音調的頻率差小於臨界帶寬時,人就會把兩個音調聽成一個,這稱之為屏蔽效應。Mel刻度是對這一臨界帶寬的度量方法之一。
MFCC的計算首先用FFT將時域信號轉化成頻域,之後對其對數能量譜用依照Mel刻度分布的三角濾波器組進行卷積,最後對各個濾波器的輸出構成的向量進行離散餘弦變換DCT,取前N個系數。PLP仍用德賓法去計算LPC參數,但在計算自相關參數時用的也是對聽覺激勵的對數能量譜進行DCT的方法。聲學模型語音識別系統的模型通常由聲學模型和語言模型兩部分組成,分別對應於語音到音節概率的計算和音節到字概率的計算。本節和下一節分別介紹聲學模型和語言模型方面的技術。
HMM聲學建模:馬爾可夫模型的概念是一個離散時域有限狀態自動機,隱馬爾可夫模型HMM是指這一馬爾可夫模型的內部狀態外界不可見,外界只能看到各個時刻的輸出值。對語音識別系統,輸出值通常就是從各個幀計算而得的聲學特徵。用HMM刻畫語音信號需作出兩個假設,一是內部狀態的轉移只與上一狀態有關,另一是輸出值只與當前狀態(或當前的狀態轉移)有關,這兩個假設大大降低了模型的復雜度。HMM的打分、解碼和訓練相應的演算法是前向演算法、Viterbi演算法和前向後向演算法。
語音識別中使用HMM通常是用從左向右單向、帶自環、帶跨越的拓撲結構來對識別基元建模,一個音素就是一個三至五狀態的HMM,一個詞就是構成詞的多個音素的HMM串列起來構成的HMM,而連續語音識別的整個模型就是詞和靜音組合起來的HMM。上下文相關建模:協同發音,指的是一個音受前後相鄰音的影響而發生變化,從發聲機理上看就是人的發聲器官在一個音轉向另一個音時其特性只能漸變,從而使得後一個音的頻譜與其他條件下的頻譜產生差異。上下文相關建模方法在建模時考慮了這一影響,從而使模型能更准確地描述語音,只考慮前一音的影響的稱為Bi- Phone,考慮前一音和後一音的影響的稱為Tri-Phone。
英語的上下文相關建模通常以音素為基元,由於有些音素對其後音素的影響是相似的,因而可以通過音素解碼狀態的聚類進行模型參數的共享。聚類的結果稱為senone。決策樹用來實現高效的triphone對senone的對應,通過回答一系列前後音所屬類別(元/輔音、清/濁音等等)的問題,最終確定其HMM狀態應使用哪個senone。分類回歸樹CART模型用以進行詞到音素的發音標注。 語言模型語言模型主要分為規則模型和統計模型兩種。統計語言模型是用概率統計的方法來揭示語言單位內在的統計規律,其中N-Gram簡單有效,被廣泛使用。
N-Gram:該模型基於這樣一種假設,第n個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料中統計N個詞同時出現的次數得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
語言模型的性能通常用交叉熵和復雜度(Perplexity)來衡量。交叉熵的意義是用該模型對文本識別的難度,或者從壓縮的角度來看,每個詞平均要用幾個位來編碼。復雜度的意義是用該模型表示這一文本平均的分支數,其倒數可視為每個詞的平均概率。平滑是指對沒觀察到的N元組合賦予一個概率值,以保證詞序列總能通過語言模型得到一個概率值。通常使用的平滑技術有圖靈估計、刪除插值平滑、Katz平滑和Kneser-Ney平滑。 搜索連續語音識別中的搜索,就是尋找一個詞模型序列以描述輸入語音信號,從而得到詞解碼序列。搜索所依據的是對公式中的聲學模型打分和語言模型打分。在實際使用中,往往要依據經驗給語言模型加上一個高權重,並設置一個長詞懲罰分數。
Viterbi:基於動態規劃的Viterbi演算法在每個時間點上的各個狀態,計算解碼狀態序列對觀察序列的後驗概率,保留概率最大的路徑,並在每個節點記錄下相應的狀態信息以便最後反向獲取詞解碼序列。Viterbi演算法在不喪失最優解的條件下,同時解決了連續語音識別中HMM模型狀態序列與聲學觀察序列的非線性時間對准、詞邊界檢測和詞的識別,從而使這一演算法成為語音識別搜索的基本策略。
由於語音識別對當前時間點之後的情況無法預測,基於目標函數的啟發式剪枝難以應用。由於Viterbi演算法的時齊特性,同一時刻的各條路徑對應於同樣的觀察序列,因而具有可比性,束Beam搜索在每一時刻只保留概率最大的前若干條路徑,大幅度的剪枝提高了搜索的效率。這一時齊Viterbi- Beam演算法是當前語音識別搜索中最有效的演算法。 N-best搜索和多遍搜索:為在搜索中利用各種知識源,通常要進行多遍搜索,第一遍使用代價低的知識源,產生一個候選列表或詞候選網格,在此基礎上進行使用代價高的知識源的第二遍搜索得到最佳路徑。此前介紹的知識源有聲學模型、語言模型和音標詞典,這些可以用於第一遍搜索。為實現更高級的語音識別或口語理解,往往要利用一些代價更高的知識源,如4階或5階的N-Gram、4階或更高的上下文相關模型、詞間相關模型、分段模型或語法分析,進行重新打分。最新的實時大詞表連續語音識別系統許多都使用這種多遍搜索策略。
N-best搜索產生一個候選列表,在每個節點要保留N條最好的路徑,會使計算復雜度增加到N倍。簡化的做法是只保留每個節點的若干詞候選,但可能丟失次優候選。一個折衷辦法是只考慮兩個詞長的路徑,保留k條。詞候選網格以一種更緊湊的方式給出多候選,對N-best搜索演算法作相應改動後可以得到生成候選網格的演算法。
前向後向搜索演算法是一個應用多遍搜索的例子。當應用簡單知識源進行了前向的Viterbi搜索後,搜索過程中得到的前向概率恰恰可以用在後向搜索的目標函數的計算中,因而可以使用啟發式的A演算法進行後向搜索,經濟地搜索出N條候選。 系統實現 語音識別系統選擇識別基元的要求是,有準確的定義,能得到足夠數據進行訓練,具有一般性。英語通常採用上下文相關的音素建模,漢語的協同發音不如英語嚴重,可以採用音節建模。系統所需的訓練數據大小與模型復雜度有關。模型設計得過於復雜以至於超出了所提供的訓練數據的能力,會使得性能急劇下降。
聽寫機:大詞彙量、非特定人、連續語音識別系統通常稱為聽寫機。其架構就是建立在前述聲學模型和語言模型基礎上的HMM拓撲結構。訓練時對每個基元用前向後向演算法獲得模型參數,識別時,將基元串接成詞,詞間加上靜音模型並引入語言模型作為詞間轉移概率,形成循環結構,用Viterbi演算法進行解碼。針對漢語易於分割的特點,先進行分割再對每一段進行解碼,是用以提高效率的一個簡化方法。
對話系統:用於實現人機口語對話的系統稱為對話系統。受目前技術所限,對話系統往往是面向一個狹窄領域、詞彙量有限的系統,其題材有旅遊查詢、訂票、資料庫檢索等等。其前端是一個語音識別器,識別產生的N-best候選或詞候選網格,由語法分析器進行分析獲取語義信息,再由對話管理器確定應答信息,由語音合成器輸出。由於目前的系統往往詞彙量有限,也可以用提取關鍵詞的方法來獲取語義信息。 自適應與強健性 語音識別系統的性能受許多因素的影響,包括不同的說話人、說話方式、環境噪音、傳輸信道等等。提高系統魯棒性,是要提高系統克服這些因素影響的能力,使系統在不同的應用環境、條件下性能穩定;自適應的目的,是根據不同的影響來源,自動地、有針對性地對系統進行調整,在使用中逐步提高性能。以下對影響系統性能的不同因素分別介紹解決辦法。
解決辦法按針對語音特徵的方法(以下稱特徵方法)和模型調整的方法(以下稱模型方法)分為兩類。前者需要尋找更好的、高魯棒性的特徵參數,或是在現有的特徵參數基礎上,加入一些特定的處理方法。後者是利用少量的自適應語料來修正或變換原有的說話人無關(SI)模型,從而使其成為說話人自適應(SA)模型。
說話人自適應的特徵方法有說話人規一化和說話人子空間法,模型方法有貝葉斯方法、變換法和模型合並法。
語音系統中的雜訊,包括環境雜訊和錄音過程加入的電子雜訊。提高系統魯棒性的特徵方法包括語音增強和尋找對雜訊干擾不敏感的特徵,模型方法有並行模型組合PMC方法和在訓練中人為加入雜訊。信道畸變包括錄音時話筒的距離、使用不同靈敏度的話筒、不同增益的前置放大和不同的濾波器設計等等。特徵方法有從倒譜矢量中減去其長時平均值和RASTA濾波,模型方法有倒譜平移。 微軟語音識別引擎 微軟在office和vista中都應用了自己開發的語音識別引擎,微軟語音識別引擎的使用是完全免費的,所以產生了許多基於微軟語音識別引擎開發的語音識別應用軟體,例如《語音游戲大師》《語音控制專家》《芝麻開門》等等軟體。 語音識別系統的性能指標 語音識別系統的性能指標主要有四項。①詞彙表范圍:這是指機器能識別的單詞或片語的范圍,如不作任何限制,則可認為詞彙表范圍是無限的。②說話人限制:是僅能識別指定發話者的語音,還是對任何發話人的語音都能識別。③訓練要求:使用前要不要訓練,即是否讓機器先「聽」一下給定的語音,以及訓練次數的多少。④正確識別率:平均正確識別的百分數,它與前面三個指標有關。
小結
以上介紹了實現語音識別系統的各個方面的技術。這些技術在實際使用中達到了較好的效果,但如何克服影響語音的各種因素還需要更深入地分析。目前聽寫機系統還不能完全實用化以取代鍵盤的輸入,但識別技術的成熟同時推動了更高層次的語音理解技術的研究。由於英語與漢語有著不同的特點,針對英語提出的技術在漢語中如何使用也是一個重要的研究課題,而四聲等漢語本身特有的問題也有待解決。

⑤ 條件隨機場和隱馬爾科夫模型最大區別在哪裡

隱馬爾可夫模型(Hidden Markov Model,HMM),最大熵馬爾可夫模型(Maximum Entropy Markov Model,MEMM)以及條件隨機場(Conditional Random Field,CRF)是序列標注中最常用也是最基本的三個模型。HMM首先出現,MEMM其次,CRF最後。三個演算法主要思想如下:HMM模型是對轉移概率和表現概率直接建模,統計共現概率。MEMM模型是對轉移概率和表現概率建立聯合概率,統計時統計的是條件概率,但MEMM容易陷入局部最優,是因為MEMM只在局部做歸一化。CRF模型中,統計了全局概率,在 做歸一化時,考慮了數據在全局的分布,而不是僅僅在局部歸一化,這樣就解決了MEMM中的標記偏置(label bias)的問題。舉個例子,對於一個標注任務,「我愛北京天安門「, 標注為」 s s b e b c e」對於HMM的話,其判斷這個標注成立的概率為 P= P(s轉移到s)*P(『我』表現為s)* P(s轉移到b)*P(『愛』表現為s)* …*P().訓練時,要統計狀態轉移概率矩陣和表現矩 陣。對於MEMM的話,其判斷這個標注成立的概率為 P= P(s轉移到s|』我』表現為s)*P(『我』表現為s)* P(s轉移到b|』愛』表現為s)*P(『愛』表現為s)*..訓練時,要統計條件狀態轉移概率矩陣和表現矩陣。對於CRF的話,其判斷這個標注成立的概率為 P= F(s轉移到s,』我』表現為s)….F為一個函數,是在全局范圍統計歸一化的概率而不是像MEMM在局部統計歸一化的概率。當前,最後出現的CRF在多項任務上達到了統治級的表現,所以如果重頭搞應用的話,大家可以首選CRF。

本質上,CRF有以下三個優點:

CRF沒有HMM那樣嚴格的獨立性假設條件,因而可以容納任意的上下文信息。特徵設計靈活(與ME一樣) ————與HMM比較

同時,由於CRF計算全局最優輸出節點的條件概率,它還克服了最大熵馬爾可夫模型標記偏置(Label-bias)的缺點。 ­­————與MEMM比較

CRF是在給定需要標記的觀察序列的條件下,計算整個標記序列的聯合概率分布,而不是在給定當前狀態條件下,定義下一個狀態的狀態分布。

凡事都有兩面,正由於這些優點,CRF需要訓練的參數更多,與MEMM和HMM相比,它存在訓練代價大、復雜度高的缺點。

⑥ 語音識別文件的聲學模型

語音識別系統的模型通常由聲學模型和語言模型兩部分組成,分別對應於語音到音節概率的計算和音節到字概率的計算。本節和下一節分別介紹聲學模型和語言模型方面的技術。
HMM聲學建模:馬爾可夫模型的概念是一個離散時域有限狀態自動機,隱馬爾可夫模型HMM是指這一馬爾可夫模型的內部狀態外界不可見,外界只能看到各個時刻的輸出值。對語音識別系統,輸出值通常就是從各個幀計算而得的聲學特徵。用HMM刻畫語音信號需作出兩個假設,一是內部狀態的轉移只與上一狀態有關,另一是輸出值只與當前狀態(或當前的狀態轉移)有關,這兩個假設大大降低了模型的復雜度。HMM的打分、解碼和訓練相應的演算法是前向演算法、Viterbi演算法和前向後向演算法。
語音識別中使用HMM通常是用從左向右單向、帶自環、帶跨越的拓撲結構來對識別基元建模,一個音素就是一個三至五狀態的HMM,一個詞就是構成詞的多個音素的HMM串列起來構成的HMM,而連續語音識別的整個模型就是詞和靜音組合起來的HMM。上下文相關建模:協同發音,指的是一個音受前後相鄰音的影響而發生變化,從發聲機理上看就是人的發聲器官在一個音轉向另一個音時其特性只能漸變,從而使得後一個音的頻譜與其他條件下的頻譜產生差異。上下文相關建模方法在建模時考慮了這一影響,從而使模型能更准確地描述語音,只考慮前一音的影響的稱為Bi- Phone,考慮前一音和後一音的影響的稱為Tri-Phone。
英語的上下文相關建模通常以音素為基元,由於有些音素對其後音素的影響是相似的,因而可以通過音素解碼狀態的聚類進行模型參數的共享。聚類的結果稱為senone。決策樹用來實現高效的triphone對senone的對應,通過回答一系列前後音所屬類別(元/輔音、清/濁音等等)的問題,最終確定其HMM狀態應使用哪個senone。分類回歸樹CART模型用以進行詞到音素的發音標注。

⑦ 語音識別系統是什麼原理

我們可以設想,在不久的將來坐在辦公司里的經理會對電腦說:「嗨!伙計,幫我通知一下公司所有員工,今天下午3:00准時開會。」這是科學家在幾十年前的設想,語音識別長久以來一直是人們的美好願望,讓計算機領會人所說的話,實現人機對話是發展人機通信的主要目標。進入2l世紀,隨著計算機的日益普及,怎樣給不熟悉計算機的人提供一個友好而又簡易的操作平台,是我們非常感興趣的問題,而語音識別技術就是其中最直接的方法之一。

20世紀80年代中期以來,新技術的逐漸成熟和發展使語音識別技術有了實質性的進展,尤其是隱馬爾可夫模型(HMM)的研究和廣泛應用,推動了語音識別的迅速發展,同時,語音識別領域也正處在一個黃金開發的關鍵時期,各國的開發人員正在向特定人到非特定人,孤立詞彙向連接詞,小詞彙量向大詞彙量來擴展研究領域,可以毫不猶豫地說,語音識別會讓計算機變得「善解人意」,許多事情將不再是「對牛彈琴」,最終用戶的口述會取代滑鼠,鍵盤這些傳統輸入設備,只需要用戶的嘴和麥克風就能實現對計算機的絕對控制。

1、隱馬爾可夫模型HMM的引入

現在假定HMM是一個輸出符號序列的統計模型,具有N個狀態S1,S2⋯Sn,在一個周期內從一個狀態轉到另一個狀態,每次轉移時輸出一個符號,轉移到了哪個狀態以及輸出什麼符號,分別由狀態轉移概率和轉移時的輸出概率來決定,由於只能觀測到輸出符號序列,不能觀測到狀態轉移序列,因此成為隱藏的馬爾可夫模型。

2、語音識別的特點

語音識別的意思是將人說話的內容和意思轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字元序列等。與說話人的識別不同,後者主要是識別和確認發出語音的人而非其中所包含的內容。語音識別的目的就是讓機器聽懂人類口述的語言,包括了兩方面的含義:第一是逐字逐句聽懂而不是轉化成書面的語言文字;第二是對作者簡介:賈聰,中國地質大學機械與電子信息學院。口述語言中所包含的命令或請求加以領會,做出正確回應,而不僅僅只是拘泥於所有詞彙的正確轉換。

3、語音識別系統的工作流程

一般來說,一套完整的語音識別系統其工作過程分為7步:①對語音信號進行分析和處理,除去冗餘信息。②提取影響語音識別的關鍵信息和表達語言含義的特徵信息。③緊扣特徵信息,用最小單元識別字詞。④按照不同語言的各自語法,依照先後次序識別字詞。⑤把前後意思當作輔助識別條件,有利於分析和識別。⑥按照語義分析,給關鍵信息劃分段落,取出所識別出的字詞並連接起來,同時根據語句意思調整句子構成。⑦結合語義,仔細分析上下文的相互聯系,對當前正在處理的語句進行適當修正。

4、音識別系統基本原理框圖及原理

語音識別系統基本原理結構如圖1所示。語音識別原理有三點:①對語音信號中的語言信息編碼是按照幅度譜的時間變化來進行;②由於語音是可以閱讀的,也就是說聲學信號可以在不考慮說話人說話傳達的信息內容的前提下用多個具有區別性的、離散的符號來表示;③語音的交互是一個認知過程,所以絕對不能與語法、語義和用語規范等方面分裂開來。

預處理,其中就包括對語音信號進行采樣、克服混疊濾波、去除部分由個體發音的差異和環境引起的雜訊影響,此外還會考慮到語音識別基本單元的選取和端點檢測問題。反復訓練是在識別之前通過讓說話人多次重復語音,從原始語音信號樣本中去除冗餘信息,保留關鍵信息,再按照一定規則對數據加以整理,構成模式庫。再者是模式匹配,它是整個語音識別系統的核心部分,是根據一定規則以及計算輸入特徵與庫存模式之間的相似度,進而判斷出輸入語音的意思。

前端處理,先對原始語音信號進行處理,再進行特徵提取,消除雜訊和不同說話人的發音差異帶來的影響,使處理後的信號能夠更完整地反映語音的本質特徵提取,消除雜訊和不同說話人的發音差異帶來的影響,使處理後的信號能夠更完整地反映語音的本質特徵。

5、當前亟待解決的問題

語音識別系統的性能受到許多因素的影響,包括不同說話人的發音方式、說話方式、環境噪音、傳輸信道衰落等等。具體要解決的問題有四點:①增強系統的魯棒性,也就是說如果條件狀況變得與訓練時很不相同,系統的性能下降不能是突變的。②增加系統的適應能力,系統要能穩定連續的適應條件的變化,因為說話人存在著年齡、性別、口音、語速、語音強度、發音習慣等方面的差異。所以,系統應該有能力排除掉這些差異。達到對語音的穩定識別。③尋求更好的語言模型,系統應該在語言模型中得到盡可能多的約束,從而解決由於詞彙量增長所帶來的影響。④進行動力學建模,語音識別系統提前假定片段和單詞是相互獨立的,但實際上詞彙和音素的線索要求對反映了發聲器官運動模型特點的整合。所以,應該進行動力學建模,從而將這些信息整合到語音識別系統中去。

6、統的組成和分類

根據識別的對象不同語音識別大致上可分為3類:對孤立詞識別,對關鍵詞識別和對連續語音識別。其中,孤立詞識別的任務是識別事先已知的孤立的詞;連續語音識別的任務則是識別任意的連續語音;連續語音流中的關鍵詞檢測針對的是連續語音,但它並不識別全③部文字,而只是檢測已知的若干關鍵詞在何處出現,根據針對的發音人,可以把語音識別技術分為特定人語音識別和非特定人語音識別,前者只能識別一個或幾個人的語音,而後者則可以被任何人使用。

7、語音識別技術應用領域及前景展望

語音識別技術藉助飛速發展的高速信息網,可實現計算機的全球聯網和信息資源共享,因此被廣泛應用的系統有:語音輸入和控制系統,語音撥號系統、智能家電及玩具,智能電話查詢系統,資料庫檢索等方面,在咨詢服務、教育等行業,正潛移默化地改變和便利著我們的生活。此外,語音識別系統還在多媒體手機、個人掌上電腦、車載導航器GPS等方面有著巨大的應用和市場前景。

8、結語

語音識別是非常有發展潛力的一門學科,你可以設想。我們平時生活中很多地方都可以用到它,可以大大便利我們的生活和工作,比如智能手機,智能空調及冰箱,電動門,汽車導航,機器人控制,醫療設施,軍事設備等。可以毫不誇張的說,21世紀將會是語音識別廣泛流行和普及的時代,而語音識別產品和設備也會以其獨特的魅力引領時代潮流,成為時代追逐的寵兒和焦點。



⑧ 語音識別技術的基本方法

一般來說,語音識別的方法有三種:基於聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經網路的方法。 該方法起步較早,在語音識別技術提出的開始,就有了這方面的研究,但由於其模型及語音知識過於復雜,現階段沒有達到實用的階段。
通常認為常用語言中有有限個不同的語音基元,而且可以通過其語音信號的頻域或時域特性來區分。這樣該方法分為兩步實現:
第一步,分段和標號
把語音信號按時間分成離散的段,每段對應一個或幾個語音基元的聲學特性。然後根據相應聲學特性對每個分段給出相近的語音標號
第二步,得到詞序列
根據第一步所得語音標號序列得到一個語音基元網格,從詞典得到有效的詞序列,也可結合句子的文法和語義同時進行。 模板匹配的方法發展比較成熟,目前已達到了實用階段。在模板匹配方法中,要經過四個步驟:特徵提取、模板訓練、模板分類、判決。常用的技術有三種:動態時間規整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術。
1、動態時間規整(DTW)
語音信號的端點檢測是進行語音識別中的一個基本步驟,它是特徵訓練和識別的基礎。所謂端點檢測就是在語音信號中的各種段落(如音素、音節、詞素)的始點和終點的位置,從語音信號中排除無聲段。在早期,進行端點檢測的主要依據是能量、振幅和過零率。但效果往往不明顯。60年代日本學者Itakura提出了動態時間規整演算法(DTW:DynamicTimeWarping)。演算法的思想就是把未知量均勻的升長或縮短,直到與參考模式的長度一致。在這一過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特徵與模型特徵對正。
2、隱馬爾可夫法(HMM)
隱馬爾可夫法(HMM)是70年代引入語音識別理論的,它的出現使得自然語音識別系統取得了實質性的突破。HMM方法現已成為語音識別的主流技術,目前大多數大詞彙量、連續語音的非特定人語音識別系統都是基於HMM模型的。HMM是對語音信號的時間序列結構建立統計模型,將之看作一個數學上的雙重隨機過程:一個是用具有有限狀態數的Markov鏈來模擬語音信號統計特性變化的隱含的隨機過程,另一個是與Markov鏈的每一個狀態相關聯的觀測序列的隨機過程。前者通過後者表現出來,但前者的具體參數是不可測的。人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據語法知識和言語需要(不可觀測的狀態)發出的音素的參數流。可見HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩性和局部平穩性,是較為理想的一種語音模型。
3、矢量量化(VQ)
矢量量化(VectorQuantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用於小詞彙量、孤立詞的語音識別中。其過程是:將語音信號波形的k個樣點的每一幀,或有k個參數的每一參數幀,構成k維空間中的一個矢量,然後對矢量進行量化。量化時,將k維無限空間劃分為M個區域邊界,然後將輸入矢量與這些邊界進行比較,並被量化為「距離」最小的區域邊界的中心矢量值。矢量量化器的設計就是從大量信號樣本中訓練出好的碼書,從實際效果出發尋找到好的失真測度定義公式,設計出最佳的矢量量化系統,用最少的搜索和計算失真的運算量,實現最大可能的平均信噪比。
核心思想可以這樣理解:如果一個碼書是為某一特定的信源而優化設計的,那麼由這一信息源產生的信號與該碼書的平均量化失真就應小於其他信息的信號與該碼書的平均量化失真,也就是說編碼器本身存在區分能力。
在實際的應用過程中,人們還研究了多種降低復雜度的方法,這些方法大致可以分為兩類:無記憶的矢量量化和有記憶的矢量量化。無記憶的矢量量化包括樹形搜索的矢量量化和多級矢量量化。 利用人工神經網路的方法是80年代末期提出的一種新的語音識別方法。人工神經網路(ANN)本質上是一個自適應非線性動力學系統,模擬了人類神經活動的原理,具有自適應性、並行性、魯棒性、容錯性和學習特性,其強的分類能力和輸入-輸出映射能力在語音識別中都很有吸引力。但由於存在訓練、識別時間太長的缺點,目前仍處於實驗探索階段。
由於ANN不能很好的描述語音信號的時間動態特性,所以常把ANN與傳統識別方法結合,分別利用各自優點來進行語音識別。

⑨ 語音識別的技術原理是什麼

假如要細說的話就比擬復雜了,比方模型庫中又分為聲學模型和言語模型。其中言語模型是依據不同品種的言語,對詞串停止統計建模,目前普遍採用的是基於(n-1)階馬爾可夫鏈統計的n元語法模型。
這里細致說下聲學建模吧。首先經過前端特徵提取取得聲學特徵,再進一步對聲學特徵停止統計建模。建模運用到的貝葉斯統計建模框架,也就是最大後驗概率決策原則。這里演算法這種深奧的東西就不說了,除非深度開發,否則直接套用就行了,我本人也是博古通今,還是念書的時分學的。
說說提取聲學特徵該如何完成:當語音輸入之後,首先停止模電轉換,將模仿信號轉變為數字信號,再停止靜音切除去掉無關噪音,然後停止分幀。將此時的信號分紅一幀一幀之後(每一幀並不是獨立存在的而是相互關聯的),還要停止一系列的信號處置,包括預加重、加窗之後,再停止FFT變換之後,再經過Mel參數的濾波和取對數、離散餘弦變換等一系列演算法處置後,能夠停止用梅爾頻率倒譜系數(MFCC)停止特徵提取,得到聲學特徵。
覺得越說越復雜了……後面簡單點說吧。前面說了言語模型,而聲學模型就是將聲學特徵統計建模後得到的。得到了模型庫之後就能夠停止模型鍛煉和形式匹配了。
所謂模型鍛煉就是指依照一定的原則,從大量已知語音形式中獲取一個最具特徵的模型參數。而形式匹配則相反,是依據一定原則,將未知語音形式與模型庫中的某一個模型取得最佳匹配。
最後的解碼過程又能夠分紅動態解碼網路和靜態解碼網路兩種:動態網路會編譯一個狀態網路並構成搜索空間,把單詞轉換成一個個的音素後將其依照語序拆分紅狀態序列,再依據音素上下文分歧性准繩將狀態序列停止銜接。
而靜態網路普通是針對一些特殊詞(孤立詞)的辨認網路,它的構造就簡單多了:先將每條特殊詞擴展成HMM狀態序列,然後再計算得分,選擇得分最大的作為辨認輸出結果。由於靜態網路是依據聲學概率計算權重,不需求查詢言語模型概率,因而解碼速度很快。

⑩ 隱馬爾可夫模型的基本問題

1. 評估問題。
給定觀測序列 O=O1O2O3…Ot和模型參數λ=(A,B,π),怎樣有效計算某一觀測序列的概率,進而可對該HMM做出相關評估。例如,已有一些模型參數各異的HMM,給定觀測序列O=O1O2O3…Ot,我們想知道哪個HMM模型最可能生成該觀測序列。通常我們利用forward演算法分別計算每個HMM產生給定觀測序列O的概率,然後從中選出最優的HMM模型。
這類評估的問題的一個經典例子是語音識別。在描述語言識別的隱馬爾科夫模型中,每個單詞生成一個對應的HMM,每個觀測序列由一個單詞的語音構成,單詞的識別是通過評估進而選出最有可能產生觀測序列所代表的讀音的HMM而實現的。
2.解碼問題
給定觀測序列 O=O1O2O3…Ot 和模型參數λ=(A,B,π),怎樣尋找某種意義上最優的隱狀態序列。在這類問題中,我們感興趣的是馬爾科夫模型中隱含狀態,這些狀態不能直接觀測但卻更具有價值,通常利用Viterbi演算法來尋找。
這類問題的一個實際例子是中文分詞,即把一個句子如何劃分其構成才合適。例如,句子「發展中國家」是劃分成「發展-中-國家」,還是「發展-中國-家」。這個問題可以用隱馬爾科夫模型來解決。句子的分詞方法可以看成是隱含狀態,而句子則可以看成是給定的可觀測狀態,從而通過建HMM來尋找出最可能正確的分詞方法。
3. 學習問題。
即HMM的模型參數λ=(A,B,π)未知,如何調整這些參數以使觀測序列O=O1O2O3…Ot的概率盡可能的大。通常使用Baum-Welch演算法以及Reversed Viterbi演算法解決。
怎樣調整模型參數λ=(A,B,π),使觀測序列 O=O1O2O3…Ot的概率最大?

閱讀全文

與語音識別隱馬爾可夫三個演算法相關的資料

熱點內容
php鏈接正則表達式 瀏覽:964
安卓版蘋果手機怎麼轉手 瀏覽:101
安卓怎麼修改app的名字 瀏覽:135
域名伺服器可將域名地址 瀏覽:721
廣州伺服器機櫃怎麼賣 瀏覽:236
轉讓騰訊雲三年伺服器 瀏覽:252
網易雲音樂加密怎麼處理 瀏覽:387
編譯小視頻軟體 瀏覽:595
盒馬app買東西怎麼送 瀏覽:119
編譯原理國產 瀏覽:691
在線用pdf轉word 瀏覽:424
咪咕app怎麼發表文章 瀏覽:209
phpsftp上傳 瀏覽:936
php可以幹嘛 瀏覽:879
梁箍筋加密區需要滿綁扎嗎 瀏覽:330
程序員半個月工資多少 瀏覽:821
雲伺服器租賃還是私有 瀏覽:752
php七牛視頻上傳 瀏覽:14
php五星 瀏覽:311
使用api訪問外部文件夾 瀏覽:220