kaldi源碼_研一剛接觸語音識別怎麼運用kaldi工具箱做一個baseline

① 樹莓派怎麼調用科大訊飛的語音庫實現語音識別

語音識別開發平台有很多，具體總結如下：（更詳細的介紹參見本人的博文：幾個常見的語音交互平台的簡介和比較）

1.商業化的語音交互平台
1)微軟Speech API

微軟的Speech API（簡稱為SAPI）是微軟推出的包含語音識別（SR）和語音合成（SS）引擎的應用編程介面（API），在Windows下應用廣泛。目前，微軟已發布了多個SAPI版本（最新的是SAPI 5.4版），這些版本要麼作為於Speech SDK開發包發布，要麼直接被包含在windows 操作系統中發布。SAPI支持多種語言的識別和朗讀，包括英文、中文、日文等。

2).IBM viaVoice
IBM是較早開始語音識別方面的研究的機構之一，早在20世紀50年代末期，IBM就開始了語音識別的研究，計算機被設計用來檢測特定的語言模式並得出聲音和它對應的文字之間的統計相關性。1999年，IBM發布了VoiceType的一個免費版。2003年，IBM授權ScanSoft公司擁有基於ViaVoice的桌面產品的全球獨家經銷權，隨後ScanSoft與Nuance合並，如今viaVoice早已淡出人們的視線，取而代之的是Nuance。
3）Nuance

Nuance通訊是一家跨國計算機軟體技術公司，總部設在美國馬薩諸塞州伯靈頓，主要提供語音和圖像方面的解決方案和應用。目前的業務集中在伺服器和嵌入式語音識別，電話轉向系統，自動電話目錄服務等。Nuance語音技術除了語音識別技術外，還包擴語音合成、聲紋識別等技術。世界語音技術市場，有超過80%的語音識別是採用Nuance識別引擎技術，其名下有超過1000個專利技術，公司研發的語音產品可以支持超過50種語言，在全球擁有超過20億用戶。蘋果的iPhone 4S的Siri語音識別中就應用了Nuance的語音識別服務。

4）科大訊飛

科大訊飛作為中國最大的智能語音技術提供商，在智能語音技術領域有著長期的研究積累，並在中文語音合成、語音識別、口語評測等多項技術上擁有國際領先的成果。佔有中文語音技術市場60%以上市場份額，語音合成產品市場份額達到70%以上。

5）其他

其他的影響力較大商用語音交互平台有谷歌的語音搜索（Google Voice Search），網路和搜狗的語音輸入法等等。

2.開源的語音交互平台

1）CMU-Sphinx

CMU-Sphinx也簡稱為Sphinx（獅身人面像），是卡內基 - 梅隆大學（ Carnegie Mellon University，CMU）開發的一款開源的語音識別系統，它包括一系列的語音識別器和聲學模型訓練工具。最早的Sphinx-I 由@李開復（Kai-Fu Lee）於1987年左右開發，使用了固定的HMM模型（含3個大小為256的codebook），它被號稱為第一個高性能的連續語音識別系統（在Resource Management資料庫上准確率達到了90%+）。最新的Sphinx語音識別系統包含如下軟體包：
? Pocketsphinx — recognizer library written in C.
? Sphinxbase — support library required by Pocketsphinx
? Sphinx4 — adjustable, modifiable recognizer written in Java
? CMUclmtk — language model tools
? Sphinxtrain — acoustic model training tools
這些軟體包的可執行文件和源代碼在sourceforge上都可以免費下載得到。

2）HTK
HTK是Hidden Markov Model Toolkit（隱馬爾科夫模型工具包）的簡稱，HTK主要用於語音識別研究，最初是由劍橋大學工程學院（Cambridge University Engineering Department ，CUED）的機器智能實驗室（前語音視覺及機器人組）於1989年開發的，它被用來構建CUED的大詞彙量的語音識別系統。HTK的最新版本是09年發布的3.4.1版，關於HTK的實現原理和各個工具的使用方法可以參看HTK的文檔HTKBook。
3）Julius
Julius是一個高性能、雙通道的大詞彙量連續語音識別（large vocabulary continues speech recognition，LVCSR）的開源項目，適合於廣大的研究人員和開發人員。它使用3-gram及上下文相關的HMM，在當前的PC機上能夠實現實時的語音識別，單詞量達到60k個。
4）RWTH ASR
該工具箱包含最新的自動語音識別技術的演算法實現，它由 RWTH Aachen 大學的Human Language Technology and Pattern Recognition Group 開發。RWTH ASR工具箱包括聲學模型的構建、解析器等重要部分，還包括說話人自適應組件、說話人自適應訓練組件、非監督訓練組件、個性化訓練和單詞詞根處理組件等。
5）其他
上面提到的開源工具箱主要都是用於語音識別的，其他的開源語音識別項目還有Kaldi 、simon 、iATROS-speech 、SHoUT 、 Zanzibar OpenIVR 等。

② 語音識別sdk支持的音頻格式，采樣率有哪些

1、用audioread('');函數讀取電腦音頻文件參數音頻文件路徑：
[sampledata,FS] = audioread('F:1.mp3');
sampledata保存音頻信號數據FS音頻采率MP3格式采率般44100；

2、判斷音頻數據否雙聲道雙聲道則保留聲道數據用calsample.m文件函數完功能文件內容：

function sample = calsample(sampledata,FS)
temp_sample = resample(sampledata,1,FS/11025);
[m,n] = size(temp_sample);
if (n == 2)
sample = temp_sample(:,1);
else
sample = temp_sample;
end
end

③ 研一剛接觸語音識別，怎麼運用kaldi工具箱做一個baseline

語音識別開發平台有很多，具體總結如下：（更詳細的介紹參見本人的博文：幾個常見的語音交互平台的簡介和比較）

1.商業化的語音交互平台
1)微軟Speech API

微軟的Speech API（簡稱為SAPI）是微軟推出的包含語音識別（SR）和語音合成（SS）引擎的應用編程介面（API），在Windows下應用廣泛。目前，微軟已發布了多個SAPI版本（最新的是SAPI 5.4版），這些版本要麼作為於Speech SDK開發包發布，要麼直接被包含在windows 操作系統中發布。SAPI支持多種語言的識別和朗讀，包括英文、中文、日文等。

2).IBM viaVoice
IBM是較早開始語音識別方面的研究的機構之一，早在20世紀50年代末期，IBM就開始了語音識別的研究，計算機被設計用來檢測特定的語言模式並得出聲音和它對應的文字之間的統計相關性。1999年，IBM發布了VoiceType的一個版。2003年，IBM授權ScanSoft公司擁有基於ViaVoice的桌面產品的全球獨家經銷權，隨後ScanSoft與Nuance合並，如今viaVoice早已淡出人們的視線，取而代之的是Nuance。
3）Nuance

Nuance通訊是一家跨國計算機軟體技術公司，總部設在美國馬薩諸塞州伯靈頓，主要提供語音和圖像方面的解決方案和應用。目前的業務集中在伺服器和嵌入式語音識別，電話轉向系統，自動電話目錄服務等。Nuance語音技術除了語音識別技術外，還包擴語音合成、聲紋識別等技術。世界語音技術市場，有超過80%的語音識別是採用Nuance識別引擎技術，其名下有超過1000個專利技術，公司研發的語音產品可以支持超過50種語言，在全球擁有超過20億用戶。蘋果的iPhone 4S的Siri語音識別中就應用了Nuance的語音識別服務。

4）科大訊飛

科大訊飛作為中國最大的智能語音技術提供商，在智能語音技術領域有著長期的研究積累，並在中文語音合成、語音識別、口語評測等多項技術上擁有國際領先的成果。佔有中文語音技術市場60%以上市場份額，語音合成產品市場份額達到70%以上。

5）其他

其他的影響力較大商用語音交互平台有谷歌的語音搜索（Google Voice Search），網路和搜狗的語音輸入法等等。

2.開源的語音交互平台

1）CMU-Sphinx

CMU-Sphinx也簡稱為Sphinx（獅身人面像），是卡內基 - 梅隆大學（ Carnegie Mellon University，CMU）開發的一款開源的語音識別系統，它包括一系列的語音識別器和聲學模型訓練工具。最早的Sphinx-I 由@李開復（Kai-Fu Lee）於1987年左右開發，使用了固定的HMM模型（含3個大小為256的codebook），它被號稱為第一個高性能的連續語音識別系統（在Resource Management資料庫上准確率達到了90%+）。最新的Sphinx語音識別系統包含如下軟體包：
 Pocketsphinx — recognizer library written in C.
 Sphinxbase — support library required by Pocketsphinx
 Sphinx4 — adjustable, modifiable recognizer written in Java
 CMUclmtk — language model tools
 Sphinxtrain — acoustic model training tools
這些軟體包的可執行文件和源代碼在sourceforge上都可以下載得到。

2）HTK
HTK是Hidden Markov Model Toolkit（隱馬爾科夫模型工具包）的簡稱，HTK主要用於語音識別研究，最初是由劍橋大學工程學院（Cambridge University Engineering Department ，CUED）的機器智能實驗室（前語音視覺及機器人組）於1989年開發的，它被用來構建CUED的大詞彙量的語音識別系統。HTK的最新版本是09年發布的3.4.1版，關於HTK的實現原理和各個工具的使用方法可以參看HTK的文檔HTKBook。
3）Julius
Julius是一個高性能、雙通道的大詞彙量連續語音識別（large vocabulary continues speech recognition，LVCSR）的開源項目，適合於廣大的研究人員和開發人員。它使用3-gram及上下文相關的HMM，在當前的PC機上能夠實現實時的語音識別，單詞量達到60k個。
4）RWTH ASR
該工具箱包含最新的自動語音識別技術的演算法實現，它由 RWTH Aachen 大學的Human Language Technology and Pattern Recognition Group 開發。RWTH ASR工具箱包括聲學模型的構建、解析器等重要部分，還包括說話人自適應組件、說話人自適應訓練組件、非監督訓練組件、個性化訓練和單詞詞根處理組件等。
5）其他
上面提到的開源工具箱主要都是用於語音識別的，其他的開源語音識別項目還有Kaldi 、simon 、iATROS-speech 、SHoUT 、 Zanzibar OpenIVR 等。

④ 語音識別開放化開發平台有哪些

語音識別開發平台有很多，具體總結如下：（更詳細的介紹參見本人的博文：幾個常見的語音交互平台的簡介和比較）1.商業化的語音交互平台1)微軟SpeechAPI微軟的SpeechAPI（簡稱為SAPI）是微軟推出的包含語音識別（SR）和語音合成（SS）引擎的應用編程介面（API），在Windows下應用廣泛。目前，微軟已發布了多個SAPI版本（最新的是SAPI5.4版），這些版本要麼作為於SpeechSDK開發包發布，要麼直接被包含在windows操作系統中發布。SAPI支持多種語言的識別和朗讀，包括英文、中文、日文等。2).IBMviaVoiceIBM是較早開始語音識別方面的研究的機構之一，早在20世紀50年代末期，IBM就開始了語音識別的研究，計算機被設計用來檢測特定的語言模式並得出聲音和它對應的文字之間的統計相關性。1999年，IBM發布了VoiceType的一個免費版。2003年，IBM授權ScanSoft公司擁有基於ViaVoice的桌面產品的全球獨家經銷權，隨後ScanSoft與Nuance合並，如今viaVoice早已淡出人們的視線，取而代之的是Nuance。3）NuanceNuance通訊是一家跨國計算機軟體技術公司，總部設在美國馬薩諸塞州伯靈頓，主要提供語音和圖像方面的解決方案和應用。目前的業務集中在伺服器和嵌入式語音識別，電話轉向系統，自動電話目錄服務等。Nuance語音技術除了語音識別技術外，還包擴語音合成、聲紋識別等技術。世界語音技術市場，有超過80%的語音識別是採用Nuance識別引擎技術，其名下有超過1000個專利技術，公司研發的語音產品可以支持超過50種語言，在全球擁有超過20億用戶。蘋果的iPhone4S的Siri語音識別中就應用了Nuance的語音識別服務。4）科大訊飛科大訊飛作為中國最大的智能語音技術提供商，在智能語音技術領域有著長期的研究積累，並在中文語音合成、語音識別、口語評測等多項技術上擁有國際領先的成果。佔有中文語音技術市場60%以上市場份額，語音合成產品市場份額達到70%以上。5）其他其他的影響力較大商用語音交互平台有谷歌的語音搜索（GoogleVoiceSearch），網路和搜狗的語音輸入法等等。2.開源的語音交互平台1）CMU-SphinxCMU-Sphinx也簡稱為Sphinx（獅身人面像），是卡內基-梅隆大學（CarnegieMellonUniversity，CMU）開發的一款開源的語音識別系統，它包括一系列的語音識別器和聲學模型訓練工具。最早的Sphinx-I由@李開復（Kai-FuLee）於1987年左右開發，使用了固定的HMM模型（含3個大小為256的codebook），它被號稱為第一個高性能的連續語音識別系統（在ResourceManagement資料庫上准確率達到了90%+）。最新的Sphinx語音識別系統包含如下軟體包：Pocketsphinx—recognizerlibrarywritteninC.Sphinxbase—Sphinx4—adjustable,CMUclmtk—languagemodeltoolsSphinxtrain—acousticmodeltrainingtools這些軟體包的可執行文件和源代碼在sourceforge上都可以免費下載得到。2）HTKHTK是HiddenMarkovModelToolkit（隱馬爾科夫模型工具包）的簡稱，HTK主要用於語音識別研究，最初是由劍橋大學工程學院（，CUED）的機器智能實驗室（前語音視覺及機器人組）於1989年開發的，它被用來構建CUED的大詞彙量的語音識別系統。HTK的最新版本是09年發布的3.4.1版，關於HTK的實現原理和各個工具的使用方法可以參看HTK的文檔HTKBook。3）JuliusJulius是一個高性能、雙通道的大詞彙量連續語音識別（，LVCSR）的開源項目，適合於廣大的研究人員和開發人員。它使用3-gram及上下文相關的HMM，在當前的PC機上能夠實現實時的語音識別，單詞量達到60k個。4）RWTHASR該工具箱包含最新的自動語音識別技術的演算法實現，它由RWTHAachen大學的開發。RWTHASR工具箱包括聲學模型的構建、解析器等重要部分，還包括說話人自適應組件、說話人自適應訓練組件、非監督訓練組件、個性化訓練和單詞詞根處理組件等。5）其他上面提到的開源工具箱主要都是用於語音識別的，其他的開源語音識別項目還有Kaldi、simon、iATROS-speech、SHoUT、ZanzibarOpenIVR等。

導航:首頁 > 源碼編譯 > kaldi源碼

kaldi源碼

與kaldi源碼相關的資料