怎麼編譯語音識別_深入學習C語言的具體步驟

『壹』如何用Tensorflow開發一個簡單的語音識別器

Theano的一個優勢在於代碼是在計算時生成並編譯的，所以理論上可以達到更高的速度（不需要運行時的polymorphism，而且如果寫得好的話可以fuse kernel），但是因為是學術實現，沒有花大精力在優化上面，所以實際速度並不佔優勢。另外現在大家都高度依賴於第三方庫比如說cudnn，所以比較速度已經是上個時代的事情了，不必太在意。

『貳』之前java的語音識別是調用訊飛的dll文件,但怎麼在此基礎上編寫一個離線的語音識別,求方法

一般那種c#的dll是java不能直接調用的，但C\C++可以，你可以使用JNI。比如你要一個 public native void sengMsg(String msg); 來發送信息，先用native關鍵字聲明這個函數，然後再類裡面加一個靜態塊：
static { System.loadLibrary("msg"); } 這里的msg是你的後來編譯的dll文件名，不是簡訊貓帶的。然後寫其他的函數就可以調用這個方法了，寫完後用javac編譯，得到class文件，然後用 javah -jni 你的class文件就會得到一個.h的頭文件，用visual studio新建一個dll，把那個.h文件包含進去，用C\C++調用你現有的dll，然後編譯得到你的msg.dll，把它復制到你的class文件目錄，然後就可以調試運行了。

『叄』如何在linux系統中移植科大訊飛的離線語音識別庫

你在交叉編譯時是如何配置的？ ./configure --host=arm-none-linux-gnueabi --without-gtk --without-carbon --without-quicktime --without-1394libs --without-ffmpeg --without-python --without-swig --enable-static --disable-shared --disable-apps CXX=arm-none-linux-gnueabi-g++ CPPFLAGS=-I/usr/arm-2008q3/arm-none-linux-gnueabi/include --prefix=/usr/opencv 其中：--without-gtk 不使用gtk庫，加上了嗎？

『肆』 windows平台上有什麼好的離線語音識別SDK

【推薦科大訊飛離線語音】

科大訊飛離線語音識別安裝與運行
先從官網下載sdk.
文件解析：
bin/inc下有四個頭文件：msp_errors.h msp_types.h qisr.h qtts.h
msp_errors.h msp_types.h為通用數據結構的頭文件，qisr.h是語音識別用的頭文件，qtts.h是語音合成用的頭文件。
這是sdk中原代的解釋：

1.doc目錄下存放開發文檔等；

2.lib目錄下存放SDK需要調用的動態庫以及需要引用的頭文件。

3.example目錄下存放提供的示例demo，每個例子下都有Makefile文件，在當前目錄make即可；

4.bin目錄下存放符合標準的語音文件樣例、配置文件和資源文件等，make之後的example可執行程序也會拷貝至此，請在此目錄下運行，否則會運行失敗；

5.prj目錄下提供make腳本，可以快速編譯例子。

然後我按照它的指示，在example下的asrdome下make，然而報錯：找不到 lasound，去看它的makefile文件，其中需要這個庫，在網上搜了一下，解決方案如下：
sudo apt-get install alsa-base alsa-utils alsa-source libasound2-dev

重新編譯，又報錯，警告：檢測到時鍾錯誤。您的創建可能是不完整的。
將之前編譯創建的「asrdemo.o」刪除繼續，編譯成功。
然後再bin下生成了"asrdemo"可執行文件，在bin目錄下運行（./asrdemo)
運行成功。
然而輸出的結果是一堆代碼，裡面夾雜識別的話。在網上查了一下，代碼的函數邏輯大概如下
1.先要調用QISRInit（）函數，參數是自己的appid，每個SDK都是注冊才能下載的，所以是唯一的，用來區分用戶的，不同級別的用戶每天可以使用SDK的次數有限制，畢竟人用的多了語音識別的性能肯定會下降；
2.之後就是把GrammarID，輸入輸出的參數param和調用狀態返回值ret作為參數傳入QISRSessionBegin（）函數中進行初始化，返回值是sessionID，這個是後面所有函數的主要參數之一；
3.打開自己的音頻文件，調用QISRAudioWrite（）函數寫入，可以分段也可以一次，第一個參數是sessionID，上面初始化函數返回的值，第二個參數是音頻數據頭指針，第三個參數是音頻文件大小，第四個參數是音頻發送的狀態，表示發送完了沒有，剩下兩個是伺服器端檢測語音狀態和識別狀態的返回值；
4.調用QISRGetResult（）函數獲取識別的結果，第一個參數還是sessionID，第二個參數是輸出識別的狀態，第三個參數是與伺服器交互的間隔時間，官方建議5000，我取為0，第四個參數是調用狀態返回值ret，最後這個函數的返回值就是上面結果的json數據了

錄制語音時，使用「ffmpeg」錄音，簡單方便，符合語音識別的要求。
訊飛語音對語音的要求如下：采樣率16K或8KHz，采樣位是16位，單聲道，格式是PCM或WAV。自帶的錄音軟體都是默認32位采樣，只能用ffmpeg或自己寫代碼錄制，ffmpeg命令如下：
ffmpeg -f alsa -ar 16000 -ac 1 -i hw:0 lib.wav

『伍』如何正確使用微軟中的語音SDK

Linux系統下的Gcc（GNU C Compiler）是GNU推出的功能強大、性能優越的多平台編譯器，是GNU的代表作品之一。gcc是可以在多種硬體平台上編譯出可執行程序的超級編譯器，其執行效率與一般的編譯器相比平均效率要高20%~30%。
Gcc編譯器能將C、C++語言源程序、匯程式化序和目標程序編譯、連接成可執行文件，如果沒有給出可執行文件的名字，gcc將生成一個名為a.out的文件。在Linux系統中，可執行文件沒有統一的後綴，系統從文件的屬性來區分可執行文件和不可執行文件。而gcc則通過後綴來區別輸入文件的類別，下面我們來介紹gcc所遵循的部分約定規則。
.c為後綴的文件，C語言源代碼文件；
.a為後綴的文件，是由目標文件構成的檔案庫文件；
.C，.cc或.cxx 為後綴的文件，是C++源代碼文件；
.h為後綴的文件，是程序所包含的頭文件；
.i 為後綴的文件，是已經預處理過的C源代碼文件；
.ii為後綴的文件，是已經預處理過的C++源代碼文件；
.m為後綴的文件，是Objective-C源代碼文件；
.o為後綴的文件，是編譯後的目標文件；
.s為後綴的文件，是匯編語言源代碼文件；
.S為後綴的文件，是經過預編譯的匯編語言源代碼文件。
Gcc的執行過程
雖然我們稱Gcc是C語言的編譯器，但使用gcc由C語言源代碼文件生成可執行文件的過程不僅僅是編譯的過程，而是要經歷四個相互關聯的步驟∶預處理(也稱預編譯，Preprocessing)、編譯(Compilation)、匯編(Assembly)和連接(Linking)。
命令gcc首先調用cpp進行預處理，在預處理過程中，對源代碼文件中的文件包含(include)、預編譯語句(如宏定義define等)進行分析。接著調用cc1進行編譯，這個階段根據輸入文件生成以.o為後綴的目標文件。匯編過程是針對匯編語言的步驟，調用as進行工作，一般來講，.S為後綴的匯編語言源代碼文件和匯編、.s為後綴的匯編語言文件經過預編譯和匯編之後都生成以.o為後綴的目標文件。當所有的目標文件都生成之後，gcc就調用ld來完成最後的關鍵性工作，這個階段就是連接。在連接階段，所有的目標文件被安排在可執行程序中的恰當的位置，同時，該程序所調用到的庫函數也從各自所在的檔案庫中連到合適的地方。

Gcc的基本用法和選項
在使用Gcc編譯器的時候，我們必須給出一系列必要的調用參數和文件名稱。Gcc編譯器的調用參數大約有100多個，其中多數參數我們可能根本就用不到，這里只介紹其中最基本、最常用的參數。
Gcc最基本的用法是∶gcc [options] [filenames]
其中options就是編譯器所需要的參數，filenames給出相關的文件名稱。
-c，只編譯，不連接成為可執行文件，編譯器只是由輸入的.c等源代碼文件生成.o為後綴的目標文件，通常用於編譯不包含主程序的子程序文件。
-o output_filename，確定輸出文件的名稱為output_filename，同時這個名稱不能和源文件同名。如果不給出這個選項，gcc就給出預設的可執行文件a.out。
-g，產生符號調試工具(GNU的gdb)所必要的符號資訊，要想對源代碼進行調試，我們就必須加入這個選項。
-O，對程序進行優化編譯、連接，採用這個選項，整個源代碼會在編譯、連接過程中進行優化處理，這樣產生的可執行文件的執行效率可以提高，但是，編譯、連接的速度就相應地要慢一些。
-O2，比-O更好的優化編譯、連接，當然整個編譯、連接過程會更慢。
-Idirname，將dirname所指出的目錄加入到程序頭文件目錄列表中，是在預編譯過程中使用的參數。C程序中的頭文件包含兩種情況∶
A)#include
B)#include 「myinc.h」
其中，A類使用尖括弧(< >)，B類使用雙引號(「」)。對於A類，預處理程序cpp在系統預設包含文件目錄(如/usr/include)中搜尋相應的文件，而%B

『陸』手機語音識別並且轉化為文字的技術原理是什麼，請簡單說下

不管是微軟家的Cortana、三星家的S-voice蘋果家的Siri，還是國內一些獨立做語音辨認的比方訊飛、Rokid，在原理在實質上沒有幾差別：就是語音輸入後，停止特徵提取，將提取的特徵值放進模型庫里，再不時地停止鍛煉和匹配，最終解碼得到結果。

假如要細說的話就比擬復雜了，比方模型庫中又分為聲學模型和言語模型。其中言語模型是依據不同品種的言語，對詞串停止統計建模，目前普遍採用的是基於(n-1)階馬爾可夫鏈統計的n元語法模型。
這里細致說下聲學建模吧。首先經過前端特徵提取取得聲學特徵，再進一步對聲學特徵停止統計建模。建模運用到的貝葉斯統計建模框架，也就是最大後驗概率決策原則。這里演算法這種深奧的東西就不說了，除非深度開發，否則直接套用就行了，我本人也是博古通今，還是念書的時分學的。
說說提取聲學特徵該如何完成：當語音輸入之後，首先停止模電轉換，將模仿信號轉變為數字信號，再停止靜音切除去掉無關噪音，然後停止分幀。將此時的信號分紅一幀一幀之後（每一幀並不是獨立存在的而是相互關聯的），還要停止一系列的信號處置，包括預加重、加窗之後，再停止FFT變換之後，再經過Mel參數的濾波和取對數、離散餘弦變換等一系列演算法處置後，能夠停止用梅爾頻率倒譜系數（MFCC）停止特徵提取，得到聲學特徵。
覺得越說越復雜了……後面簡單點說吧。前面說了言語模型，而聲學模型就是將聲學特徵統計建模後得到的。得到了模型庫之後就能夠停止模型鍛煉和形式匹配了。
所謂模型鍛煉就是指依照一定的原則，從大量已知語音形式中獲取一個最具特徵的模型參數。而形式匹配則相反，是依據一定原則，將未知語音形式與模型庫中的某一個模型取得最佳匹配。
最後的解碼過程又能夠分紅動態解碼網路和靜態解碼網路兩種：動態網路會編譯一個狀態網路並構成搜索空間，把單詞轉換成一個個的音素後將其依照語序拆分紅狀態序列，再依據音素上下文分歧性准繩將狀態序列停止銜接。

而靜態網路普通是針對一些特殊詞（孤立詞）的辨認網路，它的構造就簡單多了：先將每條特殊詞擴展成HMM狀態序列，然後再計算得分，選擇得分最大的作為辨認輸出結果。由於靜態網路是依據聲學概率計算權重，不需求查詢言語模型概率，因而解碼速度很快。
這樣的一個流程大致上就是語音辨認技術的主要原理。
最後再說點題外話吧，語音辨認技術其實應用以及很普遍了，比方在北美很多企業的電話自動效勞都會用到，只需用戶直接說出想要的命令，就能夠自動查詢到需求的效勞，不需求像過去那樣按鍵。手機應用里運用語音辨認技術比方微信的聲音鎖，訊飛、搜狗語音輸入等等很多就不說了，而個人最看好的是聲控語音撥號系統、家用機器人、智能家電等范疇，以語音交流的方式取代過去的傳統人機互動。國內在這個范疇的語音辨認嘗試也是相當多的，比方Rokid這樣能夠語音辨認命令還具有深度學習才能的家用機器人，能夠自動播放視頻、音樂，以至以後能夠語音對話機器人叫個餓了么外賣，叫個滴滴出行等等。我今年夏天去參觀過他們的語音辨認開發部門，他們用的是本人獨立開發的一套流程在跑，整個語音模型庫也是依據中國人發音習氣（連讀、口音）做的。當時測試的產品辨認度挺冷艷的，有種真正在人機交互的覺得，等於經過這個機器人接入口來控制其他電子產品，令人耳目一新。

『柒』計算機是如何識別純C語言，將其編譯成二進制的

c語言是高級語言，計算機只能識別二進制0和1編寫的語言，c語言是通關機器語言編寫成二進制編碼才能被計算機識別的!
清楚了嗎？

『捌』深入學習C語言的具體步驟

1、入門後多看代碼
在有一定基礎以後一定要多看別人的代碼。注意代碼中的演算法和數據結構。畢竟學C之後的關口就是演算法和數據結構。提到數據結構，指針是其中重要的一環，絕大多數的數據結構是建立在指針之上的，如鏈表、隊列、樹、圖等等，所以只有學好指針才能真正學好C。別的方面也要關注一下，諸如變數的命名、庫函數的用法等等。有些庫函數是經常用到的。對於這些函數的用法就要牢牢記住。
2、要自己動手
編程序是個實乾的活，光說不練不行。剛開始學的時候可以多練習書上的習題。對於自己不明白的地方，自己編個小程序實驗一下是最好的方法，能給自己留下深刻的印象。自己動手的過程中要不斷糾正自己不好的編程習慣和認識錯誤。有一定的基礎以後可以嘗試編一點小游戲，照著編作為練習。基礎很扎實的時候，可以編一些關於數據結構方面的東西。之後.....學匯編、硬體知識。
3、選擇一個好的編譯器
GCC或者VS都是一個號的選擇
4、關於養成良好的編程習慣

『玖』從計算機高級語言，變成計算機能識別的機器語言，其編譯功能是怎麼實現的啊

1. 通過編譯，鏈接程序，將高級語言轉換為計算機能直接識別的二進代碼。如C，PASCAL等；
2. 通過編譯，鏈接程序，將高級語言轉換為偽代碼，通過虛擬機來執行。如java等；
3. 高級語言直接通過解釋程序執行。如BASIC，PHP，ASP等。

『拾』程序語言編譯器是怎樣被計算機識別的

源代碼是由字元組成的吧？
明白這一點就好辦了
編譯器首先將你寫的代碼讀入內存，然後尋找代碼中的關鍵字、標識符等信息，建立一個所謂的符號表，根據這個符號表對你的源代碼進行檢查，檢查的依據正是該語言的語法和句法規則。比如是否有變數重復定義錯誤、是否有類型不兼容錯誤，是否有遺漏語句分隔符錯誤等等。這些都是比較簡單的，例如根據語言的關鍵字表可以檢查是否有非法的關鍵字（語句分隔符之後的下一個有效字元一定是一個關鍵

導航:首頁 > 源碼編譯 > 怎麼編譯語音識別

怎麼編譯語音識別

與怎麼編譯語音識別相關的資料