pcm混音演算法_網易雲輸出Directsound和Waveout有什麼區別

⑴ 網易雲輸出Directsound和Waveout有什麼區別

先放結論：
ASIO：硬體支持+對應驅動程序
DS：兼容性最好，一般也是默認的。
WASAPI：是Vista之後的，較佳選擇輸出方式。
再來詳細看：
ASIO、WDM都是指音頻通道，就是音頻數據走的路。
ASIO指的是ASIO音頻通道；WDM是指WDM類型的音頻通道，具體包括WaveOut、DirectSound（簡稱DS）、Kernel Streaming（簡稱KS），Windows Vista和7 還比XP多了WASAPI。
具體體現在各個音頻播放、錄音軟體的設置里，比如Foobar2000等。
打形象的比喻，音頻數據是車，操作系統的音頻部分是一條路。
WaveOut、DirectSound（簡稱DS）就好比最一般的公用車道，大家可以並行走（程序可以一起發聲），但要受到一些旁車的影響。
Kernel Streaming（簡稱KS），WASAPI好比在這條操作系統音頻之路上劃出一條專用道，只允許一個車走，雖然還走著一條路，但沒有干擾了，程序獨占。
ASIO就好比我壓根不走操作系統那條路了，我自己專門再修一條新路，自己走自己的，不過操作系統公共音頻部分了。
其實ASIO最有價值的地方在於錄音，它的最大特點在於聲音數據在通道里通行快，延時小（音頻傳輸是需要若干毫秒的時間的，對於精確錄音和聲音混音合成，很是敏感）。
DS就是DirectSound的首字母縮寫，DirectSound是DirectX的一部分，而DirectX則是被很多游戲玩家所熟知，DirectX是由微軟創建的多媒體編程介面，由C++編程語言實現，遵循COM。DirectX是Windows平台下最通用最成熟的介面，多媒體軟體大多採用了DirectX API。通過DS輸出可為開發者和用戶帶來許多便利，FB2K下使用DS輸出則是可以實現漸響、淡出等功能，還能支持音效卡所帶的音效，所以小編並不是推薦各位網友使用DS輸出來播放無損音樂。
ASIO全稱Audio stream input output，是德國Steinberg公司所提出的，主要目的是為了解決PC音頻方面的輸入輸出的延遲問題，由於系統自帶的音頻輸出方式一般延遲都大於10ms，雖然10ms並不算長，但仍舊是無法滿足專業領域的嚴苛需求的，於是ASIO便針對延遲問題進行了深度設計，使其輸出輸入延遲能夠低於10ms，甚至還能低於1ms，完全能夠滿足專業音樂製作的需求，聆聽音樂選擇該方法輸出，主要目的肯定不是降低延遲了，而是為了能避開系統重采樣、音效以及規格化處理，由於ASIO低延遲設計，所以在輸出過程當中不會引入任何處理，但ASIO缺點也是很明顯的，ASIO是需要驅動層面的支持，並不是所有音效卡都帶有ASIO驅動，雖然有第三方驅動，但效果可能不盡如人意。
WASAPI全稱Windows Audio Session API，是微軟Vista之後所引入的，Vista當中微軟重寫了音頻架構,提出了一套新的通用架構，Universal Audio Architechture(UAA)，並增加了全新的WASAPI，WASAPI為程序開發者提供了兩種模式，共享模式（Shared Mode）和獨占模式（Exclusive Mode），使用獨占模式時可以和ASIO輸出達到相似的效果，此時音效卡被某一程序獨占，只有該程序能使用音效卡，其他程序均不能佔用音效卡，而且獨占模式時，系統不也會干涉音頻流，直接將其交給音效卡驅動進行輸出，音效卡自帶的音效以及系統重采樣均不會起到作用，可輸出純凈的聲音，
【在過去，音效卡廠商例如Creative、Realtek等，為了讓使用者透過自家編寫的控制台來進行各方面關於音頻設備的設定，所以編寫驅動程序時，必須在Kernel Mode（內核模式）這個層級撰寫相當多的代碼來提供調用，使得使用者的操作設定能夠直達硬體層。然而這對於系統的穩定度是一個很不好的影響，稍微有一點點意外狀況，會因為這些功能跑在Kernel Mode而導致系統死機。在 Vista 時代有所改善了。Microsoft要求所有音頻設備的廠商必須遵循UAA的架構來開發驅動程式，也為了配合UAA架構，Vista可以說是整個翻新了音訊處理流程，許多原本需要寫在Kernel Mode的音效卡功能，需要改寫到User Mode（用戶模式）去，進而增加了系統穩定度。】
KS（Kernel Streaming）輸出是一種比較老舊的輸出方式，主要使用在沒有WASAPI的XP以及之前版本的Windows系統當中，KS最早出現在Windows 98當中，它允許程序員能夠為多媒體設備實時的處理音頻流，效果和ASIO、WASAPI類似，都可以避開系統對音頻的音效處理或是規格化，從Vista開始KS已經逐漸被WASAPI所取代了，目前支持的軟體並不多。

⑵ 各種音頻文件的格式有什麼不同

對補充的回答:

RVMB格式是網上很流行的視頻格式,是經過壓縮的.它的標准播放軟體是Realplayer,不過如果你不想再安裝軟體,直接用windows自帶的Media player播放的話,那就在網上搜一個名叫"阿飛的解碼器"裝上,就可滿足當前的大多數音視頻的解碼問題了.

你所提的這些格式都不是純音頻格式,WMV，MPG，AVI，VOB這些是屬於視頻類的,不是純音頻.按你說的這些文件的來源,那差別就大了.wmv是微軟公司為滿足網路視頻速度快、文件小的需要開發出的一種視頻格式，壓縮比很大，文件的個頭在你提的這幾種里是最小的，不過這也要看視頻的原始尺寸.MPG格式也是一種壓縮格式，分VCD的MPEG1（在光碟的文件顯示為.DAT）和DVD的MPEG2(在光碟里顯示為.VOB)兩種格式，清晰度你也應該知道的。對於AVI這種格式嘛，就不一定了,如果說是從DV帶或是一些高清攝像機採集而來的視頻AVI,那就應該是最清晰的,不過嘛文件也是最大的,不過現在的視頻格式,比如MP4播放器播放的視頻也是AVI的,它是經過壓縮的,文件大小和清晰度也就受到了限制.

音頻文件如mp3,wma,ape,wav,midi等等這些格式才是純音頻,而你說的那些格式是音頻和視頻合成的文件.

對於我所說的這些音頻格式:mp3和wma都屬於壓縮比例較大的格式,只有wav文件是沒有經過壓縮的原聲文件,ape是屬於一種保真度很高的壓縮音頻文件,而midi是由混音器合成或是轉換得來的音頻.

這幾種音頻格式相比之下,當然是wav這種格式的音質最好了(不過也要看錄制的環境和設備),也就是CD光碟上保存的音頻的原始文件格式.不過最大的缺點是文件佔用的空間相對其他格式音頻文件最大;ape格式文件是壓縮得比較小的格式,基本上保持了WAV的原音質,損失不大,文件個頭只佔WAV的三分之一左右;mp3\wma格式應該是網上最流行的音頻格式了,相對於WAV壓縮得就相當多了.不過如果不是音樂發燒友的也可以滿足聽覺了,因為被壓縮的部分人耳是分辨不出來的.

⑶ 如何獲取音效卡的輸入音量,用powershell

1.
Windows上音頻處理的API 在Windows操作系統上,常用的音頻處理技術主要包括: Wave系列API函數、 DirectSound、 Core Audio。 ...
2.
使用WaveIn系列API函數實現麥克風輸入採集涉及的API函數: waveIn...
3.
使用Core Audio實現對音效卡輸出的捕捉涉及的介面有: IMMDevice...
4.
常用的混音演算法混音演算法就是將多路音頻輸入信號根據某種規則進行

⑷ 什麼軟體能把兩種不同的聲音合成一種聲音

可以合成的軟體不少，比如使用音頻編輯軟體Adobe Audition
Adobe Audition，它是一個專業音頻編輯和混合環境，原名為Cool Edit Pro. 被Adobe 公司收購後，改名為Adobe Audition。
Audition專為在照相室、廣播設備和後期製作設備方面工作的音頻和視頻專業人員設計，可提供先進的音頻混合、編輯、控制和效果處理功能。最多混合 128 個聲道，可編輯單個音頻文件，創建迴路並可使用 45 種以上的數字信號處理效果。Audition 是一個完善的多聲道錄音室，可提供靈活的工作流程並且使用簡便。無論是要錄制音樂、無線電廣播，還是為錄像配音，Audition中的恰到好處的工具均可為您提供充足動力，以創造可能的最高質量的豐富、細微音響。它是 Cool Edit Pro 2.1 的更新版和增強版。此漢化程序已達到98%的信息漢化程度。
（2）操作流程
①打開Adobe Audition，選擇「文件--新建--多軌合成項目」，在彈出窗口可以設置項目名稱與路徑
②按住滑鼠左鍵不放將要合成音樂文件拖入到合成的音軌中，倆個音樂放在同一個音軌上並且不重合即首位相接
③選擇「文件--導出--多軌混縮--整個項目」，在彈出菜單里設可以置名稱、格式等
④打開倆個音樂合成的文件，已經成為一首音樂了

⑸ 關於音頻有那些格式，那些容量比較大，那些音質比較好

WAV格式

WAV是微軟公司開發的一種聲音文件格式，它符合 PIFFResource Interchange File Format 文件規范，用於保存WINDOWS平台的音頻信息資源，被WINDOWS平台及其應用程序所支持。「*.WAV」格式支持MSADPCM、CCITT A LAW等多種壓縮演算法，支持多種音頻位數、采樣頻率和聲道，標准格式的WAV文件和CD格式一樣，也是44.1K的采樣頻率，速率88K/秒，16位量化位數。

MP3格式

MP3格式誕生於八十年代的德國，所謂的MP3也就是指的是MPEG標准中的音頻部分，也就是MPEG音頻層。根據壓縮質量和編碼處理的不同分為3層，分別對應「*.mp1"/「*.mp2」/「*.mp3」這3種聲音文件。需要提醒大家注意的地方是：MPEG音頻文件的壓縮是一種有損壓縮，MPEG3音頻編碼具有10：1~12：1的高壓縮率，同時基本保持低音頻部分不失真，但是犧牲了聲音文件中12KHz到16KHz高音頻這部分的質量來換取文件的尺寸，相同長度的音樂文件，用＊.mp3格式來儲存，一般只有＊.wav文件的1/10，而音質要次於CD格式或WAV格式的聲音文件。由於其文件尺寸小，音質好；所以在它問世之初還沒有什麼別的音頻格式可以與之匹敵，因而為＊.mp3格式的發展提供了良好的條件。直到現在，這種格式還是風靡一時，作為主流音頻格式的地位難以被撼動。但是樹大招風，MP3音樂的版權問題也一直是找不到辦法解決，因為MP3沒有版權保護技術，說白了也就是誰都可以用。

MP3格式壓縮音樂的采樣頻率有很多種，可以用64Kbps或更低的采樣頻率節省空間，也可以用320Kbps的標准達到極高的音質。我們用裝有Fraunhofer IIS Mpeg Lyaer3的 MP3編碼器（現在效果最好的編碼器）MusicMatch Jukebox 6.0在128Kbps的頻率下編碼一首3分鍾的歌曲，得到2.82MB的MP3文件。採用預設的CBR（固定采樣頻率）技術可以以固定的頻率采樣一首歌曲，而VBR（可變采樣頻率）則可以在音樂「忙」的時候加大采樣的頻率獲取更高的音質，不過產生的MP3文件可能在某些播放器上無法播放。我們把VBR的級別設定成為與前面的CBR文件的音質基本一樣，生成的VBR MP3文件為2.9MB。

WMA格式

WMA就是Windows Media Audio編碼後的文件格式，由微軟開發，WMA針對的不是單機市場，是網路！競爭對手就是網路媒體市場中著名的Real Networks。微軟聲稱，在只有64kbps的碼率情況下，WMA可以達到接近CD的音質。和以往的編碼不同，WMA支持防復制功能，她支持通過Windows Media Rights Manager 加入保護，可以限制播放時間和播放次數甚至於播放的機器等等。WMA支持流技術，即一邊讀一邊播放，因此WMA可以很輕松的實現在線廣播，由於是微軟的傑作，因此，微軟在Windows中加入了對WMA的支持，WMA有著優秀的技術特徵，在微軟的大力推廣下，這種格式被越來越多的人所接受。

WAV格式

這是一種古老的音頻文件格式，由微軟開發。WAV是一種文件格式，符合 PIFF Resource Interchange File Format規范。所有的WAV都有一個文件頭，這個文件頭音頻流的編碼參數。WAV對音頻流的編碼沒有硬性規定，除了PCM之外，還有幾乎所有支持ACM規范的編碼都可以為WAV的音頻流進行編碼。很多朋友沒有這個概念，我們拿AVI做個示範，因為AVI和WAV在文件結構上是非常相似的，不過AVI多了一個視頻流而已。我們接觸到的AVI有很多種，因此我們經常需要安裝一些Decode才能觀看一些AVI，我們接觸到比較多的DivX就是一種視頻編碼，AVI可以採用DivX編碼來壓縮視頻流，當然也可以使用其他的編碼壓縮。

同樣，WAV也可以使用多種音頻編碼來壓縮其音頻流，不過我們常見的都是音頻流被PCM編碼處理的WAV，但這不表示WAV只能使用PCM編碼，MP3編碼同樣也可以運用在WAV中，和AVI一樣，只要安裝好了相應的Decode，就可以欣賞這些WAV了。在Windows平台下，基於PCM編碼的WAV是被支持得最好的音頻格式，所有音頻軟體都能完美支持，由於本身可以達到較高的音質的要求，因此，WAV也是音樂編輯創作的首選格式，適合保存音樂素材。因此，基於PCM編碼的WAV被作為了一種中介的格式，常常使用在其他編碼的相互轉換之中，例如MP3轉換成WMA。

OGG格式

隨著MP3播放器的流行，MP3播放器的品牌和廠家越來越多，競爭也越來越激烈，再加上MP3手機的壓擠，許多上游MP3隨身聽廠商紛紛尋找出路，有的在外觀上創新，有的在做工上求精，有的推出眾多大容量機型，有的則在解碼晶元上做文章，還有的改進解碼功能，支持新的文件格式。在眾多的新格式當中，OGG以其免費、開源的特點，贏得了MP3播放器廠商的青睞。

這里說的OGG全稱應該是OGG Vobis。OGG並不是一個廠商的名字，而是一個龐大的多媒體開發計劃的項目名稱，將涉及視頻音頻等方面的編碼開發。Vobis則是某音樂作品中一個人物的名字，這里只是借用它，來代表OGG Vobis是關於音頻方便的。OGG Vobis有一個很出眾的特點，就是支持多聲道，隨著它的流行，以後用隨身聽來聽DTS編碼的多聲道作品將不會是夢想。OGG Vobis在壓縮技術上比MP3好，但稍遜於MP3po，但它的多聲道，免費，開源這些特點，使它很有可能成為一個流行的趨勢，這也正是一些MP3播放器對其支持的原因。

APE格式

APE是Monkey's Audio提供的一種無損壓縮格式。Monkey's Audio提供了Winamp的插件支持，因此這就意味著壓縮後的文件不再是單純的壓縮格式，而是和MP3一樣可以播放的音頻文件格式。這種格式的壓縮比遠低於其他格式，能夠做到真正無損，因此獲得了不少發燒用戶的青睞。在現有不少無損壓縮方案種，APE是一種有著突出性能的格式，令人滿意的壓縮比以及飛快的壓縮速度，成為了不少朋友私下交流發燒音樂的一個選擇。

ACC格式

AAC（高級音頻編碼技術，Advanced Audio Coding）是杜比實驗室為音樂社區提供的技術。AAC號稱「最大能容納48通道的音軌，采樣率達96 KHz，並且在320Kbps的數據速率下能為5.1聲道音樂節目提供相當於ITU-R廣播的品質」。和MP3比起來，它的音質比較好，也能夠節省大約30%的儲存空間與帶寬。它是遵循MPEG-2的規格所開發的技術。

⑹ 音樂軟體里的無損音樂和普通音樂差距真的很大嗎

如果我們只談論最純粹的定義，所謂的「無損」意味著未壓縮的音樂。無損音頻是錄音過程中未經修改的輸出，是現有錄音過程的最准確再現。這就意味著，在理論上，必須完美地記錄聲音的細節和空間感，從而帶來音樂表演所需要表達的情感。

然而，問題是這種理論上的無損帶來了對存儲空間的過度佔用，在很多情況下，這種佔用是沒有意義的，因為人們經常需要在有線空間中放置盡可能多的音頻文件。我們常見的錄音室質量無損音頻格式是aiff和wav。眾所周知，它們的體積並不小，因此所謂的「無損壓縮」應運而生。無損壓縮是無損的嗎？對。由於無損壓縮過程是可逆的，因此無損壓縮方案也可以看作是無損的。

位深和采樣率我們剛才提到了位深和采樣率這兩個術語。你說他們是什麼意思？讓我們從數字開始。位深度用於定義所謂的動態范圍，或者更確切地說，最大聲音和最輕聲音之間的差異。每個「位」表示動態范圍內的6db（分貝），因此16位深度表示其動態范圍的差為96db，同樣，24位深度為144db。毫無疑問，動態范圍越大越好，因為兩種極端響度的差別越大，意味著人們在聽一些音樂，特別是古典音樂時會經歷更多的情緒起伏——當然，這需要播放設備的支持。那我們談談抽樣率吧。模擬音頻是由波形表示的，所以當它轉換成數字信號時，麥克風會在固定的時間間隔對其進行采樣。采樣頻率是采樣率。例如，1Hz表示每秒采樣一次。

⑺ 數字音頻混合的原理

沒什麼演算法，采樣率匹配以後把兩個信號加起來輸出就行了，人的耳朵能分辨出兩種聲音的

⑻ 創新5.0音效卡混音器怎麼調制

1.混音器

開始—程序（所有程序）—Creative—Sound Blaster Live!—Creative Surround Mixer點滑鼠右鍵發送到桌面快捷方式，因為經常要用Creative Surround Mixer，提議拖到最下面的快捷欄。

運行Creative Surround Mixer程序，點EAX，點開高級模式就出現以下的界面。

⑼ 數字音頻處理器、反饋抑制器、均衡器和混音器的作用是什麼

數字音頻處理器功能：輸入部分一般包括輸入增益控制、輸入均衡、輸入延時、輸入極性轉換等功能。

反饋抑制器的作用：當發生聲反饋時，它會立即發現並計算其頻率和衰減，並根據計算結果執行抑制聲反饋的命令。

均衡器的功能：調節音色，調節聲場，抑制聲音反饋。

混音器功能：混音器不僅適用於在家唱歌，也適用於舞台表演和多人會議室。它可以串聯使用。如果需要同時使用多個麥克風，也可以選擇多功能混音器（12個輸入和一個輸出）。強大的四合一電路設計：可同時輸入四組音頻信號，每組電路互不幹擾、串擾。

每個信號輸入都有獨立的音量調節器，其內部電路採用國際公認的音頻運算放大器IC：NE5532或JRC4558運算放大器，保證聲音清晰美觀。

數字音頻處理器、反饋抑制器、均衡器和混頻器不能相互替代。

(9)pcm混音演算法擴展閱讀：

數字音頻處理器的主要特點：輸入增益、輸入均衡、輸入延遲、輸入極性轉換。

反饋抑制器的工作原理：利用計算機技術快速掃描並自動找到啟動尖叫聲的音頻信號頻率（即尖叫聲頻率），並自動產生一組具有相同尖叫聲頻率的窄帶濾波器來切斷尖叫聲頻率，從而達到自動抑制尖叫聲和消除聲反饋的目的。

反饋抑制器由放大器、A／D轉換器、窄帶數字濾波器組、數字信號處理器、反饋中心頻率檢測器和D／A轉換器組成。

均衡器分為頻域均衡器和時域均衡器。頻域均衡器利用可調濾波器的頻率特性來補償實際信道的幅頻特性和群時延特性。使包括均衡器在內的整個系統的總頻率特性滿足無符號間干擾的傳輸條件。

直接從時間響應的角度考慮時域均衡器，使包括均衡器在內的整個傳輸系統的脈沖響應滿足無isi的條件。頻域均衡滿足奈奎斯特成形定理的要求，且判決點不存在isi的條件相對寬松。因此，時域均衡器在數字通信中得到了廣泛的應用。

硬體混頻器的輸入信號可以是計算機音頻輸出信號（帶防靜電設計電路）、有線話筒信號、無線話筒信號、CD／VCD／DVD音頻信號、無線耳機輸出音頻信號、MP3／MP4音頻信號等，適用於家庭、舞廳、錄音室等。

軟體混頻器的輸入信號可以是數字音頻文件、計算機系統聲音和計算機終端（如麥克風）的輸入信號，適合音頻編輯。

⑽ 怎樣對聲音素材進行刪除.合並,復制處理

第5章音頻素材製作與處理

本章主要學習音頻相關的基礎知識，包括模擬音頻與數字音頻的概念和各自的特點；數字音頻所具有的優勢；模擬音頻轉換為數字音頻的過程和技術指標；常用的數字音頻文件格式；語音合成技術與識別技術的基本原理。本章需要在實驗環節掌握Adobe Audition 2.0音頻處理軟體的基本操作，主要包括錄音、編輯和效果處理三個方面。

& 學習指導

1、模擬音頻聲音是振動的波，是隨時間連續變化的物理量。因此，自然界的聲音信號是連續的模擬信號，即模擬音頻信號。

聲波與普通波形一樣，可以用三個物理量來描述：振幅、周期和頻率。

（1）振幅：振幅是聲音波形振動的幅度，表示聲音的強弱。

（2）周期：周期是聲音波形完成一次全振動的時間。

（3）頻率：頻率是聲音波形在一秒鍾內完成全振動的次數，表示聲音的音調。

聲音具有三個要素：音調、音色和音強。

（1）音調：音調代表聲音的高低。與頻率有關，頻率越高，音調越高。

（2）音色：音色是聲音的特色。聲音分純音和復音兩種類型。純音的振幅和周期均為常數；復音是具有不同頻率和不同振幅的混合聲音，是影響聲音特色的主要因素。自然界的大部分聲音是復音。在復音中，頻率最低的聲音是「基音」，是聲音的基調。其他頻率的聲音是「諧音」。基音和諧音是構成聲音音色的重要因素。人的聲音、其它生物的聲音以及自然界各種聲響都具有自己獨特的音色。人們往往是依據音色來辨別聲源種類的。

（3）音強：音強是聲音的強度。音強與聲波的振幅成正比，振幅越大，音強越大。

2、模擬音頻的特點

（1）頻率范圍：模擬音頻信號由許多頻率不同的信號組成，每個信號都有各自的頻率范圍，稱為「頻域」或「頻帶」。人耳可聽到的聲音頻率在20Hz-20KHz之間，稱為「可聽域」。頻率高於20KHz的聲音信號稱為「超音頻信號」，頻率低於20Hz的聲音信號稱為「亞音信號」或者「次音信號」。多媒體技術所處理的聲音信號主要是20Hz-20KHz的音頻信號，它包括音樂、語音及自然界的各種聲響。另外，不同種類的聲源頻帶是不同的，例如人類語音頻帶在100Hz -10KHz；高級音響設備頻帶在20Hz-20KHz；而寬頻音響設備的頻帶在10Hz-40KHz。總之，頻帶越寬聲音的表現力越好。

（2）模擬音頻具有連續性。

（3）模擬音頻抗干擾能力差：模擬信號的一個重要的缺點就是雜訊容限較低，抗干擾能力差，雜訊是影響模擬音頻錄音質量的重要原因。音頻信號幅度與雜訊幅度的比值越大越好。音響放大器和揚聲器等還原設備的質量能夠直接影響重放的音質。音質與音色和頻率范圍有關。悅耳的音色、寬廣的頻率范圍，能夠獲得更好的音質。

3、數字音頻數字音頻是以二進制的方式記錄的音頻，是模擬音頻的數字化表達。

4、數字音頻的優勢相比模擬音頻信號，數字音頻信號具有很多優勢。

（1）在聲音存儲方面。模擬音頻記錄在磁帶或者唱片等模擬介質中。模擬介質難保存、易老化，造成音質下降。同時，磁帶的存儲效率很低，音頻錄制往往需要大量的磁帶介質進行存儲，成本很高。數字音頻可以文件的形式存儲在光存儲介質或磁存儲介質中，可以實現永久保存，並且存儲成低。

（2）在聲音處理方面。模擬音頻錄制難度高，需要盡量做到一次成功，後期處理難度大。數字音頻技術在聲音處理方面具有極大的優勢，在後期的音頻處理過程中，可以非常容易地進行多種修正以及加工。

（3）在聲音的壓縮方面。模擬音頻的壓縮率很難提高。數字音頻的壓縮優勢明顯。例如目前流行的MP3音頻格式，壓縮率達到10％左右的同時還能保持良好的音質，利於在互聯網上傳播。

5、模擬音頻/數字音頻轉換模擬音頻信號轉換為數字音頻信號的過程就是對於模擬音頻信號的數字化過程。模擬音頻信號的數字化過程與普通模擬信號數字化過程類似，需要三個步驟：采樣、量化和編碼。

（1）采樣：采樣就是每隔一定的時間間隔T，抽取模擬音頻信號的一個瞬時幅度值樣本，實現對模擬音頻信號在時間上的離散化處理。

（2）量化：量化就是將采樣後的聲音幅度劃分成為多個幅度區間，將落入同一區間的采樣樣本量化為同一個值。量化實現了對模擬信號在幅度上的離散化處理。

（3）編碼：編碼就是將采樣和量化之後的音頻信號轉換為「1」和「0」代表的數字信號。

6、模/數轉換質量的技術指標影響模/數轉換後的數字音頻信號質量的技術指標主要包括采樣頻率、采樣精度、聲道數和編碼演算法。

（1）采樣頻率。采樣頻率是對聲音波形每秒鍾進采樣的次數。奈奎斯特理論指出：采樣頻率不應低於模擬音頻信號最高頻率的兩倍，這樣才能將數字化的聲音還原為原始聲音。采樣頻率越高，聲音失真越小，音頻數據量越大。

（2）采樣精度。采樣精度表示對聲音振幅的量化精度，即將聲音波形的幅度劃分為多少個幅度區間。8位量化表示，將聲音波形的幅度劃分為28個區間。

（3）聲道數。聲道數表示同一時間產生的聲音波形數。如果每次生成一個聲波數據，稱為單聲道；每次生成二個聲波數據，稱為立體聲。立體聲表達的聲音效果豐富，但存儲空間會增加一倍。

（4）編碼演算法。編碼演算法的作用一方面是採用一定的格式來記錄數據，二是採用一定的演算法來壓縮數據。壓縮比是壓縮編碼的基本指標，表示壓縮的程度，是壓縮後的音頻數據量與壓縮前的音頻數據量的比值。壓縮程度越大，信息丟失越多、信號還原後失真越大。根據不同的應用，應該選用不同的壓縮編碼演算法。

7、數字音頻的存儲空間模擬音頻數字化過程中的采樣頻率和采樣精度越高，結果越接近原始聲音，但記錄數字聲音所需存儲空間也隨之增加。未經壓縮的音頻文件所需的存儲空間的計算公式如下：

存儲容量（位元組）=（采樣頻率×采樣精度）/8×聲道數×時間

8、數字音頻文件格式數字化音頻以文件的形式存儲在計算機內。由於音頻數字化過程中採用的技術指標不同，產生了不同的音頻文件格式。常見的數字音頻格式如下：

（1）WAV格式。微軟公司開發的一種聲音文件格式，也叫波形聲音文件，是最早的數字音頻格式。

（2）MIDI格式。也稱作樂器數字介面，是數字音樂/電子合成樂器的統一國際標准。MIDI文件中存儲的是一些指令，由音效卡按照指令將聲音合成出來。

（3）CDA格式。CDA格式是CD音樂格式，取樣頻率為44.1kHz，16位量化位數，CDA格式記錄的是波形流，是一種近似無損的格式。

（4）MP3格式。MP3格式是MPEG-1 Audio Layer 3，能夠以高音質、低采樣率對數字音頻文件進行壓縮。

（5）WMA格式。是微軟公司開發的網路音頻格式。

（6）MP4格式。採用了「知覺編碼」壓縮技術，加入了保護版權的編碼技術。MP4的壓縮比高於MP3，但音質卻沒有下降。

（7）QuickTime格式。蘋果公司推出的一種數字流媒體。

（8）RealAudio格式。Real Networks公司推出的一種文件格式，可以實時傳輸音頻信息。RealAudio文件格式主要有RA、RM、RMX三種，能夠隨著網路帶寬的不同而調整聲音的質量，在保證大多數人聽到流暢聲音的前提下，令帶寬較寬的聽眾獲得更好的音質。

（9）VOC格式。常用在DOS程序和游戲中，是隨音效卡一起產生的數字聲音文件。

（10）AU 格式。應用於互聯網上的多媒體聲音，是UNIX操作系統下的數字聲音文件。

（11）MAC格式。蘋果公司開發的聲音文件格式，廣泛應用與Macintosh平台軟體。

（12）AAC格式。是MPEG-2規范的一部分。壓縮能力強、壓縮質量高。可以在比MP3文件縮小30%的前提下提供更好的音質。

9、語音合成語音合成是指利用計算機合成語音的一種技術，使計算機能夠產生高清晰度、高自然度的連續語音，具有類似於人一樣的說話的能力。

語音合成可以通過將預先錄制並存儲的語音信號重新播放來實現。也可以採用數字信號處理的方法，通過激勵一個類似人們發聲時聲道諧振特性的時變數字濾波器，調整濾波器的相關參數，生成各種音調的語音。

語音合成可分為三個層次，分別是文字到語音、概念到語音、意向到語音。要合成出高質量的語言，必須遵循人類語言的表達規則，如語義學規則、詞彙規則、語音學規則。

10、語音合成技術分類按照合成方法分類。分為參數合成法、基音同步疊加法和基於資料庫的語音合成法。

（1）參數合成法。通過調整合成器參數實現語音合成。

（2）基音同步疊加法。通過對時域波形拼接實現語音合成。

（3）基於資料庫的語音合成法。採用預先錄制語音單元並保存在資料庫中，再從資料庫中選擇並拼接出各種語音內容。

按照技術方式分類。分為波形編輯合成、參數分析合成以及規則合成。

（1）波形編輯合成。將語句、短語、詞或音節作為合成單元。這些單元被分別錄音後進行壓縮編碼，組成一個語音庫。重放時，取出相應單元的波形數據，串接或編輯在一起，經解碼還原出語音。這種合成方式也稱為錄音編輯合成。

（2）參數分析合成。以音節、半音節或音素為合成單元。按照語音理論，對所有合成單元的語音進行分析，提取有關語音參數，這些參數經編碼後組成一個合成語音庫；輸出時，根據待合成的語音的信息，從語音庫中取出相應的合成參數，經編輯和連接，順序送入語音合成器。在合成器中，通過合成參數的控制，將語音波形重新還原出來。

（3）規則合成。規則合成存儲的是較小的語音單位，如音素、雙音素、半音節或音節的聲學參數，以及由音素組成音節、再由音節組成詞或句子的各種規則。當輸入字母符號時，合成系統利用規則自動地將它們轉換成連續的語音波形。

11、文語轉換系統文語轉換系統是語音合成的第一個層次，是將文字內容轉換為語音輸出的語音合成系統。

12、語音合成技術的需求和特點語音合成技術具有四個方面的需求和特點：自然度、清晰度、表現力和復雜度。

13、語音識別語音識別技術是讓計算機通過識別和理解，將語音轉變為文本或命令的技術，讓計算機能夠聽懂人類的語言。

14、語音識別系統分類語音識別系統按照其構成與規模有多種不同的分類標准。根據對說話人說話方式的要求，可以分為孤立字語音識別系統，連接字語音識別系統以及連續語音識別系統；根據對說話人的依賴程度可以分為特定人和非特定人語音識別系統；根據詞彙量大小，可以分為小詞彙量、中等詞彙量、大詞彙量以及無限詞彙量語音識別系統。

15、語音識別的關鍵技術語音識別技術主要包括特徵提取技術、模式匹配技術及模型訓練技術。此外，還涉及到語音識別單元的選取。語音識別單元有單詞、音節和音素三種。

（1）特徵提取技術。在豐富的語音信號中提取出對語音識別有用的信息，通過對語音信號進行分析處理，去除對語音識別無關緊要的冗餘信息，獲得影響語音識別的重要信息。

（2）模型訓練技術。按照一定準則，從已知模式中獲取表徵該模式本質特徵的模型參數。

（3）模式匹配技術。根據一定準則，使未知模式與模型庫中的某一個模型獲得最佳匹配。

16、音頻處理軟體Adobe Audition 該軟體是集音頻的錄制、混合、編輯和控制於一身的音頻處理工具軟體。可以輕松創建音樂、製作廣播短片、修復錄制缺陷。基本功能包括以下方面：

（1）錄音。

（2）混音。將不同音軌中的聲音混合在一起，綜合輸出經過混合的聲音效果。

（3）聲音編輯。例如聲音的淡入淡出、聲音移動和剪輯、音調調整、播放速度調整等。

（4）效果處理。軟體帶有不同類型的效果器，如壓縮器、限制器、均衡器、合唱效果器、延遲效果器、回升效果器等，能夠實時處理聲音的效果。

（5）降噪：實現在不影響音質的情況下，去除雜訊。

（6）聲音壓縮。軟體具有支持目前幾乎所有流行的音頻文件類型，並能夠實現類型的轉換和文件壓縮。

（7）協同創作。能夠與多種音樂軟體協同運行，實現音樂創作。

17、音頻處理軟體Adobe Audition基本操作 Adobe Audition 2.0 音頻處理軟體具有三種編輯模式界面，分別是多軌編輯模式、單軌編輯模式以及CD模式。多軌與單軌界面大致可以分為菜單欄、工具欄、文件/效果器列表欄、音軌顯示區、基本功能區和電平顯示區。

常用的音頻編輯方法主要是對音頻波形進行裁剪、切分、合並、鎖定、編組、刪除、復制以及對音頻進行包絡編輯和時間伸縮編輯。

音頻特效處理主要使用各種效果器，主要包括均衡效果處理、混響效果處理、壓限效果處理、延遲效果處理等。

& 習題解析

一、單選題

1．人耳可以聽到的聲音頻率范圍為。

A）20-20kHz
B）200-15 kHz

C）50-20 kHz
D）10-20 kHz

答案：A

解析：人耳聽到的聲音頻帶范圍是有限的，頻率低於20Hz和高於20000Hz的聲音信號人類聽不到，即表示人耳的可聽域在20-20000Hz之間。

2．格式的數字音頻是微軟公司開發的網路音頻格式。

A）WAV
B）WMA

C）MP3
D）RM

答案：B

解析：WMA格式是Windows Media Audio的縮寫，是微軟公司開發的網路音頻格式。其壓縮率一般可以達到1:18。

3．聲音的三個要素中不包括。

A）音調
B）音質

C）音色
D）音強

答案：B

解析：聲音具有三個要素：音調、音色和音強。

4．描述模擬音頻信號的三個物理量中，表示聲音的音調。

A）振幅
B）音色

C）頻率
D）音強

答案：C

解析：自然界的聲音信號是連續的模擬信號，可以用三個物理量來描述：振幅、周期、頻率。其中，頻率是聲音波形在一秒鍾內完成全振動的次數，表示聲音的音調。

5．描述模擬音頻信號的三個物理量中，表示聲音的強弱。

A）振幅
B）音色

C）頻率
D）周期

答案：A

解析：自然界的聲音信號是連續的模擬信號，可以用三個物理量來描述：振幅、周期、頻率。其中，振幅是聲音波形振動的幅度，表示聲音的強弱。

6．人們主要依據聲音的特點來區分和辨別聲源的種類。

A）振幅
B）音色

C）音強
D）音調

答案：B

解析：人的聲音、其它生物的聲音以及自然界各種聲響都具有自己獨特的音色。人們往往是依據音色來辨別聲源種類的。

7．人類語音的頻帶寬度是 Hz。

A）200-3400
B）100-10000

C）20-20000
D）20-15000

答案：B

解析：人類語音的頻帶寬度為100Hz-10000Hz。

8．模擬音頻的聲音質量主要與音色和有關。

A）聲音強度
B）頻率范圍

C）聲音音調
D）基音

答案：B

解析：模擬音頻的聲音質量簡稱「音質」，與音色和頻率范圍有關。悅耳的音色、寬廣的頻率范圍，能夠獲得更好的音質。

9．將模擬聲音信號轉換為數字音頻信號的數字化過程是。

A）采樣→編碼→量化
B）編碼→采樣→量化

C）量化→編碼→采樣
D）采樣→量化→編碼

答案：D

解析：模擬音頻信號的數字化過程與普通模擬信號數字化過程類似，需要三個步驟：采樣、量化和編碼。

10．將模擬音頻信號在時間上進行離散化處理，這一過程叫。

A）量化
B）編碼

C）采樣
D）壓縮

答案：C

解析：要使模擬音頻信號數字化，首先要在時間上對其進行離散化處理，這一過程叫采樣。

11．以下數字音頻文件格式中，稱為樂器數字介面，是數字音樂/電子合成樂器的統一國際標准。

A）MP3
B）WAV

C）MIDI
D）QuickTime

答案：C

解析：MIDI格式是Musical Instrument Digital Interface的縮寫，又稱作樂器數字介面，是數字音樂/電子合成樂器的統一國際標准。在MIDI文件中存儲的是一些指令，把這些指令發送給音效卡，由音效卡按照指令將聲音合成出來。

12．影響數字音頻信號質量的主要技術指標是。

A）采樣頻率和量化精度
B）壓縮和解壓縮

C）錄音和播放
D）模擬和壓縮

答案：A

解析：影響數字音頻信號質量的主要技術指標主要包括采樣頻率、采樣精度、聲道數和編碼演算法。這些指標決定了數字化音頻的質量。

13．奈奎斯特采樣理論指出，采樣頻率不低於聲音信號最高頻率的倍。

A）3
B）1/2

C）1/3
D）2

導航:首頁 > 源碼編譯 > pcm混音演算法

pcm混音演算法

與pcm混音演算法相關的資料