導航:首頁 > 源碼編譯 > 音頻演算法研究生團隊

音頻演算法研究生團隊

發布時間:2023-03-23 22:17:21

㈠ 音頻知識詳解(一)

現實生活中,我們聽到的聲音都是時間連續的,我們稱為這種信號叫 模擬信號 。模擬信號需要進行數字化以後才能在計算機中使用。

目前我們在計算機上進行音頻播放都需要依賴於 音頻文件 音頻文件 的生成過程是將 聲音信息采樣 、 量化 和 編碼 產生的數字信號的過程 ,人耳所能聽到的聲音,最低的頻率是從20Hz起一直到最高頻率20KHZ,因此音頻文件格式的最大帶寬是20KHZ。根據 奈奎斯特 的理論,只有 采樣頻率 高於 聲音信號最高頻率 的兩倍時,才能把數字信號表示的聲音還原成為原來的聲音,所以音頻文件的采樣率一般在40~50KHZ,比如最常見的CD音質采樣率44.1KHZ。

采樣 :波是無限光滑的,采樣的過程就是從波中抽取某些點的頻率值,就是 把模擬信號數字化 。如下圖所示:

采樣頻率 :單位時間內對模擬信號的采樣次數。采樣頻率越高,聲音的還原就越真實越自然,當然數據量就越大。采樣頻率一般共分為22.05KHz、44.1KHz、48KHz三個等級。8KHz - 電話所用采樣率, 對於人的說話已經足夠,22.05KHz只能達到FM廣播的聲音品質(適用於語音和中等品質的音樂),44.1KHz則是是最常見的采樣率標准,理論上的CD音質界限,48KHz則更加精確一些(對於高於48KHz的采樣頻率人耳已無法辨別出來了,所以在電腦上沒有多少使用價值)。

采樣位數(也成量化級、樣本尺寸、量化數據位數) :每個采樣點能夠表示的數據范圍。采樣位數通常有8bits或16bits兩種,采樣位數越大,所能記錄聲音的變化度就越細膩,相應的數據量就越大。8位字長量化(低品質)和16位字長量化(高品質),16 bit 是最常見的采樣精度。

量化 :將采樣後離散信號的幅度用二進制數表示出來的過程稱為量化。(日常生活所說的量化,就是設定一個范圍或者區間,然後看獲取到的數據在這個條件內的收集出來)。

PCM : PCM(Pulse Code Molation),即脈沖編碼調制,對聲音進行采樣、量化過程,未經過任何編碼和壓縮處理。

編碼 :采樣和量化後的信號還不是數字信號,需要將它轉化為數字編碼脈沖,這一過程稱為編碼。模擬音頻進采樣、量化和編碼後形成的二進制序列就是數字音頻信號。

聲道數 :聲道數是指支持能不同發聲的音響的個數,它是衡量音響設備的重要指標之一。

碼率 :(也成位速、比特率) 是指在一個數據流中每秒鍾能通過的信息量,代表了壓縮質量。 比如MP3常用碼率有128kbit/s、160kbit/s、320kbit/s等等,越高代表著聲音音質越好。MP3中的數據有ID3和音頻數據組成,ID3用於存儲歌名、演唱者、專輯、音軌等我們可以常見的信息。

音頻幀 :音頻數據是流式的,本身沒有明確的一幀幀的概念,在實際的應用中,為了音頻演算法處理/傳輸的方便,一般約定俗成取2.5ms~60ms為單位的數據量為一幀音頻。這個時間被稱之為「采樣時間」,其長度沒有特別的標准,它是根據編解碼器和具體應用的需求來決定的。

模擬信號 -> 輸入設備(傳遞電壓值)-> 音效卡(經過采樣跟量化(即設置聲音大小等各種值))-> 磁碟(文件) -> 音效卡 -> 輸出設備 -> 模擬信號

我們聲音在物理上用波形表示,那麼我們將這些波形稱作為 模擬信號 。而我們計算機磁碟只能存儲(01010101)的格式。我們將模擬信號轉換成能夠被磁碟存儲的格式(010101)稱之為 數字信號 。這個轉換的過程我們叫 模數轉換

我們發出來的聲音(模擬信號)是連續的,我們如果要一直的對模擬信號進行轉化,產生的數字信號會很大。那麼我們就要采樣,而采樣精度就是每秒計算機對模擬信號進行采樣的次數。最常見的采樣精度就是上面提到的44.1khz/s,這個是經過大師們多年研究得出的數據,低於這個數據,效果就會很差,而高於這個數據,效果的差距不是很明顯。

采樣後就是變成了(0101010110100101...),那聲音的音量是有大小的,那這串數據,怎樣表示聲音的大小呢? 這就涉及到了比特率,它是指在一個數據流中每秒鍾能通過的信息量。 比特率就是將聲音的大小劃分為多少等級。舉例下:8比特,在二進制中,表示有8位,表示的十進制的值就是0(00000000)~256(11111111),那每個數值就代表著一個聲音大小。

經過采樣、量化、編碼後轉化成數字信號,然後存儲為文件。

文件是用來裝數字信號的 ,文件包括了比特率、采樣率、聲道、編碼方式、以及被編碼過後的數字信號。

文件格式 就是製造者自己規定的一種名稱,在每個文件格式都會特定支持幾種編碼格式。 打個比方就是文件就是一個容器,裡面可以裝不同的水,有的可以裝一種,有的可以裝好幾種。

經過采樣後的數字信號很大,有時候我們不需要這么大的,所以我們就要進行編碼壓縮,當然壓縮技術都是有損的。在不大影響音頻的效果的情況下,舍棄掉一些高頻或者低頻的數據。

編碼格式 可以理解為每種音頻格式不同的編解碼方式。

封裝格式就是文件格式,編碼就是編碼格式。

了解了基礎概念之後我們就可以列出一個經典的音頻播放流程(以MP3為例):

在iOS系統中apple對上述的流程進行了封裝並提供了不同層次的介面(圖片引自 官方文檔 )。

下面對其中的中高層介面進行功能說明:

可以看到apple提供的介面類型非常豐富,可以滿足各種類別類需求:

https://msching.github.io/ 大神之作
https://www.jianshu.com/p/5c5e95d89c4f 寫的相當不錯
https://www.jianshu.com/p/423726cc9090 知識點很全
https://www.jianshu.com/p/b3db09fb69dc 總結的挺好
https://www.jianshu.com/p/a75f2411225f 有點專業,了解一部分
http://blog.csdn.net/liusandian/article/details/52488078 概念很清晰易懂

㈡ 求叨叨馮聊音樂:音樂博士帶你從零開始學樂理

AI 科技評論按:作為中國音樂學習最高學府之一,中央音樂學院今日發布了一則音樂人工智慧博士招生啟事。該專業全名為「音樂人工智慧與音樂信息科技」,為中央音樂學院首次開設,導師陣容有來自清華大學、北京大學的人工智慧教授,聯合中央音樂學院院長共同組成雙導師培養制 (音樂導師+科技導師),著力培養「音樂與理工科交叉融合的復合型拔尖創新人才」。

據官網資料顯示,「音樂人工智慧與音樂信息科技」專業學制一共是 3 年,要求報考者必須是出身計算機、智能和電子信息類的考生。

建議閱讀書目方面,除了《音樂理論基礎》1 本與音樂理論掛鉤外,其餘 4 本推薦書目都跟人工智慧理論相關,它們分別為《數據結構與演算法》、《信號與系統引論》、《人工智慧:一種現代的方法》以及《神經網路與機器學習》

由於「音樂人工智慧與音樂信息科技」為跨學科專業,面試環節除了將考核本學科的專業能力之外,還會考核考生的音樂能力——演奏某種樂器或者單純進行演唱。

目前該專業已敲定的 3 名聯合培養導師分別為:


㈢ NetEq中DSP模塊音頻演算法探究

netEQ是webrtc中動態抖動緩沖區和錯誤隱藏的演算法,用來消除因為網路抖動或者丟包。在保持高質量通話的同時,兼顧數據的低延時。其中,兩大模塊分別為MCU、DSP。

MCU(Micro Control Unit)模塊是抖動緩沖區的微控制單元,由於抖動緩沖區作用是暫存接收到的數據包,因此 MCU 的主要作用是安排數據包的插入並控制數據包的輸出。數據包的插入主要是確定來自網路的新到達的數據包在緩沖區中的插入位置,而控制數據包的輸出則要考慮什麼時候需要輸出數據,以及輸出哪一個插槽的數據包。

DSP(digital signal processing)模塊是信號處理單元,主要負責對從 MCU 中提取出來的 PCM 源數據包進行數字信號處理。

本文將針對DSP模塊中設計到的相關演算法以及具體處理過程做詳細介紹和分析。

這里解釋一下DSP處理中幾個操作類型的意義:

加速 Accelerate: 變聲不變調的加速播放演算法

慢速 PreemptiveExpand: 變聲不變調的減速播放演算法

正常 Normal: 正常的解碼播放,不額外引入假數據

融合 Merge: 如果上一次是 Expand 造假出來的數據,那為了聽起來更舒服一些,會跟正常數據包做一次融合演算法

丟包隱藏 Expand(Packet Loss Concealment): 丟包補償,最重要的無中生有演算法模塊,解決 「真丟包」 時沒數據的問題,造假專業戶

舒適噪音 ComfortNoise: 是用來產生舒適雜訊的,比單純的靜音包聽起來會更舒服的靜音狀態

a. 基音,指的是物體震動時所發出的頻率最低的音,其餘為泛音。也就是發音體整段震動,它攜帶著語音中的大部分能量。

b. 基音周期,聲音震動波形的周期,其頻率則為基頻。基音周期是語音處理演算法中的基本單位,是語音估計中的關鍵參數。

c. 基音檢測,是對基音周期的估計,目的是得出和聲音震動頻率完全一致的基音周期長度。

d. 短時自相關函數法,webrtc中用於基因檢測的方法。經典的短時自相關函數法進行基音檢測時,是使用一個窗函數,窗不動,語音信號移動。通過比較原始信號和他位移後的信號之間的相似性來確定基音周期,如果移位距離等於基音周期,那麼兩個信號便具有最大相似性。窗口長度N的選擇至少要大於基音周期的兩倍,N越大,得出的基音周期越准確,但計算量也會相應增加。反之,N越小,誤差越大,計算量越小。

e. WSOLA,Waveform Similarity Over-Lap Add,波形相似重疊相加法。在不改變語音音調並保證音質的前提下,使語音在時間軸上被拉伸或者壓縮,即變速不變調。
採用分解合成的思想,將原始語音以L為幀間距,以N為幀長進行拆分,以aL為幀間距進行合成,其中a為調整因子。為防止頻譜斷裂或相位不連續,合成時在原始語音信號的采樣點處,相鄰區域[-max, +max]內移動,尋找信號波形相關最大的波形,確定合成位置。

圖中是通過直接拷貝的方式實現慢速播放,造成了時域波形不連續。波形相似疊加法避免了上述問題的出現。

加速處理用來解決數據包在jitterbuffer中累積造成延時過大的情況。使用WSOLA演算法在時域上壓縮語音信號。

已上圖為例,長度為110個樣本。其中B區域為短時自相關函數法中的x(n),長度相同的移動窗(A區域)為x(n-τ),以τ為10開始移動,最大為100。在此過程中以拋物線擬合的方式求出相關性最大時的移動距離τ,進而得到該幀的基音周期P。

計算該數據流,中心點,前後兩個基音周期的相關性bestCorr。當相關性大於0.9,將兩個基音周期交叉混合並輸出;否則,按照正常處理直接輸出。

加速處理就是將兩個基音混合成一個個並代替原有的兩個基音來縮短語音長度。

加速後的語音數據存於neteq演算法緩沖區algorithm_buffer中。

neteq/accelerate.cc

減速處理用來解決網路狀況不好而導致音頻數據比較少時,為了人耳聽覺的連續性,使用WSOLA演算法在時域上拉伸信號,來延長網路等待時間。

過程與加速過程類似

減速處理是將兩個基音混合成一個,並插入到兩個基音中間來延長語音長度。因此,經過減速處理的語音幀增加了一個基音周期的時長。

減速後的語音數據存於neteq演算法緩沖區algorithm_buffer中。

neteq/preemptive_expand.cc

當音頻數據丟失,會利用參考數據在演算法緩沖區中創建、補齊缺失內容,實現丟包隱藏,保證聽覺體驗。

上圖中,丟包隱藏使用語音緩沖區中最新的256個樣本作為參考數據源,並將這些數據記為speechHistory(歷史數據)。speechHistory用於連續PLC的場景。

neteq/expand.cc

融合處理發生在播放的上一幀與當前數據幀不連續的情況。比如,上一幀為PLC幀,當前幀為正常幀。

neteq/merge.cc

正常處理一般用於提取的數據包剛好符合播放要求,然後將此包解碼後直接輸出到speech buffer等待播放。如果上次處理是PLC,還需要進行平滑。

neteq/normal.cc

rfc 3389。結合語音活動檢測演算法的舒適噪音生成可快速確定靜音出現的時間,並在出現靜音時產生人工噪音,直到語音活動重新恢復為止。產生的人工噪音可形成傳輸流不間斷的假象,因此電話中的背景聲音會從始至終保持連續,接聽者不會有電話掉線的感覺。

neteq/comfort_noise.cc

參考

https://blog.csdn.net/liuxiaoheng1992/article/details/79379514

https://nemocdz.github.io/post/淺談-webrtc-neteq/#丟包補償-1

《WebRTC語音引擎中NetEq技術的研究》吳江銳

㈣ 音頻演算法專業博士哪個學校好

1、皇家理工學院(英文:KTHRoyalInstituteofTechnology;瑞典文:Kungligatekniskah_gskolan,簡稱:KTH)成則或立於1827年,坐落於瑞典王國首都斯德哥爾摩,是瑞典國內規模最大、歷史最悠久的理工院校,為北歐五校聯盟成員之一,此學校的音頻演算法專業博士深受業界承認。
2、東北大學(NortheasternUniversity),簡稱NEU,成立於1898年,坐落富有歷史底蘊,古老與現代並存的波士頓市中心,是位於美國東北部馬薩諸塞州州府波士頓市碰態的一所美國的著名私立研究型大學,在全球具有很高的聲譽。學校一共匯聚了來自全世界122個國家的精英,在實踐性學習、跨學科研究以及社區參與方面都處於世界領先地位。東北大學由8個學院組成,設有175個本科專業和227個笑盯源研究生專業,授予碩士、博士和職業教育學位。

閱讀全文

與音頻演算法研究生團隊相關的資料

熱點內容
舒淇六部 瀏覽:901
穿越影視世界收女主的小數 瀏覽:851
胸很大電影 瀏覽:924
台灣催淚老電影推薦 瀏覽:924
android數據觀察者 瀏覽:530
如何破解收費軟體app 瀏覽:884
原理圖編譯器生成的文件後綴 瀏覽:824
成龍非洲盜寶電影 瀏覽:597
回到古代當太子的小說免費閱讀 瀏覽:602
香港武打電影功夫片免費完整版 瀏覽:627
河南聯通伺服器地址雲空間 瀏覽:768
海泰克怎麼加密 瀏覽:895
hashset遍歷java 瀏覽:371
中國打越南電影有哪些 瀏覽:702
消失的眼角膜之瞎子傳奇在線觀看 瀏覽:272
如何在蘋果平板上設置app切換 瀏覽:707
帶著金手指到民國 瀏覽:593
les肉電影 瀏覽:821
嬰兒武打片 瀏覽:642
師徒訓誡小說推薦 瀏覽:548