导航:首页 > 源码编译 > 音频算法研究生团队

音频算法研究生团队

发布时间:2023-03-23 22:17:21

㈠ 音频知识详解(一)

现实生活中,我们听到的声音都是时间连续的,我们称为这种信号叫 模拟信号 。模拟信号需要进行数字化以后才能在计算机中使用。

目前我们在计算机上进行音频播放都需要依赖于 音频文件 音频文件 的生成过程是将 声音信息采样 、 量化 和 编码 产生的数字信号的过程 ,人耳所能听到的声音,最低的频率是从20Hz起一直到最高频率20KHZ,因此音频文件格式的最大带宽是20KHZ。根据 奈奎斯特 的理论,只有 采样频率 高于 声音信号最高频率 的两倍时,才能把数字信号表示的声音还原成为原来的声音,所以音频文件的采样率一般在40~50KHZ,比如最常见的CD音质采样率44.1KHZ。

采样 :波是无限光滑的,采样的过程就是从波中抽取某些点的频率值,就是 把模拟信号数字化 。如下图所示:

采样频率 :单位时间内对模拟信号的采样次数。采样频率越高,声音的还原就越真实越自然,当然数据量就越大。采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级。8KHz - 电话所用采样率, 对于人的说话已经足够,22.05KHz只能达到FM广播的声音品质(适用于语音和中等品质的音乐),44.1KHz则是是最常见的采样率标准,理论上的CD音质界限,48KHz则更加精确一些(对于高于48KHz的采样频率人耳已无法辨别出来了,所以在电脑上没有多少使用价值)。

采样位数(也成量化级、样本尺寸、量化数据位数) :每个采样点能够表示的数据范围。采样位数通常有8bits或16bits两种,采样位数越大,所能记录声音的变化度就越细腻,相应的数据量就越大。8位字长量化(低品质)和16位字长量化(高品质),16 bit 是最常见的采样精度。

量化 :将采样后离散信号的幅度用二进制数表示出来的过程称为量化。(日常生活所说的量化,就是设定一个范围或者区间,然后看获取到的数据在这个条件内的收集出来)。

PCM : PCM(Pulse Code Molation),即脉冲编码调制,对声音进行采样、量化过程,未经过任何编码和压缩处理。

编码 :采样和量化后的信号还不是数字信号,需要将它转化为数字编码脉冲,这一过程称为编码。模拟音频进采样、量化和编码后形成的二进制序列就是数字音频信号。

声道数 :声道数是指支持能不同发声的音响的个数,它是衡量音响设备的重要指标之一。

码率 :(也成位速、比特率) 是指在一个数据流中每秒钟能通过的信息量,代表了压缩质量。 比如MP3常用码率有128kbit/s、160kbit/s、320kbit/s等等,越高代表着声音音质越好。MP3中的数据有ID3和音频数据组成,ID3用于存储歌名、演唱者、专辑、音轨等我们可以常见的信息。

音频帧 :音频数据是流式的,本身没有明确的一帧帧的概念,在实际的应用中,为了音频算法处理/传输的方便,一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。这个时间被称之为“采样时间”,其长度没有特别的标准,它是根据编解码器和具体应用的需求来决定的。

模拟信号 -> 输入设备(传递电压值)-> 声卡(经过采样跟量化(即设置声音大小等各种值))-> 磁盘(文件) -> 声卡 -> 输出设备 -> 模拟信号

我们声音在物理上用波形表示,那么我们将这些波形称作为 模拟信号 。而我们计算机磁盘只能存储(01010101)的格式。我们将模拟信号转换成能够被磁盘存储的格式(010101)称之为 数字信号 。这个转换的过程我们叫 模数转换

我们发出来的声音(模拟信号)是连续的,我们如果要一直的对模拟信号进行转化,产生的数字信号会很大。那么我们就要采样,而采样精度就是每秒计算机对模拟信号进行采样的次数。最常见的采样精度就是上面提到的44.1khz/s,这个是经过大师们多年研究得出的数据,低于这个数据,效果就会很差,而高于这个数据,效果的差距不是很明显。

采样后就是变成了(0101010110100101...),那声音的音量是有大小的,那这串数据,怎样表示声音的大小呢? 这就涉及到了比特率,它是指在一个数据流中每秒钟能通过的信息量。 比特率就是将声音的大小划分为多少等级。举例下:8比特,在二进制中,表示有8位,表示的十进制的值就是0(00000000)~256(11111111),那每个数值就代表着一个声音大小。

经过采样、量化、编码后转化成数字信号,然后存储为文件。

文件是用来装数字信号的 ,文件包括了比特率、采样率、声道、编码方式、以及被编码过后的数字信号。

文件格式 就是制造者自己规定的一种名称,在每个文件格式都会特定支持几种编码格式。 打个比方就是文件就是一个容器,里面可以装不同的水,有的可以装一种,有的可以装好几种。

经过采样后的数字信号很大,有时候我们不需要这么大的,所以我们就要进行编码压缩,当然压缩技术都是有损的。在不大影响音频的效果的情况下,舍弃掉一些高频或者低频的数据。

编码格式 可以理解为每种音频格式不同的编解码方式。

封装格式就是文件格式,编码就是编码格式。

了解了基础概念之后我们就可以列出一个经典的音频播放流程(以MP3为例):

在iOS系统中apple对上述的流程进行了封装并提供了不同层次的接口(图片引自 官方文档 )。

下面对其中的中高层接口进行功能说明:

可以看到apple提供的接口类型非常丰富,可以满足各种类别类需求:

https://msching.github.io/ 大神之作
https://www.jianshu.com/p/5c5e95d89c4f 写的相当不错
https://www.jianshu.com/p/423726cc9090 知识点很全
https://www.jianshu.com/p/b3db09fb69dc 总结的挺好
https://www.jianshu.com/p/a75f2411225f 有点专业,了解一部分
http://blog.csdn.net/liusandian/article/details/52488078 概念很清晰易懂

㈡ 求叨叨冯聊音乐:音乐博士带你从零开始学乐理

AI 科技评论按:作为中国音乐学习最高学府之一,中央音乐学院今日发布了一则音乐人工智能博士招生启事。该专业全名为“音乐人工智能与音乐信息科技”,为中央音乐学院首次开设,导师阵容有来自清华大学、北京大学的人工智能教授,联合中央音乐学院院长共同组成双导师培养制 (音乐导师+科技导师),着力培养“音乐与理工科交叉融合的复合型拔尖创新人才”。

据官网资料显示,“音乐人工智能与音乐信息科技”专业学制一共是 3 年,要求报考者必须是出身计算机、智能和电子信息类的考生。

建议阅读书目方面,除了《音乐理论基础》1 本与音乐理论挂钩外,其余 4 本推荐书目都跟人工智能理论相关,它们分别为《数据结构与算法》、《信号与系统引论》、《人工智能:一种现代的方法》以及《神经网络与机器学习》

由于“音乐人工智能与音乐信息科技”为跨学科专业,面试环节除了将考核本学科的专业能力之外,还会考核考生的音乐能力——演奏某种乐器或者单纯进行演唱。

目前该专业已敲定的 3 名联合培养导师分别为:


㈢ NetEq中DSP模块音频算法探究

netEQ是webrtc中动态抖动缓冲区和错误隐藏的算法,用来消除因为网络抖动或者丢包。在保持高质量通话的同时,兼顾数据的低延时。其中,两大模块分别为MCU、DSP。

MCU(Micro Control Unit)模块是抖动缓冲区的微控制单元,由于抖动缓冲区作用是暂存接收到的数据包,因此 MCU 的主要作用是安排数据包的插入并控制数据包的输出。数据包的插入主要是确定来自网络的新到达的数据包在缓冲区中的插入位置,而控制数据包的输出则要考虑什么时候需要输出数据,以及输出哪一个插槽的数据包。

DSP(digital signal processing)模块是信号处理单元,主要负责对从 MCU 中提取出来的 PCM 源数据包进行数字信号处理。

本文将针对DSP模块中设计到的相关算法以及具体处理过程做详细介绍和分析。

这里解释一下DSP处理中几个操作类型的意义:

加速 Accelerate: 变声不变调的加速播放算法

慢速 PreemptiveExpand: 变声不变调的减速播放算法

正常 Normal: 正常的解码播放,不额外引入假数据

融合 Merge: 如果上一次是 Expand 造假出来的数据,那为了听起来更舒服一些,会跟正常数据包做一次融合算法

丢包隐藏 Expand(Packet Loss Concealment): 丢包补偿,最重要的无中生有算法模块,解决 “真丢包” 时没数据的问题,造假专业户

舒适噪音 ComfortNoise: 是用来产生舒适噪声的,比单纯的静音包听起来会更舒服的静音状态

a. 基音,指的是物体震动时所发出的频率最低的音,其余为泛音。也就是发音体整段震动,它携带着语音中的大部分能量。

b. 基音周期,声音震动波形的周期,其频率则为基频。基音周期是语音处理算法中的基本单位,是语音估计中的关键参数。

c. 基音检测,是对基音周期的估计,目的是得出和声音震动频率完全一致的基音周期长度。

d. 短时自相关函数法,webrtc中用于基因检测的方法。经典的短时自相关函数法进行基音检测时,是使用一个窗函数,窗不动,语音信号移动。通过比较原始信号和他位移后的信号之间的相似性来确定基音周期,如果移位距离等于基音周期,那么两个信号便具有最大相似性。窗口长度N的选择至少要大于基音周期的两倍,N越大,得出的基音周期越准确,但计算量也会相应增加。反之,N越小,误差越大,计算量越小。

e. WSOLA,Waveform Similarity Over-Lap Add,波形相似重叠相加法。在不改变语音音调并保证音质的前提下,使语音在时间轴上被拉伸或者压缩,即变速不变调。
采用分解合成的思想,将原始语音以L为帧间距,以N为帧长进行拆分,以aL为帧间距进行合成,其中a为调整因子。为防止频谱断裂或相位不连续,合成时在原始语音信号的采样点处,相邻区域[-max, +max]内移动,寻找信号波形相关最大的波形,确定合成位置。

图中是通过直接拷贝的方式实现慢速播放,造成了时域波形不连续。波形相似叠加法避免了上述问题的出现。

加速处理用来解决数据包在jitterbuffer中累积造成延时过大的情况。使用WSOLA算法在时域上压缩语音信号。

已上图为例,长度为110个样本。其中B区域为短时自相关函数法中的x(n),长度相同的移动窗(A区域)为x(n-τ),以τ为10开始移动,最大为100。在此过程中以抛物线拟合的方式求出相关性最大时的移动距离τ,进而得到该帧的基音周期P。

计算该数据流,中心点,前后两个基音周期的相关性bestCorr。当相关性大于0.9,将两个基音周期交叉混合并输出;否则,按照正常处理直接输出。

加速处理就是将两个基音混合成一个个并代替原有的两个基音来缩短语音长度。

加速后的语音数据存于neteq算法缓冲区algorithm_buffer中。

neteq/accelerate.cc

减速处理用来解决网络状况不好而导致音频数据比较少时,为了人耳听觉的连续性,使用WSOLA算法在时域上拉伸信号,来延长网络等待时间。

过程与加速过程类似

减速处理是将两个基音混合成一个,并插入到两个基音中间来延长语音长度。因此,经过减速处理的语音帧增加了一个基音周期的时长。

减速后的语音数据存于neteq算法缓冲区algorithm_buffer中。

neteq/preemptive_expand.cc

当音频数据丢失,会利用参考数据在算法缓冲区中创建、补齐缺失内容,实现丢包隐藏,保证听觉体验。

上图中,丢包隐藏使用语音缓冲区中最新的256个样本作为参考数据源,并将这些数据记为speechHistory(历史数据)。speechHistory用于连续PLC的场景。

neteq/expand.cc

融合处理发生在播放的上一帧与当前数据帧不连续的情况。比如,上一帧为PLC帧,当前帧为正常帧。

neteq/merge.cc

正常处理一般用于提取的数据包刚好符合播放要求,然后将此包解码后直接输出到speech buffer等待播放。如果上次处理是PLC,还需要进行平滑。

neteq/normal.cc

rfc 3389。结合语音活动检测算法的舒适噪音生成可快速确定静音出现的时间,并在出现静音时产生人工噪音,直到语音活动重新恢复为止。产生的人工噪音可形成传输流不间断的假象,因此电话中的背景声音会从始至终保持连续,接听者不会有电话掉线的感觉。

neteq/comfort_noise.cc

参考

https://blog.csdn.net/liuxiaoheng1992/article/details/79379514

https://nemocdz.github.io/post/浅谈-webrtc-neteq/#丢包补偿-1

《WebRTC语音引擎中NetEq技术的研究》吴江锐

㈣ 音频算法专业博士哪个学校好

1、皇家理工学院(英文:KTHRoyalInstituteofTechnology;瑞典文:Kungligatekniskah_gskolan,简称:KTH)成则或立于1827年,坐落于瑞典王国首都斯德哥尔摩,是瑞典国内规模最大、历史最悠久的理工院校,为北欧五校联盟成员之一,此学校的音频算法专业博士深受业界承认。
2、东北大学(NortheasternUniversity),简称NEU,成立于1898年,坐落富有历史底蕴,古老与现代并存的波士顿市中心,是位于美国东北部马萨诸塞州州府波士顿市碰态的一所美国的着名私立研究型大学,在全球具有很高的声誉。学校一共汇聚了来自全世界122个国家的精英,在实践性学习、跨学科研究以及社区参与方面都处于世界领先地位。东北大学由8个学院组成,设有175个本科专业和227个笑盯源研究生专业,授予硕士、博士和职业教育学位。

阅读全文

与音频算法研究生团队相关的资料

热点内容
可以在线看片的网站 浏览:133
小米加密兔手机壁纸 浏览:613
2019程序员笔记本 浏览:477
武大小孩子厉害的电影有哪些 浏览:35
找一个可以看的网址 浏览:79
四个字的国外电影,小孩儿 浏览:411
推荐看片网站 浏览:652
主角叫林飞的小说是什么 浏览:683
闲置服务器能干什么工作 浏览:949
asdr q-2299123 浏览:987
中国最大尺度古装电影 浏览:695
电影和电视播放器 浏览:113
樱桃小说by小花喵 浏览:514
英国看片网站叫什么名字 浏览:676
法兰克plc编程软件 浏览:359
怎么看pdf的字体 浏览:634
和李采潭合作的女演员有哪些 浏览:430
日本那部电影病娇男主要当女主的狗是校园电影 浏览:210
抗日战争片400部 浏览:730
编程可以赚钱吗 浏览:729