音频算法研究生团队_音频知识详解(一)

㈠音频知识详解(一)

现实生活中，我们听到的声音都是时间连续的，我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。

目前我们在计算机上进行音频播放都需要依赖于 音频文件 。 音频文件的生成过程是将声音信息采样、量化和编码产生的数字信号的过程 ，人耳所能听到的声音，最低的频率是从20Hz起一直到最高频率20KHZ，因此音频文件格式的最大带宽是20KHZ。根据奈奎斯特的理论，只有采样频率高于声音信号最高频率的两倍时，才能把数字信号表示的声音还原成为原来的声音，所以音频文件的采样率一般在40~50KHZ，比如最常见的CD音质采样率44.1KHZ。

采样：波是无限光滑的，采样的过程就是从波中抽取某些点的频率值，就是 把模拟信号数字化 。如下图所示：

采样频率 ：单位时间内对模拟信号的采样次数。采样频率越高，声音的还原就越真实越自然，当然数据量就越大。采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级。8KHz - 电话所用采样率, 对于人的说话已经足够，22.05KHz只能达到FM广播的声音品质(适用于语音和中等品质的音乐)，44.1KHz则是是最常见的采样率标准，理论上的CD音质界限，48KHz则更加精确一些(对于高于48KHz的采样频率人耳已无法辨别出来了，所以在电脑上没有多少使用价值)。

采样位数(也成量化级、样本尺寸、量化数据位数) ：每个采样点能够表示的数据范围。采样位数通常有8bits或16bits两种，采样位数越大，所能记录声音的变化度就越细腻，相应的数据量就越大。8位字长量化（低品质）和16位字长量化（高品质），16 bit 是最常见的采样精度。

量化：将采样后离散信号的幅度用二进制数表示出来的过程称为量化。（日常生活所说的量化，就是设定一个范围或者区间，然后看获取到的数据在这个条件内的收集出来）。

PCM ： PCM（Pulse Code Molation），即脉冲编码调制，对声音进行采样、量化过程，未经过任何编码和压缩处理。

编码：采样和量化后的信号还不是数字信号，需要将它转化为数字编码脉冲，这一过程称为编码。模拟音频进采样、量化和编码后形成的二进制序列就是数字音频信号。

声道数 ：声道数是指支持能不同发声的音响的个数，它是衡量音响设备的重要指标之一。

码率：(也成位速、比特率) 是指在一个数据流中每秒钟能通过的信息量，代表了压缩质量。 比如MP3常用码率有128kbit/s、160kbit/s、320kbit/s等等，越高代表着声音音质越好。MP3中的数据有ID3和音频数据组成，ID3用于存储歌名、演唱者、专辑、音轨等我们可以常见的信息。

音频帧 ：音频数据是流式的，本身没有明确的一帧帧的概念，在实际的应用中，为了音频算法处理/传输的方便，一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。这个时间被称之为“采样时间”，其长度没有特别的标准，它是根据编解码器和具体应用的需求来决定的。

模拟信号 -> 输入设备（传递电压值）-> 声卡（经过采样跟量化（即设置声音大小等各种值））-> 磁盘（文件） -> 声卡 -> 输出设备 -> 模拟信号

我们声音在物理上用波形表示，那么我们将这些波形称作为 模拟信号 。而我们计算机磁盘只能存储（01010101）的格式。我们将模拟信号转换成能够被磁盘存储的格式（010101）称之为 数字信号 。这个转换的过程我们叫 模数转换 。

我们发出来的声音（模拟信号）是连续的，我们如果要一直的对模拟信号进行转化，产生的数字信号会很大。那么我们就要采样，而采样精度就是每秒计算机对模拟信号进行采样的次数。最常见的采样精度就是上面提到的44.1khz/s,这个是经过大师们多年研究得出的数据，低于这个数据，效果就会很差，而高于这个数据，效果的差距不是很明显。

采样后就是变成了（0101010110100101...），那声音的音量是有大小的，那这串数据，怎样表示声音的大小呢？这就涉及到了比特率，它是指在一个数据流中每秒钟能通过的信息量。比特率就是将声音的大小划分为多少等级。举例下：8比特，在二进制中，表示有8位，表示的十进制的值就是0（00000000）～256（11111111），那每个数值就代表着一个声音大小。

经过采样、量化、编码后转化成数字信号，然后存储为文件。

文件是用来装数字信号的 ，文件包括了比特率、采样率、声道、编码方式、以及被编码过后的数字信号。

文件格式 就是制造者自己规定的一种名称，在每个文件格式都会特定支持几种编码格式。 打个比方就是文件就是一个容器，里面可以装不同的水，有的可以装一种，有的可以装好几种。

经过采样后的数字信号很大，有时候我们不需要这么大的，所以我们就要进行编码压缩，当然压缩技术都是有损的。在不大影响音频的效果的情况下，舍弃掉一些高频或者低频的数据。

编码格式 可以理解为每种音频格式不同的编解码方式。

封装格式就是文件格式，编码就是编码格式。

了解了基础概念之后我们就可以列出一个经典的音频播放流程（以MP3为例）：

在iOS系统中apple对上述的流程进行了封装并提供了不同层次的接口（图片引自官方文档）。

下面对其中的中高层接口进行功能说明：

可以看到apple提供的接口类型非常丰富，可以满足各种类别类需求：

https://msching.github.io/ 大神之作
https://www.jianshu.com/p/5c5e95d89c4f 写的相当不错
https://www.jianshu.com/p/423726cc9090 知识点很全
https://www.jianshu.com/p/b3db09fb69dc 总结的挺好
https://www.jianshu.com/p/a75f2411225f 有点专业，了解一部分
http://blog.csdn.net/liusandian/article/details/52488078 概念很清晰易懂

㈡求叨叨冯聊音乐：音乐博士带你从零开始学乐理

AI 科技评论按：作为中国音乐学习最高学府之一，中央音乐学院今日发布了一则音乐人工智能博士招生启事。该专业全名为“音乐人工智能与音乐信息科技”，为中央音乐学院首次开设，导师阵容有来自清华大学、北京大学的人工智能教授，联合中央音乐学院院长共同组成双导师培养制 (音乐导师+科技导师)，着力培养“音乐与理工科交叉融合的复合型拔尖创新人才”。

据官网资料显示，“音乐人工智能与音乐信息科技”专业学制一共是 3 年，要求报考者必须是出身计算机、智能和电子信息类的考生。

建议阅读书目方面，除了《音乐理论基础》1 本与音乐理论挂钩外，其余 4 本推荐书目都跟人工智能理论相关，它们分别为《数据结构与算法》、《信号与系统引论》、《人工智能：一种现代的方法》以及《神经网络与机器学习》

由于“音乐人工智能与音乐信息科技”为跨学科专业，面试环节除了将考核本学科的专业能力之外，还会考核考生的音乐能力——演奏某种乐器或者单纯进行演唱。

目前该专业已敲定的 3 名联合培养导师分别为：

俞峰

中央音乐学院院长, 教授、博导,“万人计划”领军人才,“四个一批”人才。中国指挥学会会长、全国艺术专业学位研究生教指委副主任、中国文联第十届全国委员会委员, 享受国务院政府特殊津贴。

孙茂松

清华大学教授、博导, 清华大学人工智能研究院常务副院长, 原计算机系主任、党委书记, 教育部教学信息化与教学方法创新指导委员会副主任委员, 中国科学技术协会第九届全国委员会委员。主要研究领域为自然语言处理、人工智能、机器学习和计算教育学。国家 973 计划项目首席科学家, 国家社会科学基金重大项目首席专家。2017 年领衔研制出“九歌”人工智能古诗写作系统。

吴玺宏

北京大学教授、博导, 教育部新世纪优秀人才。北京大学信息科学技术学院副院长, 智能科学系主任, 言语听觉研究中心主任, 致力于机器听觉计算理论、语音信息处理、自然语言理解以及音乐智能等领域的研究, 先后主持国家级、省部级项目 40 余项, 获国家授权发明专利 10 余项, 发表学术论文 200 余篇。在智能音乐创作、编配领域颇有成就。

有兴趣报读该专业的考生，须在 2019 年 3 月 1 日至 15 日期间在网上完成报名（网址:http://yz.chsi.com.cn/），考试将于今年 5 月在中央音乐学院举行。

更多详情可点击：

http://www.ccom.e.cn/xwyhd/xsjd/2019s/201903/t20190301_53856.html

进行了解。

专业开办早有预兆？

如果一直有关注中央音乐学院的动态，就不会对该专业的开办感到惊讶。

早在去年的 5 月份，中央音乐学院就与素以创新性交叉学科研究闻名的美国印第安纳大学信息计算与工程学院共同签署合作建设“信息学爱乐乐团”实验室——所谓“信息爱乐”，指的是一套音乐人工智能伴奏系统，由印第安纳大学信息计算与工程学院音乐信息学实验室主任教授 Christopher Raphael 所发明。

该系统的最大特点是会运用数学方法把音乐本身和音乐家的感受进行了全面解读、演算，通过不断的主动学习，形成更加贴近音乐家个性化表现需求的管弦乐团伴奏、协奏模板，为音乐家提供了更为丰富灵活的演奏机会。

完成签署后，经过半年多的紧张筹备，双方于去年 11 月 26 日合作举办中国首场由人工智能进行伴奏的特殊音乐会——“AI 之夜音乐会”，来自中央音乐学院的 12 位不同专业的优秀独奏家与“信息爱乐”联袂演出了 12 首多种体裁风格的中外作品。

值得一提的是，本场音乐会加入了人工智能协奏中国乐曲《长城随想曲》，这是第一次音乐人工智能技术与中国民族音乐进行碰撞。

图片源自中央音乐学院官网

中央音乐学院院长俞峰教授在音乐会致辞中说道：“这是一场意义深远的音乐会，我国整个音乐行业将由此进入到一个“人工智能化”的时代，极大的提升了整个音乐行业，尤其是音乐教育行业的信息化水平。人工智能技术与音乐艺术专业相结合将会实现整个行业的跨越式发展，一定会成为音乐行业实现产业化的典范。”

“AI 之夜音乐会”音乐会完整演出视频：

http://video.ccom.e.cn/index.php?option=weixin,dianbodetail&id=3514

国内科研热情日益高涨

除了中央音乐学院，试图在人工智能 + 音乐上做出成绩的，尚有星海音乐学院及中央民族大学。

去年 5 月 16 日，由星海音乐学院管弦系与美国印第安纳大学信息计算与工程学院音乐信息学实验室合作的“音乐人工智能辅助管弦乐教学联合实验室”正式挂牌启动，双方将就“音乐人工智能辅助管弦乐教学”系统引入至日常教学中展开合作。

据了解，该系统可以让学生们在日常专业练习过程中随时听到职业管弦乐团的完整乐曲伴奏，同时将自己与管弦乐团的合成演奏音频转化成高度结构化、可视化、可检索、可比较研究的音乐数据带到课堂上与专业老师共同探讨；对专业老师而言，该系统可以实现对学生专业学习情况的纵向和横向比较，获得了解学生的第一手资料，从而完善教学内容和方法。

图片源自“星海音乐学院”微信公众号

去年 12 月 7 日，由中央民族大学与平安科技联手的“人工智能音乐联合实验室”签字揭牌仪式在中央民族大学知行堂举行。本次合作旨在发挥各自优势、通过共同研发，实现人工智能音乐创作由欣赏阶段到专业阶段再到专家阶段的设想。

中央民族大学党委常委、副校长宋敏在揭牌仪式上表示，人工智能己列入国家规划并进入逐步实施阶段，正在不断与各个领域结合，无疑将引领未来各行各业的发展，她希望双方通过实验室这一平台各自发挥优势，提高民大学科建设水平和音乐创作水平，推进北京“四个中心”建设特别是文化中心建设，并积极助力中国优秀音乐文化走出。

图片源自中央民族大学官网

另外，由复旦大学、清华大学联合创办，至今已是第 6 届的中国声音与音乐技术会议 CSMT（Conference on Sound and Music Technology），从 2013 年开始便就声音与音乐技术这门多学科交叉领域源源不断地为国内输出学术见解，丰富了国内人工智能 + 音乐领域的研究成果。

以 2018 年的会议为例，其征文主题包括：

音乐声学
乐器声学/嗓音声学/心理声学与电声学/空间音乐声学等

声音与音乐的信号处理
工业、农业、畜牧业、养殖业、地理、环境等各行各业领域的声音信号处理/音乐信号处理

计算机听觉
声音与音乐的内容分析、理解和建模/音频与音乐信息检索/声音与音乐分类、标注、情感计算、推荐等/人工智能在声音与音乐计算中的应用/声音及音乐计算在娱乐、教育、海洋、医学、装备、军事、信息安全等各领域的应用

音频信息安全
鲁棒音频水印/音频认证/音频取证

计算机音乐与录音
计算机辅助的音乐创作/计算机辅助的音乐教学系统/计算机音乐的制作技术/计算机音乐的软件开发/ 音响及多声道声音系统/ 声音装置及相关多媒体技术/音效及声音设计/音频人机交互

·听觉心理学
·听觉与视觉相结合的多媒体应用

值得一提的是，去年的 CSMT 大会特别开辟了两个 Special Session：一个用来探讨面向一般 Audio 的计算机听觉，试图扩展 Music 之外的 Audio + AI 人工智能在各行各业的应用，比如海洋舰船识别、设备诊断、AI 医疗、嗓音声学、音频监控、动物识别、农业保护、工业自动化等；另一个则是探讨中国民族音乐与计算机等科学技术的交叉融合，显示了该国内会议的前瞻性。

当下流行的 AI + 音乐算法

对于当下的音乐人工智能算法研究，中国音乐学院音乐学系付晓东教授在发表于 2018 年 05 期《艺术探索》的《音乐人工智能的伦理思考——算法作曲的“自律”与“他律”》一文中按“自律”与“他律”将之进行了划分。

其中“自律”指的是机器严格或非严格地遵循事先规定好的内部结构原则，对应于音响素材而生成音乐作品，最终的音响呈现受到内部结构原则的自律性限定；“他律”则指机器严格或非严格地遵循依据人类经验规定好的外部结构原则，并映射为音响而生成作品，最终的音响呈现受到外部结构原则的他律性限定。

最终的梳理结果如下：

“自律”类音乐人工智能算法
（一）数学模型（Mathematical Model）

以数学算法与随机事件构成数学模型进行作曲。其中算法相当于作曲法则，随机事件相当于音乐元素——音乐中的各种元素可分解为一系列随机事件，如音的四属性、音乐三要素等，作曲家（程序员）赋予其不同权重，使用特定随机算法对其进行运算处理而得出音响序列，其结果是非确定性的。常用的随机算法有马尔科夫链、高斯分布等。目前以数学模型为主的音乐人工智能作品在伴奏的速度跟随、乐句的力度处理、终止式的伸缩节奏方面有相当的“智能”感，但是在作品的整体可听性方面仍有明显的欠缺。

（二）演化算法（Evolutionary Methods）

演化算法源于达尔文所揭示的生物进化理论，用算法模拟物种进化的过程来构建音乐作品。将随机或人为的音响事件集合为一个种群，通过选种、遗传与突变的算法反复迭代，将种群中现有的多个个体进行优胜劣汰，其结果由适应函数构成的审核程序予以矫正，以保证其审美意义的质量。最常见的演化计算方法是遗传算法（Genetic Algorithms）与遗传编码（Genetic Programming）。演化算法试图将物种进化的过程匹配于音乐生成过程的逻辑不够完善，因此作品的审美认可度并不高，如今常用于和声配置与伴奏任务中。

（三）语法系统（Grammars）

音乐的构成法则可类比于人类语言的语法规则。人类语言由字、词、句等按照一定的语法规则构成表达单元，音乐中的动机、乐节、乐句也具有相似的结构特征。首先创建一个特定音乐作品的语法规则，对和声、节奏与音高等各种音乐素材进行组合，最后生成音乐作品。诚然，音乐与语言在某种程度上具有同构性，但是比较而言，音乐规则体现出更大的灵活度与可变性，由一个固定的语法规则附加若干可变规则的语言算法，产生出的音乐作品多少带有生硬而呆板的特征。

“他律”类音乐人工智能算法
（一）迁移模型算法（Translational Models）

将非音乐媒体信号源中的信息映射并迁移为音乐音响信息。最常见的是将视觉信息进行转换，例如将图像中的线条转换为旋律，色彩转换为和声，色度转换为力度；将运动物体的空间位移转换为旋律，速度转换为节拍节奏等。也可用于非视觉信息的迁移，如将文学作品中的积极/消极的描述，通过自动情感分析系统迁移为大三/小三和弦。实际上，人类的感官在一定程度上的确具有“联觉”效应，如空间线条与旋律走向的对应，但是如果将其进行严格映射，并没有心理学的有力证据。因此使用迁移模型算法生成的音乐作品，常常出现在交互性的新媒体艺术表演中，更多地以现场的事件相关性与交互性为审美趣味。而一旦音乐作品与其映射对象脱离而单独呈现，这类作品的可听性将会大大降低。

（二）知识推论系统（Knowledge-based Systems）

以某种音乐风格类型为知识库基础，将该音乐风格的审美特征提取出来并进行编码，即归纳推理；以编码程序为算法而创造类似风格的新作品，即演绎推理。例如基于对位法原则的巴洛克音乐风格编码、基于大小调和声体系的古典浪漫音乐风格编码、弱化和声功能的印象派音乐风格编码及各个相应风格作品的生成，即属于知识推论系统算法。这种算法已经在某种程度上接近于音乐学院作曲技术理论的学习过程，生成的音乐作品与其所基于的特定风格知识库非常相像，具有很高的可听性。其缺点在于归纳—演绎两个环节的相对割裂，即风格编码必须由操作者提供，程序本身仅仅是对编码的执行运算，作品的结果会严重受到操作者对创作规则的抽象理解的影响，并且会存在僵化与雷同的缺点。

（三）机器学习（Machine Learning）

操作者为计算机输入大量的音乐音响，计算机对其进行有效“聆听学习”，即运用统计方法对音乐构成的法则进行学习，其过程与知识推论系统相似，但是操作者并不严格指定音乐类型，也不为程序提供风格编码，这个过程由算法程序自动完成，强调其自主性与“无监督”式的学习（unsupervised learning）。当然，从本质上来看，机器学习的“无监督”只能是在一定程度和范围内，它依然囿于操作者所提供的知识素材库。机器学习与数学优化、数据挖掘等计算科学的研究成果相关，更与认知科学领域与神经网络学科的研究成果密切相关，其中最为显着的是采用决策树、人工神经网络、深度学习等方法，是迄今为止对生物学习过程模仿程度最高的一种算法。机器学习仍然属于仿生，但它超越了对结构与力学层面的仿生，是对人类大脑思维过程的仿生。机器学习既可以用于一般意义上的音乐创作，也可用于即兴演奏与竞奏等场合。虽然可以生成各种指定风格或混合风格的音乐作品，但是它仍然取决于操作者提供的音乐数据类型，是通过对随机事件进行概率统计得出规则后的音响预测。

根据付教授的划分准则，我们将能对当今流行的大部分人工智能 + 音乐研究工作进行有效归类。

值得一提的是，由中国科学技术大学、微软人工智能和研究院、苏州大学团队合作，讲述歌曲生成的端到端旋律和编曲生成框架的论文《XiaoIce Band: A Melody and Arrangement Generation Framework for Pop Music》成功荣获 KDD 2018 的 Research Track 最佳学生论文，雷锋网 AI 科技评论对此做了相应解读，有兴趣的读者可点击 https://www.leiphone.com/news/201808/NkobLRDHxZsyadg5.html进行回看。

总的来说，未来人工智能将在音乐领域发挥更加重要的作用，它可以帮助人们分析作品、创作以及分担相当多的重复性工作，进一步激发创造力，探索音乐形式与内容方面的多种可行性。希望这种跨学科、融合性的合作，能够对各类音乐创作逻辑进行总结与完善，并在感知、情感等方面做出突破，让人工智能在音乐的诸多领域形成创新，并在教学、社会服务等方面产生影响。

㈢ NetEq中DSP模块音频算法探究

netEQ是webrtc中动态抖动缓冲区和错误隐藏的算法，用来消除因为网络抖动或者丢包。在保持高质量通话的同时，兼顾数据的低延时。其中，两大模块分别为MCU、DSP。

MCU（Micro Control Unit）模块是抖动缓冲区的微控制单元，由于抖动缓冲区作用是暂存接收到的数据包，因此 MCU 的主要作用是安排数据包的插入并控制数据包的输出。数据包的插入主要是确定来自网络的新到达的数据包在缓冲区中的插入位置，而控制数据包的输出则要考虑什么时候需要输出数据，以及输出哪一个插槽的数据包。

DSP（digital signal processing）模块是信号处理单元，主要负责对从 MCU 中提取出来的 PCM 源数据包进行数字信号处理。

本文将针对DSP模块中设计到的相关算法以及具体处理过程做详细介绍和分析。

这里解释一下DSP处理中几个操作类型的意义：

加速 Accelerate： 变声不变调的加速播放算法

慢速 PreemptiveExpand： 变声不变调的减速播放算法

正常 Normal： 正常的解码播放，不额外引入假数据

融合 Merge： 如果上一次是 Expand 造假出来的数据，那为了听起来更舒服一些，会跟正常数据包做一次融合算法

丢包隐藏 Expand（Packet Loss Concealment）： 丢包补偿，最重要的无中生有算法模块，解决 “真丢包” 时没数据的问题，造假专业户

舒适噪音 ComfortNoise： 是用来产生舒适噪声的，比单纯的静音包听起来会更舒服的静音状态

a. 基音，指的是物体震动时所发出的频率最低的音，其余为泛音。也就是发音体整段震动，它携带着语音中的大部分能量。

b. 基音周期，声音震动波形的周期，其频率则为基频。基音周期是语音处理算法中的基本单位，是语音估计中的关键参数。

c. 基音检测，是对基音周期的估计，目的是得出和声音震动频率完全一致的基音周期长度。

d. 短时自相关函数法，webrtc中用于基因检测的方法。经典的短时自相关函数法进行基音检测时，是使用一个窗函数，窗不动，语音信号移动。通过比较原始信号和他位移后的信号之间的相似性来确定基音周期，如果移位距离等于基音周期，那么两个信号便具有最大相似性。窗口长度N的选择至少要大于基音周期的两倍，N越大，得出的基音周期越准确，但计算量也会相应增加。反之，N越小，误差越大，计算量越小。

e. WSOLA，Waveform Similarity Over-Lap Add，波形相似重叠相加法。在不改变语音音调并保证音质的前提下，使语音在时间轴上被拉伸或者压缩，即变速不变调。
采用分解合成的思想，将原始语音以L为帧间距，以N为帧长进行拆分，以aL为帧间距进行合成，其中a为调整因子。为防止频谱断裂或相位不连续，合成时在原始语音信号的采样点处，相邻区域[-max, +max]内移动，寻找信号波形相关最大的波形，确定合成位置。

图中是通过直接拷贝的方式实现慢速播放，造成了时域波形不连续。波形相似叠加法避免了上述问题的出现。

加速处理用来解决数据包在jitterbuffer中累积造成延时过大的情况。使用WSOLA算法在时域上压缩语音信号。

已上图为例，长度为110个样本。其中B区域为短时自相关函数法中的x(n)，长度相同的移动窗（A区域）为x(n-τ)，以τ为10开始移动，最大为100。在此过程中以抛物线拟合的方式求出相关性最大时的移动距离τ，进而得到该帧的基音周期P。

计算该数据流，中心点，前后两个基音周期的相关性bestCorr。当相关性大于0.9，将两个基音周期交叉混合并输出；否则，按照正常处理直接输出。

加速处理就是将两个基音混合成一个个并代替原有的两个基音来缩短语音长度。

加速后的语音数据存于neteq算法缓冲区algorithm_buffer中。

neteq/accelerate.cc

减速处理用来解决网络状况不好而导致音频数据比较少时，为了人耳听觉的连续性，使用WSOLA算法在时域上拉伸信号，来延长网络等待时间。

过程与加速过程类似

减速处理是将两个基音混合成一个，并插入到两个基音中间来延长语音长度。因此，经过减速处理的语音帧增加了一个基音周期的时长。

减速后的语音数据存于neteq算法缓冲区algorithm_buffer中。

neteq/preemptive_expand.cc

当音频数据丢失，会利用参考数据在算法缓冲区中创建、补齐缺失内容，实现丢包隐藏，保证听觉体验。

上图中，丢包隐藏使用语音缓冲区中最新的256个样本作为参考数据源，并将这些数据记为speechHistory（历史数据）。speechHistory用于连续PLC的场景。

neteq/expand.cc

融合处理发生在播放的上一帧与当前数据帧不连续的情况。比如，上一帧为PLC帧，当前帧为正常帧。

neteq/merge.cc

正常处理一般用于提取的数据包刚好符合播放要求，然后将此包解码后直接输出到speech buffer等待播放。如果上次处理是PLC，还需要进行平滑。

neteq/normal.cc

rfc 3389。结合语音活动检测算法的舒适噪音生成可快速确定静音出现的时间，并在出现静音时产生人工噪音，直到语音活动重新恢复为止。产生的人工噪音可形成传输流不间断的假象，因此电话中的背景声音会从始至终保持连续，接听者不会有电话掉线的感觉。

neteq/comfort_noise.cc

参考

https://blog.csdn.net/liuxiaoheng1992/article/details/79379514

https://nemocdz.github.io/post/浅谈-webrtc-neteq/#丢包补偿-1

《WebRTC语音引擎中NetEq技术的研究》吴江锐

㈣音频算法专业博士哪个学校好

1、皇家理工学院（英文：KTHRoyalInstituteofTechnology；瑞典文：Kungligatekniskah_gskolan，简称：KTH）成则或立于1827年，坐落于瑞典王国首都斯德哥尔摩，是瑞典国内规模最大、历史最悠久的理工院校，为北欧五校联盟成员之一，此学校的音频算法专业博士深受业界承认。
2、东北大学（NortheasternUniversity），简称NEU，成立于1898年，坐落富有历史底蕴，古老与现代并存的波士顿市中心，是位于美国东北部马萨诸塞州州府波士顿市碰态的一所美国的着名私立研究型大学，在全球具有很高的声誉。学校一共汇聚了来自全世界122个国家的精英，在实践性学习、跨学科研究以及社区参与方面都处于世界领先地位。东北大学由8个学院组成，设有175个本科专业和227个笑盯源研究生专业，授予硕士、博士和职业教育学位。

导航:首页 > 源码编译 > 音频算法研究生团队

音频算法研究生团队

与音频算法研究生团队相关的资料