导航:首页 > 源码编译 > 声音合成算法

声音合成算法

发布时间:2022-09-11 07:49:38

⑴ 如何用fdpsola算法做语音合成

(a)原公式中m是0到N-1-k,当k=0时求和是从0到N-1,共有N个数据点。
(b)当m必须从1开始,k也必须从1开始,还是当(a)中的k=0时,现在变为k=1。如果按LZ所述m是1到N-k求和,则在k=1时是对m从1至N-1间求和,只有N-1个数据点。所以必须是N-k+1,才变成对N点求和。

⑵ 语音合成器是什么

语音合成是将人类语音用人工的方式所产生。若是将电脑系统用在语音合成上,则称为语音合成器,而语音合成器可以用软/硬件所实现。文字转语音(text-to-speech, TTS)系统则是将一般语言的文字转换为语音,其他的系统可以描绘语言符号的表示方式,就像音标转换至语音一样。

而合成后的语音则是利用在数据库内的许多已录好的语音连接起来。系统则因为储存的语音单元大小不同而有所差异,若是要储存phone以及 diphone的话,系统必须提供大量的储存空间,但是在语意上或许会不清楚。而用在特定的使用领域上,储存整字或整句的方式可以达到高品质的语音输出。另外,包含了声道模型以及其他的人类声音特征参数的合成器则可以创造出完整的合成声音输出。

一个语音合成器的品质通常是决定于人声的相似度以及语意是否能被了解。一个清晰的文字转语音程式应该提供人类在视觉受到伤害或是得到失读症时,能够听到并且在个人电脑上完成工作。从80年代早期开始,许多的电脑操作系统已经包含了语音合成器了。
早在17世纪就有法国人研发机械式的说话装置。[来源请求]直到19世纪,贝尔实验室对于电子语音合成技术的研究,才开启近代语音合成技术的发展。贝尔实验室在1939年制作出第一个电子语音合成器VODER[1],是一种利用共振峰原理所制作的合成器。

1960年,瑞典语言学家G. Fant则提出利用线性预测编码技术(LPC)来作为语音合成分析技术,并推动了日后的发展。后来1980年代Moulines E和Charpentier F提出新的语音合成算法PSOLA,此技术可以合成比较自然的语音。

⑶ 什么软件能把两种不同的声音合成一种声音

可以合成的软件不少,比如使用音频编辑软件Adobe Audition
Adobe Audition,它是一个专业音频编辑和混合环境,原名为Cool Edit Pro. 被Adobe 公司收购后,改名为Adobe Audition。
Audition专为在照相室、广播设备和后期制作设备方面工作的音频和视频专业人员设计,可提供先进的音频混合、编辑、控制和效果处理功能。最多混合 128 个声道,可编辑单个音频文件,创建回路并可使用 45 种以上的数字信号处理效果。Audition 是一个完善的多声道录音室,可提供灵活的工作流程并且使用简便。无论是要录制音乐、无线电广播,还是为录像配音,Audition中的恰到好处的工具均可为您提供充足动力,以创造可能的最高质量的丰富、 细微音响。它是 Cool Edit Pro 2.1 的更新版和增强版。此汉化程序已达到98%的信息汉化程度。
(2)操作流程
①打开Adobe Audition,选择“文件--新建--多轨合成项目”,在弹出窗口可以设置项目名称与路径
②按住鼠标左键不放将要合成音乐文件拖入到合成的音轨中,俩个音乐放在同一个音轨上并且不重合即首位相接
③选择“文件--导出--多轨混缩--整个项目”,在弹出菜单里设可以置名称、格式等
④打开俩个音乐合成的文件,已经成为一首音乐了

⑷ 斯坦福大学新模型算法是如何实现数秒内为VR环境不同对象创建模拟声音的

在虚拟现实中创造这样的感觉实际上是不可能的,因为VR是没有脚本的。很难预测一个物体可能产生什么噪音,或者它们可能被听到的地方。为了使VR听起来更逼真,工程师必须创建大量的“声音模型” - 计算机化的预录制等效物

⑸ AI技术背后有哪些声音的应用

这个潮流的最近一次上演,是几天前的网络AI开发者大会上,李彦宏现场播放了网络AI客服邀请开发者的真实电话录音。

当时我就在现场,第一通电话里那位开发者方言比较重,到底说了什么我基本没听懂。但网络的AI却应对自如,在电话中回答了各种问题。

第二通电话更神了,那位女开发者发现了小度的AI身份,直接问网络给ta发钱吗,结果被小度用一句“网络给我免费充电”,巧妙的“回撩”了过去。

在众人的惊叹中,我们很容易发现让AI打电话已经成为了“兵家必争”之地。前不久谷歌I/O大会上Google Assistant演示AI打电话订餐厅,一句“嗯哼”也安排得明明白白。几天之后微软的AI大会上马上反击,不仅上演电话秀,还高调Diss谷歌,表示微软小冰已经打过60多万次电话了。

打电话这件事就这么重要吗?引三大AI巨头都不惜电话费也要硬杠一下?

事实上,在这个AI跟陌生人直接进行有效沟通的场景里,隐藏着两个AI语音与NLP技术的核心关卡,足够给今天AI公司的军备竞赛提供完美肌肉秀。而AI打电话同时也指向另一个问题:AI到底能干什么,是不是在很多领域已经可以完全代替真实的产业劳动?

打个call的功夫,这些复杂的竞争与技术炫技就都显露了出来。

一颦一笑都有来历:为什么已经听不出AI还是真人?

AI打电话第一关:怎么让AI声音听起来不别扭?

我们知道,人和人之间的交流,其实绝大部分依靠的是简单的词汇量+大量复杂的情感词、语气词、助动词。如果我们把日常说话直接转化为文字,会发现文档里80%的话都是“无效信息”。

但怎么让AI学会这些东西,像真人一样有感情、有顿挫,有语气词,甚至有呼吸节奏地与人交流,是一门巨大的技术挑战。

网络AI开发者大会前,网络AI客服给大量开发者打了电话,其中很多开发者一开始压根没有发现这是位AI小姐姐。而这其实是建立在它没有刻意修饰机器音的基础上。

如何让AI听起来像人一样,这需要在语音合成与语序修饰上下一番功夫。而这也是各家展现本领的时刻。

根据资料,谷歌I/O大会上的打电话AI,使用了生成式 TTS 引擎。能根据不同的情境控制语音的语调,并生成一些语气词。当然,这背后还有DeepMind的WaveNet自然语音合成算法作法

⑹ TTS是什么意思呢

TTS是指一项语音合成技术。

语音合成是将人类语音用人工的方式所产生。若是将电脑系统用在语音合成上,则称为语音合成器,而语音合成器可以用软/硬件所实现。

文字转语音系统则是将一般语言的文字转换为语音,其他的系统可以描绘语言符号的表示方式,就像音标转换至语音一样。

(6)声音合成算法扩展阅读:

发展历史

1、17世纪法国人研发机械式的说话装置,直到19世纪,贝尔实验室对于电子语音合成技术的研究,才开启近代语音合成技术的发展。

2、贝尔实验室在1939年制作出第一个电子语音合成器VODER,是一种利用共振峰原理所制作的合成器。

3、1960年,瑞典语言学家G. Fant则提出利用线性预测编码技术(LPC)来作为语音合成分析技术,并推动了日后的发展。

4、1980年代Moulines E和Charpentier F提出新的语音合成算法PSOLA,此技术可以合成比较自然的语音。

⑺ 音乐合成是什么傣女的音乐是什么

音乐合成:
自1976年应用调频(FM)音乐合成技术以来,其乐音已经很逼真。1984年又开发出另一种更真实的音乐合成技术--波形表(Wavetable)合成。 
   一个乐音,包括必备的三要素:音高、音色和响度。若把一个乐音放在运动的旋律中,它还应具备时值--持续时间。这些要素的理想配合是产生优美动听的旋律的必要条件。   音高:音高指声波的基频。基频越低,给人的感觉越低沉。对于平均律(一种普遍使用的音律)来说,各音的对应频率如图所示。知道了音高与频率的关系,我们就能够设法产生规定音高的单音了。 
  音色:具有固定音高和相同谐波的乐音,有时给人的感觉仍有很大差异。比如人们能够分辨具有相同音高的钢琴和小提琴声音,这正是因为他们的音色不同。音色是由声音的频谱决定的:各阶谐波的比例不同,随时间衰减的程度不同,音色就不同。“小号”的声音之所以具有极强的穿透力和明亮感,只因“小号”声音中高次谐波非常丰富。各种乐器的音色是由其自身结构特点决定的。用计算机模拟具有强烈真实感的旋律,音色的变化是非常重要的。    响度和时值:响度是对声音强度的衡量,它是听判乐音的基础。人耳对于声音细节的分辨与响度直接有关:只有在响度适中时,人耳辨音才最灵敏。如果音响度太低,便难以正确差别它的音高和音色;而音响度过高,会影响差别的准确性。时值具有明显的相对性,一个音只有在包含了比它更短的音的旋律中才会显得长。时值的变化导致旋律的进行,或平缓、均匀;或跳跃、颠簸,以表达不同的情感。      FM音乐合成 
  音乐合成器的先驱Robert Moog采用了模拟电子器件生成了复杂的乐音。20世纪80年代初,美国斯坦福大学(Stanford University)的一名叫John Chowning的研究生发明了一种产生乐音的新方法,这种方法称为数字式频率调制合成法(digital frequency molation 

synthesis),简称为FM合成器。他把几种乐音的波形用数字来表达,并且用数字计算机而不是用模拟电子器件把它们组合起来,通过数模转换器(digital to analog convertor,DAC)来生成乐音。斯坦福大学得到了发明专利,并且把专利权授给Yamaha公司,该公司把这种技术做在集成电路芯片里,成了世界市场上的热门产品。FM合成法的发明使合成音乐工业发生了一次革命。 
  FM合成器生成乐音的基本原理如下图2.41-1所示。它由5个基本模块组成:数字载波器、调制器、声音包络发生器、数字运算器和数模转换器。数字载波器用了3个参数:音调(pitch)、音量(volume)和各种波形(wave);调制器用了6个参数:频率(frequency)、调制深度(depth)、波形的类型(type)、反馈量(feedback)、颤音(vibrato)和音效(effect);乐器声音除了有它自己的波形参数外,还有它自己的比较典型的声音包络线,声音包络发生器用来调制声音的电平,这个过程也称为幅度调制(amplitude molation),并且作为数字式音量控制旋钮,它的4个参数写成ADSR,这条包络线也称为音量升降维持静音包络线(Attack,decay,sustain,release,ADSR)。  
 
图2.41-1 FM声音合成器的工作原理  
  在乐音合成器中,数字载波波形和调制波形有很多种,不同型号的FM合成器所选用的波形也不同。下图是Yamaha OPL-III数字式FM合成器采用的波形。  
 
声音合成器的波形  

  各种不同乐音的产生是通过组合各种波形和各种波形参数并采用各种不同的方法实现的。用什么样的波形作为数字载波波形、用什么样的波形作为调制波形、用什么样的波形参数去组合才能产生所希望的乐音,这就是FM合成器的算法。 
  通过改变图2.41-1中所示的参数,可以生成不同的乐音,例如: 
  (1) 改变数字载波频率可以改变乐音的音调,改变它的幅度可以改变它的音量。 
  (2) 改变波形的类型,如用正弦波、半正弦波或其它波形,会影响基本音调的完整性。   (3) 快速改变调制波形的频率(即音调周期)可以改变颤音的特性。   (4) 改变反馈量,就会改变正常的音调,产生刺耳的声音。 
  (5) 选择的算法不同,载波器和调制器的相互作用也不同,生成的音色也不同。   在多媒体计算机中,图2.41-1中的13个声音参数和算法共14个控制参数以字节的形式存储在声音卡的ROM中。播放某种乐音时,计算机就发送一个信号,这个信号被转换成ROM的地址,从该地址中取出的数据就是用于产生乐音的数据。FM合成器利用这些数据产生的乐音是否真实,它的真实程度有多高,这就取决于可用的波形源的数目、算法和波形的类型。 

⑻ 现在有能模拟特定人声音的算法吗

如果是从文字到语音,那么叫做“语音合成”;如果是从一个人的语音到另一个人的语音,那么叫“语音转换”。这两件事情都有人在研究,其中“语音合成”大家可能更为熟悉,比如Siri的声音就是合成出来的。语音合成或转换的软件发布时,一般会内置几个人的声音,文字或别人的声音可以比较容易地转换成这些内置声音。但如果要转换成用户自己的声音,就需要录制用户自己的声音作为训练数据了。我不知道有什么现成的软件可以让小白也能简单地完成这件事。就像完美地P出一张图一样,虽然可行,能以假乱真,但总会有不完美的地方。

⑼ 怎样对声音素材进行删除.合并,复制处理

第5章 音频素材制作与处理

本章主要学习音频相关的基础知识,包括模拟音频与数字音频的概念和各自的特点;数字音频所具有的优势;模拟音频转换为数字音频的过程和技术指标;常用的数字音频文件格式;语音合成技术与识别技术的基本原理。本章需要在实验环节掌握Adobe Audition 2.0音频处理软件的基本操作,主要包括录音、编辑和效果处理三个方面。

& 学习指导

1、模拟音频 声音是振动的波,是随时间连续变化的物理量。因此,自然界的声音信号是连续的模拟信号,即模拟音频信号。

声波与普通波形一样,可以用三个物理量来描述:振幅、周期和频率。

(1)振幅:振幅是声音波形振动的幅度,表示声音的强弱。

(2)周期:周期是声音波形完成一次全振动的时间。

(3)频率:频率是声音波形在一秒钟内完成全振动的次数,表示声音的音调。

声音具有三个要素:音调、音色和音强。

(1)音调:音调代表声音的高低。与频率有关,频率越高,音调越高。

(2)音色:音色是声音的特色。声音分纯音和复音两种类型。纯音的振幅和周期均为常数;复音是具有不同频率和不同振幅的混合声音,是影响声音特色的主要因素。自然界的大部分声音是复音。在复音中,频率最低的声音是“基音”,是声音的基调。其他频率的声音是“谐音”。基音和谐音是构成声音音色的重要因素。人的声音、其它生物的声音以及自然界各种声响都具有自己独特的音色。人们往往是依据音色来辨别声源种类的。

(3)音强:音强是声音的强度。音强与声波的振幅成正比,振幅越大,音强越大。

2、模拟音频的特点

(1)频率范围:模拟音频信号由许多频率不同的信号组成,每个信号都有各自的频率范围,称为“频域”或“频带”。人耳可听到的声音频率在20Hz-20KHz之间,称为“可听域”。频率高于20KHz的声音信号称为“超音频信号”,频率低于20Hz的声音信号称为“亚音信号”或者“次音信号”。多媒体技术所处理的声音信号主要是20Hz-20KHz的音频信号,它包括音乐、语音及自然界的各种声响。另外,不同种类的声源频带是不同的,例如人类语音频带在100Hz -10KHz;高级音响设备频带在20Hz-20KHz;而宽带音响设备的频带在10Hz-40KHz。总之,频带越宽声音的表现力越好。

(2)模拟音频具有连续性。

(3)模拟音频抗干扰能力差:模拟信号的一个重要的缺点就是噪声容限较低,抗干扰能力差,噪声是影响模拟音频录音质量的重要原因。音频信号幅度与噪声幅度的比值越大越好。音响放大器和扬声器等还原设备的质量能够直接影响重放的音质。音质与音色和频率范围有关。悦耳的音色、宽广的频率范围,能够获得更好的音质。

3、数字音频 数字音频是以二进制的方式记录的音频,是模拟音频的数字化表达。

4、数字音频的优势 相比模拟音频信号,数字音频信号具有很多优势。

(1)在声音存储方面。模拟音频记录在磁带或者唱片等模拟介质中。模拟介质难保存、易老化,造成音质下降。同时,磁带的存储效率很低,音频录制往往需要大量的磁带介质进行存储,成本很高。数字音频可以文件的形式存储在光存储介质或磁存储介质中,可以实现永久保存,并且存储成低。

(2)在声音处理方面。模拟音频录制难度高,需要尽量做到一次成功,后期处理难度大。数字音频技术在声音处理方面具有极大的优势,在后期的音频处理过程中,可以非常容易地进行多种修正以及加工。

(3)在声音的压缩方面。模拟音频的压缩率很难提高。数字音频的压缩优势明显。例如目前流行的MP3音频格式,压缩率达到10%左右的同时还能保持良好的音质,利于在互联网上传播。

5、模拟音频/数字音频转换 模拟音频信号转换为数字音频信号的过程就是对于模拟音频信号的数字化过程。模拟音频信号的数字化过程与普通模拟信号数字化过程类似,需要三个步骤:采样、量化和编码。

(1)采样:采样就是每隔一定的时间间隔T,抽取模拟音频信号的一个瞬时幅度值样本,实现对模拟音频信号在时间上的离散化处理。

(2)量化:量化就是将采样后的声音幅度划分成为多个幅度区间,将落入同一区间的采样样本量化为同一个值。量化实现了对模拟信号在幅度上的离散化处理。

(3)编码:编码就是将采样和量化之后的音频信号转换为“1”和“0”代表的数字信号。

6、模/数转换质量的技术指标 影响模/数转换后的数字音频信号质量的技术指标主要包括采样频率、采样精度、声道数和编码算法。

(1)采样频率。采样频率是对声音波形每秒钟进采样的次数。奈奎斯特理论指出:采样频率不应低于模拟音频信号最高频率的两倍,这样才能将数字化的声音还原为原始声音。采样频率越高,声音失真越小,音频数据量越大。

(2)采样精度。采样精度表示对声音振幅的量化精度,即将声音波形的幅度划分为多少个幅度区间。8位量化表示,将声音波形的幅度划分为28个区间。

(3)声道数。声道数表示同一时间产生的声音波形数。如果每次生成一个声波数据,称为单声道;每次生成二个声波数据,称为立体声。立体声表达的声音效果丰富,但存储空间会增加一倍。

(4)编码算法。编码算法的作用一方面是采用一定的格式来记录数据,二是采用一定的算法来压缩数据。压缩比是压缩编码的基本指标,表示压缩的程度,是压缩后的音频数据量与压缩前的音频数据量的比值。压缩程度越大,信息丢失越多、信号还原后失真越大。根据不同的应用,应该选用不同的压缩编码算法。

7、数字音频的存储空间 模拟音频数字化过程中的采样频率和采样精度越高,结果越接近原始声音,但记录数字声音所需存储空间也随之增加。未经压缩的音频文件所需的存储空间的计算公式如下:

存储容量(字节)=(采样频率×采样精度)/8×声道数×时间

8、数字音频文件格式 数字化音频以文件的形式存储在计算机内。由于音频数字化过程中采用的技术指标不同,产生了不同的音频文件格式。常见的数字音频格式如下:

(1)WAV格式。微软公司开发的一种声音文件格式,也叫波形声音文件,是最早的数字音频格式。

(2)MIDI格式。也称作乐器数字接口,是数字音乐/电子合成乐器的统一国际标准。MIDI文件中存储的是一些指令,由声卡按照指令将声音合成出来。

(3)CDA格式。CDA格式是CD音乐格式,取样频率为44.1kHz,16位量化位数,CDA格式记录的是波形流,是一种近似无损的格式。

(4)MP3格式。MP3格式是MPEG-1 Audio Layer 3,能够以高音质、低采样率对数字音频文件进行压缩。

(5)WMA格式。是微软公司开发的网络音频格式。

(6)MP4格式。采用了“知觉编码”压缩技术,加入了保护版权的编码技术。MP4的压缩比高于MP3,但音质却没有下降。

(7)QuickTime格式。苹果公司推出的一种数字流媒体。

(8)RealAudio格式。Real Networks公司推出的一种文件格式,可以实时传输音频信息。RealAudio文件格式主要有RA、RM、RMX三种,能够随着网络带宽的不同而调整声音的质量,在保证大多数人听到流畅声音的前提下,令带宽较宽的听众获得更好的音质。

(9)VOC格式。常用在DOS程序和游戏中,是随声卡一起产生的数字声音文件。

(10)AU 格式。应用于互联网上的多媒体声音,是UNIX操作系统下的数字声音文件。

(11)MAC格式。苹果公司开发的声音文件格式,广泛应用与Macintosh平台软件。

(12)AAC格式。是MPEG-2规范的一部分。压缩能力强、压缩质量高。可以在比MP3文件缩小30%的前提下提供更好的音质。

9、语音合成 语音合成是指利用计算机合成语音的一种技术,使计算机能够产生高清晰度、高自然度的连续语音,具有类似于人一样的说话的能力。

语音合成可以通过将预先录制并存储的语音信号重新播放来实现。也可以采用数字信号处理的方法,通过激励一个类似人们发声时声道谐振特性的时变数字滤波器,调整滤波器的相关参数,生成各种音调的语音。

语音合成可分为三个层次,分别是文字到语音、概念到语音、意向到语音。要合成出高质量的语言,必须遵循人类语言的表达规则,如语义学规则、词汇规则、语音学规则。

10、语音合成技术分类 按照合成方法分类。分为参数合成法、基音同步叠加法和基于数据库的语音合成法。

(1)参数合成法。通过调整合成器参数实现语音合成。

(2)基音同步叠加法。通过对时域波形拼接实现语音合成。

(3)基于数据库的语音合成法。采用预先录制语音单元并保存在数据库中,再从数据库中选择并拼接出各种语音内容。

按照技术方式分类。分为波形编辑合成、参数分析合成以及规则合成。

(1)波形编辑合成。将语句、短语、词或音节作为合成单元。这些单元被分别录音后进行压缩编码,组成一个语音库。重放时,取出相应单元的波形数据,串接或编辑在一起,经解码还原出语音。这种合成方式也称为录音编辑合成。

(2)参数分析合成。以音节、半音节或音素为合成单元。按照语音理论,对所有合成单元的语音进行分析,提取有关语音参数,这些参数经编码后组成一个合成语音库;输出时,根据待合成的语音的信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器。在合成器中,通过合成参数的控制,将语音波形重新还原出来。

(3)规则合成。规则合成存储的是较小的语音单位,如音素、双音素、半音节或音节的声学参数,以及由音素组成音节、再由音节组成词或句子的各种规则。当输入字母符号时,合成系统利用规则自动地将它们转换成连续的语音波形。

11、文语转换系统 文语转换系统是语音合成的第一个层次,是将文字内容转换为语音输出的语音合成系统。

12、语音合成技术的需求和特点 语音合成技术具有四个方面的需求和特点:自然度、清晰度、表现力和复杂度。

13、语音识别 语音识别技术是让计算机通过识别和理解,将语音转变为文本或命令的技术,让计算机能够听懂人类的语言。

14、语音识别系统分类 语音识别系统按照其构成与规模有多种不同的分类标准。根据对说话人说话方式的要求,可以分为孤立字语音识别系统,连接字语音识别系统以及连续语音识别系统;根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统;根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

15、语音识别的关键技术 语音识别技术主要包括特征提取技术、模式匹配技术及模型训练技术。此外,还涉及到语音识别单元的选取。语音识别单元有单词、音节和音素三种。

(1)特征提取技术。在丰富的语音信号中提取出对语音识别有用的信息,通过对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。

(2)模型训练技术。按照一定准则,从已知模式中获取表征该模式本质特征的模型参数。

(3)模式匹配技术。根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

16、音频处理软件Adobe Audition 该软件是集音频的录制、混合、编辑和控制于一身的音频处理工具软件。可以轻松创建音乐、制作广播短片、修复录制缺陷。基本功能包括以下方面:

(1)录音。

(2)混音。将不同音轨中的声音混合在一起,综合输出经过混合的声音效果。

(3)声音编辑。例如声音的淡入淡出、声音移动和剪辑、音调调整、播放速度调整等。

(4)效果处理。软件带有不同类型的效果器,如压缩器、限制器、均衡器、合唱效果器、延迟效果器、回升效果器等,能够实时处理声音的效果。

(5)降噪:实现在不影响音质的情况下,去除噪声。

(6)声音压缩。软件具有支持目前几乎所有流行的音频文件类型,并能够实现类型的转换和文件压缩。

(7)协同创作。能够与多种音乐软件协同运行,实现音乐创作。

17、音频处理软件Adobe Audition基本操作 Adobe Audition 2.0 音频处理软件具有三种编辑模式界面,分别是多轨编辑模式、单轨编辑模式以及CD模式。多轨与单轨界面大致可以分为菜单栏、工具栏、文件/效果器列表栏、音轨显示区、基本功能区和电平显示区。

常用的音频编辑方法主要是对音频波形进行裁剪、切分、合并、锁定、编组、删除、复制以及对音频进行包络编辑和时间伸缩编辑。

音频特效处理主要使用各种效果器,主要包括均衡效果处理、混响效果处理、压限效果处理、延迟效果处理等。

& 习题解析

一、单选题

1.人耳可以听到的声音频率范围为 。

A)20-20kHz
B)200-15 kHz

C)50-20 kHz
D)10-20 kHz

答案:A

解析:人耳听到的声音频带范围是有限的,频率低于20Hz和高于20000Hz的声音信号人类听不到,即表示人耳的可听域在20-20000Hz之间。

2. 格式的数字音频是微软公司开发的网络音频格式。

A)WAV
B)WMA

C)MP3
D)RM

答案:B

解析:WMA格式是Windows Media Audio的缩写,是微软公司开发的网络音频格式。其压缩率一般可以达到1:18。

3.声音的三个要素中不包括 。

A)音调
B)音质

C)音色
D)音强

答案:B

解析:声音具有三个要素:音调、音色和音强。

4.描述模拟音频信号的三个物理量中, 表示声音的音调。

A)振幅
B)音色

C)频率
D)音强

答案:C

解析:自然界的声音信号是连续的模拟信号,可以用三个物理量来描述:振幅、周期、频率。其中,频率是声音波形在一秒钟内完成全振动的次数,表示声音的音调。

5.描述模拟音频信号的三个物理量中, 表示声音的强弱。

A)振幅
B)音色

C)频率
D)周期

答案:A

解析:自然界的声音信号是连续的模拟信号,可以用三个物理量来描述:振幅、周期、频率。其中,振幅是声音波形振动的幅度,表示声音的强弱。

6.人们主要依据声音的 特点来区分和辨别声源的种类。

A)振幅
B)音色

C)音强
D)音调

答案:B

解析:人的声音、其它生物的声音以及自然界各种声响都具有自己独特的音色。人们往往是依据音色来辨别声源种类的。

7.人类语音的频带宽度是 Hz。

A)200-3400
B)100-10000

C)20-20000
D)20-15000

答案:B

解析:人类语音的频带宽度为100Hz-10000Hz。

8.模拟音频的声音质量主要与音色和 有关。

A)声音强度
B)频率范围

C)声音音调
D)基音

答案:B

解析:模拟音频的声音质量简称“音质”,与音色和频率范围有关。悦耳的音色、宽广的频率范围,能够获得更好的音质。

9.将模拟声音信号转换为数字音频信号的数字化过程是 。

A)采样→编码→量化
B)编码→采样→量化

C)量化→编码→采样
D)采样→量化→编码

答案:D

解析:模拟音频信号的数字化过程与普通模拟信号数字化过程类似,需要三个步骤:采样、量化和编码。

10.将模拟音频信号在时间上进行离散化处理,这一过程叫 。

A)量化
B)编码

C)采样
D)压缩

答案:C

解析:要使模拟音频信号数字化,首先要在时间上对其进行离散化处理,这一过程叫采样。

11.以下数字音频文件格式中, 称为乐器数字接口,是数字音乐/电子合成乐器的统一国际标准。

A)MP3
B)WAV

C)MIDI
D)QuickTime

答案:C

解析:MIDI格式是Musical Instrument Digital Interface的缩写,又称作乐器数字接口,是数字音乐/电子合成乐器的统一国际标准。在MIDI文件中存储的是一些指令,把这些指令发送给声卡,由声卡按照指令将声音合成出来。

12.影响数字音频信号质量的主要技术指标是 。

A)采样频率和量化精度
B)压缩和解压

C)录音和播放
D)模拟和压缩

答案:A

解析:影响数字音频信号质量的主要技术指标主要包括采样频率、采样精度、声道数和编码算法。这些指标决定了数字化音频的质量。

13.奈奎斯特采样理论指出,采样频率不低于声音信号最高频率的 倍。

A)3
B)1/2

C)1/3
D)2

⑽ 音乐音效软件合成

声卡的技术指标很多,以下是各种具体指标的具体含义。如果您是个专业级的音响发烧友,这些牵涉到声音质量的具体指标可不能不看。

目录 [隐藏]
1 S/PDIF
2 采样位数与采样频率
3 复音数
4 动态范围
5 API接口
6 HRTF
7 ASIO
8 AC-3
9 DLS技术
10 SB1394标准

[编辑] S/PDIF
S/PDIF是SONY、PHILIPS家用数字音频接口的简称,可以传输PCM流和Dolby Digital、dts这类环绕声压缩音频信号,所以在声卡上添加S/PDIF功能的最重大意义就在于让电脑声卡具备更加强大的设备扩展能力。S/PDIF技术应用在声卡上的表现即是声卡提供了S/PDIF In、S/PDIF Out接口,如果有数字解码器或者带有数字音频解码的音箱,你就可以使用S/PDIF接口作为数码音频输出,使用外置的DAC(Digital-Analog Converter:数字→模拟转换器,简称数模转换器)进行解码,以达到更好的音质。

S/PDIF接口一般有两种,一种是RCA同轴接口,另一种是TOSLINK光缆接口。其中RCA接口(是非标准的,它的优点是阻抗恒定、有较宽的传输带宽。在国际标准中,S/PDIF需要BNC接口75欧姆电缆传输,然而很多厂商由于各种原因频频使用RCA接口甚至使用3.5mm的小型立体声接口进行S/PDIF传输。

在多媒体声卡上,S/PDIF分为输出和输入两种形式,也就是通常所说的S/PDIF OUT和S/PDIF IN。声卡的S/PDIF OUT主要功能是将来自电脑的数字音频信号传输到各种外接设备。在目前的主流产品中,S/PDIF OUT功能已经非常普及,通常以同轴或者光纤接口的方式做在声卡主卡或者数字子卡上。而S/PDIF IN在声卡中主要功能则是接收来自其它设备的PCM信号,最典型的应用就是CD唱片的数字播放。虽然所有CD-ROM都具有CD播放能力,但效果有优劣之分。主要原因在于CD-ROM所采用的DAC品质不同,从而造成了效果上的差异。但如果你的声卡上拥有一个两针的S/PDIF IN插口,那么就可以通过一条两芯的数字CD信号传输线连接到CD-ROM的Audio Digital Out接口。这样当播放CD唱片的时候,CD上的PCM信号就不经过DAC,而直接被输出到声卡上,随后再由声卡进行D/A转换或者通过S/PDIF OUT输出。一般声卡CODEC芯片的D/A转换品质总是好过CD-ROM上的DAC,因此通过S/PDIF技术,CD播放质量就被有效提高了。

[编辑] 采样位数与采样频率
音频信号是连续的模拟信号,而电脑处理的却只能是数字信号。因此,电脑要对音频信号进行处理,首先必须进行模/数(A/D)的转换。这个转换过程实际上就是对音频信号的采样和量化过程,即把时间上连续的模拟信号转变为时间上不连续的数字信号,只要在连续量上等间隔的取足够多的点,就能逼真地模拟出原来的连续量。这个“取点”的过程我们称为采样(sampling),采样精度越高(“取点”越多)数字声音越逼真。其中信号幅度(电压值)方向采样精度,我们称之为采样位数(sampling resolution),时间方向的采样精度称为采样频率(sampling frequency)。

采样位数指的是每个采样点所代表音频信号的幅度。8bit的位数可以描述256种状态,而16bit则可以表示65536种状态。对于同一信号幅度而言,使用16bit的量化级来描述自然要比使用8bit来描述精确得多。其情形就尤如使用毫米为单位进行度量要比使用厘米为单位要精确一样。一般来说采样位数越高,声音就越清析。

采样频率是指每秒钟对音频信号的采样次数。单位时间内采样次数越多,即采样频率越高,数字信号就越接近原声。采样频率只要达到信号最高频率的两倍,就能精确描述被采样的信号。一般来说,人耳的听力范围在20hz到20Khz之间,因此,只要采样频率达到20Khz×2=40Khz时,就可以满足人们的要求。现时大多数声卡的采样频率都已达到44.1或48Khz,即达到所谓的CD音质水平了。

[编辑] 复音数
在各类声卡的命名中,我们经常会发现诸如64、128之类的数字。有些用户乃至商家将它们误认为是64位、128位声卡,是代表采样位数。其实64、128代表的只是此卡在MIDI合成时可以达到的最大复音数。所谓"复音"是指MIDI乐曲在一秒钟内发出的最大声音数目。波表支持的复音值如果太小,一些比较复杂的MIDI乐曲在合成时就会出现某些声部被丢失的情况,直接影响到播放效果。复音越多,音效越逼真,但这与采样位数无关,如今的波表声卡可以提供128以上的复音值。

另外需要注意的是"硬件支持复音"和"软件支持复音"之间的区别。所谓"硬件支持复音"是指其所有的复音数都由声卡芯片所生成,而"软件支持复音"则是在"硬件复音"的基础上以软件合成的方法,加大复音数,但这是需要CPU来带动的。眼下主流声卡所支持的最大硬件复音为64,而软件复音则可高达1024。

[编辑] 动态范围
动态范围指当声音的增益发生瞬间态突变,也就是当音量骤然或突然毫米波时,设备所有名承受的最大变化范围。这个数值越大,则表示声卡的动态范围越广,就越能表现出作品的情绪和起伏。一般声卡的动态范围在85dB左右,能够做到90dB以上动态范围的声卡是非常好的声卡了。

==Wave音效与MIDI音乐==

WAVE音效合成与MIDI音乐的合成是声卡最主要的功能。其中WAVE音效合成是由声卡的ADC模数转换器和DAC数模转换器来完成的。模拟音频信号经ADC转换后为数字音频后,以文件形式存放在磁盘等介质上,就成为声音文件。这类文件我们称之为wave form文件,通常以.wav为扩展名,因此也称为wav文件。WAVE音效可以逼真地模拟出自然界的各种声音效果。可惜的是wav文件需要占用很大的贮存空间,也正是这个缺点,造就了MP3的成长。

MIDI,即乐器数字化接口,是一种用于电脑与电子乐器之间进行数据交换的通信标准。MIDI文件(通常以.mid为文件扩展名)记录了用于合成MIDI音乐的各种控制指令,包括发声乐器、所用通道、音量大小等。由于MIDI文件本身不包含任何数字音频信号,因而所占的贮存空间比wav文件要小得多。MIDI文件回放需要通过声卡的MIDI合成器合成为不同的声音,而合成的方式有FM(调频)与Wave table(波表)两种。

大多数廉价的声卡都采用的FM合成方式,FM合成是通过振荡器产生正弦波,然后再叠加成各种乐器的波形。由于振荡器成本较高,即使是OPL3这类高档的FM合成器也只提供了4个振荡器,仅能产生20种复音,所以发出音乐听起来生硬呆板,带有明显的人工合成色彩。与FM合成不同,波表合成是采用真实的声音样本进行回放。声音样本记录了各种真实乐器的波形采样,并保存在声卡上的ROM或RAM中(要分辨一块声卡是否波表声卡,只需看卡上有没有ROM或RAM存储器即可)。目前中高档声卡大都采用了波表合成技术。

==输出信噪比==

“输出信噪比”是衡量声卡音质的一个重要因素,其概念为——输出信号电压与同时输出的噪音电压的比例,单位是分贝。这个数值越大,代表输出时信号中被掺入的噪音越小,音质就越纯净。声卡作为电脑的主要输出音源,对信噪比要求是相对较高的。由于声音通过声卡输出,需要通过一系列复杂的处理,所以决定一块声卡信噪比大小的因素也有很多。由于计算机内部的电磁辐射干扰很严重,所以集成声卡的信噪比很难做到很高,一般其的信噪比在80dB左右。PCI声卡一般拥有较高的信噪比(大多数可以轻易达到90dB),有的高达195dB以上。较高的信噪比保证了声音输出时的音色更纯,可以将杂音减少到最低限度。而音色的好坏则取决于产品所选用的音效芯片和卡的做工。如果可能的话,购买声卡前最好先进行试听,如果实在没有得试听的话,可以多留意周围媒体对它的评价,或许对你的选购有一些帮助。

[编辑] API接口
API就是是编程接口的意思,其中包含了许多关于声音定位与处理的指令与规范。它的性能将直接影响三维音效的表现力,主要有下面几种:

Direct Sound 3D
Direct Sound 3D,是微软公司提出的3D效果定位技术,它最大特点就是硬件无关性,在声卡出现初期,许多声卡芯片没有自己的硬件3D音效处理能力,都是使用这种Direct Sound 3D来模拟出立体声。它所产生的效果均由CPU通过即时运算产生,比较耗费CPU资源,所以,此后推出的声卡都拥有了一个所谓的“硬件支持DS3D”能力。如果你在选购声卡时听销售商说声卡支持D3D多么好的话,千万不要就轻信这是一块好声卡,其实际听觉效果要看声卡自身采用的HRTF算法能力的强弱而定。
A3D
A3D是Aureal公司开发的一项专利技术。它是在Direct Sound 3D的API接口基础上发展起来的。A3D最大特点是能以精确定位(Positional)的3D音效增加新一代游戏软件交互的真实感,这就是通常所说的3D定位技术。A3D目前有1.0、2.0和A3D3.0三个版本。1.0版包括A3D Surround和A3D Interactive两大应用领域,特别强调在立体声硬件环境下就可以得到真实的声场模拟,A3D 1.0中同时间内只能处理8个音源,取样频率是22kHz,AUREAL声卡中的AU8820芯片使用的就是这种技术。2.0则是在1.0基础上加入了声波追踪技术,进一步加强了性能,A3D 2.0同时则可以处理16个音源,取样频率已达48kHz,它是当今定位效果最好的3D音频技术之一,AU8830芯片就支持这种技术。至于3.0版本早就被提出了,不过由于Aureal公司已经被创新收购,A3D3.0的前途还是个未知数。
由于Aureal的A3D技术在3D定位及交互性声音处理(这是两大关键部分)方面具有优势,加之支持Direct Sound 3D硬件加速,因而很多游戏开发商都是基于A3D进行3D游戏开发的。不过由于实现起来成本颇高,因而并不是每块PCI声卡都支持该技术。

A3D Surround
A3D Surround吸收了A3D技术和环绕声解码技术(如Dolby的 ProLogic和AC-3)之精华,突出特点是只使用两只普通音箱(或一副耳机)在环绕三维空间中,进行声音的精确定位(也就是说可产生与五个“虚拟音箱”相同的效果)。当然,这五组音频流并不像传统的“家庭影院”那样需要用5个实际的音箱进行回放,它实际上只是经过A3D Surround处理后用两个音箱播放出来的。这一技术被杜比实验室授予“Virtual Dolby”认证。
EAX
EAX是由创新公司在其SB LIVE!系列声卡中提出的标准,全名为Environmental Audio Extension,即环境音效。EAX是建立在DS3D上的,只是在后者的基础上增加了几种独有的声音效果命令。EAX的特点是着重对各种声音在不同环境条件下的变化和表现进行渲染,但对声音的定位能力不如A3D,EAX建议用户配备4声道环绕音箱系统。现在支持EAX2的主要就是EMU10K1和MU10K2芯片,它们分别为创新着名的SB Live!和Audigy系列声卡所采用,该芯片同时还支持A3D1、HRTF等技术,是目前流行兼容声卡中的精品。
注:目前,A3D和EAX是API接口中的两大流派,你在购买的时候,最好弄清楚选择的声卡支持哪些音效,所支持的版本是多少,是软件模拟还是硬件支持,这些都是十分关键的。

[编辑] HRTF
HRTF是Head Related Transfer Function的缩写,中文意思是“头部对应传输功能”,它也是实现三维音效比较重要的一个因素。简单讲,HRTF是一种音效定位算法,它的实际作用在于用数字和算法欺骗我们的耳朵,使我们认为自己处了一个真实的声音环境中。3D定位是通过声卡芯片采用的HRTF算法实现的,定位效果也是由HRTF算法决定的。象Aureal和Creative这样的大公司,他们既能够开发出强大指令集规范,同时也可以开发出先进的HRTF算法并集成在自己的芯片中。当然也有一些厂商专门出售或者为声卡订定各种各样的HRTF算法,比较有名的就要算Sensaura 3D和Qsound。Sensaura 3D是由CRT公司提供的。Sensaura,支持包括A3D 1.0和EAX、DS3D在内的大部分主流3D音频API,此技术主要运用于ESS、YAMAHA和CMI的声卡芯片上。而QSound开发的Q3D,主要包括三个部分,第一部分是3D音效和听觉环境模型,第二部分是立体音乐加强,第三个部分是虚拟的环境音效,可以提供一个与EAX相仿的环境模拟功能,但效果还比较单一,与Sensaura大而全的性能指标相比稍逊一筹。此外C-MEDIA在CMI8738上则使用自己的HRTF算法,称为C3DX,支持EAX和DS3D,实际效果很一般。

==IAS== IAS是Interactive Around-Sound的缩写,它是 EAR(Extreme Audio Reality)公司在开发者和硬件厂商的协助下开发出来的专利音频技术,该技术可以满足测试系统硬件、管理所有的音效平台的需求。开发者只需写一套音效代码,所有基于Windows 95/98/2000的音频硬件将通过同样的编程接口来获得支持。IAS为音效设计者管理所有的音效资源,提供了DS3D(Direct Sound 3D)支持。此外,它的音效输出引擎会自动配置最佳的3D音频解决方案,其中有四信道模式的声卡将是首要的目标。而DS3D 可以在现有的双喇叭平台上获得支持。

[编辑] ASIO
ASIO是Audio Stream Input Output的缩写,可翻译为“音频流输入/输出”的意思。通常这是专业声卡或高档音频工作站才会具备的性能。采用ASIO技术可以减少系统对音频流信号的延迟,增强声卡硬件的音频处理能力。同样一块声卡,假设使用 MME 驱动时的延迟时间为750毫秒,那么当换成ASIO驱动后延迟量就有可能会降低到40毫秒以下。

但是并非所有的声卡都能够支持ASIO。ASIO不仅定义驱动标准,还必须要求声卡主芯片的硬件支持才能够得以实现。只有那些价格高贵的专业声卡,在设计中才会考虑到对ASIO的支持。我们常所用的声卡,包括创新过去的SB Live!系列都属于民用卡的范畴,没有配备了ASIO驱动的。不过创新SoundBlaster Audigy已经开始全面支持ASIO技术。

注:SB Live!的主芯片EMU10K1本身支持ASIO,只是这一性能并未在创新自带的LiveWare! 3.0驱动中体现出来。因此,当你将SB Live!的驱动程序换成采用同样规格设计的E_mu APS录音卡的驱动后,音频处理软件就会报告说找到ASIO!另外CMI8738本身也是具备ASIO的潜质,只不过至今还没有合适的驱动将其发挥出来。

[编辑] AC-3
AC-3是完全数字式的编码信号,所以正式英文名为“Dolby Digital”,是由着名的美国杜比实验室(Dolby Laboratories)。Dolby的一个环绕声标准。AC-3规定了6个相互独立的声轨,分别是——前置两声道,后置环绕两声道,一个中置声道和一个低音增强声道。其中前置、环绕和中置五个声道建议为全频带扬声器,低音炮负责传送低与80Hz的超重低音。早期的AC-3最高只能支持5.1声道,在经过不断的升级改进,目前AC-3的6.1 EX系统增加了后部环绕中置的设计,让用户可以体验到更加精准的定位。

对于AC-3,目前通过硬件解码和软件解码这两种方式实现。硬件解码是通过支持AC-3信号传输声卡中的解码器,将声间进行5.1声道分离后通过5.1音箱输出。软件解码就是通过软件来进行解码的,(如DVD播放软件WinDVD、PowerDVD都可以支持AC-3解码,当然声卡也必须支持模拟六声道输出。),不过这种工作方式比较大的缺陷在于解码运算需要通过CPU来完成,会增加了系统负担,而且软解码的定位能力依然较逊色,声场相对较散。

虽然软件模拟AC-3存在着缺陷,其成本相对低廉,目前中低档的声卡大都是使用这种方式。

[编辑] DLS技术
DLS全称为"Down Loadable Sample",意为“可供下载的采样音色库”。其原理与软波表颇有异曲同工之处,也是将音色库存贮在硬盘中,待播放时调入系统内存。但不同点在于运用DLS技术后,合成MIDI时并不利用CPU来运算,而依靠声卡自己的音频处理芯片进行合成。其中原因在于PCI声卡的数据宽带达到133Mb/秒,大大加宽了系统内存与声卡之间的传输通道,PCI声卡就可使用先进的DLS技术,将波表音色储存于硬盘中,通过声卡芯片处理,在播放MIDI时调入内存。从而既免去了传统ISA波表声卡所要配备的音色库内存,又大大降低了播放MIDI时的CPU占用率。这样不但提供了良好的MIDI合成效果又可免去ISA波表声卡上必须配备的音色库内存,而且这种波表库可以随时更新,并利用DLS音色编辑软件进行修改,这都是传统波表所无法比拟的优势。

[编辑] SB1394标准
SB1394是创新公司为达到高速数字音频传送(约400Mbps)所提出的IEEE1394兼容标准。创新的SB1394标准保证通过SB1394连接的1394接口设备可发挥最大效能,传输速度高达400Mbps,使主机与外设之间大文件的高速传送成为可能。Sound Blaster Audigy2声卡就内置SB1394,可通过IEEE 1394标准接口外接设备如DV摄象机等,并可连接63台电脑进行低延迟的联网游戏

阅读全文

与声音合成算法相关的资料

热点内容
卡尔曼滤波算法书籍 浏览:766
安卓手机怎么用爱思助手传文件进苹果手机上 浏览:841
安卓怎么下载60秒生存 浏览:800
外向式文件夹 浏览:233
dospdf 浏览:428
怎么修改腾讯云服务器ip 浏览:385
pdftoeps 浏览:490
为什么鸿蒙那么像安卓 浏览:733
安卓手机怎么拍自媒体视频 浏览:183
单片机各个中断的初始化 浏览:721
python怎么集合元素 浏览:478
python逐条解读 浏览:830
基于单片机的湿度控制 浏览:496
ios如何使用安卓的帐号 浏览:880
程序员公园采访 浏览:809
程序员实战教程要多长时间 浏览:972
企业数据加密技巧 浏览:132
租云服务器开发 浏览:811
程序员告白妈妈不同意 浏览:333
攻城掠地怎么查看服务器 浏览:600