⑴ 网易云输出Directsound和Waveout有什么区别
先放结论:
ASIO:硬件支持+对应驱动程序
DS:兼容性最好,一般也是默认的。
WASAPI:是Vista之后的,较佳选择输出方式。
再来详细看:
ASIO、WDM都是指音频通道,就是音频数据走的路。
ASIO指的是ASIO音频通道;WDM是指WDM类型的音频通道,具体包括WaveOut、DirectSound(简称DS)、Kernel Streaming(简称KS),Windows Vista和7 还比XP多了WASAPI。
具体体现在各个音频播放、录音软件的设置里,比如Foobar2000等。
打形象的比喻,音频数据是车,操作系统的音频部分是一条路。
WaveOut、DirectSound(简称DS)就好比最一般的公用车道,大家可以并行走(程序可以一起发声),但要受到一些旁车的影响。
Kernel Streaming(简称KS),WASAPI好比在这条操作系统音频之路上划出一条专用道,只允许一个车走,虽然还走着一条路,但没有干扰了,程序独占。
ASIO就好比我压根不走操作系统那条路了,我自己专门再修一条新路,自己走自己的,不过操作系统公共音频部分了。
其实ASIO最有价值的地方在于录音,它的最大特点在于声音数据在通道里通行快,延时小(音频传输是需要若干毫秒的时间的,对于精确录音和声音混音合成,很是敏感)。
DS就是DirectSound的首字母缩写,DirectSound是DirectX的一部分,而DirectX则是被很多游戏玩家所熟知,DirectX是由微软创建的多媒体编程接口,由C++编程语言实现,遵循COM。DirectX是Windows平台下最通用最成熟的接口,多媒体软件大多采用了DirectX API。通过DS输出可为开发者和用户带来许多便利,FB2K下使用DS输出则是可以实现渐响、淡出等功能,还能支持声卡所带的音效,所以小编并不是推荐各位网友使用DS输出来播放无损音乐。
ASIO全称Audio stream input output,是德国Steinberg公司所提出的,主要目的是为了解决PC音频方面的输入输出的延迟问题,由于系统自带的音频输出方式一般延迟都大于10ms,虽然10ms并不算长,但仍旧是无法满足专业领域的严苛需求的,于是ASIO便针对延迟问题进行了深度设计,使其输出输入延迟能够低于10ms,甚至还能低于1ms,完全能够满足专业音乐制作的需求,聆听音乐选择该方法输出,主要目的肯定不是降低延迟了,而是为了能避开系统重采样、音效以及规格化处理,由于ASIO低延迟设计,所以在输出过程当中不会引入任何处理,但ASIO缺点也是很明显的,ASIO是需要驱动层面的支持,并不是所有声卡都带有ASIO驱动,虽然有第三方驱动,但效果可能不尽如人意。
WASAPI全称Windows Audio Session API,是微软Vista之后所引入的,Vista当中微软重写了音频架构,提出了一套新的通用架构,Universal Audio Architechture(UAA),并增加了全新的WASAPI,WASAPI为程序开发者提供了两种模式,共享模式(Shared Mode)和独占模式(Exclusive Mode),使用独占模式时可以和ASIO输出达到相似的效果,此时声卡被某一程序独占,只有该程序能使用声卡,其他程序均不能占用声卡,而且独占模式时,系统不也会干涉音频流,直接将其交给声卡驱动进行输出,声卡自带的音效以及系统重采样均不会起到作用,可输出纯净的声音,
【在过去,声卡厂商例如Creative、Realtek等,为了让使用者透过自家编写的控制台来进行各方面关于音频设备的设定,所以编写驱动程序时,必须在Kernel Mode(内核模式)这个层级撰写相当多的代码来提供调用,使得使用者的操作设定能够直达硬件层。然而这对于系统的稳定度是一个很不好的影响,稍微有一点点意外状况,会因为这些功能跑在Kernel Mode而导致系统死机。在 Vista 时代有所改善了。Microsoft要求所有音频设备的厂商必须遵循UAA的架构来开发驱动程式,也为了配合UAA架构,Vista可以说是整个翻新了音讯处理流程,许多原本需要写在Kernel Mode的声卡功能,需要改写到User Mode(用户模式)去,进而增加了系统稳定度。】
KS(Kernel Streaming)输出是一种比较老旧的输出方式,主要使用在没有WASAPI的XP以及之前版本的Windows系统当中,KS最早出现在Windows 98当中,它允许程序员能够为多媒体设备实时的处理音频流,效果和ASIO、WASAPI类似,都可以避开系统对音频的音效处理或是规格化,从Vista开始KS已经逐渐被WASAPI所取代了,目前支持的软件并不多。
⑵ 各种音频文件的格式有什么不同
对补充的回答:
RVMB格式是网上很流行的视频格式,是经过压缩的.它的标准播放软件是Realplayer,不过如果你不想再安装软件,直接用windows自带的Media player播放的话,那就在网上搜一个名叫"阿飞的解码器"装上,就可满足当前的大多数音视频的解码问题了.
你所提的这些格式都不是纯音频格式,WMV,MPG,AVI,VOB这些是属于视频类的,不是纯音频.按你说的这些文件的来源,那差别就大了.wmv是微软公司为满足网络视频速度快、文件小的需要开发出的一种视频格式,压缩比很大,文件的个头在你提的这几种里是最小的,不过这也要看视频的原始尺寸.MPG格式也是一种压缩格式,分VCD的MPEG1(在光盘的文件显示为.DAT)和DVD的MPEG2(在光盘里显示为.VOB)两种格式,清晰度你也应该知道的。对于AVI这种格式嘛,就不一定了,如果说是从DV带或是一些高清摄像机采集而来的视频AVI,那就应该是最清晰的,不过嘛文件也是最大的,不过现在的视频格式,比如MP4播放器播放的视频也是AVI的,它是经过压缩的,文件大小和清晰度也就受到了限制.
音频文件如mp3,wma,ape,wav,midi等等这些格式才是纯音频,而你说的那些格式是音频和视频合成的文件.
对于我所说的这些音频格式:mp3和wma都属于压缩比例较大的格式,只有wav文件是没有经过压缩的原声文件,ape是属于一种保真度很高的压缩音频文件,而midi是由混音器合成或是转换得来的音频.
这几种音频格式相比之下,当然是wav这种格式的音质最好了(不过也要看录制的环境和设备),也就是CD光盘上保存的音频的原始文件格式.不过最大的缺点是文件占用的空间相对其他格式音频文件最大;ape格式文件是压缩得比较小的格式,基本上保持了WAV的原音质,损失不大,文件个头只占WAV的三分之一左右;mp3\wma格式应该是网上最流行的音频格式了,相对于WAV压缩得就相当多了.不过如果不是音乐发烧友的也可以满足听觉了,因为被压缩的部分人耳是分辨不出来的.
⑶ 如何获取声卡的输入音量,用powershell
1.
Windows上音频处理的API 在Windows操作系统上,常用的音频处理技术主要包括: Wave系列API函数、 DirectSound、 Core Audio。 ...
2.
使用WaveIn系列API函数实现麦克风输入采集 涉及的API函数: waveIn...
3.
使用Core Audio实现对声卡输出的捕捉 涉及的接口有: IMMDevice...
4.
常用的混音算法 混音算法就是将多路音频输入信号根据某种规则进行
⑷ 什么软件能把两种不同的声音合成一种声音
可以合成的软件不少,比如使用音频编辑软件Adobe Audition
Adobe Audition,它是一个专业音频编辑和混合环境,原名为Cool Edit Pro. 被Adobe 公司收购后,改名为Adobe Audition。
Audition专为在照相室、广播设备和后期制作设备方面工作的音频和视频专业人员设计,可提供先进的音频混合、编辑、控制和效果处理功能。最多混合 128 个声道,可编辑单个音频文件,创建回路并可使用 45 种以上的数字信号处理效果。Audition 是一个完善的多声道录音室,可提供灵活的工作流程并且使用简便。无论是要录制音乐、无线电广播,还是为录像配音,Audition中的恰到好处的工具均可为您提供充足动力,以创造可能的最高质量的丰富、 细微音响。它是 Cool Edit Pro 2.1 的更新版和增强版。此汉化程序已达到98%的信息汉化程度。
(2)操作流程
①打开Adobe Audition,选择“文件--新建--多轨合成项目”,在弹出窗口可以设置项目名称与路径
②按住鼠标左键不放将要合成音乐文件拖入到合成的音轨中,俩个音乐放在同一个音轨上并且不重合即首位相接
③选择“文件--导出--多轨混缩--整个项目”,在弹出菜单里设可以置名称、格式等
④打开俩个音乐合成的文件,已经成为一首音乐了
⑸ 关于音频有那些格式,那些容量比较大,那些音质比较好
WAV格式
WAV是微软公司开发的一种声音文件格式,它符合 PIFFResource Interchange File Format 文件规范,用于保存WINDOWS平台的音频信息资源,被WINDOWS平台及其应用程序所支持。“*.WAV”格式支持MSADPCM、CCITT A LAW等多种压缩算法,支持多种音频位数、采样频率和声道,标准格式的WAV文件和CD格式一样,也是44.1K的采样频率,速率88K/秒,16位量化位数。
MP3格式
MP3格式诞生于八十年代的德国,所谓的MP3也就是指的是MPEG标准中的音频部分,也就是MPEG音频层。根据压缩质量和编码处理的不同分为3层,分别对应“*.mp1"/“*.mp2”/“*.mp3”这3种声音文件。需要提醒大家注意的地方是:MPEG音频文件的压缩是一种有损压缩,MPEG3音频编码具有10:1~12:1的高压缩率,同时基本保持低音频部分不失真,但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸,相同长度的音乐文件,用*.mp3格式来储存,一般只有*.wav文件的1/10,而音质要次于CD格式或WAV格式的声音文件。由于其文件尺寸小,音质好;所以在它问世之初还没有什么别的音频格式可以与之匹敌,因而为*.mp3格式的发展提供了良好的条件。直到现在,这种格式还是风靡一时,作为主流音频格式的地位难以被撼动。但是树大招风,MP3音乐的版权问题也一直是找不到办法解决,因为MP3没有版权保护技术,说白了也就是谁都可以用。
MP3格式压缩音乐的采样频率有很多种,可以用64Kbps或更低的采样频率节省空间,也可以用320Kbps的标准达到极高的音质。我们用装有Fraunhofer IIS Mpeg Lyaer3的 MP3编码器(现在效果最好的编码器)MusicMatch Jukebox 6.0在128Kbps的频率下编码一首3分钟的歌曲,得到2.82MB的MP3文件。采用缺省的CBR(固定采样频率)技术可以以固定的频率采样一首歌曲,而VBR(可变采样频率)则可以在音乐“忙”的时候加大采样的频率获取更高的音质,不过产生的MP3文件可能在某些播放器上无法播放。我们把VBR的级别设定成为与前面的CBR文件的音质基本一样,生成的VBR MP3文件为2.9MB。
WMA格式
WMA就是Windows Media Audio编码后的文件格式,由微软开发,WMA针对的不是单机市场,是网络!竞争对手就是网络媒体市场中着名的Real Networks。微软声称,在只有64kbps的码率情况下,WMA可以达到接近CD的音质。和以往的编码不同,WMA支持防复制功能,她支持通过Windows Media Rights Manager 加入保护,可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术,即一边读一边播放,因此WMA可以很轻松的实现在线广播,由于是微软的杰作,因此,微软在Windows中加入了对WMA的支持,WMA有着优秀的技术特征,在微软的大力推广下,这种格式被越来越多的人所接受。
WAV格式
这是一种古老的音频文件格式,由微软开发。WAV是一种文件格式,符合 PIFF Resource Interchange File Format规范。所有的WAV都有一个文件头,这个文件头音频流的编码参数。WAV对音频流的编码没有硬性规定,除了PCM之外,还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。很多朋友没有这个概念,我们拿AVI做个示范,因为AVI和WAV在文件结构上是非常相似的,不过AVI多了一个视频流而已。我们接触到的AVI有很多种,因此我们经常需要安装一些Decode才能观看一些AVI,我们接触到比较多的DivX就是一种视频编码,AVI可以采用DivX编码来压缩视频流,当然也可以使用其他的编码压缩。
同样,WAV也可以使用多种音频编码来压缩其音频流,不过我们常见的都是音频流被PCM编码处理的WAV,但这不表示WAV只能使用PCM编码,MP3编码同样也可以运用在WAV中,和AVI一样,只要安装好了相应的Decode,就可以欣赏这些WAV了。在Windows平台下,基于PCM编码的WAV是被支持得最好的音频格式,所有音频软件都能完美支持,由于本身可以达到较高的音质的要求,因此,WAV也是音乐编辑创作的首选格式,适合保存音乐素材。因此,基于PCM编码的WAV被作为了一种中介的格式,常常使用在其他编码的相互转换之中,例如MP3转换成WMA。
OGG格式
随着MP3播放器的流行,MP3播放器的品牌和厂家越来越多,竞争也越来越激烈,再加上MP3手机的压挤,许多上游MP3随身听厂商纷纷寻找出路,有的在外观上创新,有的在做工上求精,有的推出众多大容量机型,有的则在解码芯片上做文章,还有的改进解码功能,支持新的文件格式。在众多的新格式当中,OGG以其免费、开源的特点,赢得了MP3播放器厂商的青睐。
这里说的OGG全称应该是OGG Vobis。OGG并不是一个厂商的名字,而是一个庞大的多媒体开发计划的项目名称,将涉及视频音频等方面的编码开发。Vobis则是某音乐作品中一个人物的名字,这里只是借用它,来代表OGG Vobis是关于音频方便的。OGG Vobis有一个很出众的特点,就是支持多声道,随着它的流行,以后用随身听来听DTS编码的多声道作品将不会是梦想。OGG Vobis在压缩技术上比MP3好,但稍逊于MP3po,但它的多声道,免费,开源这些特点,使它很有可能成为一个流行的趋势,这也正是一些MP3播放器对其支持的原因。
APE格式
APE是Monkey's Audio提供的一种无损压缩格式。Monkey's Audio提供了Winamp的插件支持,因此这就意味着压缩后的文件不再是单纯的压缩格式,而是和MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式,能够做到真正无损,因此获得了不少发烧用户的青睐。在现有不少无损压缩方案种,APE是一种有着突出性能的格式,令人满意的压缩比以及飞快的压缩速度,成为了不少朋友私下交流发烧音乐的一个选择。
ACC格式
AAC(高级音频编码技术,Advanced Audio Coding)是杜比实验室为音乐社区提供的技术。AAC号称“最大能容纳48通道的音轨,采样率达96 KHz,并且在320Kbps的数据速率下能为5.1声道音乐节目提供相当于ITU-R广播的品质”。和MP3比起来,它的音质比较好,也能够节省大约30%的储存空间与带宽。它是遵循MPEG-2的规格所开发的技术。
⑹ 音乐软件里的无损音乐和普通音乐差距真的很大吗
如果我们只谈论最纯粹的定义,所谓的“无损”意味着未压缩的音乐。无损音频是录音过程中未经修改的输出,是现有录音过程的最准确再现。这就意味着,在理论上,必须完美地记录声音的细节和空间感,从而带来音乐表演所需要表达的情感。
然而,问题是这种理论上的无损带来了对存储空间的过度占用,在很多情况下,这种占用是没有意义的,因为人们经常需要在有线空间中放置尽可能多的音频文件。我们常见的录音室质量无损音频格式是aiff和wav。众所周知,它们的体积并不小,因此所谓的“无损压缩”应运而生。无损压缩是无损的吗?对。由于无损压缩过程是可逆的,因此无损压缩方案也可以看作是无损的。
位深和采样率我们刚才提到了位深和采样率这两个术语。你说他们是什么意思?让我们从数字开始。位深度用于定义所谓的动态范围,或者更确切地说,最大声音和最轻声音之间的差异。每个“位”表示动态范围内的6db(分贝),因此16位深度表示其动态范围的差为96db,同样,24位深度为144db。毫无疑问,动态范围越大越好,因为两种极端响度的差别越大,意味着人们在听一些音乐,特别是古典音乐时会经历更多的情绪起伏——当然,这需要播放设备的支持。那我们谈谈抽样率吧。模拟音频是由波形表示的,所以当它转换成数字信号时,麦克风会在固定的时间间隔对其进行采样。采样频率是采样率。例如,1Hz表示每秒采样一次。
⑺ 数字音频混合的原理
没什么算法,采样率匹配以后把两个信号加起来输出就行了,人的耳朵能分辨出两种声音的
⑻ 创新5.0声卡混音器怎么调制
1.混音器
开始—程序(所有程序)—Creative—Sound Blaster Live!—Creative Surround Mixer点鼠标右键发送到桌面快捷方式 ,因为经常要用Creative Surround Mixer,提议拖到最下面的快捷栏。
运行Creative Surround Mixer程序,点EAX,点开高级模式就出现以下的界面。
⑼ 数字音频处理器、反馈抑制器、均衡器和混音器的作用是什么
数字音频处理器功能:输入部分一般包括输入增益控制、输入均衡、输入延时、输入极性转换等功能。
反馈抑制器的作用:当发生声反馈时,它会立即发现并计算其频率和衰减,并根据计算结果执行抑制声反馈的命令。
均衡器的功能:调节音色,调节声场,抑制声音反馈。
混音器功能:混音器不仅适用于在家唱歌,也适用于舞台表演和多人会议室。它可以串联使用。如果需要同时使用多个麦克风,也可以选择多功能混音器(12个输入和一个输出)。强大的四合一电路设计:可同时输入四组音频信号,每组电路互不干扰、串扰。
每个信号输入都有独立的音量调节器,其内部电路采用国际公认的音频运算放大器IC:NE5532或JRC4558运算放大器,保证声音清晰美观。
数字音频处理器、反馈抑制器、均衡器和混频器不能相互替代。
(9)pcm混音算法扩展阅读:
数字音频处理器的主要特点:输入增益、输入均衡、输入延迟、输入极性转换。
反馈抑制器的工作原理:利用计算机技术快速扫描并自动找到启动尖叫声的音频信号频率(即尖叫声频率),并自动产生一组具有相同尖叫声频率的窄带滤波器来切断尖叫声频率,从而达到自动抑制尖叫声和消除声反馈的目的。
反馈抑制器由放大器、A/D转换器、窄带数字滤波器组、数字信号处理器、反馈中心频率检测器和D/A转换器组成。
均衡器分为频域均衡器和时域均衡器。频域均衡器利用可调滤波器的频率特性来补偿实际信道的幅频特性和群时延特性。使包括均衡器在内的整个系统的总频率特性满足无符号间干扰的传输条件。
直接从时间响应的角度考虑时域均衡器,使包括均衡器在内的整个传输系统的脉冲响应满足无isi的条件。频域均衡满足奈奎斯特成形定理的要求,且判决点不存在isi的条件相对宽松。因此,时域均衡器在数字通信中得到了广泛的应用。
硬件混频器的输入信号可以是计算机音频输出信号(带防静电设计电路)、有线话筒信号、无线话筒信号、CD/VCD/DVD音频信号、无线耳机输出音频信号、MP3/MP4音频信号等,适用于家庭、舞厅、录音室等。
软件混频器的输入信号可以是数字音频文件、计算机系统声音和计算机终端(如麦克风)的输入信号,适合音频编辑。
⑽ 怎样对声音素材进行删除.合并,复制处理
第5章 音频素材制作与处理
本章主要学习音频相关的基础知识,包括模拟音频与数字音频的概念和各自的特点;数字音频所具有的优势;模拟音频转换为数字音频的过程和技术指标;常用的数字音频文件格式;语音合成技术与识别技术的基本原理。本章需要在实验环节掌握Adobe Audition 2.0音频处理软件的基本操作,主要包括录音、编辑和效果处理三个方面。
& 学习指导
1、模拟音频 声音是振动的波,是随时间连续变化的物理量。因此,自然界的声音信号是连续的模拟信号,即模拟音频信号。
声波与普通波形一样,可以用三个物理量来描述:振幅、周期和频率。
(1)振幅:振幅是声音波形振动的幅度,表示声音的强弱。
(2)周期:周期是声音波形完成一次全振动的时间。
(3)频率:频率是声音波形在一秒钟内完成全振动的次数,表示声音的音调。
声音具有三个要素:音调、音色和音强。
(1)音调:音调代表声音的高低。与频率有关,频率越高,音调越高。
(2)音色:音色是声音的特色。声音分纯音和复音两种类型。纯音的振幅和周期均为常数;复音是具有不同频率和不同振幅的混合声音,是影响声音特色的主要因素。自然界的大部分声音是复音。在复音中,频率最低的声音是“基音”,是声音的基调。其他频率的声音是“谐音”。基音和谐音是构成声音音色的重要因素。人的声音、其它生物的声音以及自然界各种声响都具有自己独特的音色。人们往往是依据音色来辨别声源种类的。
(3)音强:音强是声音的强度。音强与声波的振幅成正比,振幅越大,音强越大。
2、模拟音频的特点
(1)频率范围:模拟音频信号由许多频率不同的信号组成,每个信号都有各自的频率范围,称为“频域”或“频带”。人耳可听到的声音频率在20Hz-20KHz之间,称为“可听域”。频率高于20KHz的声音信号称为“超音频信号”,频率低于20Hz的声音信号称为“亚音信号”或者“次音信号”。多媒体技术所处理的声音信号主要是20Hz-20KHz的音频信号,它包括音乐、语音及自然界的各种声响。另外,不同种类的声源频带是不同的,例如人类语音频带在100Hz -10KHz;高级音响设备频带在20Hz-20KHz;而宽带音响设备的频带在10Hz-40KHz。总之,频带越宽声音的表现力越好。
(2)模拟音频具有连续性。
(3)模拟音频抗干扰能力差:模拟信号的一个重要的缺点就是噪声容限较低,抗干扰能力差,噪声是影响模拟音频录音质量的重要原因。音频信号幅度与噪声幅度的比值越大越好。音响放大器和扬声器等还原设备的质量能够直接影响重放的音质。音质与音色和频率范围有关。悦耳的音色、宽广的频率范围,能够获得更好的音质。
3、数字音频 数字音频是以二进制的方式记录的音频,是模拟音频的数字化表达。
4、数字音频的优势 相比模拟音频信号,数字音频信号具有很多优势。
(1)在声音存储方面。模拟音频记录在磁带或者唱片等模拟介质中。模拟介质难保存、易老化,造成音质下降。同时,磁带的存储效率很低,音频录制往往需要大量的磁带介质进行存储,成本很高。数字音频可以文件的形式存储在光存储介质或磁存储介质中,可以实现永久保存,并且存储成低。
(2)在声音处理方面。模拟音频录制难度高,需要尽量做到一次成功,后期处理难度大。数字音频技术在声音处理方面具有极大的优势,在后期的音频处理过程中,可以非常容易地进行多种修正以及加工。
(3)在声音的压缩方面。模拟音频的压缩率很难提高。数字音频的压缩优势明显。例如目前流行的MP3音频格式,压缩率达到10%左右的同时还能保持良好的音质,利于在互联网上传播。
5、模拟音频/数字音频转换 模拟音频信号转换为数字音频信号的过程就是对于模拟音频信号的数字化过程。模拟音频信号的数字化过程与普通模拟信号数字化过程类似,需要三个步骤:采样、量化和编码。
(1)采样:采样就是每隔一定的时间间隔T,抽取模拟音频信号的一个瞬时幅度值样本,实现对模拟音频信号在时间上的离散化处理。
(2)量化:量化就是将采样后的声音幅度划分成为多个幅度区间,将落入同一区间的采样样本量化为同一个值。量化实现了对模拟信号在幅度上的离散化处理。
(3)编码:编码就是将采样和量化之后的音频信号转换为“1”和“0”代表的数字信号。
6、模/数转换质量的技术指标 影响模/数转换后的数字音频信号质量的技术指标主要包括采样频率、采样精度、声道数和编码算法。
(1)采样频率。采样频率是对声音波形每秒钟进采样的次数。奈奎斯特理论指出:采样频率不应低于模拟音频信号最高频率的两倍,这样才能将数字化的声音还原为原始声音。采样频率越高,声音失真越小,音频数据量越大。
(2)采样精度。采样精度表示对声音振幅的量化精度,即将声音波形的幅度划分为多少个幅度区间。8位量化表示,将声音波形的幅度划分为28个区间。
(3)声道数。声道数表示同一时间产生的声音波形数。如果每次生成一个声波数据,称为单声道;每次生成二个声波数据,称为立体声。立体声表达的声音效果丰富,但存储空间会增加一倍。
(4)编码算法。编码算法的作用一方面是采用一定的格式来记录数据,二是采用一定的算法来压缩数据。压缩比是压缩编码的基本指标,表示压缩的程度,是压缩后的音频数据量与压缩前的音频数据量的比值。压缩程度越大,信息丢失越多、信号还原后失真越大。根据不同的应用,应该选用不同的压缩编码算法。
7、数字音频的存储空间 模拟音频数字化过程中的采样频率和采样精度越高,结果越接近原始声音,但记录数字声音所需存储空间也随之增加。未经压缩的音频文件所需的存储空间的计算公式如下:
存储容量(字节)=(采样频率×采样精度)/8×声道数×时间
8、数字音频文件格式 数字化音频以文件的形式存储在计算机内。由于音频数字化过程中采用的技术指标不同,产生了不同的音频文件格式。常见的数字音频格式如下:
(1)WAV格式。微软公司开发的一种声音文件格式,也叫波形声音文件,是最早的数字音频格式。
(2)MIDI格式。也称作乐器数字接口,是数字音乐/电子合成乐器的统一国际标准。MIDI文件中存储的是一些指令,由声卡按照指令将声音合成出来。
(3)CDA格式。CDA格式是CD音乐格式,取样频率为44.1kHz,16位量化位数,CDA格式记录的是波形流,是一种近似无损的格式。
(4)MP3格式。MP3格式是MPEG-1 Audio Layer 3,能够以高音质、低采样率对数字音频文件进行压缩。
(5)WMA格式。是微软公司开发的网络音频格式。
(6)MP4格式。采用了“知觉编码”压缩技术,加入了保护版权的编码技术。MP4的压缩比高于MP3,但音质却没有下降。
(7)QuickTime格式。苹果公司推出的一种数字流媒体。
(8)RealAudio格式。Real Networks公司推出的一种文件格式,可以实时传输音频信息。RealAudio文件格式主要有RA、RM、RMX三种,能够随着网络带宽的不同而调整声音的质量,在保证大多数人听到流畅声音的前提下,令带宽较宽的听众获得更好的音质。
(9)VOC格式。常用在DOS程序和游戏中,是随声卡一起产生的数字声音文件。
(10)AU 格式。应用于互联网上的多媒体声音,是UNIX操作系统下的数字声音文件。
(11)MAC格式。苹果公司开发的声音文件格式,广泛应用与Macintosh平台软件。
(12)AAC格式。是MPEG-2规范的一部分。压缩能力强、压缩质量高。可以在比MP3文件缩小30%的前提下提供更好的音质。
9、语音合成 语音合成是指利用计算机合成语音的一种技术,使计算机能够产生高清晰度、高自然度的连续语音,具有类似于人一样的说话的能力。
语音合成可以通过将预先录制并存储的语音信号重新播放来实现。也可以采用数字信号处理的方法,通过激励一个类似人们发声时声道谐振特性的时变数字滤波器,调整滤波器的相关参数,生成各种音调的语音。
语音合成可分为三个层次,分别是文字到语音、概念到语音、意向到语音。要合成出高质量的语言,必须遵循人类语言的表达规则,如语义学规则、词汇规则、语音学规则。
10、语音合成技术分类 按照合成方法分类。分为参数合成法、基音同步叠加法和基于数据库的语音合成法。
(1)参数合成法。通过调整合成器参数实现语音合成。
(2)基音同步叠加法。通过对时域波形拼接实现语音合成。
(3)基于数据库的语音合成法。采用预先录制语音单元并保存在数据库中,再从数据库中选择并拼接出各种语音内容。
按照技术方式分类。分为波形编辑合成、参数分析合成以及规则合成。
(1)波形编辑合成。将语句、短语、词或音节作为合成单元。这些单元被分别录音后进行压缩编码,组成一个语音库。重放时,取出相应单元的波形数据,串接或编辑在一起,经解码还原出语音。这种合成方式也称为录音编辑合成。
(2)参数分析合成。以音节、半音节或音素为合成单元。按照语音理论,对所有合成单元的语音进行分析,提取有关语音参数,这些参数经编码后组成一个合成语音库;输出时,根据待合成的语音的信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器。在合成器中,通过合成参数的控制,将语音波形重新还原出来。
(3)规则合成。规则合成存储的是较小的语音单位,如音素、双音素、半音节或音节的声学参数,以及由音素组成音节、再由音节组成词或句子的各种规则。当输入字母符号时,合成系统利用规则自动地将它们转换成连续的语音波形。
11、文语转换系统 文语转换系统是语音合成的第一个层次,是将文字内容转换为语音输出的语音合成系统。
12、语音合成技术的需求和特点 语音合成技术具有四个方面的需求和特点:自然度、清晰度、表现力和复杂度。
13、语音识别 语音识别技术是让计算机通过识别和理解,将语音转变为文本或命令的技术,让计算机能够听懂人类的语言。
14、语音识别系统分类 语音识别系统按照其构成与规模有多种不同的分类标准。根据对说话人说话方式的要求,可以分为孤立字语音识别系统,连接字语音识别系统以及连续语音识别系统;根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统;根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。
15、语音识别的关键技术 语音识别技术主要包括特征提取技术、模式匹配技术及模型训练技术。此外,还涉及到语音识别单元的选取。语音识别单元有单词、音节和音素三种。
(1)特征提取技术。在丰富的语音信号中提取出对语音识别有用的信息,通过对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。
(2)模型训练技术。按照一定准则,从已知模式中获取表征该模式本质特征的模型参数。
(3)模式匹配技术。根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。
16、音频处理软件Adobe Audition 该软件是集音频的录制、混合、编辑和控制于一身的音频处理工具软件。可以轻松创建音乐、制作广播短片、修复录制缺陷。基本功能包括以下方面:
(1)录音。
(2)混音。将不同音轨中的声音混合在一起,综合输出经过混合的声音效果。
(3)声音编辑。例如声音的淡入淡出、声音移动和剪辑、音调调整、播放速度调整等。
(4)效果处理。软件带有不同类型的效果器,如压缩器、限制器、均衡器、合唱效果器、延迟效果器、回升效果器等,能够实时处理声音的效果。
(5)降噪:实现在不影响音质的情况下,去除噪声。
(6)声音压缩。软件具有支持目前几乎所有流行的音频文件类型,并能够实现类型的转换和文件压缩。
(7)协同创作。能够与多种音乐软件协同运行,实现音乐创作。
17、音频处理软件Adobe Audition基本操作 Adobe Audition 2.0 音频处理软件具有三种编辑模式界面,分别是多轨编辑模式、单轨编辑模式以及CD模式。多轨与单轨界面大致可以分为菜单栏、工具栏、文件/效果器列表栏、音轨显示区、基本功能区和电平显示区。
常用的音频编辑方法主要是对音频波形进行裁剪、切分、合并、锁定、编组、删除、复制以及对音频进行包络编辑和时间伸缩编辑。
音频特效处理主要使用各种效果器,主要包括均衡效果处理、混响效果处理、压限效果处理、延迟效果处理等。
& 习题解析
一、单选题
1.人耳可以听到的声音频率范围为 。
A)20-20kHz
B)200-15 kHz
C)50-20 kHz
D)10-20 kHz
答案:A
解析:人耳听到的声音频带范围是有限的,频率低于20Hz和高于20000Hz的声音信号人类听不到,即表示人耳的可听域在20-20000Hz之间。
2. 格式的数字音频是微软公司开发的网络音频格式。
A)WAV
B)WMA
C)MP3
D)RM
答案:B
解析:WMA格式是Windows Media Audio的缩写,是微软公司开发的网络音频格式。其压缩率一般可以达到1:18。
3.声音的三个要素中不包括 。
A)音调
B)音质
C)音色
D)音强
答案:B
解析:声音具有三个要素:音调、音色和音强。
4.描述模拟音频信号的三个物理量中, 表示声音的音调。
A)振幅
B)音色
C)频率
D)音强
答案:C
解析:自然界的声音信号是连续的模拟信号,可以用三个物理量来描述:振幅、周期、频率。其中,频率是声音波形在一秒钟内完成全振动的次数,表示声音的音调。
5.描述模拟音频信号的三个物理量中, 表示声音的强弱。
A)振幅
B)音色
C)频率
D)周期
答案:A
解析:自然界的声音信号是连续的模拟信号,可以用三个物理量来描述:振幅、周期、频率。其中,振幅是声音波形振动的幅度,表示声音的强弱。
6.人们主要依据声音的 特点来区分和辨别声源的种类。
A)振幅
B)音色
C)音强
D)音调
答案:B
解析:人的声音、其它生物的声音以及自然界各种声响都具有自己独特的音色。人们往往是依据音色来辨别声源种类的。
7.人类语音的频带宽度是 Hz。
A)200-3400
B)100-10000
C)20-20000
D)20-15000
答案:B
解析:人类语音的频带宽度为100Hz-10000Hz。
8.模拟音频的声音质量主要与音色和 有关。
A)声音强度
B)频率范围
C)声音音调
D)基音
答案:B
解析:模拟音频的声音质量简称“音质”,与音色和频率范围有关。悦耳的音色、宽广的频率范围,能够获得更好的音质。
9.将模拟声音信号转换为数字音频信号的数字化过程是 。
A)采样→编码→量化
B)编码→采样→量化
C)量化→编码→采样
D)采样→量化→编码
答案:D
解析:模拟音频信号的数字化过程与普通模拟信号数字化过程类似,需要三个步骤:采样、量化和编码。
10.将模拟音频信号在时间上进行离散化处理,这一过程叫 。
A)量化
B)编码
C)采样
D)压缩
答案:C
解析:要使模拟音频信号数字化,首先要在时间上对其进行离散化处理,这一过程叫采样。
11.以下数字音频文件格式中, 称为乐器数字接口,是数字音乐/电子合成乐器的统一国际标准。
A)MP3
B)WAV
C)MIDI
D)QuickTime
答案:C
解析:MIDI格式是Musical Instrument Digital Interface的缩写,又称作乐器数字接口,是数字音乐/电子合成乐器的统一国际标准。在MIDI文件中存储的是一些指令,把这些指令发送给声卡,由声卡按照指令将声音合成出来。
12.影响数字音频信号质量的主要技术指标是 。
A)采样频率和量化精度
B)压缩和解压缩
C)录音和播放
D)模拟和压缩
答案:A
解析:影响数字音频信号质量的主要技术指标主要包括采样频率、采样精度、声道数和编码算法。这些指标决定了数字化音频的质量。
13.奈奎斯特采样理论指出,采样频率不低于声音信号最高频率的 倍。
A)3
B)1/2
C)1/3
D)2