计算音频音量算法_声音文件存储量的计算公式

1. 声音文件存储量的计算公式

不经过压缩，声音数据量的计算公式为：

数据量（字节/秒）=（采样频率（Hz）×采样位数（bit）×声道数）/8

(1)计算音频音量算法扩展阅读

AAC实际上高级音频编码的缩写。AAC是由Fraunhofer IIS-A、杜比和AT&T共同开发的一种音频格式，它是MPEG-2规范的一部分。AAC所采用的运算法则与MP3的运算法则有所不同，AAC通过结合其他的功能来提高编码效率。

AAC的音频算法在压缩能力上远远超过了以前的一些压缩算法（比如MP3等）。它还同时支持多达48个音轨、15个低频音轨、更多种采样率和比特率、多种语言的兼容能力、更高的解码效率。总之，AAC可以在比MP3文件缩小30%的前提下提供更好的音质。

数字音频以音质优秀、传播无损耗、可进行多种编辑和转换而成为主流，并且应用于各个方面。

常见到的MP3、WMA、OGG被称为有损压缩，有损压缩顾名思义就是降低音频采样频率与比特率，输出的音频文件会比原文件小。

另一种音频压缩被称为无损压缩，能够在100%保存原文件的所有数据的前提下，将音频文件的体积压缩的更小，而将压缩后的音频文件还原后，能够实现与源文件相同的大小、相同的码率。

无损压缩格式有APE、FLAC、WavPack、LPAC、WMALossless、AppleLossless、TTA、Tak、TAC、La、OptimFROG、Shorten，而常见的、主流的无损压缩格式有APE、FLAC、TTA、TAK。

WAV一般CD可以抓取该格式音乐。但是由于体积较大且属于未压缩的原始音频，所以一般可压缩转换为体积较小的FLAC或者APE。注：wav仍然属于无损格式，后两者则为无损压缩格式

2. 音频数据计算

数据量（字节/秒）= (采样频率（Hz）*采样位数（bit）*声道数)/ 8 声卡对声音的处理质量可以用三个基本参数来衡量，即采样频率、采样位数和声道数。

采样频率是指单位时间内的采样次数。采样频率越大，采样点之间的间隔就越小，数字化后得到的声音就越逼真，但相应的数据量就越大。声卡一般提供11.025kHz、22.05kHz和44.1kHz等不同的采样频率。

一般获取音频数据的方法是：采用固定的时间间隔，对音频电压采样（量化），并将结果以某种分辨率（例如：CDDA每个采样为16比特或2字节）存储。

采样的时间间隔可以有不同的标准，如CDDA采用每秒44100次；DVD采用每秒48000或96000次。因此，采样率，分辨率和声道数目（例如立体声为2声道）是音频文件格式的关键参数。

(2)计算音频音量算法扩展阅读

在电脑上录音的本质就是把模拟声音信号转换成数字信号。反之，在播放时则是把数字信号还原成模拟声音信号输出。

采集卡的位是指采集卡在采集和播放声音文件时所使用数字声音信号的二进制位数。采集卡的位客观地反映了数字声音信号对输入声音信号描述的准确程度。8位代表2的8次方--256，16位则代表2的16次方--64K。

有损文件格式是基于声学心理学的模型，除去人类很难或根本听不到的声音，例如：一个音量很高的声音后面紧跟着一个音量很低的声音。MP3就属于这一类文件。

无损的音频格式（例如FLAC）压缩比大约是2：1，解压时不会产生数据/质量上的损失，解压产生的数据与未压缩的数据完全相同。如需要保证音乐的原始质量，应当选择无损音频编解码器。例如，用免费的FLAC无损音频编解码器你可以在一张DVD-R碟上存储相当于20张CD的音乐。

有损压缩应用很多，但在专业领域使用不多。有损压缩具有很大的压缩比，提供相对不错的声音质量。

3. 声音dB的计算公式是怎样

Ndb=log(p-p0)

Ndb表示分贝值
log表示以10为底的对数
p表示声压
p0表示听觉阀声压，约等于20毫帕斯卡，即2*10^(-5)Pa

4. 音频信号的AGC

使放大电路的增益随信号强度的变化而自动调整的控制方法，就是AGC-自动增益控制。实现AGC可以是硬件电路，即AGC闭环电子电路，也可以是软件算法。本文主要讨论用软件算法来实现音频信号的AGC。
音频AGC是音频自动增益控制算法，更为准确的说是峰值自动增益控制算法，是一种根据输入音频信号水平自动动态地调整增益的机制。当音量(无论是捕捉到的音量还是再现的音量)超过某一门限值，信号就会被限幅。限幅指的是音频设备的输出不再随着输入而变化，输出实质上变成了最大音量位置上的一条水平线；当检测到音频增益达到了某一门限时，它会自动减小增益来避免限幅的发生。另一方面，如果捕捉到的音量太低时，系统将自动提高增益。当然，增益的调整不会使音量超过用户在调节向导中设置的值。图3是音频AGC算法的结构框图。首先从串口获取音频数据，它是16位的整型数，一般来说，这些数都是比较小的，通过AGC算法将输入的音频数据投影在一个固定区间内，从而使得不论输入的数据点数值大小都会等比例地向这个空间映射。一方面将获得的音频数据最大值与原来的峰值进行比较，如果有新的峰值出现就计算新的增益系数；另一方面在一定的时间周期内获取一个新的峰值，这个峰值就具有检测性能，又与原峰值比较，然后就计算新的增益系数。这个增益系数是相对稳定的。当音量加大时，信号峰值会自动增加，从而增益系数自动下降；当音量减小时，新的峰值会减小并且取代原来的峰值，从而使峰值下降，使增益系数上升。最后输出的数据乘以新增益系数后映射到音频信号输入的投影区间内。图4是音频信号AGC算法的程序流程图。
AGC_Coff是初始增益系数，初始值为1；maxAGC_in是增益峰值，初始值为0；time是采样点计数，门限值为4096；AGC_in是新的音频数据，MAXArrIn是新的音频增益峰值；映射区间【-20000，20000】。
整个系统的软件部分为5人模块。系统主函数main( )、CMD文件、中断向量表、DSP5402头文件和专为C语言开发的库函数rtdx.lib。其中主函数部分是核心，主要包括：DSP器件初始化、MCBSP1初始化、MCBSP0初始化、AIC23初始化(内部12个可编程寄存器设置)及算法程序等。
在CCS2.0集成开发环境下，采用*.c语言和*.asm语言相结合的方式编写程序。将编写的程序*.c、*.asm和链接程序*.cmd文件编译链接后生成执行目标文件*.out，通过仿真器将执行目标文件*.out下载到系统板上，经过调试、编译并运行，以音乐作为音频信号源输入到系统板上。

5. 声音大小怎么算

�8�5 声卡对声音的处理质量可以用三个基本参数来衡量，即采样频率、采样位数和声道数。
采样频率是指单位时间内的采样次数。采样频率越大，采样点之间的间隔就越小，数字化后得到的声音就越逼真，但相应的数据量就越大。声卡一般提供11.025kHz、22.05kHz和44.1kHz等不同的采样频率。
采样位数是记录每次采样值数值大小的位数。采样位数通常有8bits或16bits两种，采样位数越大，所能记录声音的变化度就越细腻，相应的数据量就越大。
采样的声道数是指处理的声音是单声道还是立体声。单声道在声音处理过程中只有单数据流，而立体声则需要左、右声道的两个数据流。显然，立体声的效果要好，但相应的数据量要比单声道的数据量加倍。
不经过压缩声音数据量的计算公式为：
数据量（字节/秒）= (采样频率（Hz）*采样位数（bit）*�8�7声道数)/ 8
其中，单声道的声道数为1，立体声的声道数为2。

�8�5 应用举例
【例1】请计算对于5分钟双声道、16位采样位数、44.1kHz采样频率声音的不压缩数据量是多少？
解：
根据公式：
数据量=（采样频率×采样位数×声道数×时间）/8
得，数据量=[44.1×1000×16×2×（5×60）] /（8×1024×1024）
=50.47MB
因此，声音的不压缩数据量约为50.47MB。
计算时要注意几个单位的换算细节：
时间单位换算：1分=60秒
采样频率单位换算：1kHz=1000Hz
数据量单位换算：1MB=1024×1024=1048576B

【例2】请计算对于双声道立体声、采样频率为44.1kHz、采样位数为16位的激光唱盘（CD-A），用一个650MB的CD-ROM可存放多长时间的音乐。
解：
已知音频文件大小的计算公式如下：
文件的字节数/每秒=采样频率（Hz）�8�7采样位数（位）�8�7声道数/8
根据上面的公式计算一秒钟时间内，采样频率为44.1kHz、采样位数为16位，双声道立体声激光唱盘（CD-A）的不压缩数据量。
(44.1×1000×16×2)/8=0.168MB/s
那么，一个650MB的CD-ROM可存放的时间为（650/0.168）/（60×60）=1.07小时，答约1个小时即可。

思考题
如果采样速率为22.05kHz，分辨率为32位，单声道，上述条件符合CD质量的红皮书音频标准，录音的时间长度为10秒的情况下，文件的大小为多少?
参考答案：882KB。

6. 分贝的计算方法

分贝（dB）是十分之一贝尔（B）：1B=10dB。相差1贝尔的两个功率量的比值是10:1，1贝尔的两个场量的比值是。场量（field quantity）是诸如电压、电流、声压、电场强度、速度、电荷密度等量值，其平方值在一个线性系统中与功率成比例。功率量（power quantity）是功率值或者直接与功率值成比例的其它量，如能量密度、音强（声功率）、发光强度等。
分贝的计算，依赖于是功率量还是场量而不同。
两个信号具有1分贝的差异，那么其功率比值≈1.25892（= ）而幅值之比≈1.12202（= ）考虑功率或者强度（intensity）时, 其比值可以表示为分贝，这是通过把测量值与参考量值之比计算基于10的对数，再乘以10。因此功率值A与另一个功率值B之比用分贝表示为
dB = 10 x log10(A/B)此处A、B代表参与比较的功率值考虑场（field）的幅值（amplitude）时，通常使用A（测得值）的平方与B（参考值）的平方之比。
这是因为：
一、对于大多数应用，功率与幅值的平方成比例；
二、使得描述功率大小的分贝与描述场大小的分贝两者数值相等。因此使用下述场量的分贝定义：
dB = 20 x log10(A/B) = 10 × log10((A/B)^2)此处A、B代表参与比较的电流、电压值等场量

7. 怎样计算声音的分贝

专业的方法就是利用分贝仪测试身边噪声的大小，操作简单，结果直观，分贝仪是最基本的噪声测量仪器，它是一种电子仪器，但又不同于电压表等客观电子仪表。工作原理：由传声器将声音转换成电信号，再由前置放大器变换阻抗，使传声器与衰减器匹配。放大器将输出信号加到计权网络，对信号进行频率计权(或外接滤波器)，然后再经衰减器及放大器将信号放大到一定的幅值，送到有效值检波器(或外按电平记录仪)，在显示器上给出噪声声级三、时间平均声级或等效连续声级LeqA声级能够较好地反映人耳对噪声的强度和频率的主观感觉，对于一个连续的稳定噪声，它是一种较好的评价方法。但是对于起伏的或不连续的噪声，很难确定A声级的大小。例如我们测量交通噪声，当有汽车通过时噪声可能是75dB，但当没有汽车通过时可能只有50dB，这时就很难说交通噪声是75dB还是50dB。又如一个人在噪声环境下工作，间歇接触噪声与一直接触噪声对人的影响也不一样，因为人所接触的噪声能量不一样。为此提出了用噪声能量平均的方法来评价噪声对人的影响，这就是时间平均声级或等效连续声级，用Leq表示。这里仍用A计权，故亦称等效连续A声级LAeq。等效连续A声级定义为：在声场中某一定位置上，用某一段时间能量平均的方法，将间歇出现的变化的A声级以一个A声级来表示该段时间内的噪声大小，并称这个A声级为此时间段的等效连续A声级，即：=(2-4)式中：pA（t）是瞬时A计权声压；p0是参考声压（2×10-5Pa）；LA是变化A声级的瞬时值，单位dB；T是某段时间的总量。实际测量噪声是通过不连续的采样进行测量，假如采样时间间隔相等，则：（2-5）式中：N是测量的声级总个数，LAi是采样到的第i个A声级。对于连续的稳定噪声，等效连续声级就等于测得的A声级。四、昼夜等效声级通常噪声在晚上比白天更显得吵，尤其对睡眠的干扰是如此。评价结果表明，晚上噪声的干扰通常比白天高10dB。为了把不同时间噪声对人的干扰不同的

8. 电脑音频音量如何计算

是这样的你算的很对

9. 若对音频信号以10KHZ采样率、16位量化精度进行数字化，则每分钟的双声道数字化声英信号产生的数据量约为

声音的计算公式为
(采样频率Hz * 量化位数 bit * 声道数)/8 单位为字节/秒
按你的计算即为(10000Hz*16位*2声道)/8*60秒即24000000字节，再除以两个1024即2.28MB
不过从答案来看，如果简化将1K按1000算的话，答案就是2.4

10. 一道计算声音的数据量的问题

这个问题太专业了，算比较麻烦你自己看看吧

文件压缩技术的日新月异使得MP3成为时下最烫手的音乐格式，优质的音乐随着0与1 的排列迅速散布到世界各地，撼动人心。何谓MP3？MP3的全称是MPEG Audio Layer 3，它是一种高效的计算机音频编码方案，它以较大的压缩比将音频文件转换成较小的扩展名为.MP3的文件，基本保持原文件的音质。MP3是 ISO/MPEG标准的一部分，ISO/MPEG标准描述了使用高性能感知编码方案的音频压缩，此标准一直在不断更新以满足“质高量小”的追求，现已形成 MPEG Layer 1、Layer 2、Layer 3三个音频编码解码方案。MPEG Layer 3压缩率可达1:10至1:12，1M的MP3文件可播放1分钟，而1分钟CD音质的WAV文件（44100Hz，16bit，双声道，60秒）要占用 10M空间，这样算来，一张650M的MP3光盘播放时间应在10小时以上，而同样容量的一张CD盘播放时间在70分钟左右。MP3的优势是CD难以比拟的。
2 MP3原理浅析
2.1 MPEG Audio标准
MPEG（Moving Picture Experts Group）是ISO下的一个动态图象专家组，它制定的MPEG标准广泛应用于各种多媒体中。MPEG标准包括视频和音频标准，其中音频标准已制定出 MPEG-1、MPEG-2、MPEG-2 AAC和MPEG-4。
MPEG-1和MPEG-2标准使用同一个音频编码解码族—Layer1、 2、3。MPEG-2一个新特点是采用低采样率扩展降低数据流量，另一特点是多通道扩展，将主声道增加为5个。MPEG-2 AAC（MPEG-2 Advanced Audio Coding）标准是Fraunhofer IIS同AT&T公司于1997年推出的，旨在显着减少数据流量，MPEG-2 AAC采用的MDCT（Modified Discrete Cosine Transform）算法,采样率可在8KHz到96KHz之间，声道数可在1-48之间。
MPEG Audio Layer 1、2、3三个层使用相同的滤波器组、位流结构和头信息，采样频率为32KHz、44.1KHz或48KHz。Layer 1是为数字压缩磁带DCC（Digital Compact Cassette）设计的，数据流量为384kbps，Layer 2在复杂性和性能间作了权衡，数据流量下降到256kbps-192kbps。Layer 3一开始就为低数据流量而设计，数据流量在128kbps-112kbps，Layer 3增加了MDCT变换，使其频率分辨能力是Layer 2的18倍，Layer 3还使用了与MPEG Video类似的平均信息量编码（Entropy Coding），减少了冗余信息。MP3绝大部分使用的是MPEG-1标准。
2.2 音频压缩的目的
MP3格式始于80年代中期，德国 Erlangen的Fraunhofer研究所致力于高质量、低数据率的声音编码。让我们来看一个例子：你想对你喜欢的一首长约4分钟的歌曲采样，将其存储在磁盘上，以CD音质的WAV格式抽样，抽样率为44.1kHz，即每秒钟接收44100个值，立体声，每次抽样数据为16位（2字节），则这首歌占的空间为：
44100x2声道x2字节x60秒x4分钟=40.4MB
如果从Internet上下载这首歌，假设传输率为56kbps，则下载时间为：
40.4x106x8/56x103x60=96分钟
即使是1M的宽带网也需5分钟以上，由此可见，音频压缩对减少音频数据的存储空间显得尤为重要。
2.3 MP3编码与解码
MP3音频压缩包含编码和解码两个部分。编码是将WAV文件中的数据转换成高压缩率的位流形式，解码是接受位流并将其重建到WAV文件中。
MP3 采用了感知音频编码（Perceptual Audio Coding）这一失真算法。人耳感受声音的频率范围是20Hz-20kHz，MP3截掉了大量的冗余信号和无关的信号，编码器通过混合滤波器组将原始声音变换到频率域，利用心理声学模型，估算刚好能被察觉到的噪声水平，再经过量化，转换成Huffman编码，形成MP3位流。解码器要简单得多，它的任务是从编码后的谱线成分中，经过反量化和逆变换，提取出声音信号。MP3编码和解码流程如图1所示。
2.4 修正的离散余弦变换
修正的离散余弦变换（MDCT）是指将一组时域数据转换成频域数据，以得知时域变化情况。MDCT是对DCT算法的改进，。早期的快速算法是快速付立叶变换（FFT），但FFT有复数运算，MDCT都是实数运算，便于编程。
在压缩音频数据时，先将原始声音数据分成固定的分块，然后做顺向MDCT（Forward MDCT）将每块的值转换为512个MDCT系数，解压时，经反向MDCT（Inverse MDCT）将512个系数还原成原始声音数据，前后的原始声音数据是不一致的，因为在压缩过程中，去掉了冗余和不相关数据。FMDCT变换公式为：
k=0，1，…，N/2-1
式中N是转换视窗长度，即每块样本点数，N=8，16，…，1024，2048。
n0=（N/2+1）/2，X(n)为时域值，X(k)为频域值。若N取1024点，则转换成512个频域值。
IMDCT变换公式为：

n=0，1，…，N-1
MDCT本身并不进行数据压缩，它只是把信号映射到另一个域，量化才使数据得到压缩。在对量化后的变换样值进行比特分配时要考虑使整个量化块最小，这就成为有损压缩了。
3 MP3文件格式分析
MP3文件数据由多个帧组成，帧是MP3文件最小组成单位。每个帧又由帧头、附加信息和声音数据组成。每个帧播放时间是0.026秒，其长度随位率的不同而不等。有些MP3文件末尾有些额外字节存放非声音数据的说明信息。MP3文件结构如图2所。

3.1 帧头格式
帧头长4字节，对于固定位率的MP3文件，所有帧的帧头格式一样其数据结构如下：
typedef FrameHeader{
unsigned int sync:11;//同步信息
unsigned int version:2;//版本
unsigned int layer:2;//层
unsigned int protection:1;// CRC校验
unsigned int bitrate:4;//位率
unsigned int frequency:2;//频率
unsigned int padding:1;//帧长调节
unsigned int private:1;//保留字
unsigned int mode:2;//声道模式
unsigned int mode extension:2;//扩充模式
unsigned int right:1;// 版权
unsigned int original:1;//原版标志
unsigned int emphasis:2;//强调模式
}HEADER, *LPHEADER;
帧头4字节使用说明见表1。
表1 MP3帧头字节使用说明
名称长度(位) 说明
同步
信息 11 第1、2字节所有位均为1，第1字节恒为FF。
版本 2 00-MPEG 2.5 01-未定义
10-MPEG 2 11-MPEG 1
层 2 00-未定义 01-Layer 3
10-Layer 2 11-Layer 1
CRC
校验 1 0-校验 1-不校验
位率 4 第3字节取样率，单位是kbps，例如采用MPEG-1 Layer 3，64kbps是，值为0101。
频率 2 采样频率，对于MPEG-1：
00-44.1kHz 01-48kHz
10-32kHz 11-未定义
帧长
调节 1 用来调整文件头长度，0-无需调整，1-调整，具体调整计算方法见下文。
保留字 1 没有使用。
声道
模式 2 第4字节表示声道，
00-立体声 01-Joint Stereo
10-双声道 11-单声道
扩充
模式 2 当声道模式为01是才使用。
版权 1 文件是否合法，0-不合法 1-合法
原版
标志 1 是否原版， 0-非原版 1-原版
强调
方式 2 用于声音经降噪压缩后再补偿的分类，很少用到，今后也可能不会用。
00-未定义 01-50/15ms
10-保留 11-CCITT J.17
MP3帧长取决于位率和频率，计算公式为：
帧长= 144×bitrate∕frequency＋padding
例如：位率为64kbps，频率为44.1kHz，padding为1时，帧长为210字节。帧头后面是可变长度的附加信息，对于标准的MP3文件来说，其长度是32字节，紧接其后的是压缩的声音数据，当解码器读到此处时就进行解码了。
对于固定位率（CBR，Constant Bitrate）的MP3文件，并不是所有的帧都是等长的，有的帧可能多一个或几个字节。还有一种可变位率(VBR, Variable Bitrate)的MP3文件，是为了使MP3文件长度最小同时又保证声音质量，与CBR文件相比，除了第一帧不同外，其余的都一样。VBR的第一帧不包含声音数据，其长度是156个字节，用来存放标准的声音帧头（4字节）、VBR文件标识、帧数、文件字节数等信息，具体结构说明见表2。
表2 VBR文件第一帧结构
字节说明
1－4 与CBR相同的标准声音帧头
5－40 存放VBR文件标识“Xing”（58 69 6E 67），此标识具体位置视采用的MPEG标准和声道模式而定。标识的前后字节没有使用。
36－39 MPEG-1和非单声道(常见)
21－24 MPEG-1和单声道
21－24 MPEG-2和非单声道
13－16 MPEG-2和单声道
41－44 标志，说明是否存储了帧数、文件长度、目录表和VBR规模信息，如果存储了，则01 02 04 08。
45－48 帧数（包括第一帧）
49－52 文件长度
53－152 目录表，用来按时间进行字节定位。
153－156 VBR规模，用于位率变动

3.2 ID3标准
MP3 帧头中除了存储一些象private、right、original的简单音乐说明信息以外，没有考虑存放歌名、作者、专辑名、年份等复杂信息，而这些信息在MP3应用中非常必要。1996年，FricKemp在“Studio 3”项目中提出了在MP3文件尾增加一块用于存放歌曲的说明信息，形成了ID3标准，至今已制定出ID3 V1.0，V1.1，V2.0，V2.3和V2.4标准。版本越高，记录的相关信息就越丰富详尽。
ID3 V1.0标准并不周全，存放的信息少，无法存放歌词，无法录入专辑封面、图片等。V2.0是一个相当完备的标准，但给编写软件带来困难，虽然赞成此格式的人很多，在软件中真正实现的却极少。绝大多数MP3仍使用ID3 V1.0标准。此标准是将MP3文件尾的最后128个字节用来存放ID3信息，这128个字节使用说明见表3。
表3 ID3 V1.0文件尾说明
字节长度
(字节) 说明
1-3 3 存放“TAG”字符，表示ID3 V1.0标准，紧接其后的是歌曲信息。
4-33 30 歌名
34-63 30 作者
64-93 30 专辑名
94-97 4 年份
98-127 30 附注
128 1 MP3音乐类别，共147种。

3.3 文件实例
在VC++中打开一个名为test.mp3文件，其内容如下：
000000 FF FB 52 8C 00 00 01 49 09 C5 05 24 60 00 2A C1
000010 19 40 A6 00 00 05 96 41 34 18 20 80 08 26 48 29
000020 83 04 00 01 61 41 40 50 10 04 00 C1 21 41 50 64
……
0000D0 FE FF FB 52 8C 11 80 01 EE 90 65 6E 08 20 02 30
0000E0 32 0C CD C0 04 00 46 16 41 89 B8 01 00 08 36 48
0000F0 33 B7 00 00 01 02 FF FF FF F4 E1 2F FF FF FF FF
……
0001A0 DF FF FF FB 52 8C 12 00 01 FE 90 58 6E 09 A0 02
0001B0 33 B0 CA 85 E1 50 01 45 F6 19 61 BC 26 80 28 7C
0001C0 05 AC B4 20 28 94 FF FF FF FF FF FF FF FF FF FF
……
001390 7F FF FF FF FD 4E 00 54 41 47 54 45 53 54 00 00
0013A0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
……
0013F0 00 00 00 00 04 19 14 03 00 00 00 00 00 00 00 00
001400 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
001410 00 00 00 00 00 00 4E
该文件长度1416H（5.142K），帧头为：FF FB 52 8C，转换成二进制为：
11111111 11111011
01010010 10001100
对照表1可知，test.mp3帧头信息见表4。
表4 test.mp3文件帧头信息
名称位值说明
同步信息 11111111111 第1字节恒为FF，11位均为1。
版本 11 MPEG 1
层 01 Layer 3
CRC校验 1 不校验
位率 0101 64kbps
频率 00 44.1kHz
帧长调节 1 调整，帧长是210字节。
保留字 0 没有使用。
声道模式 10 双声道
扩充模式 00 未使用。
版权 1 合法
原版标志 1 原版
强调方式 00 未定义

第1397H开始的三个字节是54 41 47，存放的是字符“TAG”，表示此文件有ID3 V1.0信息。
139AH开始的30个字节存放歌名，前4个非00字节是54 45 53 54，表示“TEST”；
13F4H开始的4个字节是04 19 14 03，存放年份“04/25/2003”；
最后1个字节是4E，表示音乐类别，代号为78，即“Rock&Roll”；
其它字节均为00，未存储信息。
4 结束语
声音作为一类重要的多媒体数据，人们总是在不断寻求更高效率的压缩方法和新的声音文件格式。MP3文件中使用了MDCT变换，它是一种结构简单、易于编程的准最佳变换，，避免了最佳变换（K-L）难以求解协方差矩阵特征值及特征向量的困扰。通过对MP3文件格式的分析，不难发现它的欠缺。MP3文件每个帧都有4字节的相同帧头，对于一个含有大量帧的MP3文件来说，需要一定的空间开销。ID3存放音乐说明信息，帧头中的private、right等信息也是说明信息，音乐的说明信息有些零乱的感觉。
无论如何，MP3的发展势不可挡，MP3已成为公认的声音数据格式，MP3正与JPEG图像、PDF文档成为多媒体信息处理领域的热点。

导航:首页 > 源码编译 > 计算音频音量算法

计算音频音量算法

与计算音频音量算法相关的资料