仙来居伴奏网

标题: MP3格式/压缩/音质/应用等全面评价分析 [打印本页]

作者: ∮尾巴上の指尖 时间: 2006-1-19 20:55:46 标题: MP3格式/压缩/音质/应用等全面评价分析

MP3格式的音质到底好到什么程度？128/192/256/320等等各种压缩比率/压缩模式的MP3音质有什么不同？有一些什么基本原理？APE/WMA/等等其他格式的音质究竟怎样呢？数码音乐社区版主andrekknd为我们精心撰写了本篇评论，希望能对大家有所帮助。

　　说起mp3我想恐怕现在没有什么人会说没听说过它的，就算您不是mp3的使用者，但就城市里无处不在的广告，宣传活动，朋友们相互间的讨论，网络上的丰富资源，这些总能让您有点印象吧？对时尚的年轻一族，特别是喜欢音乐的朋友和喜欢数码设备的朋友来说，mp3恐怕是个天天都要念叨的词汇，但是到底什么才是mp3，mp3的音质怎样定论，怎样才是好坏和怎样才能听到高品质的mp3呢？？？我想下面的这片文章能够帮助你解决很多疑问。

　　纵观现在的mp3使用者中，比较公认的通用制作标准是eac抓轨+lame的压缩，我自己也是使用这样的搭配，在这样的制作过程中有经验的朋友会摸索出一些诀窍，针对不同的音乐使用不同的参数设置和压缩比例，从标准的128kbps到最大的320kbps不等，但是这些码率间的效果差距和区别到底有多少？？如何才是最合适的压缩比例，cbr和vbr应该选取那个更好等这些问题都是大家常讨论的，为了弄清楚这些细节，我又特地有针对性地做了一次试验，下面和大家一起分享一下我得一些感受。

　　我自己平时是很喜欢听古典音乐的，所以这次测试的曲目选择的就是巴赫的《格兰登堡协奏曲》第一轨，慕尼黑巴赫乐团演奏，抓轨软件eac，压缩软件cd’ex，播放软件fooba2000 v0.8版本，测听耳机器材是音特美的er6和舒尔的e3c。因为古典曲目细节多，乐队大，对声音素质的各方面要求都比较高，所以能比较明显的反映各个不同处理方法之间的细节差别。

　　我先用rac抓了轨，然后用cd’ex软件里面的lame mp3 encoder(vision 1.92 engine 3.92)引擎对wav文件进行处理，lame参数上面我进行了逐个试验来选择好的效果：

　　第一个参数thread priority 分别选择最高和最低，其他参数相同的情况下压缩对比，发现线程优先是否的程度对声音是没有影响的，生成的文件大小都一样，对比听起来也是一样的，所以这个参数对音质没有任何影响。

　　第二个参数是version，可以选择的有mpegI、mpegII和mpegII.V，同样的，别的参数都确定，分别用这三个选项压缩了三次，对比听下来，虽然三种方式的文件大小都相同，但是还是mpegI的实际听感要好一些，中低频的压缩比率要略小，但是高频失真略微多一点，听人声和流行音乐着一种是比较适合的，听古典的用mpegI型也不错，声底比较好，但是如果是小提琴等中高频多的独奏类音乐，可以推荐使用mpegII.v类型的，会有比较好的效果。

　　第三个参数是最重要的，这就是码率，选择他直接影响到你的mp3文件尺寸大小和听感，压缩比高的失真大，压缩比小的失真小，但是怎么才能找到一个我们自己两方面都能接受的平衡点呢？这就需要在实验里仔细摸索，考虑到低码率的文件声音素质不太适合播放音乐，所以最低定为128kbps，依次使用128、192、256、320共四种固定码率的文件来进行对比和测试。

　　128kbps的压缩比还是比较粗糙的，高频部分压缩后失真非常明显，听起来空洞，干瘪、刺耳，还时常有忽悠忽悠的声音，乐器的质感很差，部分乐器都变了味道，甚至可能会听错，3分39的一段乐曲压缩后的体积是3414kb，体积虽然不大但是声音不能让人满意，存在比较大的缺陷。

　　192kbps码率的压缩效果比起128来说可是要好多了，首先声音扎实，至少没有那种空洞感，高频失真也小了很多，声音紧凑，杂音小，干净，达到了相对比较理想的听音效果，只是由于压缩还是比较厉害，细节的表现仍旧不是很好，乐器尤其是管乐器的质感还是很硬，不真实，缺乏乐感，压缩后的尺寸是5123kb，我觉得这个压缩比例在128~~256m容量的mp3播放器上使用比较好，既可以满足基本的听感，也在尺寸上合适，128m大约能存储95分钟的音乐，256m则翻倍为190分钟的音乐。

　　256kbps的压缩率比起192自然是在音质上更上了一个台阶，就拿曲目刚开始的10秒钟说，大提琴部的低频明显颗粒感就小了很多，声音更加顺滑自然，质感和纹理也更加清楚一些，细节方面多了不少，气氛的渲染比较突出，后面的曲子进行中的声部轮换也表现力起来许多，大信号小信号的清晰度也提升一些，声音更加细致耐听，但是与此同时，文件的体积也一下子增加到了6831kb，这对于256m的mp3播放器来说还是可以承受的，计算一下不难知道，按照256的码率可以存放约135分钟的音乐，一般来说也是够用了，128m就有点少了，只能支持一个小时多一点，所以推荐128m的使用192码率。

　　320kbps是lame能够提供的最大码率了，最终的生成文件是8592kb，大概就是8.4M，对比wav文件的37M来说，压缩比基本为4.5：1，但是生成的mp3文件听起来已经失真非常小了，对比其他码率320的自然优势明显，音色，细节等等都非常细腻，基本是达到了原样复制了cd的声音素质，特别在带有mp3播放功能的cd播放器上上听起来，基本没有什么区别，不过我使用了比较高档的耳塞，解析力比较高，再加上我对音乐和器材的经验和能力，对比wav文件还是听出了许多不同，首先；压缩过的mp3听起来有点缩水的感觉，整体比较干，没有wav文件听起来鲜活充满动感，末端细节、泛音和空间感上，分离度上也不及wav文件来的素质高，不过在音色上已经算是相当接近了，只是表现力上面差一些，数码味道比较浓重。所以如果您使用的是ipod等这类微型硬盘式的随身听播放器，那我还是推荐您使用320kbps的压缩比率，这样可以得到相对最好的聆听感觉，当然直接听wav是最好的啦~~无压缩，没损失，可惜现在还没什么随身听支持ape这种无损压缩，不然又可以多种选择了。

　　上面给大家说得都是固定码率的压缩比，在lame里这叫做CBR(即不可变码率)，其实lame最大的特点就是它给用户提供了可变码率VBR的压缩方式，这种方式在一些停顿，简单的信号处会自动降低码率减少文件尺寸，是一种非常好的编码方式，但是如何选择VBR最低和最高的码率范围才能得到最恰当的文件和音质呢？这又是一个需要实验来解决的问题，同样的考虑到128kbps为基础值，所以我们选择了96kbps到160kbps为一个范围进行了压缩，压缩后的文件大小是3801kb，比128kbps的CBR只是多了387kb，但是声音绝对是提高了一个大层次，首先高频的失真至少小了一半以上，虽然细节处的杂音还不少，但是第一听感就比128kbps强太多了，压缩后的平均码率是147kbps，也是非常节省空间的。随后又实验了96kbps到192kbps、96kbps到224kbps、96kbps到256kbps、96kbps到320kbps，发现他们和最大值的CBR压缩音质很近似，即96kbps到192kbps的vbr声音近似cbr的192kbps，但是在尺寸上前者是4481kb而后者是5123kb，所以作为一个多追求高音质又节省空间的折中方法，vbr还真是很管用。当然另一方面，因为码率变来变去，所以稳定性自然要比cbr的略微差一点。

　　第四，模式参数上，有stereo、J-stereo、Forced-stereo和mono，对比测试得出标准的stereo效果最好，虽然压缩出的文件尺寸最大，但是斟酌较小的文件尺寸差异和声音素质差别及听感，还是觉得stereo比较理想。

　　第五，压缩方式，软件里有vbr-old、vbr-new、及其它两种，但是只有前面两种好用，对比新旧两种vbr编码方式，发现如果从音质上说，还是老的比较细腻，但是老编码压缩速度很慢，差不多是新编码方式的5、6倍，一首曲子制作差不多3、4分钟，非常不好用，而且文件体积也大出10%左右，所以推荐使用vbr-new给大家，比较方便好用。

　　mp3吧可不是什么凭空制造出来的词汇，而是一个技术术语的缩写，即MPEG-1 AudioLayer-3的缩写拼法，这是什么意思呢？我来给大家解读一下：MPEG-1 AudioLayer-3就是mpeg1类型国际标准技术协议中的音频部分第三层协议，它说明的是一种音频格式，是不是看起来很复杂？不要紧我们一点一点来说，首先mpeg——这个词是Moving Picture Exp-erts Group的缩写，就是动态影像压缩处理小组的意思。这个小组相当厉害，专门研究开发动态静态视频(包含音频)方面的几乎所有国际技术标准，我们看的从电视到电影，从vcd到dvd都应用他们的研究成果，mp3正是他们的mpeg1协议中的一部分，音频部分在第三层，所以称作mp3，据我所知mp3的诞生是mpeg小组的工作人员在非有意识的情况下发现的，它是作为一种cd音轨的抓取方式被产生出来的，在当时的试验中最多算个附属产物，可就是这个小小的附属产物却演化出了我们现今最最流行的音乐格式，那么是为什么呢？我们一起去看个究竟。

　　首先是体积小：根据不同的压缩比率可以得到大小不等的文件尺寸，但是比起原始的wav格式，体积那是要小了太多了，文件体积小，存储空间就小，用来播放的硬件设备体积、造价等方面就会显著下降，所以就有了良好的市场，在加上到处都有mp3文件的下载，比起cd播放器用户还要不停购买软件来，自然又是节约了一笔。再次：随心所欲，小体积的播放器可以轻松的随身携带，我爱怎么用就怎么用，而且因为播放器电路部分相对功耗低，所以单电池工作时间也长，省去了很多更换电池的烦恼，还有就是用家可以随意的把自己喜欢的曲子放在一起听，而不必受制于音像出版商的成型软件，自由度非常大，这让我想起了周杰伦给动感地带作广告的一句广告语“我的地盘，我作主！”真cool~~~！！

　　说了这么一堆相关的话一定让大家等急了，下来让我们深入主体，为大家彻底的剖析一下mp3的方方面面。

　　一、基础知识：

　　数字压缩音频与mp3技术：

　　要说mp3我得先说一下数字压缩音频，恩，数字压缩音频顾名思义就是压缩的数字音频了，可是什么是数字音频？什么是压缩呢？？？下面是一些较专业的解释，有兴趣的朋友可要仔细看啰~！

　　在计算机的数字世界中，声音都是以数字编码的方式储存的，不同于传统生活中的模拟音频，因为计算机只能记录0和1的数字，所以必须对模拟音频进行量化取样，根据奈魁斯特(NYQUIST)采样定理，用两倍于一个正弦波的频繁率进行采样就能完全真实地还原该波形，因此一个数码录音波的采样频率直接关系到它的最高还原频率指标。例如，用44.1KHZ的采样频率进行采样，则可还原最高为22.05KHZ的频率-----这个值略高于人耳的听觉极限，所以a/d转换通常都使用44.1KHZ 以上的采样频率，但是声波资料的文件大小因取样频率(一般以Hz为单位)和取样的比率(一般以bits为单位)而有所不同，取样频率越高所需要的储存空间也越大，取样相同的比率越高所需要的储存空间也越大，这就造成了在实际操作中的困难，从而压缩技术的出现就变成了必然。

　　数字压缩就是指对已经进行完成采样的原始数字音频文件进行“减肥”，利用一些有效的算法和方式，将文件中的冗余信息取出，这样可以减少体积，方便使用，具体的操作过成太过复杂和专业(连我这个学计算数学的都看着费劲)，所以就不一一给大家解释了，只在这里简要说明一下压缩中要牵扯的MP3压缩编码技术：MP3压缩编码使用了5种重要的技术：最小听觉门限判定(Minimal Audition Threshold)、掩蔽效应(Masking Effect)、位储存槽(Reservoir of Bytes)、联合立体声(JointStereo)和霍夫曼编码(Huffman Code)。依靠这些技术科计算机的计算，我们就能够大大的降低数字音频的文件尺寸，将其压缩后产生的新的音频格式就是我们熟悉的mp3。

　　二、压缩原理：

　　不论什么技术它都要有自己的道理，音频技术更是如此，因为它直接关系到我们的听觉，压缩过的mp3为什么听起来还是很接近cd的声音呢？？这里面和人的生理构造有莫大的关系。实验表明，人类能听到的声音频率范围(音频)是20Hz～20kHz，但人耳对整个音频频段声音的反应不是平直的，2～5kHz是人耳最灵敏的频段。依其特性将整个音频频段分成多个临界频带，因为人类听觉系统是依据频率来分辨声音能量的，任何频率的细小声音都会因掩蔽效应而被临界频带内音量较高的声音所覆盖。MP3对其不作量化处理，从而去掉那些人类听觉系统所无法察觉的声音，达到压缩的目的。可见，MP3是一种有损的音频压缩编码。所以说无论多么高码率的mp3它都是有损压缩，声音的品质是比cd下降了的，但是下降的多少才能被接受，这就因人而异了。

　　三、压缩后的音质：

　　这是大家最最关心的话题吧，压缩后的声音能达到一个什么样的标准呢？这里先给大家上个图表，来看看mpeg的标准中的参考值。

　　

　　可以看出，由于压缩比率不同，得到的声音文件的质量也在逐步提高，128kbps基本就达到了cd音质，是这样的么？？？我得回答是：当然不是，这只是一个官方的参考数据表格，在实际的使用中，128这样的码率是根本不能表现出cd的声音质量的，虽然mp3的压缩过程中使用的软件算法不同会有些差异，但是压缩比率是限制其表现的最根本之处。

　　市面上不仅仅是只有lame这一种压缩软件的，也不是只有mp3一种音频压缩格式的，其他公司也先后开发过不少好用的压缩格式，只是因为各种各样的原因没有像mp3这样推广开来，但是作为压缩音频家族的一员，我在这里也给大家介绍一下，可以让大家多了解一些东西。

　　1、 APE:

　　APE格式：Monkey""s Audio(www.monkeysaudio.com)，简单的说ape是一种音频的无损压缩格式，大小只有wav文件的一半，但是音质没有丝毫降低。能够在最大程度上还原CD的音质，当然这也取决于抓轨的质量。如果抓轨的质量好，ape的音质就会和CD差不多这是mp3等有损压缩无法达到的，当然无损的代价就是体积的增大，1CD从200mb到400不等所以如果有足够的带宽的保证，ape给网友交流CD带来了更多的方便，解决了许多古典音乐爱好者传送高音质CD的需求。一张80分钟的音乐CD大小大约700M，这么大尺寸的传输，显然是非常不方便的，这时用Monkey""s Audio—能把WAV文件压缩成一半大小(甚至更小)的APE文档，并且在理想状态下，当你把APE解压成WAV，音质没有丝毫损失。

　　优点：压缩率高；音质无损；装载插件后，可以用Winamp直接播放，音质比任何参数的Mp3或Mp3 Pro更好。

　　缺点：压缩及解压时间过长。

　　2、 MP3 Pro

　　为了减低失真程度，MP3 Pro这种新MP3格式出现了。它将整个音频频段分离成中低频和高频两个信道，由传统MP3编码器负责中低频部分，而另一个采用SBR技术的(Spectral Band Replication/频段复制)的译码器则负责高频部分，最后两者在MP3 Pro播放软件中同时播放，从而得到显著超过相同Bitrate的MP3之音质。不但高频细节丰富，颤抖的现象亦已不易觉察，与原始WAV文件非常接近。

　　MP3 Pro采用的SBR技术，并非直接将音乐中的高频分离出来并编码那么简单，而是根据对原来编码器所传输的低频讯号进行分析，从而重新构建出高频讯号。

　　3、Real Audio

　　Real Audio，扩展名RA：这种格式真可谓是网络的灵魂，强大的压缩量和极小的失真使其在众多格式中脱颖而出。和MP3相同，它也是为了解决网络传输带宽资源而设计的，因此主要目标是压缩比和容错性，其次才是音质。所以我们一般在网上遇到的新音乐试听都是使用这中格式的。

　　3、 WMA

　　WMA就是Windows Media Audio编码后的文件格式，由微软开发，WMA针对的不是单机市场，是网络！竞争对手就是网络媒体市场中著名的Real Networks。微软声称，在只有64kbps的码率情况下，WMA可以达到接近CD的音质。和以往的编码不同，WMA支持防复制功能，她支持通过Windows Media Rights Manager 加入保护，可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术，即一边读一边播放，因此WMA可以很轻松的实现在线广播，由于是微软的杰作，因此，微软在Windows中加入了对WMA的支持，WMA有着优秀的技术特征，在微软的大力推广下，这种格式被越来越多的人所接受。比起ra来说，版权恐怕是所用用户最讨厌它的地方了。

　　4、 ACC：

　　AAC(高级音频编码技术，Advanced Audio Coding)是杜比实验室为音乐社区提供的技术。AAC号称「最大能容纳48通道的音轨，采样率达96 KHz，并且在320Kbps的数据速率下能为5.1声道音乐节目提供相当于ITU-R广播的品质」。和MP3比起来，它的音质比较好，也能够节省大约30%的储存空间与带宽。它是遵循MPEG-2的规格所开发的技术。松下的mp3产品都采用了这种编码方式，当然也兼容mp3格式，我自己使用时发现aac是非常好用的音频格式，128kbps的aac足以和224kbps的mp3抗衡，空间却小了差不多一半，但是在空间上和结构上aac和mp3编码出来后的风格不太一样，喜欢与否属于仁者见仁智者见智的事情。

　　5、 ATRAC 3/ATRAC 3 plus：

　　ATRAC3(AdaptiveTransformAcousticCoding3)由日本索尼公司开发，是MD所采用的ATRAC的升级版，其压缩率(约为ATRAC的2倍)和音质均与MP3相当。压缩原理包括同时掩蔽、时效掩蔽和等响度曲线等，与MP3大致相同。ATRAC3的版权保护功能采用的是OpenMG。目前，对应ATRAC3的便携式播放机主要是索尼公司自己的产品。不过，该公司已于2000年2月与富士通、日立、NEC、Rohm、三洋和TI等半导体制造商签署了制造并销售ATRAC3用LSI的专利许可协议。在mdlp压缩中录制cd和mp3相比，ATRAC3还是有一定的声音优势的，但是版权问题使得使用不是很方便，ATRAC 3 plus由于算法先进，在音质上得到了更一步的提高，但是只在sony的产品上有比较广泛的应用，这个让人比较郁闷。

　　6、 VQF：

　　所谓VQF，是指TwinVQ(Transform-domain Weighted INterleave Vector Quantization)，它是日本NTT(Nippon Telegraph and Telephone)集团属下的NTT Human Interface Laboratories开发的一种音频压缩技术。该技术受到著名的YAMAHA公司的支持。VQF是其文件的扩展名。它和MP3的实现方法相似，都是通过采用有失真的算法来将声音进行压缩，不过它与MP3的压缩技术相比却有着本质上的不同：VQF的目的是对音乐而不是声音进行压缩，因此，VQF所采用的是一种称为“矢量化编码(Vector Quantization)”的压缩技术。该技术先将音频数据矢量化，然后对音频波形中相类似的波形部分统一与平滑化，并强化突出人耳敏感的部分，最后对处理后的矢量数据标量化再进行压缩而成。我自己使用中感觉在低码率情况下，还是vqf好用很多，比同等音质的mp3体积小30%左右，但是高比特率就不太好了，所以也少有人使用它。

欢迎光临仙来居伴奏网 (http://64.32.13.158/)