搜索新聞

教你數(shù)字音頻壓縮技術(shù)基本知識

來源：企企鵝日記　更新日期：2008-06-16 作者：佚名

Infocomm China 深入報道投影行業(yè)年度總結(jié) 年度評選盛典獲獎揭曉

數(shù)字技術(shù)的出現(xiàn)與應(yīng)用為人類帶來了深遠(yuǎn)的影響，人們?nèi)缃褚焉钤谝粋€幾乎數(shù)字化的世界之中，而數(shù)字音頻技術(shù)則稱得上是應(yīng)用最為廣泛的數(shù)字技術(shù)之一，CD、 VCD等早已走進(jìn)千家萬戶，數(shù)字化廣播正在全球范圍內(nèi)逐步得到開展，正是這些與廣大消費(fèi)者密切相關(guān)的產(chǎn)品及應(yīng)用成為了本文將要介紹的主題：數(shù)字音頻壓縮技術(shù)得以產(chǎn)生和發(fā)展的動力。

1、音頻壓縮技術(shù)的出現(xiàn)及早期應(yīng)用

　　音頻壓縮技術(shù)指的是對原始數(shù)字音頻信號流（PCM編碼）運(yùn)用適當(dāng)?shù)臄?shù)字信號處理技術(shù)，在不損失有用信息量，或所引入損失可忽略的條件下，降低（壓縮）其碼率，也稱為壓縮編碼。它必須具有相應(yīng)的逆變換，稱為解壓縮或解碼。音頻信號在通過一個編解碼系統(tǒng)后可能引入大量的噪聲和一定的失真。

　　數(shù)字信號的優(yōu)勢是顯而易見的，而它也有自身相應(yīng)的缺點(diǎn)，即存儲容量需求的增加及傳輸時信道容量要求的增加。以CD為例，其采樣率為44.1KHz，量化精度為16比特，則1分鐘的立體聲音頻信號需占約10M字節(jié)的存儲容量，也就是說，一張CD唱盤的容量只有1小時左右。當(dāng)然，在帶寬高得多的數(shù)字視頻領(lǐng)域這一問題就顯得更加突出。是不是所有這些比特都是必需的呢？研究發(fā)現(xiàn)，直接采用PCM碼流進(jìn)行存儲和傳輸存在非常大的冗余度。事實(shí)上，在無損的條件下對聲音至少可進(jìn)行4：1壓縮，即只用25％的數(shù)字量保留所有的信息，而在視頻領(lǐng)域壓縮比甚至可以達(dá)到幾百倍。因而，為利用有限的資源，壓縮技術(shù)從一出現(xiàn)便受到廣泛的重視。

　　對音頻壓縮技術(shù)的研究和應(yīng)用由來已久，如A律、u律編碼就是簡單的準(zhǔn)瞬時壓擴(kuò)技術(shù)，并在ISDN話音傳輸中得到應(yīng)用。對語音信號的研究發(fā)展較早，也較為成熟，并已得到廣泛應(yīng)用，如自適應(yīng)差分PCM（ADPCM）、線性預(yù)測編碼（LPC）等技術(shù)。在廣播領(lǐng)域，NICAM（Near Instantaneous Companded Audio Multiplex - 準(zhǔn)瞬時壓擴(kuò)音頻復(fù)用）等系統(tǒng)中都使用了音頻壓縮技術(shù)。

　　2、音頻壓縮算法的主要分類及典型代表

　　一般來講，可以將音頻壓縮技術(shù)分為無損（lossless）壓縮及有損（lossy）壓縮兩大類，而按照壓縮方案的不同，又可將其劃分為時域壓縮、變換壓縮、子帶壓縮，以及多種技術(shù)相互融合的混合壓縮等等。各種不同的壓縮技術(shù)，其算法的復(fù)雜程度（包括時間復(fù)雜度和空間復(fù)雜度）、音頻質(zhì)量、算法效率（即壓縮比例），以及編解碼延時等都有很大的不同。各種壓縮技術(shù)的應(yīng)用場合也因之而各不相同。

　　（1）時域壓縮（或稱為波形編碼）技術(shù)是指直接針對音頻PCM碼流的樣值進(jìn)行處理，通過靜音檢測、非線性量化、差分等手段對碼流進(jìn)行壓縮。此類壓縮技術(shù)的共同特點(diǎn)是算法復(fù)雜度低，聲音質(zhì)量一般，壓縮比小（CD音質(zhì)> 400kbps），編解碼延時最短（相對其它技術(shù)）。此類壓縮技術(shù)一般多用于語音壓縮，低碼率應(yīng)用（源信號帶寬小）的場合。時域壓縮技術(shù)主要包括 G.711、ADPCM、LPC、CELP，以及在這些技術(shù)上發(fā)展起來的塊壓擴(kuò)技術(shù)如NICAM、子帶ADPCM（SB-ADPCM）技術(shù)如G.721、 G.722、Apt-X等。

　　（2）子帶壓縮技術(shù)是以子帶編碼理論為基礎(chǔ)的一種編碼方法。子帶編碼理論最早是由Crochiere等于1976年提出的。其基本思想是將信號分解為若干子頻帶內(nèi)的分量之和，然后對各子帶分量根據(jù)其不同的分布特性采取不同的壓縮策略以降低碼率。通常的子帶壓縮技術(shù)和下面介紹的變換壓縮技術(shù)都是根據(jù)人對聲音信號的感知模型（心理聲學(xué)模型），通過對信號頻譜的分析來決定子帶樣值或頻域樣值的量化階數(shù)和其它參數(shù)選擇的，因此又可稱為感知型（Perceptual）壓縮編碼。這兩種壓縮方式相對時域壓縮技術(shù)而言要復(fù)雜得多，同時編碼效率、聲音質(zhì)量也大幅提高，編碼延時相應(yīng)增加。一般來講，子帶編碼的復(fù)雜度要略低于變換編碼，編碼延時也相對較短。

由于在子帶壓縮技術(shù)中主要應(yīng)用了心理聲學(xué)中的聲音掩蔽模型，因而在對信號進(jìn)行壓縮時引入了大量的量化噪聲。然而，根據(jù)人類的聽覺掩蔽曲線，在解碼后，這些噪聲被有用的聲音信號掩蔽掉了，人耳無法察覺；同時由于子帶分析的運(yùn)用，各頻帶內(nèi)的噪聲將被限制在頻帶內(nèi)，不會對其它頻帶的信號產(chǎn)生影響。因而在編碼時各子帶的量化階數(shù)不同，采用了動態(tài)比特分配技術(shù)，這也正是此類技術(shù)壓縮效率高的主要原因。在一定的碼率條件下，此類技術(shù)可以達(dá)到“完全透明”的聲音質(zhì)量（EBU音質(zhì)標(biāo)準(zhǔn)）。

　　子帶壓縮技術(shù)目前廣泛應(yīng)用于數(shù)字聲音節(jié)目的存儲與制作和數(shù)字化廣播中。典型的代表有著名的MPEG-1層Ⅰ、層Ⅱ（MUSICAM），以及用于Philips DCC中的PASC（Precision Adaptive Subband Coding，精確自適應(yīng)子帶編碼）等。

（3）變換壓縮技術(shù)與子帶壓縮技術(shù)的不同之處在于該技術(shù)對一段音頻數(shù)據(jù)進(jìn)行“線性”的變換，對所獲得的變換域參數(shù)進(jìn)行量化、傳輸，而不是把信號分解為幾個子頻段。通常使用的變換有DFT、DCT（離散余弦變換）、MDCT等。根據(jù)信號的短時功率譜對變換域參數(shù)進(jìn)行合理的動態(tài)比特分配可以使音頻質(zhì)量獲得顯著改善，而相應(yīng)付出的代價則是計算復(fù)雜度的提高。

變換域壓縮具有一些不完善之處，如塊邊界影響、預(yù)回響、低碼率時聲音質(zhì)量嚴(yán)重下降等。然而隨著技術(shù)的不斷進(jìn)步，這些缺陷正逐步被消除，同時在許多新的壓縮編碼技術(shù)中也大量采用了傳統(tǒng)變換編碼的某些技術(shù)。

　　有代表性的變換壓縮編碼技術(shù)有DolbyAC-2、AT&T的ASPEC（Audio Spectral Perceptual Entropy Coding）、PAC（PerceptualAudioCoder）等。

　　3、音頻壓縮技術(shù)的標(biāo)準(zhǔn)化和MPEG-1

　　由于數(shù)字音頻壓縮技術(shù)具有廣闊的應(yīng)用范圍和良好的市場前景，因而一些著名的研究機(jī)構(gòu)和大公司都不遺余力地開發(fā)自己的專利技術(shù)和產(chǎn)品。這些音頻壓縮技術(shù)的標(biāo)準(zhǔn)化工作就顯得十分重要。CCITT（現(xiàn)ITU-T）在語音信號壓縮的標(biāo)準(zhǔn)化方面做了大量的工作，制訂了如G.711、G.721、G.728等標(biāo)準(zhǔn)，并逐漸受到業(yè)界的認(rèn)同。

　　在音頻壓縮標(biāo)準(zhǔn)化方面取得巨大成功的是MPEG-1音頻（ISO/IEC11172-3）。在MPEG-1中，對音頻壓縮規(guī)定了三種模式，即層Ⅰ、層Ⅱ（即MUSICAM，又稱MP2），層Ⅲ（又稱MP3）。由于在制訂標(biāo)準(zhǔn)時對許多壓縮技術(shù)進(jìn)行了認(rèn)真的考察，并充分考慮了實(shí)際應(yīng)用條件和算法的可實(shí)現(xiàn)性（復(fù)雜度），因而三種模式都得到了廣泛的應(yīng)用。VCD中使用的音頻壓縮方案就是MPEG-1層Ⅰ；而MUSICAM由于其適當(dāng)?shù)膹?fù)雜程度和優(yōu)秀的聲音質(zhì)量，在數(shù)字演播室、DAB、DVB等數(shù)字節(jié)目的制作、交換、存儲、傳送中得到廣泛應(yīng)用；MP3是在綜合MUSICAM和ASPEC的優(yōu)點(diǎn)的基礎(chǔ)上提出的混合壓縮技術(shù)，在當(dāng)時的技術(shù)條件下，MP3的復(fù)雜度顯得相對較高，編碼不利于實(shí)時，但由于MP3在低碼率條件下高水準(zhǔn)的聲音質(zhì)量，使得它成為軟解壓及網(wǎng)絡(luò)廣播的寵兒�？梢哉f，MPEG-1音頻標(biāo)準(zhǔn)的制訂方式?jīng)Q定了它的成功，這一思路甚至也影響到后面將要談到的MPEG-2和MPEG-4音頻標(biāo)準(zhǔn)的制訂。

　　最新進(jìn)展

　　1、多聲道音頻信號壓縮與DolbyAC-3

　　隨著技術(shù)的不斷進(jìn)步和生活水準(zhǔn)的不斷提高，原有的立體聲形式已不能滿足受眾對聲音節(jié)目的欣賞要求，具有更強(qiáng)定位能力和空間效果的三維聲音技術(shù)得到蓬勃發(fā)展。而在三維聲音技術(shù)中最具代表性的就是多聲道環(huán)繞聲技術(shù)。

更準(zhǔn)確地說，環(huán)繞聲應(yīng)該是一種聲音恢復(fù)形式，其新技術(shù)的含量實(shí)際表現(xiàn)在隨著這種形式發(fā)展起來的一些數(shù)字壓縮標(biāo)準(zhǔn)上。環(huán)繞聲技術(shù)發(fā)展至今已相當(dāng)成熟，已日漸成為未來聲音形式的主流。有鑒于此，1992年CCIR（ITU-R）以建議的形式約定了多聲道聲音系統(tǒng)的結(jié)構(gòu)及向下兼容變換的標(biāo)準(zhǔn)，即CCIR Recommendation 775。其中主要約定了大家熟知的5.1聲道形式及7.1聲道形式，而在對環(huán)繞聲壓縮的研究上也產(chǎn)生了許多專利技術(shù)，如DolbySurroundPro -Logic、THX、DolbyAC-3、DTS及MPEG-2等。這些技術(shù)在不同的場合，尤其是在影劇院、家庭影院系統(tǒng)，及將來的高清晰度電視（HDTV）等系統(tǒng)中得到廣泛的應(yīng)用。

　　（1）Dolby AC-3技術(shù)是由美國杜比實(shí)驗(yàn)室主要針對環(huán)繞聲開發(fā)的一種音頻壓縮技術(shù)。在5.1聲道的條件下，可將碼率壓縮至384kbps，壓縮比約為10：1。Dolby AC-3最初是針對影院系統(tǒng)開發(fā)的，但目前已成為應(yīng)用最為廣泛的環(huán)繞聲壓縮技術(shù)之一。

Dolby AC-3是一種感知型壓縮編碼技術(shù)。

　　在Dolby AC-3中，音頻輸入以音頻塊為單位，塊長度為512個樣值，在48KHz采樣率時即為10.66毫秒，各聲道單獨(dú)處理；音頻輸入在經(jīng)過3Hz高通濾波器去除直流成分后，通過另一高頻帶通濾波器以檢測信號的瞬變情況，并用它來控制TDAC變換的長度，以期在頻域分辨率和時域分辨率之間得到最好的折中效果； TDAC變換的長度一般為512點(diǎn)，而數(shù)據(jù)塊之間的重疊長度為256點(diǎn)，即TDAC每5.33毫秒進(jìn)行一次；在瞬變條件下，TDAC長度被等分為256 點(diǎn)，這樣DolbyAC-3的頻域分辨率為93.75Hz，時域最小分辨率為2.67毫秒；在圖1中的定點(diǎn)/浮點(diǎn)轉(zhuǎn)換類似于MPEG-1中比例因子計算的作用，主要是為了獲得寬的動態(tài)范圍，而在分離后的指數(shù)部分經(jīng)編碼后則構(gòu)成了整個信號大致的頻譜，又被稱為頻譜包絡(luò)；比特分配主要是通過計算解碼后的頻譜包絡(luò)（視為功率譜密度）和掩蔽曲線的相關(guān)性來進(jìn)行的；由于比特分配中采用了前/后向混合自適應(yīng)比特分配以及公共比特池等技術(shù)，因而可使有限的碼率在各聲道之間、不同的頻率分量之間獲得合理的分配；在對尾數(shù)的量化過程中，可對尾數(shù)進(jìn)行抖晃處理，抖晃所使用的偽隨機(jī)數(shù)發(fā)生器可在不同的平臺上獲得相同的結(jié)果；AC -3的幀結(jié)構(gòu)由同步字、CRC、同步信息（SI）、碼流信息（BSI）、音頻塊和附加數(shù)據(jù)等組成，幀長度與TDAC變換的長度有關(guān)，在長度為512點(diǎn)時，幀長為32毫秒，即每秒31.25幀。

通過以上敘述可見，在Dolby AC-3中，使用了許多先進(jìn)的、行之有效的壓縮技術(shù)。如前/后向混合自適應(yīng)比特分配、公共比特池、TDAC濾波、頻譜包絡(luò)編碼、及低碼率條件下使用的多聲道高頻耦合等。而其中許多技術(shù)對其它的多聲道環(huán)繞聲壓縮技術(shù)的發(fā)展都產(chǎn)生了一定的影響。

可以說，AC-3的出現(xiàn)是杜比公司幾十年來在聲音降噪及編碼技術(shù)方面的結(jié)晶（從一定的角度來看，編碼技術(shù)實(shí)際上就是降低編碼噪聲影響的技術(shù)），在技術(shù)上它具有很強(qiáng)的優(yōu)勢。因而即使作為一項(xiàng)專利技術(shù)，DolbyAC-3仍然在影院系統(tǒng)、HDTV、消費(fèi)類電子產(chǎn)品（如LD、DVD）及直播衛(wèi)星等方面獲得了廣泛的應(yīng)用，得到了眾多廠商的支持，成為業(yè)界事實(shí)上的標(biāo)準(zhǔn)。

　�。�2）MPEG-2BC（后向兼容方式），即ISO/IEC13818- 3，是另一種多聲道環(huán)繞聲音頻壓縮技術(shù)。早在1992年初，該方面的討論工作便已初步開展，并于94年11月正式獲得通過。

MPEG-2BC主要是在 MPEG-1和CCIRRec.775的基礎(chǔ)上發(fā)展起來的。與MPEG-1相比較，MPEG-2BC主要在兩方面做了重大改進(jìn)。一是支持多聲道聲音形式，二是為某些低碼率應(yīng)用場合，如多語聲節(jié)目、體育比賽解說等而進(jìn)行的低采樣率擴(kuò)展。同時，標(biāo)準(zhǔn)規(guī)定的碼流形式還可與MPEG-1的第1和第2層做到前、后向兼容，并可依據(jù)CCIR Rec.775做到與雙聲道、單聲道形式的向下兼容，還能夠與Dolby Surround形式兼容。

　　在MPEG-2BC中，由于考慮到其前、后向兼容性以及環(huán)繞聲音形式的新特點(diǎn)，在壓縮算法中除承襲了MPEG-1的絕大部分技術(shù)外，為在低碼率條件下進(jìn)一步提高聲音質(zhì)量，還采用了多種新技術(shù)。如動態(tài)傳輸通道切換、動態(tài)串音、自適應(yīng)多聲道預(yù)測、中央聲道部分編碼(Phantom Coding of Center)、預(yù)編碼(Predistortion)等。

　　然而，MPEG-2BC的發(fā)展和應(yīng)用并不如MPEG-1那樣一帆風(fēng)順。通過對一些相關(guān)論文的比較可以發(fā)現(xiàn)，MPEG-2BC的編碼框圖在標(biāo)準(zhǔn)化過程中發(fā)生了重大的變化，上述的許多新技術(shù)都是在后期引入的。事實(shí)上，正是與 MPEG-1的前、后向兼容性成為MPEG-2BC最大的弱點(diǎn)，使得MPEG-2BC不得不以犧牲碼率的代價來換取較好的聲音質(zhì)量。一般情況下，MPEG -2BC需640kbps以上的碼率才能基本達(dá)到EBU“無法區(qū)分”聲音質(zhì)量要求。由于MPEG-2BC標(biāo)準(zhǔn)化的進(jìn)程過快，其算法自身仍存在一些缺陷。這一切都成為MPEG-2BC在世界范圍內(nèi)得到廣泛應(yīng)用的障礙。

　�。�3）DVD（DigitalVersatileDisk）是新一代的多媒體數(shù)據(jù)存儲和交換的標(biāo)準(zhǔn)。在視頻DVD的伴音方式及音頻DVD的聲音格式選擇上，AC-3和MPEG-2BC之間的爭奪十分激烈�？梢�，多聲道環(huán)繞聲音頻壓縮技術(shù)標(biāo)準(zhǔn)亟待統(tǒng)一。

返回專業(yè)音響頻道首頁