教你數(shù)字音頻壓縮技術(shù)基本知識(shí)

來源:企企鵝日記 更新日期:2008-06-16 作者:佚名

    數(shù)字技術(shù)的出現(xiàn)與應(yīng)用為人類帶來了深遠(yuǎn)的影響,人們?nèi)缃褚焉钤谝粋(gè)幾乎數(shù)字化的世界之中,而數(shù)字音頻技術(shù)則稱得上是應(yīng)用最為廣泛的數(shù)字技術(shù)之一,CD、 VCD等早已走進(jìn)千家萬戶,數(shù)字化廣播正在全球范圍內(nèi)逐步得到開展,正是這些與廣大消費(fèi)者密切相關(guān)的產(chǎn)品及應(yīng)用成為了本文將要介紹的主題:數(shù)字音頻壓縮技術(shù)得以產(chǎn)生和發(fā)展的動(dòng)力。

    1、音頻壓縮技術(shù)的出現(xiàn)及早期應(yīng)用

  音頻壓縮技術(shù)指的是對(duì)原始數(shù)字音頻信號(hào)流(PCM編碼)運(yùn)用適當(dāng)?shù)臄?shù)字信號(hào)處理技術(shù),在不損失有用信息量,或所引入損失可忽略的條件下,降低(壓縮)其碼率,也稱為壓縮編碼。它必須具有相應(yīng)的逆變換,稱為解壓縮或解碼。音頻信號(hào)在通過一個(gè)編解碼系統(tǒng)后可能引入大量的噪聲和一定的失真。

  數(shù)字信號(hào)的優(yōu)勢(shì)是顯而易見的,而它也有自身相應(yīng)的缺點(diǎn),即存儲(chǔ)容量需求的增加及傳輸時(shí)信道容量要求的增加。以CD為例,其采樣率為44.1KHz,量化精度為16比特,則1分鐘的立體聲音頻信號(hào)需占約10M字節(jié)的存儲(chǔ)容量,也就是說,一張CD唱盤的容量只有1小時(shí)左右。當(dāng)然,在帶寬高得多的數(shù)字視頻領(lǐng)域這一問題就顯得更加突出。是不是所有這些比特都是必需的呢?研究發(fā)現(xiàn),直接采用PCM碼流進(jìn)行存儲(chǔ)和傳輸存在非常大的冗余度。事實(shí)上,在無損的條件下對(duì)聲音至少可進(jìn)行4:1壓縮,即只用25%的數(shù)字量保留所有的信息,而在視頻領(lǐng)域壓縮比甚至可以達(dá)到幾百倍。因而,為利用有限的資源,壓縮技術(shù)從一出現(xiàn)便受到廣泛的重視。

  對(duì)音頻壓縮技術(shù)的研究和應(yīng)用由來已久,如A律、u律編碼就是簡(jiǎn)單的準(zhǔn)瞬時(shí)壓擴(kuò)技術(shù),并在ISDN話音傳輸中得到應(yīng)用。對(duì)語音信號(hào)的研究發(fā)展較早,也較為成熟,并已得到廣泛應(yīng)用,如自適應(yīng)差分PCM(ADPCM)、線性預(yù)測(cè)編碼(LPC)等技術(shù)。在廣播領(lǐng)域,NICAM(Near Instantaneous Companded Audio Multiplex - 準(zhǔn)瞬時(shí)壓擴(kuò)音頻復(fù)用)等系統(tǒng)中都使用了音頻壓縮技術(shù)。

  2、音頻壓縮算法的主要分類及典型代表

  一般來講,可以將音頻壓縮技術(shù)分為無損(lossless)壓縮及有損(lossy)壓縮兩大類,而按照壓縮方案的不同,又可將其劃分為時(shí)域壓縮、變換壓縮、子帶壓縮,以及多種技術(shù)相互融合的混合壓縮等等。各種不同的壓縮技術(shù),其算法的復(fù)雜程度(包括時(shí)間復(fù)雜度和空間復(fù)雜度)、音頻質(zhì)量、算法效率(即壓縮比例),以及編解碼延時(shí)等都有很大的不同。各種壓縮技術(shù)的應(yīng)用場(chǎng)合也因之而各不相同。

 。1)時(shí)域壓縮(或稱為波形編碼)技術(shù)是指直接針對(duì)音頻PCM碼流的樣值進(jìn)行處理,通過靜音檢測(cè)、非線性量化、差分等手段對(duì)碼流進(jìn)行壓縮。此類壓縮技術(shù)的共同特點(diǎn)是算法復(fù)雜度低,聲音質(zhì)量一般,壓縮比小(CD音質(zhì)> 400kbps),編解碼延時(shí)最短(相對(duì)其它技術(shù))。此類壓縮技術(shù)一般多用于語音壓縮,低碼率應(yīng)用(源信號(hào)帶寬。┑膱(chǎng)合。時(shí)域壓縮技術(shù)主要包括 G.711、ADPCM、LPC、CELP,以及在這些技術(shù)上發(fā)展起來的塊壓擴(kuò)技術(shù)如NICAM、子帶ADPCM(SB-ADPCM)技術(shù)如G.721、 G.722、Apt-X等。

 。2)子帶壓縮技術(shù)是以子帶編碼理論為基礎(chǔ)的一種編碼方法。子帶編碼理論最早是由Crochiere等于1976年提出的。其基本思想是將信號(hào)分解為若干子頻帶內(nèi)的分量之和,然后對(duì)各子帶分量根據(jù)其不同的分布特性采取不同的壓縮策略以降低碼率。通常的子帶壓縮技術(shù)和下面介紹的變換壓縮技術(shù)都是根據(jù)人對(duì)聲音信號(hào)的感知模型(心理聲學(xué)模型),通過對(duì)信號(hào)頻譜的分析來決定子帶樣值或頻域樣值的量化階數(shù)和其它參數(shù)選擇的,因此又可稱為感知型(Perceptual)壓縮編碼。這兩種壓縮方式相對(duì)時(shí)域壓縮技術(shù)而言要復(fù)雜得多,同時(shí)編碼效率、聲音質(zhì)量也大幅提高,編碼延時(shí)相應(yīng)增加。一般來講,子帶編碼的復(fù)雜度要略低于變換編碼,編碼延時(shí)也相對(duì)較短。

    由于在子帶壓縮技術(shù)中主要應(yīng)用了心理聲學(xué)中的聲音掩蔽模型,因而在對(duì)信號(hào)進(jìn)行壓縮時(shí)引入了大量的量化噪聲。然而,根據(jù)人類的聽覺掩蔽曲線,在解碼后,這些噪聲被有用的聲音信號(hào)掩蔽掉了,人耳無法察覺;同時(shí)由于子帶分析的運(yùn)用,各頻帶內(nèi)的噪聲將被限制在頻帶內(nèi),不會(huì)對(duì)其它頻帶的信號(hào)產(chǎn)生影響。因而在編碼時(shí)各子帶的量化階數(shù)不同,采用了動(dòng)態(tài)比特分配技術(shù),這也正是此類技術(shù)壓縮效率高的主要原因。在一定的碼率條件下,此類技術(shù)可以達(dá)到“完全透明”的聲音質(zhì)量(EBU音質(zhì)標(biāo)準(zhǔn))。

  子帶壓縮技術(shù)目前廣泛應(yīng)用于數(shù)字聲音節(jié)目的存儲(chǔ)與制作和數(shù)字化廣播中。典型的代表有著名的MPEG-1層Ⅰ、層Ⅱ(MUSICAM),以及用于Philips DCC中的PASC(Precision Adaptive Subband Coding,精確自適應(yīng)子帶編碼)等。

    (3)變換壓縮技術(shù)與子帶壓縮技術(shù)的不同之處在于該技術(shù)對(duì)一段音頻數(shù)據(jù)進(jìn)行“線性”的變換,對(duì)所獲得的變換域參數(shù)進(jìn)行量化、傳輸,而不是把信號(hào)分解為幾個(gè)子頻段。通常使用的變換有DFT、DCT(離散余弦變換)、MDCT等。根據(jù)信號(hào)的短時(shí)功率譜對(duì)變換域參數(shù)進(jìn)行合理的動(dòng)態(tài)比特分配可以使音頻質(zhì)量獲得顯著改善,而相應(yīng)付出的代價(jià)則是計(jì)算復(fù)雜度的提高。

    變換域壓縮具有一些不完善之處,如塊邊界影響、預(yù)回響、低碼率時(shí)聲音質(zhì)量嚴(yán)重下降等。然而隨著技術(shù)的不斷進(jìn)步,這些缺陷正逐步被消除,同時(shí)在許多新的壓縮編碼技術(shù)中也大量采用了傳統(tǒng)變換編碼的某些技術(shù)。

  有代表性的變換壓縮編碼技術(shù)有DolbyAC-2、AT&T的ASPEC(Audio Spectral Perceptual Entropy Coding)、PAC(PerceptualAudioCoder)等。

  3、音頻壓縮技術(shù)的標(biāo)準(zhǔn)化和MPEG-1

  由于數(shù)字音頻壓縮技術(shù)具有廣闊的應(yīng)用范圍和良好的市場(chǎng)前景,因而一些著名的研究機(jī)構(gòu)和大公司都不遺余力地開發(fā)自己的專利技術(shù)和產(chǎn)品。這些音頻壓縮技術(shù)的標(biāo)準(zhǔn)化工作就顯得十分重要。CCITT(現(xiàn)ITU-T)在語音信號(hào)壓縮的標(biāo)準(zhǔn)化方面做了大量的工作,制訂了如G.711、G.721、G.728等標(biāo)準(zhǔn),并逐漸受到業(yè)界的認(rèn)同。

  在音頻壓縮標(biāo)準(zhǔn)化方面取得巨大成功的是MPEG-1音頻(ISO/IEC11172-3)。在MPEG-1中,對(duì)音頻壓縮規(guī)定了三種模式,即層Ⅰ、層Ⅱ(即MUSICAM,又稱MP2),層Ⅲ(又稱MP3)。由于在制訂標(biāo)準(zhǔn)時(shí)對(duì)許多壓縮技術(shù)進(jìn)行了認(rèn)真的考察,并充分考慮了實(shí)際應(yīng)用條件和算法的可實(shí)現(xiàn)性(復(fù)雜度),因而三種模式都得到了廣泛的應(yīng)用。VCD中使用的音頻壓縮方案就是MPEG-1層Ⅰ;而MUSICAM由于其適當(dāng)?shù)膹?fù)雜程度和優(yōu)秀的聲音質(zhì)量,在數(shù)字演播室、DAB、DVB等數(shù)字節(jié)目的制作、交換、存儲(chǔ)、傳送中得到廣泛應(yīng)用;MP3是在綜合MUSICAM和ASPEC的優(yōu)點(diǎn)的基礎(chǔ)上提出的混合壓縮技術(shù),在當(dāng)時(shí)的技術(shù)條件下,MP3的復(fù)雜度顯得相對(duì)較高,編碼不利于實(shí)時(shí),但由于MP3在低碼率條件下高水準(zhǔn)的聲音質(zhì)量,使得它成為軟解壓及網(wǎng)絡(luò)廣播的寵兒?梢哉f,MPEG-1音頻標(biāo)準(zhǔn)的制訂方式?jīng)Q定了它的成功,這一思路甚至也影響到后面將要談到的MPEG-2和MPEG-4音頻標(biāo)準(zhǔn)的制訂。

  最新進(jìn)展

  1、多聲道音頻信號(hào)壓縮與DolbyAC-3

  隨著技術(shù)的不斷進(jìn)步和生活水準(zhǔn)的不斷提高,原有的立體聲形式已不能滿足受眾對(duì)聲音節(jié)目的欣賞要求,具有更強(qiáng)定位能力和空間效果的三維聲音技術(shù)得到蓬勃發(fā)展。而在三維聲音技術(shù)中最具代表性的就是多聲道環(huán)繞聲技術(shù)。

更準(zhǔn)確地說,環(huán)繞聲應(yīng)該是一種聲音恢復(fù)形式,其新技術(shù)的含量實(shí)際表現(xiàn)在隨著這種形式發(fā)展起來的一些數(shù)字壓縮標(biāo)準(zhǔn)上。環(huán)繞聲技術(shù)發(fā)展至今已相當(dāng)成熟,已日漸成為未來聲音形式的主流。有鑒于此,1992年CCIR(ITU-R)以建議的形式約定了多聲道聲音系統(tǒng)的結(jié)構(gòu)及向下兼容變換的標(biāo)準(zhǔn),即CCIR Recommendation 775。其中主要約定了大家熟知的5.1聲道形式及7.1聲道形式,而在對(duì)環(huán)繞聲壓縮的研究上也產(chǎn)生了許多專利技術(shù),如DolbySurroundPro -Logic、THX、DolbyAC-3、DTS及MPEG-2等。這些技術(shù)在不同的場(chǎng)合,尤其是在影劇院、家庭影院系統(tǒng),及將來的高清晰度電視(HDTV)等系統(tǒng)中得到廣泛的應(yīng)用。

 。1)Dolby AC-3技術(shù)是由美國杜比實(shí)驗(yàn)室主要針對(duì)環(huán)繞聲開發(fā)的一種音頻壓縮技術(shù)。在5.1聲道的條件下,可將碼率壓縮至384kbps,壓縮比約為10:1。Dolby AC-3最初是針對(duì)影院系統(tǒng)開發(fā)的,但目前已成為應(yīng)用最為廣泛的環(huán)繞聲壓縮技術(shù)之一。

    Dolby AC-3是一種感知型壓縮編碼技術(shù)。

  在Dolby AC-3中,音頻輸入以音頻塊為單位,塊長度為512個(gè)樣值,在48KHz采樣率時(shí)即為10.66毫秒,各聲道單獨(dú)處理;音頻輸入在經(jīng)過3Hz高通濾波器去除直流成分后,通過另一高頻帶通濾波器以檢測(cè)信號(hào)的瞬變情況,并用它來控制TDAC變換的長度,以期在頻域分辨率和時(shí)域分辨率之間得到最好的折中效果; TDAC變換的長度一般為512點(diǎn),而數(shù)據(jù)塊之間的重疊長度為256點(diǎn),即TDAC每5.33毫秒進(jìn)行一次;在瞬變條件下,TDAC長度被等分為256 點(diǎn),這樣DolbyAC-3的頻域分辨率為93.75Hz,時(shí)域最小分辨率為2.67毫秒;在圖1中的定點(diǎn)/浮點(diǎn)轉(zhuǎn)換類似于MPEG-1中比例因子計(jì)算的作用,主要是為了獲得寬的動(dòng)態(tài)范圍,而在分離后的指數(shù)部分經(jīng)編碼后則構(gòu)成了整個(gè)信號(hào)大致的頻譜,又被稱為頻譜包絡(luò);比特分配主要是通過計(jì)算解碼后的頻譜包絡(luò)(視為功率譜密度)和掩蔽曲線的相關(guān)性來進(jìn)行的;由于比特分配中采用了前/后向混合自適應(yīng)比特分配以及公共比特池等技術(shù),因而可使有限的碼率在各聲道之間、不同的頻率分量之間獲得合理的分配;在對(duì)尾數(shù)的量化過程中,可對(duì)尾數(shù)進(jìn)行抖晃處理,抖晃所使用的偽隨機(jī)數(shù)發(fā)生器可在不同的平臺(tái)上獲得相同的結(jié)果;AC -3的幀結(jié)構(gòu)由同步字、CRC、同步信息(SI)、碼流信息(BSI)、音頻塊和附加數(shù)據(jù)等組成,幀長度與TDAC變換的長度有關(guān),在長度為512點(diǎn)時(shí),幀長為32毫秒,即每秒31.25幀。

    通過以上敘述可見,在Dolby AC-3中,使用了許多先進(jìn)的、行之有效的壓縮技術(shù)。如前/后向混合自適應(yīng)比特分配、公共比特池、TDAC濾波、頻譜包絡(luò)編碼、及低碼率條件下使用的多聲道高頻耦合等。而其中許多技術(shù)對(duì)其它的多聲道環(huán)繞聲壓縮技術(shù)的發(fā)展都產(chǎn)生了一定的影響。

    可以說,AC-3的出現(xiàn)是杜比公司幾十年來在聲音降噪及編碼技術(shù)方面的結(jié)晶(從一定的角度來看,編碼技術(shù)實(shí)際上就是降低編碼噪聲影響的技術(shù)),在技術(shù)上它具有很強(qiáng)的優(yōu)勢(shì)。因而即使作為一項(xiàng)專利技術(shù),DolbyAC-3仍然在影院系統(tǒng)、HDTV、消費(fèi)類電子產(chǎn)品(如LD、DVD)及直播衛(wèi)星等方面獲得了廣泛的應(yīng)用,得到了眾多廠商的支持,成為業(yè)界事實(shí)上的標(biāo)準(zhǔn)。

  (2)MPEG-2BC(后向兼容方式),即ISO/IEC13818- 3,是另一種多聲道環(huán)繞聲音頻壓縮技術(shù)。早在1992年初,該方面的討論工作便已初步開展,并于94年11月正式獲得通過。

MPEG-2BC主要是在 MPEG-1和CCIRRec.775的基礎(chǔ)上發(fā)展起來的。與MPEG-1相比較,MPEG-2BC主要在兩方面做了重大改進(jìn)。一是支持多聲道聲音形式,二是為某些低碼率應(yīng)用場(chǎng)合,如多語聲節(jié)目、體育比賽解說等而進(jìn)行的低采樣率擴(kuò)展。同時(shí),標(biāo)準(zhǔn)規(guī)定的碼流形式還可與MPEG-1的第1和第2層做到前、后向兼容,并可依據(jù)CCIR Rec.775做到與雙聲道、單聲道形式的向下兼容,還能夠與Dolby Surround形式兼容。

  在MPEG-2BC中,由于考慮到其前、后向兼容性以及環(huán)繞聲音形式的新特點(diǎn),在壓縮算法中除承襲了MPEG-1的絕大部分技術(shù)外,為在低碼率條件下進(jìn)一步提高聲音質(zhì)量,還采用了多種新技術(shù)。如動(dòng)態(tài)傳輸通道切換、動(dòng)態(tài)串音、自適應(yīng)多聲道預(yù)測(cè)、中央聲道部分編碼(Phantom Coding of Center)、預(yù)編碼(Predistortion)等。

  然而,MPEG-2BC的發(fā)展和應(yīng)用并不如MPEG-1那樣一帆風(fēng)順。通過對(duì)一些相關(guān)論文的比較可以發(fā)現(xiàn),MPEG-2BC的編碼框圖在標(biāo)準(zhǔn)化過程中發(fā)生了重大的變化,上述的許多新技術(shù)都是在后期引入的。事實(shí)上,正是與 MPEG-1的前、后向兼容性成為MPEG-2BC最大的弱點(diǎn),使得MPEG-2BC不得不以犧牲碼率的代價(jià)來換取較好的聲音質(zhì)量。一般情況下,MPEG -2BC需640kbps以上的碼率才能基本達(dá)到EBU“無法區(qū)分”聲音質(zhì)量要求。由于MPEG-2BC標(biāo)準(zhǔn)化的進(jìn)程過快,其算法自身仍存在一些缺陷。這一切都成為MPEG-2BC在世界范圍內(nèi)得到廣泛應(yīng)用的障礙。

 。3)DVD(DigitalVersatileDisk)是新一代的多媒體數(shù)據(jù)存儲(chǔ)和交換的標(biāo)準(zhǔn)。在視頻DVD的伴音方式及音頻DVD的聲音格式選擇上,AC-3和MPEG-2BC之間的爭(zhēng)奪十分激烈?梢,多聲道環(huán)繞聲音頻壓縮技術(shù)標(biāo)準(zhǔn)亟待統(tǒng)一。

 標(biāo)簽:音頻處理器 行業(yè)新聞
廣告聯(lián)系:010-82755684 | 010-82755685 手機(jī)版:m.pjtime.com官方微博:weibo.com/pjtime官方微信:pjtime
Copyright (C) 2007 by PjTime.com,投影時(shí)代網(wǎng) 版權(quán)所有 關(guān)于投影時(shí)代 | 聯(lián)系我們 | 歡迎來稿 | 網(wǎng)站地圖
返回首頁 網(wǎng)友評(píng)論 返回頂部 建議反饋
快速評(píng)論
驗(yàn)證碼: 看不清?點(diǎn)一下
發(fā)表評(píng)論