增強型語音通話服務(EVS)編解碼器

    目前,由于音頻帶寬較窄及非語音信號處理水平較差等限制因素,通話服務往往無法提供高品質(zhì)的聲音體驗。然而,語音和音頻編碼技術取得的最新進展將有助于大幅提升通話服務質(zhì)量,通過提供全頻帶音頻傳輸實現(xiàn)更貼近原聲的聲音體驗,并改善語言清晰度及聆聽舒適度。

    最新通過標準化的增強型語音通話服務(EVS)編解碼器是首個提供超寬帶音頻帶寬,且在9.6kbps比特率下仍能極大改善語音通話質(zhì)量的3GPP編解碼器。同時,在處理音樂以及混合內(nèi)容等信號方面,EVS的性能可與最新的音頻編解碼器相媲美。EVS的關鍵技術是在處理語音信號和音樂信號的專業(yè)編碼模型之間進行靈活切換。這一編解碼器由運營商、終端設備、基礎設施和芯片提供商以及語音與音頻編碼方面的專家聯(lián)合開發(fā),其中包括愛立信、Fraunhofer集成電路研究所、華為技術有限公司、諾基亞公司、日本電信電話公司(NTT)、日本NTT DOCOMO公司、法國電信(ORANGE)、日本松下公司、高通公司、三星電子公司、VoiceAge公司及中興通訊股份有限公司等。

*Fraunhofer美國數(shù)字媒體技術部隸屬于Fraunhofer美國分部,旨在推廣和支持Fraunhofer集成電路研究所在美國推出的產(chǎn)品。

    本文旨在簡要介紹EVS技術的通信系統(tǒng)藍圖。在強調(diào)主要設計制約因素和特征的同時,也包含了簡要的技術見解,并展示與探討了在標準化過程中,尤其是選擇和測定階段所進行的音質(zhì)評價測試結(jié)果。 

    通信系統(tǒng)

    語音通話質(zhì)量與電視上播放的電影原聲相比,標準手機通話的語音通常都非常模糊。這主要是受現(xiàn)有電話系統(tǒng)音頻帶寬的限制。圖1顯示了傳統(tǒng)通信/廣播電視系統(tǒng)的不同音頻帶寬容量及人耳聽覺系統(tǒng)所能聽到的聲音頻率范圍。

圖1:廣播電視和通信系統(tǒng)的音頻質(zhì)量

    老式電話系統(tǒng)主要支持窄帶音頻信號,音頻帶寬的頻率僅到3.4kHz。高清語音服務(WB)則可支持寬帶音頻信號,音頻帶寬的頻率達到7kHz?紤]到人耳聽覺能力,實現(xiàn)高保真音質(zhì)需要帶寬頻率支持到20kHz,而高清語音服務技術仍無法實現(xiàn)。因此,在高清語音技術之后又進一步出現(xiàn)了全高清語音技術,可提供超寬帶和全頻帶的語音通話質(zhì)量。超寬帶技術的音頻頻譜為16kHz,而全頻帶的頻率分量高達20kHz。

    目前,固話服務可實現(xiàn)窄帶或?qū)拵дZ音質(zhì)量。這些系統(tǒng)主要采用比特率為64kbit/s的G.711【1】或G.722【2】編解碼技術。在移動通信環(huán)境下,窄帶為默認質(zhì)量標準;而現(xiàn)在出現(xiàn)了越來越多的寬帶服務。用于窄帶或?qū)拵б苿油ㄐ欧⻊盏木幗獯a器通常采用AMR-NB【3】和AMR-WB【4】編解碼技術,并且一般在12kbit/s比特率下運行。一些移動網(wǎng)絡甚至可支持如23.85kbit/s等更高的AMR-WB速率,盡管與默認速率相比,在語音質(zhì)量方面的改善仍較為有限。移動通信編解碼器在處理語音信號方面進行了極大的優(yōu)化,其結(jié)果導致在處理音樂等信號方面的能力則不盡如人意。

    目前,用于遠程或?qū)S靡曨l會議的通信系統(tǒng)已能實現(xiàn)全高清語音通話質(zhì)量。針對這些系統(tǒng)的現(xiàn)行標準編解碼器為AAC-(E)LD音頻編解碼器【5】。這類編解碼器可在24kbit/s至64kbit/s的比特率范圍下運行,能夠傳輸語音和音樂信號。

    AAC-(E)LD音頻編解碼器也被應用于OTT服務。典型的OTT應用包括Skype、Facetime等,針對這些應用的IP數(shù)據(jù)包傳輸處理不涉及運營商的網(wǎng)絡管理。

    3GPP EVS編解碼器【6,7】解決了移動通話和固話系統(tǒng)中存在的兩大主要問題,即音頻帶寬較窄及非語音信號處理能力較差。同時,這一編解碼器能在移動服務的常用比特率下運行。這為適用于各類網(wǎng)絡通信質(zhì)量方面的用戶體驗新標準奠定了基礎,包括固話服務、移動通話服務和OTT服務等。在以下的章節(jié)中,本文將概述EVS設計可大幅提升服務質(zhì)量的主要技術要素。需要注意的是,除音頻編碼器之外,還有很多因素也會對端到端服務的用戶體驗產(chǎn)生重大影響。這些因素包括音頻前端處理(包括回聲消除、噪聲抑制、自動增益控制、風噪聲過濾和混響消除等)以及導致延遲抖動及數(shù)據(jù)丟包等的網(wǎng)絡行為。

    EVS編解碼器介紹

    設計目標

    EVS編解碼器于2014年9月在3GPP通過標準化評估【6】,具有多項功能實現(xiàn)前所未有的多功能性及通訊高效性。這一編解碼器主要面向VoLTE服務,可實現(xiàn)3GPP設定的以下目標:

    1. 提高窄帶(EVS-NB)和寬帶(EVS-WB)語音服務的質(zhì)量和編碼效率;

    2. 引入超寬帶(EVS-SWB)語音服務,提高通信質(zhì)量;

    3. 提高會話應用程序中混合內(nèi)容和音樂信號的質(zhì)量;

    4. 具備防止數(shù)據(jù)丟包和延遲抖動的能力;

    5. 針對AMR-WB編解碼器【20】向下兼容。

    如上文所述,本文將主要圍繞設計目標2和3展開討論。為確保信息完整性,本文后面部分也將討論如何改善目標1中提出的傳統(tǒng)窄帶和寬帶服務。除上述指出的質(zhì)量改善外,EVS編解碼器還具備通信系統(tǒng)所需的一系列功能,如語音活動檢測(VAD)、非連續(xù)傳輸(DTX)、舒適噪音生成(CNG)或抖動緩沖管理(JBM)等。該編解碼器可在5.9kbit/s至128 kbit/s寬比特率范圍內(nèi)運行,從而提供可適用于所有網(wǎng)絡的比特率。參考【6】中介紹了EVS標準化中所有的設計限制因素。

    技術概述

    編碼模式

    總體來看,音頻編碼可被分為以下兩種模式:

  • 語音編碼:模擬人類聲道
  • 感知編碼:利用人類聽覺系統(tǒng)感知的限制因素

    正如參考【8】中所述,AMR-NB和AMR-WB等高效的語音編碼體系通常擁有三大主要組成部分,包括:(1)模擬人類聲道的短期線性預測(LP)濾波器;(2)模擬聲帶激勵信號周期的長期預測(LTP)濾波器;及(3)用于對語音信號非預測性內(nèi)容進行編碼的創(chuàng)新型代碼本。

    AAC【9】等感知編碼體系主要基于以下三大步驟:(1)進行時間/頻率轉(zhuǎn)換;(2)通過后續(xù)量化階段減少不相關性,在這一階段可使用心理聲學模型信息來控制量化誤差;(3)減少冗余,即在編碼階段,通過熵編碼的方式使用代碼表處理量化頻譜系數(shù)和相關邊信息。這就形成了適應于輸入信號數(shù)據(jù)及人類感知特點的受源代碼控制的編解碼器。

    一般來說,在低比特率情況下,語音編碼方式可更好地處理純粹、清晰的語音信號,而感知編碼方式可更好地處理音樂等一般聲音內(nèi)容,并實現(xiàn)可感知的、明晰的聲音質(zhì)量。

    首個結(jié)合了這兩大編碼方式的編解碼器為語音/音頻統(tǒng)合編解碼器(USAC)【8】。USAC算法延遲超過了100毫秒,這是雙向通信應用不可接受的。然而,得益于USAC卓越的編碼性能,這一統(tǒng)合的編碼方法已經(jīng)被采用并且取得了進一步的優(yōu)化,以滿足EVS極具挑戰(zhàn)性的要求。

    低延遲語音/音頻切換編碼

    在32毫秒低算法延遲下,EVS編解碼器是首個在語音和音頻壓縮之間部署基于內(nèi)容且具備即時切換功能的移動通信編解碼器,極大地改善了針對音樂信號等一般內(nèi)容的編碼性能。

    該語音編碼器是改進型代數(shù)碼激勵線性預測(ACELP),還采用了適合不同語音類別的線性預測模式。對于音頻信號編碼,則采用頻域(MDCT)編碼方式,并特別關注低延遲/低比特率情況下的頻域編碼效率,從而在語音處理器和音頻處理器之間實現(xiàn)無縫可靠的切換。圖2展示了EVS編碼器和解碼器的高級框圖。

EVS編解碼器結(jié)構(gòu)

圖2:EVS編解碼器結(jié)構(gòu)

    超寬帶編碼及更先進的技術

    EVS可支持超寬帶甚至全頻帶服務,從而克服當前通話中聲音不清晰的問題。從技術上來看,EVS可通過擴展帶寬實現(xiàn)這一目標。根據(jù)是否采用語音或音頻模式,可部署時域帶寬擴展(TBE)技術或一體化頻域解決方案。后者可提供多個子模式,如可處理傳統(tǒng)音樂信號的諧波模型編碼模式等。EVS是首個可提供通過不同方式優(yōu)化的帶寬擴展方式的編解碼器,而這樣的帶寬擴展方式通;谠创a控制來進行使用或切換;趯S玫膬(nèi)容優(yōu)化方式,即便在比特率非常低的情況下也能夠提供非常自然、清晰的音質(zhì)。

    性能評估

3GPP EVS編解碼器針對多帶寬清晰語音的鑒定測試結(jié)果

圖3:3GPP EVS編解碼器針對多帶寬清晰語音的鑒定測試結(jié)果

3GPP EVS編解碼器針對多帶寬混合內(nèi)容和音樂信號的鑒定測試結(jié)果

圖4:3GPP EVS編解碼器針對多帶寬混合內(nèi)容和音樂信號的鑒定測試結(jié)果

    目前,3GPP已進行了大量測試來驗證EVS在不同情況下以及處理不同內(nèi)容【11】時所表現(xiàn)出的性能,其中包括根據(jù)P.800 DCR方法【12】進行的多頻帶測試。圖3和圖4分別顯示了(DOMS評分表)中清晰語音(英語)及混合內(nèi)容和音樂信號的音質(zhì)級別。結(jié)果顯示了在不同比特率下移動蜂窩業(yè)務常用的窄帶、寬帶和超寬帶下的不同音質(zhì)。下面將對這些結(jié)果進行討論:

    對于(超寬帶模式下運行的)EVS編解碼器,比特率為9.6kbit/s時純語音音質(zhì)評價值已非常高,大大超過了AMR-WB在23.85kbits/s比特率下的音質(zhì),同時這一數(shù)值將隨比特率的增加而增加。從13.2kbits/s開始,EVS-SWB的語音音質(zhì)已經(jīng)接近“直接來源”(原音)的音質(zhì)。

    (在超寬帶模式下運行的)EVS編解碼器在處理混合內(nèi)容和音樂信號時的性能大大優(yōu)于AMR-WB編解碼器。在相同比特率下,其得分基本都比AMR-WB編解碼器高出1.2個平均意見得分(MOS)。在比特率為24.4kbit/s的情況下,EVS編解碼器在處理混合內(nèi)容和音樂信號時所呈現(xiàn)的音質(zhì)可接近“直接來源”(原音)的音質(zhì)。

    初看上去,在同等比特率下,即便使用雙倍音頻帶寬,AMR-WB編解碼器在處理混合內(nèi)容和音樂信號時呈現(xiàn)的音質(zhì)也比不上AMR-NB編解碼器,這讓人覺得出乎意料。但EVS編解碼器已經(jīng)解決了這一問題。

    在處理窄帶輸入信號時,EVS編解碼器處理純語音及混合內(nèi)容和音樂信號時實現(xiàn)的音質(zhì)要優(yōu)于AMR-NB編解碼器。這一模式在連接至如固話網(wǎng)絡等窄帶網(wǎng)絡時非常有用。

    眾所周知,由于語言和所選內(nèi)容的不同,測試的結(jié)果及結(jié)果分析也各有不同。然而,在3GPP進行篩選的階段,EVS編解碼器已經(jīng)過10種語言、6種不同背景噪音及各種音樂內(nèi)容的測試,展現(xiàn)出了其卓越的性能并大大改善了早期標準。這些測試結(jié)果以及之后對EVS編解碼器進行的進一步性能鑒定結(jié)果已在3GPP發(fā)布的技術報告(TR)26.953【11】中公布。

    應用

    自第四代移動網(wǎng)絡標準LTE問世以來,蜂窩電話網(wǎng)絡開始向基于IP的傳輸方式轉(zhuǎn)變。LTE標準以發(fā)展成熟的GSM和UMTS標準為基礎,可提供全IP架構(gòu)和實現(xiàn)低延遲。LTE需要部署全IP語音業(yè)務或VoLTE業(yè)務,而這也可促使所有語音服務采用IP網(wǎng)絡進行傳輸,最終淘汰基于GSM、UMTS和CDMA等網(wǎng)絡的傳統(tǒng)轉(zhuǎn)換服務。

    在全高清語音技術的推動下,服務提供商可擺脫這些傳統(tǒng)服務的限制,包括音頻帶寬方面的較大限制及需要使用以處理語音信號為主的編解碼器等。由于VoLTE可在管理有序的網(wǎng)絡中提供優(yōu)質(zhì)服務(QoS),EVS有望在音質(zhì)、穩(wěn)定性和服務可用性方面超越Skype或Viber等OTT服務。因此,移動運營商將可能在語音服務領域收復失地。

    得益于杰出的防錯能力【10】,EVS非常適用于Wi-Fi語音等最佳網(wǎng)絡,而且未來還可用于3G/電路交換系統(tǒng)。

    結(jié)語

    憑借無法比擬的語音和音頻質(zhì)量等多項新特性,符合3GPP最新標準的EVS編解碼器可作為一種效率最高、功能最全的編解碼器適用于各種網(wǎng)絡(尤其是蜂窩LTE網(wǎng)絡和Wi-Fi語音網(wǎng)絡等),以實現(xiàn)高質(zhì)量通信。即便在移動通信服務中,EVS編解碼器也能呈現(xiàn)接近原音的音質(zhì),從而為用戶帶來全新的體驗。因此,即將推出的EVS編解碼器可為移動通信運營商及其客戶帶來長遠的好處。

    參考資料

[1] ITU-T Rec. G.711,“語音頻率的脈沖編碼調(diào)制”

[2] ITU-T Rec. G.712,“64kbit/s內(nèi)的7kHz音頻編碼”

[3] K. Jarvinen.“自適應多速率編解碼器的標準化”,Proc. EUSIPCO,2000年9月

[4] B. Bessette等,“自適應多速率帶寬語音編解碼器(AMR-WB)”,電氣與電子工程師協(xié)會(IEEE)“語音和音頻處理”譯文,第10卷,第8號,第620-636頁,2002年11月

[5] M. Schnell等,“MPEG-4 增強型低延遲ACC——高音質(zhì)通信新標準”,第125屆音頻工程師協(xié)會大會,2008年10月

[6] S. Bruhn等,“新EVS編解碼器標準化”,Proc. ICASSP,2015年4月

[7] Martin Dietz等,“EVS編解碼器架構(gòu)概述”,Proc. ICASSP,2015年4月

[8] M. Neuendorf等,“低比特率下高音質(zhì)語音/音頻統(tǒng)合編碼方案”,Proc. ICASSP,2009年4月

[9] M. Bosi等,“ISO/IEC MPEG-2增強型音頻編碼”,第4382號論文,第101屆音頻工程師協(xié)會大會,1996年11月

[10] V. Atti等,“3GPP EVS渠道感知編碼可改善VOLTE及VOIP的容錯性”,Proc. ICASSP,2015年4月

[11] 3GPP TR 26.952,“通用移動通信系統(tǒng)(UMTS);LTE;EVS編解碼器;性能鑒定”,http://www.3gpp.org/DynaReport/26952.htm

[12] ITU-T Rec. P.800,“傳輸質(zhì)量主觀驗證方法”,1996年8月

本文檔的內(nèi)容“按原樣”提供,不帶有任何明示或暗示的擔;驐l件,包括但不限于適銷性、針對特定用途的默認擔保等。

本文檔內(nèi)容的版權(quán)歸Fraunhofer-Gesellschaft所有,并可在不另行通知的情況下隨時進行修改和/或更新。因此,不允許轉(zhuǎn)售本文全部或部分內(nèi)容或?qū)⑵溆糜谏虡I(yè)用途,或?qū)⑵溆糜谄渌a(chǎn)品。

版權(quán)所有©Fraunhofer-Gesellschaft,2015年7月。

   來源:廠商供稿
掃碼關注5G通信官方公眾號,免費領取以下5G精品資料

本周熱點本月熱點

 

  最熱通信招聘

  最新招聘信息