PESQ

百科解釋

   PESQ(Perceptual evaluation of speech quality)
ITU-T P.862建議書提供的客觀MOS值評價方法

原理[編輯本段]如圖PESQ的結構。開始時兩個信號都通過電平調(diào)整,再用輸入濾波器模擬標準電話聽筒進行濾波(FFT)。這兩個信號要在時間上對準,并通過聽覺變換。這個變換包括對系統(tǒng)中線性濾波和增益變化的補償和均衡。提取出兩個失真參數(shù),在頻率和時間上總和起來,映射到對主觀平均意見分的預測。

計算PESQ的得分[編輯本段]為了訓練PESQ,要在三個平均階段通過使用很多的p值計算很大數(shù)量的不同的對稱和非對稱的參數(shù)。先使用參數(shù)的線性組合來預測主觀MOS分,進一步對每次主觀測試進行回歸分析說明、解決不同的題目的前后關系和選擇的偏好,如第3部分中所討論的;這一步還用到了線性映射。對所有的候選參數(shù)集都進行了選擇。這樣找到了最優(yōu)的組合,能給出最好的平均相關系數(shù)。這樣可以在幾百個候選參數(shù)中找到最好的。
舉例來說,PESQ中用到部分補償,在增益調(diào)制的均衡中,就要避免使用大量的參數(shù)來預測質(zhì)量。只用到兩個參數(shù)的組合— 一個對稱干擾(dSYM)和一個非對稱干擾(dASYM),在預測精度和概括能力上有很好的平衡。然而,由于低維數(shù)的模型依靠早先的階段組合出復雜的感知作用,要求有幾個迭代設計。聽覺變換中的系數(shù)和干擾處理經(jīng)過優(yōu)化,找到了最優(yōu)的參數(shù),然后重復處理過程。下面給出PESQ中映射的分：
PESQMOS=4.5-0.1 dSYM-0.0309 dASYM
對于正規(guī)的主觀測試,得分在1.0和4.5之間。在失真情況嚴重時,得分可能會低于1.0,但這種情況很少見。

范圍和應用[編輯本段]ITU-T相關的資料已證明PESQ是能夠給出精確的預測值的,包括以下編解碼和誤碼失真,波形編碼(如G.711,G.726),CELP/高于4kbit/s的混合編解碼(如G.728),移動編解碼/系統(tǒng)(包括GSM FR、EFR、HR、AMR、CDMA EVRC、TDMA ACELP、VSELP和TETRA);各種編解碼的代碼轉換,隨機的、突發(fā)的、包丟失誤差。PESQ能夠用于編解碼或系統(tǒng)評估、選擇和優(yōu)化。
這樣PESQ可以廣泛的用于現(xiàn)場和模擬網(wǎng)絡中端到端測量。背景(環(huán)境)噪聲和噪聲處理,可以通過用PESQ比較干凈的、未處理的信號和編碼的、經(jīng)噪聲干擾失真的信號評估得到。
用靜默來取代語音,也是一種失真,給所有的感知模型在預測MOS分時帶來困難。一般前端和后端的50ms的削波(話音激活檢測)不會給主觀印象帶來很大的影響。然而,在話音期間削波,比如包丟失后用靜默代替,將嚴重影響主觀感受---每50ms的丟失,MOS分下降一分。PESQ的情況在這兩種之間,每50ms的削波通常引起0.5分左右的下降,而不管處于什么位置。對于前端暫時的削波,特別是未察覺的丟失了單詞時,PESQ是很敏感的。相反的,PESQ對經(jīng)常的、短時的削波不很敏感(短時間內(nèi)語音被靜默取代)。在這兩種情況下,PESQ與主觀MOS分之間的相關性會減弱。
作為一個有固定假設聽覺級的只聽模型,PESQ一般不應用來評估收聽級、側音/說話人回音,或?qū)υ捬舆t的影響,而且,它也不是供非入侵性測度使用的。其他一些應用的特性還沒有得到證明,或者需要部分改變模型。包括：音樂音質(zhì);寬帶話音;所謂“媒體音頻質(zhì)量”;接受端回聲;低于4kbit/s的低比特率編解碼器;聲學的和電話機參考當量測試。

通信詞典解釋