百科解釋
目錄·綜述·線性預(yù)測編碼的早期歷史·線性預(yù)測編碼系數(shù)表示·應(yīng)用 線性預(yù)測編碼(LPC)是主要用于音頻信號處理與語音處理中根據(jù)線性預(yù)測模型的信息用壓縮形式表示數(shù)字語音信號譜包絡(luò)(en:spectral envelope)的工具。它是最有效的語音分析技術(shù)之一,也是低位速下編碼方法高質(zhì)量語音最有用的方法之一,它能夠提供非常精確的語音參數(shù)預(yù)測。 綜述 線性預(yù)測編碼的基礎(chǔ)是假設(shè)聲音信號(濁音)是音管末端的蜂鳴器產(chǎn)生的,偶爾伴隨有嘶嘶聲與爆破聲(齒擦音與爆破音)。盡管這看起來有些原始,但是這種模式實(shí)際上非常接近于真實(shí)語音產(chǎn)生過程。聲帶之間的聲門產(chǎn)生不同強(qiáng)度(音量)與頻率(音調(diào))的聲音,喉嚨與嘴組成共鳴聲道。嘶嘶聲與爆破聲通過舌頭、嘴唇以及喉嚨的作用產(chǎn)生出來。 線性預(yù)測編碼通過估計共振峰、剔除它們在語音信號中的作用、估計保留的蜂鳴音強(qiáng)度與頻率來分析語音信號。剔除共振峰的過程稱為逆濾波,經(jīng)過這個過程剩余的信號稱為殘余信號(en:residue)。 描述峰鳴強(qiáng)度與頻率、共鳴峰、殘余信號的數(shù)字可以保存、發(fā)送到其它地方。線性預(yù)測編碼通過逆向的過程合成語音信號:使用蜂鳴參數(shù)與殘余信號生成源信號、使用共振峰生成表示聲道的濾波器,源信號經(jīng)過濾波器的處理就得到語音信號。 由于語音信號隨著時間變化,這個過程是在一段段的語音信號幀上進(jìn)行處理的。通常每秒 30 到 50 幀的速度就能對可理解的信號進(jìn)行很好的壓縮。 線性預(yù)測編碼的早期歷史 根據(jù)斯坦福大學(xué) Robert M. Gray 的說法,線性預(yù)測編碼起源于 1966 年,當(dāng)時 NTT 的 S. Saito 和 F. Itakura 描述了一種自動音素識別的方法,這種方法第一次使用了針對語音編碼的最大似然估計實(shí)現(xiàn)。1967 年,John Burg 略述了最大熵的實(shí)現(xiàn)方法。1969 年 Itakura 與 Saito 提出了部分相關(guān)(en:partial correlation)的概念, May Glen Culler 提議進(jìn)行實(shí)時語音壓縮,B. S. Atal 在美國聲學(xué)協(xié)會年會上展示了一個 LPC 語音編碼器。1971 年 Philco-Ford 展示了使用 16 位 LPC 硬件的實(shí)時 LPC 并且賣出了四個。 1972 年 ARPA 的 Bob Kahn 與 Jim Forgie (en:Lincoln Laboratory, LL) 以及 Dave Walden (BBN Technologies) 開始了語音信息包的第一次開發(fā),這最終帶來了 Voice over IP 技術(shù)。根據(jù) Lincoln Laboratory 的非正式歷史資料記載,1973 年 Ed Hofstetter 實(shí)現(xiàn)了第一個 2400 位/秒 的實(shí)時 LPC。1974 年,第一個雙向?qū)崟r LPC 語音包通信在 Culler-Harrison 與 Lincoln Laboratories 之間通過 ARPANET 以 3500 位/秒 的速度實(shí)現(xiàn)。1976 年,第一次 LPC 會議通過 ARPANET 使用 Network Voice Protocol 在Culler-Harrison、ISI、SRI 與 LL 之間以 3500 位/秒 的速度實(shí)現(xiàn)。最后在 1978 年,BBN 的 Vishwanath et al. 開發(fā)了第一個變速 LPC 算法。 線性預(yù)測編碼系數(shù)表示 線性預(yù)測編碼經(jīng)常用來傳輸頻譜包絡(luò)信息,這樣它就可以容忍傳輸誤差。由于直接傳輸濾波器系數(shù)(參見線性預(yù)測中系數(shù)定義)對于誤差非常敏感,所以人們不希望直接傳輸濾波器系數(shù)。換句話說,一個小的誤差不會扭曲整個頻譜或使整個頻譜質(zhì)量下降,但是一個小的誤差可能使預(yù)測濾波器變得不穩(wěn)定。 有許多更加高級的表示方法,如對數(shù)面積比(en:log area ratio,LAR)、線譜對(en:line spectral pairs,LSP) 分解以及反射系數(shù)等。在這些方法中,LSP 由于它能夠保證預(yù)測器的穩(wěn)定性、并且小的系數(shù)偏差帶來的譜誤差也是局部的這些特性,所以得到了廣泛應(yīng)用。 應(yīng)用 線性預(yù)測編碼通常用于語音的重新合成,它是電話公司使用的聲音壓縮格式,如 GSM 標(biāo)準(zhǔn)就在使用這種格式。它還用作安全無線通信中的格式,在安全的無線通信中,聲音必須進(jìn)行數(shù)字化、加密然后通過狹窄的語音信道傳輸。 線性預(yù)測編碼合成也可以用于構(gòu)建聲音合成器,樂器用作從歌手聲音預(yù)測得到的時變?yōu)V波器的激勵信號,這在電子音樂中有一定的流行。 1980年流行的 Speak & Spell 教育玩具中使用了一個 10 階的線性預(yù)測編碼。 在 FLAC 音頻編解碼器中使用了 0 到 4 階的線性預(yù)測編碼預(yù)測器。
移動通信網(wǎng) | 通信人才網(wǎng) | 更新日志 | 團(tuán)隊(duì)博客 | 免責(zé)聲明 | 關(guān)于詞典 | 幫助