近日,美國科技媒體The Verge發(fā)表署名文章,對百度剛剛推出的語音合成系統(tǒng)Deep Voice2進(jìn)行高度評價,這一新技術(shù)可以通過短短半小時就學(xué)會新的口音,該文作者認(rèn)為,這一產(chǎn)品的技術(shù)水平已經(jīng)超過了蘋果的Siri。
最近幾年來,隨著人工智能的發(fā)展,研究人員利用深度學(xué)習(xí)制造出能識別物體、理解口語,甚至模擬人類聲音的系統(tǒng),人工智能能夠?qū)崿F(xiàn)的功能越來越多,而且完成任務(wù)的質(zhì)量也越來越高。
三個月前,百度展示了語音合成系統(tǒng)Deep Voice,可以實(shí)時合成出與真實(shí)人聲區(qū)別很小的語音,不過這一系統(tǒng)一次只能學(xué)習(xí)一種音色,也就是說,如果需要合成不同語音特征的聲音,需要重復(fù)進(jìn)行長時間大量語料的訓(xùn)練。而此次百度推出的Deep Voice 2,則可以在短短半個小時內(nèi)就學(xué)會一個特定說話人的口音,在這個基礎(chǔ)上,系統(tǒng)還可以自動學(xué)習(xí)成百上千種口音,也就是能模仿數(shù)百個人講話。
該文作者以蘋果Siri與百度Deep Voice 2進(jìn)行了比較。Siri每個新的語音都需要記錄一個真人數(shù)千小時的發(fā)音語料,然后再進(jìn)行長時間的訓(xùn)練并由工程師進(jìn)行調(diào)整,從而讓Siri說話。而Deep Voice 2則采用了不同的技術(shù)路徑,通過學(xué)習(xí)數(shù)百個人的發(fā)音語料建立起人類發(fā)音模型,然后通過調(diào)整這一共同模型的不同參數(shù)來模擬不同人的發(fā)音,這整個過程都不需要人工干預(yù),效率顯然遠(yuǎn)高于Siri。
對此百度硅谷AI實(shí)驗(yàn)室Deep Voice項(xiàng)目的科研專家安德魯 吉本斯基(Andrew Gibiansky)介紹說,“給出正確的數(shù)據(jù),它就可以自己找到語音中的重要特點(diǎn)并進(jìn)行自我學(xué)習(xí)!
語音識別技術(shù)的應(yīng)用場景和商業(yè)機(jī)會已是公認(rèn)的廣闊,而合成技術(shù)未來的機(jī)會亦是空間無限。Deep Voice 2可以用于大多數(shù)的人機(jī)交互場景,為我們的數(shù)字助理創(chuàng)建各種自定義角色。例如百度與中國聯(lián)通就簽署了合作協(xié)議組建智能客服,這樣用戶與智能客服的溝通就會出現(xiàn)不同的聲音。此外,這項(xiàng)技術(shù)還可以應(yīng)用在電子書閱讀器的朗讀功能,讓電子書內(nèi)容里的每一個角色都有屬于自己的聲音和相應(yīng)的情緒、語氣,聽起來會生動很多。另外,Deep Voice 2可以用于其他需要語音交互的場景下,例如個性化的語音導(dǎo)航、智能家電等,都可以使用這一功能學(xué)習(xí)個性化的語音,比如自己喜歡的明星或是自己的男(女)朋友的聲音,而無需再依賴導(dǎo)航產(chǎn)品官方發(fā)布的語音包。經(jīng)歷了鍵盤鼠標(biāo)、觸摸式的人機(jī)交互之后,語音作為第三代人機(jī)交互方式的浪潮已經(jīng)到來。