百科解釋
目錄·TTS概述·TTS解析·中文TTS系統(tǒng)·TTS與CTI·TTS漫談 TTS概述 TTS是Text To Speech的縮寫,即“從文本到語(yǔ)音”。它是同時(shí)運(yùn)用語(yǔ)言學(xué)和心理學(xué)的杰出之作,在內(nèi)置芯片的支持之下,通過(guò)神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì),把文字智能地轉(zhuǎn)化為自然語(yǔ)音流。TTS技術(shù)對(duì)文本文件進(jìn)行實(shí)時(shí)轉(zhuǎn)換,轉(zhuǎn)換時(shí)間之短可以秒計(jì)算。在其特有智能語(yǔ)音控制器作用下,文本輸出的語(yǔ)音音律流暢,使得聽者在聽取信息時(shí)感覺(jué)自然,毫無(wú)機(jī)器語(yǔ)音輸出的冷漠與生澀感。TTS語(yǔ)音合成技術(shù)即將覆蓋國(guó)標(biāo)一、二級(jí)漢字,具有英文接口,自動(dòng)識(shí)別中、英文,支持中英文混讀。所有聲音采用真人普通話為標(biāo)準(zhǔn)發(fā)音,實(shí)現(xiàn)了120-150個(gè)漢字/秒的快速語(yǔ)音合成,朗讀速度達(dá)3-4個(gè)漢字/秒,使用戶可以聽到清晰悅耳的音質(zhì)和連貫流暢的語(yǔ)調(diào)。現(xiàn)在有少部分MP3隨身聽具有了TTS功能。 TTS是語(yǔ)音合成應(yīng)用的一種,它將儲(chǔ)存于電腦中的文件,如幫助文件或者網(wǎng)頁(yè),轉(zhuǎn)換成自然語(yǔ)音輸出。TTS可以幫助有視覺(jué)障礙的人閱讀計(jì)算機(jī)上的信息,或者只是簡(jiǎn)單的用來(lái)增加文本文檔的可讀性,F(xiàn)在的TTL應(yīng)用包括語(yǔ)音驅(qū)動(dòng)的郵件以及聲音敏感系統(tǒng)。TTS經(jīng)常與聲音識(shí)別程序一起使用,F(xiàn)在有很多TTS的產(chǎn)品,包括Read Please 2000, Proverbe Speech Unit,以及Next Up Technology的TextAloud。朗訊、 Elan、以及 AT&T都有自己的語(yǔ)音合成產(chǎn)品。 除了TTS軟件之外,很多商家還提供硬件產(chǎn)品,其中包括以色列WizCom Technologies公司的 Quick Link Pen,它是一個(gè)筆狀的可以掃描也可以閱讀文字的設(shè)備;還有Ostrich Software公司的Road Runner,一個(gè)手持的可以閱讀ASCII文本的設(shè)備;另外還有美國(guó)DEC公司的DecTalk TTS,它是可以替代聲卡的外部硬件設(shè)備,它包含一個(gè)內(nèi)部軟件設(shè)備,可以與個(gè)人電腦自己的聲卡協(xié)同工作。 TTS解析 TTS文語(yǔ)轉(zhuǎn)換用途很廣,包括電子郵件的閱讀、IVR系統(tǒng)的語(yǔ)音提示等等,目前IVR系統(tǒng)已廣泛應(yīng)用于各個(gè)行業(yè)(如電信、交通運(yùn)輸?shù)龋?BR> TTS所用的關(guān)鍵技術(shù)就是語(yǔ)音合成(SpeechSynthesis)。早期的TTS一般采用專用的芯片實(shí)現(xiàn),如德州儀器公司的TMS50C10/TMS50C57、飛利浦的PH84H36等,但主要用在家用電器或兒童玩具中。 而基于微機(jī)應(yīng)用的TTS一般用純軟件實(shí)現(xiàn),主要包括以下幾部分: ●文本分析-對(duì)輸入文本進(jìn)行語(yǔ)言學(xué)分析,逐句進(jìn)行詞匯的、語(yǔ)法的和語(yǔ)義的分析,以確定句子的低層結(jié)構(gòu)和每個(gè)字的音素的組成,包括文本的斷句、字詞切分、多音字的處理、數(shù)字的處理、縮略語(yǔ)的處理等。 ●語(yǔ)音合成-把處理好的文本所對(duì)應(yīng)的單字或短語(yǔ)從語(yǔ)音合成庫(kù)中提取,把語(yǔ)言學(xué)描述轉(zhuǎn)化成言語(yǔ)波形。 ●韻律處理-合成音質(zhì)(Qualityof Synthetic Speech)是指語(yǔ)音合成系統(tǒng)所輸出的語(yǔ)音的質(zhì)量,一般從清晰度(或可懂度)、自然度和連貫性等方面進(jìn)行主觀評(píng)價(jià)。清晰度是正確聽辨有意義詞語(yǔ)的百分率;自然度用來(lái)評(píng)價(jià)合成語(yǔ)音音質(zhì)是否接近人說(shuō)話的聲音,合成詞語(yǔ)的語(yǔ)調(diào)是否自然; 連貫性用來(lái)評(píng)價(jià)合成語(yǔ)句是否流暢。 要合成出高質(zhì)量的語(yǔ)音,所采用的算法是極為復(fù)雜的,因此對(duì)機(jī)器的要求也非常高。算法的復(fù)雜度決定了目前微機(jī)并發(fā)進(jìn)行多通道TTS的系統(tǒng)容量。 TTS在CTI的應(yīng)用中的基本構(gòu)架 在一般的CTI應(yīng)用系統(tǒng)中,都會(huì)有IVR(交互式語(yǔ)音應(yīng)答系統(tǒng))。IVR系統(tǒng)是呼叫中心的重要組成部分,通過(guò)IVR系統(tǒng),用戶可以利用音頻按健電話輸入信息,從系統(tǒng)中獲得預(yù)先錄制的數(shù)字或合成語(yǔ)音信息。具有TTS功能的IVR可以加快服務(wù)速度,節(jié)約服務(wù)成本,使IVR為呼叫者提供7*24小時(shí)的服務(wù)。 目前常見的IVR系統(tǒng)大都是通用的工控機(jī)平臺(tái)上插入語(yǔ)音板卡組成,并支持中文語(yǔ)音合成TTS等技術(shù)。 一個(gè)典型的包含TTS服務(wù)的電話服務(wù)流程可分為: 用戶電話撥入,系統(tǒng)IVR響應(yīng),獲得用戶按鍵等信息。 IVR根據(jù)用戶的按鍵信息,向數(shù)據(jù)庫(kù)服務(wù)器申請(qǐng)相關(guān)數(shù)據(jù)。 數(shù)據(jù)庫(kù)服務(wù)器返回文本數(shù)據(jù)給IVR。 IVR通過(guò)其TCP通訊接口,將需要合成的文本信息發(fā)送給TTS服務(wù)器。 TTS服務(wù)器將用戶文本合成的語(yǔ)音數(shù)據(jù)分段通過(guò)TCP通訊接口發(fā)送給IVR服務(wù)器。 IVR服務(wù)器把分段語(yǔ)音數(shù)據(jù)組裝成為獨(dú)立的語(yǔ)音文件。 IVR播放相應(yīng)的語(yǔ)音文件給電話用戶。 一般的公網(wǎng)接入(IVR)大都采用工控機(jī)+語(yǔ)音板卡,而合成的語(yǔ)音數(shù)據(jù)則通過(guò)局域網(wǎng)傳給IVR。這種結(jié)構(gòu)只適用于簡(jiǎn)單的應(yīng)用場(chǎng)合。 中文TTS系統(tǒng) 包括中文語(yǔ)音處理和語(yǔ)音合成,利用中文韻律等相關(guān)知識(shí)對(duì)中文語(yǔ)句進(jìn)行分詞、詞性判斷、注音、數(shù)字符號(hào)轉(zhuǎn)換,語(yǔ)音合成通過(guò)查詢中文語(yǔ)音庫(kù)得到語(yǔ)音。目前中文TTS系統(tǒng),比較著名的有:IBM,Microsoft,F(xiàn)ujitsu,科大訊飛,捷通華聲等研究的系統(tǒng)。目前比較關(guān)鍵的就是中文韻律處理、符號(hào)數(shù)字、多音字、構(gòu)詞方面有較多的問(wèn)題,需要不斷研究,使得中文語(yǔ)音合成的自然化程度較高。 TTS與CTI CTI技術(shù)使電信和計(jì)算機(jī)相互融合,克服了傳統(tǒng)電信和計(jì)算機(jī)服務(wù)相對(duì)單一的缺點(diǎn),將兩者完美結(jié)合了起來(lái)。其應(yīng)用領(lǐng)域非常廣泛,任何需要語(yǔ)音、數(shù)據(jù)通信,特別是那些希望把計(jì)算機(jī)網(wǎng)與通信網(wǎng)結(jié)合起來(lái)完成語(yǔ)音數(shù)據(jù)信息交換的系統(tǒng)都會(huì)用到CTI技術(shù)。 TTS即語(yǔ)音合成技術(shù)(Text To Speech),它涉及聲學(xué)、語(yǔ)言學(xué)、數(shù)學(xué)信號(hào)處理技術(shù)、多媒體技術(shù)等多個(gè)學(xué)科技術(shù),是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù),實(shí)現(xiàn)把計(jì)算機(jī)中任意出現(xiàn)的文字轉(zhuǎn)換成自然流暢的語(yǔ)音輸出。 TTS在CTI系統(tǒng)中可以應(yīng)用在IVR(交互式語(yǔ)音應(yīng)答)服務(wù)器上,以提供語(yǔ)音交互式平臺(tái),為用戶電話來(lái)訪提供語(yǔ)音提示,引導(dǎo)用戶選擇服務(wù)內(nèi)容和輸入電話事務(wù)所需的數(shù)據(jù),并接受用戶在電話撥號(hào)鍵盤上輸入的信息,實(shí)現(xiàn)對(duì)計(jì)算機(jī)數(shù)據(jù)庫(kù)等信息資料的交互式訪問(wèn)。 在IVR中應(yīng)用TTS可以自動(dòng)將文本信息轉(zhuǎn)換為語(yǔ)音文件,或者實(shí)時(shí)地將文本信息合成語(yǔ)音并通過(guò)電話發(fā)布。實(shí)現(xiàn)文本與語(yǔ)音自動(dòng)雙向轉(zhuǎn)換,以達(dá)到人與系統(tǒng)的自動(dòng)交互,隨時(shí)隨地為客戶服務(wù)。維護(hù)人員不必再人工錄音,只須將電子文檔引入系統(tǒng)中,系統(tǒng)可以自動(dòng)將電子文檔轉(zhuǎn)換為語(yǔ)音信息播放給客戶。數(shù)據(jù)庫(kù)中存放的大量數(shù)據(jù),無(wú)需事先進(jìn)行錄音,能夠隨時(shí)根據(jù)查詢條件查出并合成語(yǔ)音進(jìn)行播報(bào),從而大大減少了座席人員的工作負(fù)擔(dān)。 那么應(yīng)如何將TTS功能附加到CTI應(yīng)用中呢?某些比較先進(jìn)的交換平臺(tái),已經(jīng)在交換機(jī)的內(nèi)部實(shí)現(xiàn)了TTS的功能,并作為標(biāo)準(zhǔn)接口的一部分對(duì)外提供,業(yè)務(wù)開發(fā)商只需要簡(jiǎn)單的調(diào)用他們即可以在業(yè)務(wù)中使用該功能。 對(duì)于未實(shí)現(xiàn)TTS功能的PBX,就需要業(yè)務(wù)開發(fā)商自己去選擇合適的平臺(tái),在此基礎(chǔ)上進(jìn)行二次開發(fā),即調(diào)用所選TTS平臺(tái)提供的標(biāo)準(zhǔn)接口,實(shí)現(xiàn)語(yǔ)音合成功能。 目前CTI已經(jīng)成為全球發(fā)展最為迅猛的產(chǎn)業(yè)之一,每年以50%的速度增長(zhǎng),CTI如同計(jì)算機(jī)產(chǎn)業(yè)一樣是一個(gè)金字塔形的產(chǎn)業(yè)鏈,從上到下會(huì)以至少20倍的幅度增值。TTS作為一種誘人的新技術(shù),如果能很好的嵌入到增值業(yè)務(wù)的應(yīng)用中去,必將形成一個(gè)更好的應(yīng)用前景。 杭州音通軟件有限公司是由國(guó)家教育部和浙江省人民政府聯(lián)辦并依托浙江大學(xué)而成立的高新技術(shù)公司,音通公司主要致力于計(jì)算機(jī)語(yǔ)音技術(shù)的研發(fā)并逐步開拓語(yǔ)音識(shí)別、語(yǔ)音流媒體傳輸?shù)绕渌Z(yǔ)音領(lǐng)域的研究。其核心技術(shù)(Intone_TTS)是具有自主知識(shí)產(chǎn)權(quán)的中文語(yǔ)音合成技術(shù),在由浙江省科技廳組織的鑒定中被專家一致鑒定為國(guó)內(nèi)領(lǐng)先地位,并已申請(qǐng)多項(xiàng)國(guó)家專利。 Intone_TTS是一套把文本信息轉(zhuǎn)換為語(yǔ)音信息的開發(fā)工具包,為系統(tǒng)集成商、軟件開發(fā)商提供了完備的接口函數(shù)和編程示例,使用戶能夠靈活的進(jìn)行調(diào)用,并集成到其它應(yīng)用系統(tǒng)中。接口需要語(yǔ)音合成運(yùn)行庫(kù)的支持,適合多種開發(fā)環(huán)境。開發(fā)者可以根據(jù)具體的應(yīng)用場(chǎng)合進(jìn)行選擇。 它能夠?qū)λ械臐h字、英文、阿拉伯?dāng)?shù)字進(jìn)行語(yǔ)音合成; 支持繁體字及多音字的編輯; 合成效果:自然、平滑; 規(guī)范的函數(shù)調(diào)用接口,同時(shí)支持微軟SAPI的調(diào)用;支持同步調(diào)用和異步調(diào)用方式; 支持PCM Wave,uLaw/aLaw Wave,ADPCM,Dialogic Vox等多種語(yǔ)音格式; 支持GB2312碼(簡(jiǎn)體中文)、BIG5碼(繁體)、UNICODE碼; 支持多路通道同時(shí)合成; 支持Dialogic、東進(jìn)、三匯等主流語(yǔ)音板卡; TTS漫談 TTS就是Text To Speech,文本轉(zhuǎn)語(yǔ)音,文本朗讀,差不多是一個(gè)意思。在語(yǔ)音系統(tǒng)開發(fā)中經(jīng)常要用到。 目前市場(chǎng)上的TTS很多,實(shí)現(xiàn)方式也各式各樣,有的很昂貴,如科大訊飛,據(jù)說(shuō)當(dāng)初得到863計(jì)劃的資助,有很高的技術(shù);有的相對(duì)便宜,如捷通華聲, InfoTalk;也有免費(fèi)的,如微軟的TTS產(chǎn)品。 相對(duì)于ASR(Automatic Speech Recognition,自動(dòng)語(yǔ)音識(shí)別)來(lái)說(shuō),實(shí)現(xiàn)一個(gè)TTS產(chǎn)品所需要的技術(shù)難度不算大,在我看來(lái)也就是個(gè)力氣活。 要是讓我們來(lái)做一個(gè)能夠把漢語(yǔ)句子朗讀出來(lái)的TTS,我們會(huì)怎么做呢? 有一種最簡(jiǎn)單的TTS,就是把每個(gè)字都念出來(lái),你會(huì)問(wèn),豈不要錄制6千多個(gè)漢字的語(yǔ)音?幸運(yùn)的是,漢語(yǔ)的音節(jié)很少,很多同音字。我們最多只是需要錄制: 聲母數(shù)×韻母數(shù)×4,(其實(shí)不是每個(gè)讀音都有4聲),這樣算來(lái),最多只需要錄制幾百個(gè)語(yǔ)音就可以了。 在合成的時(shí)候需要一張漢字對(duì)應(yīng)拼音的對(duì)照表,漢字拼音輸入法也依賴這張表,可以在網(wǎng)上找到,不過(guò)通常沒(méi)有4聲音調(diào),大不了自己加上,呵呵,要不怎么說(shuō)是力氣活呢。 這樣做出來(lái)的TTS效果也還可以,特別是朗讀一些沒(méi)有特別含義的如姓名,家庭住址,股票代碼等漢語(yǔ)句子,聽起來(lái)足夠清晰。這要?dú)w功于我們偉大的母語(yǔ)通常都是單音節(jié),從古代的時(shí)候開始,每個(gè)漢字就有一個(gè)詞,表達(dá)一個(gè)意思。而且漢字不同于英語(yǔ),英語(yǔ)里面很多連讀,音調(diào)節(jié)奏變化很大,漢字就簡(jiǎn)單多了。 當(dāng)然,你仍然要處理一些細(xì)節(jié),比如多音字,把“銀行”讀成“yin xing”就不對(duì)了;再比如,標(biāo)點(diǎn)符號(hào)的處理,數(shù)字、字母的處理,這些問(wèn)題對(duì)于寫過(guò)很多程序的你,當(dāng)然不難了。 國(guó)內(nèi)的一些語(yǔ)音板卡帶的TTS,不管是賣錢的還是免費(fèi)的,大體都是這樣做出來(lái)的,也就是這樣的效果。 如果要把TTS的效果弄好一點(diǎn),再來(lái)點(diǎn)力氣活,把基本的詞錄制成語(yǔ)音,如常見的兩字詞,四字成語(yǔ)等,再做個(gè)詞庫(kù)和語(yǔ)音庫(kù)的對(duì)照表,每次需要合成時(shí)到詞庫(kù)里面找。這樣以詞為單位,比以字為單位,效果自然是好多了。當(dāng)然,這里面還是有個(gè)技術(shù),就是分詞的技術(shù),要把復(fù)雜的句子斷成合理的詞序列,也有點(diǎn)技術(shù)。這也要怪新文化那些先驅(qū)們,當(dāng)初倡導(dǎo)白話文,引進(jìn)西文的橫排格式、標(biāo)點(diǎn)符號(hào)的時(shí)候,沒(méi)有引進(jìn)西文中的空格分詞。不過(guò)即使分詞算法那么不高效,不那么準(zhǔn)確,也問(wèn)題不大,如前面所說(shuō),漢字是單音節(jié)詞,把聲音合起來(lái),大體上不會(huì)有錯(cuò)。 當(dāng)然,科大訊飛的力氣活又干的多了些,據(jù)說(shuō)已經(jīng)進(jìn)化到以常用句子為單位來(lái)錄音了,大家可以想像,這要耗費(fèi)更多的力氣,換來(lái)更好的效果。 至于增加一些銜接處的“詞料”,弄一些修飾性的音調(diào),我認(rèn)為是無(wú)關(guān)緊要的,對(duì)整體的效果改進(jìn)不是太大。 市面上商品化TTS一般還支持粵語(yǔ),請(qǐng)個(gè)粵語(yǔ)播音員錄音,把上面的力氣活重做一遍就是了。 再說(shuō)句題外話,很多人覺(jué)得錄音最好找電臺(tái)、電視臺(tái)的播音員,其實(shí)找個(gè)你周圍的女同事來(lái)錄制,只要吐字清晰就可以了。在某種情況下,尋常聲音比字正腔圓的新聞聯(lián)播來(lái)得可愛。 再來(lái)說(shuō)說(shuō)文本的標(biāo)識(shí),對(duì)于復(fù)雜文本,某些內(nèi)容程序沒(méi)有辦法處理,需要標(biāo)識(shí)出來(lái)。比如,單純的數(shù)字“128”,是應(yīng)該念成“一百二十八”還是“一二八”?解決辦法通常是加入XML標(biāo)注,如微軟的TTS:"<context ID = "number_cardinal">128</context>"念成“一百二十八”,"<context ID = "number_digit">128</context>"將念成“一二八”。TTS引擎可以去解釋這些標(biāo)注。遺憾的是,語(yǔ)音XML標(biāo)注并沒(méi)有形成大家都完全認(rèn)可的標(biāo)準(zhǔn),基本上是各自一套。 再說(shuō)說(shuō)TTS應(yīng)用編程,微軟的TTS編程接口叫SAPI,是COM接口,開發(fā)起來(lái)還是有點(diǎn)麻煩,還好MSDN的網(wǎng)站上資料很全面。微軟的TTS雖然免費(fèi),但其中文角色目前是個(gè)男聲,聲音略嫌混濁,感覺(jué)不爽。 國(guó)內(nèi)一般的廠家提供API調(diào)用接口,相對(duì)比較簡(jiǎn)單,可以方便地嵌入應(yīng)用程序中去。 商品化的TTS還有個(gè)并發(fā)許可限制,就是限制同時(shí)合成的并發(fā)線程數(shù),我覺(jué)得這個(gè)限制用處不大。無(wú)論哪種TTS,都可以將文本文件轉(zhuǎn)換成語(yǔ)音文件,供語(yǔ)音卡播放。大部分應(yīng)用句子比較短小,一般不會(huì)超過(guò)100個(gè)漢字,合成的時(shí)間是非常短的,弄個(gè)線程專門負(fù)責(zé)合成,其它應(yīng)用向該線程請(qǐng)求就是了,萬(wàn)一句子很長(zhǎng),把它分解成多個(gè)短句子就是了,播放的速度總是比合成的速度慢。 也很多應(yīng)用是脫機(jī)合成,沒(méi)有實(shí)時(shí)性要求,就更不必買多個(gè)許可了。 更多情況下,我們甚至沒(méi)有必要購(gòu)買TTS,比如語(yǔ)音開發(fā)中常見的費(fèi)用催繳,撥通后播放:“尊敬的客戶,您本月的費(fèi)用是:212元”,前面部分對(duì)所有客戶都一樣,錄一個(gè)語(yǔ)音文件就是了,而數(shù)字的合成是很簡(jiǎn)單的,你只要錄制好10個(gè)數(shù)字語(yǔ)音,再加上十,百,千,萬(wàn),再加上金錢的單位“元”。 TTS(Training+Tool+Scheme)超越計(jì)劃 針對(duì)目前成長(zhǎng)型企業(yè)遇到的人力資源問(wèn)題,立體化解決人力資源瓶頸、通過(guò)企業(yè)與專家共建、實(shí)現(xiàn)人才強(qiáng)企的人力資源方向的重大智業(yè)項(xiàng)目。為企業(yè)培養(yǎng)人力資源高級(jí)管理人才,提供先進(jìn)人力資源管理工具,并協(xié)助企業(yè)建立現(xiàn)代人力資源戰(zhàn)略規(guī)劃。通過(guò)“培訓(xùn)(Training)+工具(Tool)+方案(Scheme)”的辦法,為企業(yè)系統(tǒng)解決人力資源難點(diǎn)問(wèn)題,進(jìn)而搭建科學(xué)、完善的人力資源管理體系。
移動(dòng)通信網(wǎng) | 通信人才網(wǎng) | 更新日志 | 團(tuán)隊(duì)博客 | 免責(zé)聲明 | 關(guān)于詞典 | 幫助