智能語音之殤:為什么還不能和手機交談?

四十多年前,專家們曾宣稱,語音識別將在“五到十年內(nèi)”發(fā)展為一項成熟的技術?啥嗄赀^后,他們依然重復著一模一樣的說辭。

語音識別的發(fā)展確實費了不少工夫——好在,時隔多年以后,我們總算開發(fā)出了一套質(zhì)量過硬的識別技術。不僅如此,我們還把這玩意應用到了移動設備上(盡管還得靠服務器提供一大堆技術支持)。

然后問題就來了——有了這樣的技術,我們?yōu)槭裁催是得整天瞅著自己的手機屏幕鼓搗來鼓搗去,卻無法直接開口跟自己的手機對話交談?

回答這個問題的關鍵,在于提供一個語音交互界面,遠比理解一打單詞來得復雜——尤其是對手機而言。我們還必須得理解用戶的“意圖”。要知道,除了語音技術本身以外,人機語音交流中還有其他因素在作怪——輸出方式,互動形式還有語境。

多元化的輸出:既能秀,也能說

如今投入使用的語音系統(tǒng),識別的效果一般都過于極端化——要么一字不差,要么謬以千里。事實上,當我們查詢一條去某大街的路線時,要是系統(tǒng)能精確無誤地從數(shù)據(jù)庫的上千個條目中識別出我們想要的那一條,還是挺令人稱奇的。不幸的是,如果識別有誤或者街名不準,我們的搜索就只能乖乖從頭再來。

要想在現(xiàn)有的語音技術上有所突破,我們必須得認識到一點:我們現(xiàn)有的系統(tǒng),不過就是最原始的識別技術而已——識別技術本身沒啥問題;但除了這套技術以外,我們的系統(tǒng)只是一個空殼罷了。而我們需要的,其實是創(chuàng)造一個語音交互界面——說白了,就是一整套基于語音的互動模式。

理解用戶的“意圖”,意味著系統(tǒng)要判斷出用戶真正需要的事物,而這通常得依靠交談來實現(xiàn)。這就是說,系統(tǒng)要了解用戶為什么問這個問題——一般來說,這就要求系統(tǒng)去知曉對方在做什么;與此同時,這也要求系統(tǒng)根據(jù)用戶所處的情形合理應答。這可決不是一項輕松的任務——畢竟,用戶只是把移動設備握在手中而已,他們可能有著大把的事情,要忙著分神去處理。

互動是一種雙向的溝通,意味著我們在提供輸入的同時還得留意輸出;而這些能發(fā)聲的應用是怎么回答我們的呢?最常見的方式,是直接向用戶回復他們所想要的信息。那些提供實時駕駛指南的“殺手級應用”就是個典型的例子:用戶雙眼注視路況,雙手把好方向盤,然后嚴格按照語音提示說的做就行——這種情況下,這樣的應答方式也確實管用。

但另一些時候,這招就不那么靈了。比如,當我們詢問下班公交什么時候到站時,讓系統(tǒng)自顧自地把整張時刻表背下來就是個不折不扣的餿主意。即使它只是回復一句“下班車9點12分到站”,效果也好不到哪去——這時候,說“下班車12分鐘內(nèi)到站”才是王道。


微信掃描分享本文到朋友圈
掃碼關注5G通信官方公眾號,免費領取以下5G精品資料
  • 1、回復“YD5GAI”免費領取《中國移動:5G網(wǎng)絡AI應用典型場景技術解決方案白皮書
  • 2、回復“5G6G”免費領取《5G_6G毫米波測試技術白皮書-2022_03-21
  • 3、回復“YD6G”免費領取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復“LTBPS”免費領取《《中國聯(lián)通5G終端白皮書》
  • 5、回復“ZGDX”免費領取《中國電信5GNTN技術白皮書
  • 6、回復“TXSB”免費領取《通信設備安裝工程施工工藝圖解
  • 7、回復“YDSL”免費領取《中國移動算力并網(wǎng)白皮書
  • 8、回復“5GX3”免費領取《R1623501-g605G的系統(tǒng)架構1
  • 本周熱點本月熱點

     

      最熱通信招聘

      最新招聘信息

    最新論壇貼子