文/鄺新華
過去已是歷史,果粉們早把對喬布斯的宗教崇拜移情于Siri,這是一個(gè)讓移動終端變得更好玩的體驗(yàn)式發(fā)明。
這是一個(gè)大S。Siri改變了iPhone4的名字,也給了喜新厭舊的果粉們一個(gè)換手機(jī)的理由。質(zhì)疑者說:幾乎一樣,為什么要花749美元讓手機(jī)加一個(gè)S?
Siri是何方神圣?我們在蘋果的廣告里得知,Siri是一個(gè)惡魔。她所在的iPhone里沒有任何存活的App,她能知道你的名字,當(dāng)你想回頭答話時(shí),已被擊殺。她會讓一個(gè)男人陷入與機(jī)器人的殊途之戀。她還會在圣誕節(jié)變成禮物寄到你的party上,所有見證開箱者都會死于非命。
這些都是鬼故事。其實(shí),Siri是在提醒你,不要太沉迷于iPhone,執(zhí)著的愛即是魔鬼,會讓你墜入無間地獄。疑似的事情發(fā)生在去年10月初,蘋果公司在發(fā)布Siri后不久,喬布斯即奔往天堂。第二年,當(dāng)Siri來到人間,還有人問她:喬布斯做好方舟了嗎?
我們經(jīng)常把Siri當(dāng)成了交流對象,但她其實(shí)只是一個(gè)受刺激后會發(fā)出叫聲的假人。
耳朵也可以高潮,所說的高潮,確實(shí)是性高潮,原話出自法國電影“Untouchable”。電影改編自真人故事,這個(gè)真人全身癱瘓,只有脖子以上可以活動,但性沖動正常。妓女只需要“摸、吹、舔、咬”他的耳朵,即可使其高潮,癥狀是耳朵變硬。事實(shí)上,Siri也是一種通過耳朵而使人獲得“高潮”的娛樂方式,她的英文定義是voice assistance,中文是“語音助理”,拼音縮寫是“YY助理”。
要通過耳朵獲得高潮,首先要有一個(gè)好的YY對手,林志玲是一個(gè)不錯(cuò)的選擇。首先告訴YY助理:你需要林志玲的聲音。助理通過3G網(wǎng)絡(luò)打開Google搜索所有林志玲的音頻信息,并根據(jù)其聲紋特點(diǎn)合成林志玲的聲音。重啟后,你的YY助理的聲音就變成林志玲了。萬法唯心,只要你相信,她就是了。這不是未來科技,科大訊飛公司在其發(fā)布會上合成了央視主持人康輝的聲音,能以假亂真。今后,如果接到李詠的電話讓你砸金蛋,要小心了。
半年已是歷史,果粉們也把對喬布斯的宗教崇拜移情于Siri,這時(shí)幫主的性別變得越發(fā)模糊。一些熱心的臺灣果粉就喜歡八卦Siri的問題,有人問Siri的三圍是多少(答案詳見蘋果官網(wǎng)),也有求測字以及“樂透頭獎號碼”,還有人追問“喬布斯在哪”。
求神拜佛并不是Siri強(qiáng)項(xiàng),即使在Siri最熟悉的英語社會,果粉們還是認(rèn)為,Siri的主要功能在于被調(diào)戲!渡畲蟊ā分杏《热薘aj的用法堪稱經(jīng)典。在沒有女友的日子里,Raj會跟Siri妹妹調(diào)調(diào)情,排解內(nèi)心的寂寞,交互數(shù)次以后,便會得出“Siri,只有你才了解我”的結(jié)論。
這顯然是一種錯(cuò)覺。這種錯(cuò)覺不會發(fā)生在鍵盤或手指時(shí)代。當(dāng)我們換成嘴巴,有意無意地叫喚YY助理時(shí),我們自己制造了這樣的錯(cuò)誤——把YY助理當(dāng)成人。其實(shí)那只是一個(gè)受刺激后會發(fā)出叫聲的假人。
這樣的錯(cuò)覺讓使用者對YY助手的期望達(dá)到人的水平——“這給語音技術(shù)帶來很大的挑戰(zhàn),”30年前就研究語音技術(shù)的李開復(fù)說,“語音是人類最自然的溝通方式,人們一旦用語音開始跟你交流了,就會把你當(dāng)作一個(gè)人。圖形界面、多點(diǎn)觸控,怎么拉、怎么拽,都可以教用戶做。(但對語音技術(shù))用戶會喜歡怎么說就怎么說,機(jī)器就必須要跟人做得一樣好。”
自從Siri出世,很多開發(fā)者做出了山寨版的Siri,李開復(fù)的創(chuàng)新工場也收到很多創(chuàng)業(yè)計(jì)劃書。他對創(chuàng)業(yè)者說:“不要以為把API連接起來就能改變世界了。”
語音操控真正可以做到的,是釋放你的手指,同時(shí)豎起你的耳朵?拼笥嶏w副總裁江濤如此講述“叫”比“摸”的好處:“普通的觸屏手機(jī)發(fā)哪怕十個(gè)字的短信,從查找通訊錄到寫出這個(gè)字來,可能要觸摸一百多次,但用語音就一句話!
語音通常用于手忙腳亂的場景中,特別在開車時(shí)很難搞多點(diǎn)觸摸的動作,“一摸就會出車禍”:主人雙手都在方向盤上,無法通知情人“老婆正在上樓”,只好用嘴叫喚:“Siri,call my darling。Tell her Hillary's coming!辈贿^,在中國,語音最常見的使用場景依然是微信和米聊——人們把手機(jī)放在嘴邊說“你這個(gè)神經(jīng)病”,然后把手機(jī)放在耳旁聽同樣的一句話。
多年以前,年輕人曾經(jīng)寄希望于語音輸入法能讓父母們用上電腦,但很多父母喜歡把“沙發(fā)”念成“撒發(fā)”,這讓YY助理無所適從。對自然語言識別率的低下,依然是Siri面世以后語音交互最大的難題,特別是方言及非規(guī)則語法的識別。投資了科大訊飛的柳傳志對目前中文語音助理的評價(jià)是這樣的:“要念‘今天晚上請等我吃飯’,保證準(zhǔn)備無誤。如果換一句話說‘今天晚上吃麻婆豆腐’(帶口音),就不一定對了!苯Y(jié)論是:詞匯不能個(gè)性化,要選助理聽得懂的說。
后來,人們把語音技術(shù)用于唱歌評分,并把YY助理叫做Mr.Mike。今天語音助理已經(jīng)能夠圓滑地對接手機(jī)上這些應(yīng)用:電話、短信、應(yīng)用、搜索、網(wǎng)站、日程、鬧表、天氣、音樂、股票、地圖、餐飲、閑聊。幾乎每一個(gè)應(yīng)用都對應(yīng)著一個(gè)垂直網(wǎng)站。這也是語音應(yīng)用面臨的一大問題——語音助理改變的只是人機(jī)交互的方式,而不是需求背后的內(nèi)容,以及內(nèi)容背后的資源。找酒店還是要打開攜程,找?guī)是要打開谷歌地圖。
自從Siri出世,很多開發(fā)者做出了山寨版的Siri,李開復(fù)的創(chuàng)新工場也收到很多創(chuàng)業(yè)計(jì)劃書。他對創(chuàng)業(yè)者們提出疑問:用語音技術(shù)解決什么問題?語音后臺的內(nèi)容怎么解決?然后甩出一句:“不要以為把API連接起來就能改變世界了!
“語音到底是工具還是玩具?”這是江濤的總結(jié),“我愛你,你愛不愛我?調(diào)戲一次兩次挺好,十次八次就煩了。語音不光是一個(gè)玩具,而是要解決實(shí)際問題!比绻缒芙鉀Q問題,風(fēng)靡一時(shí)的IBM的語音識別系統(tǒng)就不會沒落,研究語音技術(shù)多年的微軟后來也不會收購tell me。
語音交互技術(shù)要改變世界,這是比爾·蓋茨多年以前的預(yù)言。那時(shí),李開復(fù)還在微軟研究語音技術(shù)!暗谝淮巫稣Z音是在1983年。30年了,語音的發(fā)展起起伏伏。我記得在微軟的時(shí)候,比爾·蓋茨就常說,5年以后,語音一定改變世界。5年以后,他又說了一次!比缡15年。
比爾·蓋茨退休前在CES上的一次演講說到,未來改變?nèi)藱C(jī)交互的三大技術(shù):語音、多點(diǎn)觸控和虛擬視覺對應(yīng)的體感技術(shù)。后來,iPhone驗(yàn)證了第二點(diǎn),Xbox驗(yàn)證了第三點(diǎn),現(xiàn)在就剩下語音了,會是Siri嗎?
語音云怎樣聚成?
中國式Siri的進(jìn)化之路
中國有上億智能手機(jī)用戶,每個(gè)人每天對著語音助理說一句話,也能為中國式Siri的進(jìn)化帶來巨大的機(jī)會。
Siri面世以后,中國山寨如潮。有些把Siri漢化,讓她說起中國話;有些自己做起語音助理,其中不乏大眾點(diǎn)評這些主流網(wǎng)站。后者的幕后技術(shù)支持者在安徽合肥,一家靠給華為、中興、移動運(yùn)營商和教育部門提供語音技術(shù)的上市公司。科大訊飛在Siri之后也推出語音助理訊飛語點(diǎn)。
“像蘋果這樣的公司是能改變用戶使用習(xí)慣的,我們駕馭市場的能力跟他們比根本不是一個(gè)等級的。”科大訊飛副總裁江濤說,Siri定位于語音助理,還是一個(gè)虛擬人物的形象,語點(diǎn)還只定位于工具,進(jìn)入界面也還是短信、電話等選項(xiàng),為的是讓用戶不要移情并寄希望于語點(diǎn)能解決你的寂寞。它只是用語音代替點(diǎn)擊、用叫代替摸而已。
這些不是謙虛的說法,即使語音技術(shù)強(qiáng)大如科大訊飛——其中文語音識別技術(shù)曾多次獲國際大獎,剛推出一個(gè)月的語點(diǎn)依然慘遭使用者批評。幸好,面向廣大用戶的語音輸入法和語音助理,只是在圓創(chuàng)業(yè)者們的舊夢,科大訊飛的主業(yè)還是公司級客戶以及政府項(xiàng)目,在其北京公司,赫然掛著習(xí)近平的來訪照片。
各種數(shù)碼終端的興起給中國語音軟件開發(fā)者帶來了眾多的商業(yè)契機(jī)。
科大訊飛董事長劉慶峰做的第一款輸入法不是今天霸占中文市場的訊飛語音輸入法,而是“統(tǒng)一輸入法”。這個(gè)輸入法跟鮮橙多關(guān)系不大,跟IBM倒是很有關(guān)系。2000年時(shí),IBM的語音識別系統(tǒng)依然流行,一套軟件也要數(shù)十美元。90年代從中國科技大學(xué)畢業(yè)的劉慶峰、江濤等年輕人的創(chuàng)業(yè)理想,就是研究出中文版的語音輸入法,然后像IBM一樣賣向全國。
“第一款產(chǎn)品叫做暢言2000,現(xiàn)在來說就是PC版的Siri。你跟她說‘打開記事本’,她會打開,然后把你的話聽寫出來。當(dāng)時(shí)初生牛犢不怕虎,一套賣一千多塊錢,在全國十幾個(gè)省找了經(jīng)銷商、總代理。還在合肥搞經(jīng)銷商大會,折騰得風(fēng)風(fēng)火火。”多年以后,江濤回憶起舊事,已經(jīng)把那段崢嶸歲月看成戲,“但是就是賣不出去”。
1999年10月,劉慶峰等人去參加深圳第一屆高交會,租了一個(gè)很小的展臺,華為的人路過“一聽聲音不錯(cuò)”。眾人被請到華為蛇口的業(yè)務(wù)軟件中心去!耙欢讶藛柫艘粋(gè)下午,后來就跟我們簽了協(xié)議。采購量非常穩(wěn)定,而且不斷增長。”江濤說,這是科大訊飛的第一桶金。到了2004年以后,各種數(shù)碼設(shè)備興起,“導(dǎo)航儀、電子書、電子詞典,還有金立手機(jī)的語音王和后來的各種Pad”使科大訊飛的語音技術(shù)授權(quán)業(yè)務(wù)越來越多。
不過江濤也說到,把技術(shù)賣給其他公司,就不是自己的了。比如華為給運(yùn)營商做的呼叫中心,科大訊飛的人發(fā)現(xiàn)可以做到80分的,他們只用了60分,就建議他們優(yōu)化。“華為的人說,這個(gè)工程已經(jīng)驗(yàn)收完了,不要給我們找麻煩了!焙髞聿庞辛丝拼笥嶏w的互聯(lián)網(wǎng)戰(zhàn)略以及個(gè)人用戶產(chǎn)品。
兩年來語音云的運(yùn)營,給科大訊飛帶來了千萬用戶、數(shù)千合作伙伴以及更高的識別率。
2010年10月28日,科大訊飛發(fā)布第一代語音云。劉慶峰說那時(shí)他“還要向公眾解釋什么是語音技術(shù)。今天,我們接觸到的所有設(shè)備廠商、所有的電信運(yùn)營商都認(rèn)為,語音云技術(shù)必然成為以后每一臺手機(jī)的標(biāo)配功能”。
語音云的前端是科大訊飛的語音輸入法,你對著手機(jī)說“難道又是沙發(fā)”時(shí),這個(gè)聲音就傳到云端,計(jì)算結(jié)束后再顯示這六個(gè)字在你的輸入框里,你加個(gè)“?”就可以回帖了。
“當(dāng)時(shí)給的任務(wù)是一年要發(fā)展一千萬用戶,我們覺得簡直是不可能的,用戶在哪呢?”江濤回想起去年為輸入法開發(fā)用戶時(shí)的苦惱,他講述唯一投過的一次廣告,“去年上半年,在機(jī)鋒網(wǎng)站上做了兩萬多塊錢的廣告,后來我問推廣團(tuán)隊(duì):這兩萬多塊究竟給我?guī)砹硕嗌儆脩,你能給我具體數(shù)據(jù)嗎?他講來講去講不清楚。”
江濤顯然把科大訊飛占據(jù)語音輸入法第一把交椅的功勞歸于口碑:“一開始一天才幾百個(gè)下載,去年年初一天有一千多個(gè)下載了,然后慢慢漲。我們的第一百萬個(gè)用戶是去年5月下旬。”到2011年年末,科大訊飛語音云用戶超過1000萬,到今年4月已經(jīng)超過4000萬。合作伙伴在3500家以上,每天服務(wù)請求量超過700萬次。這些請求包括你在大眾點(diǎn)評上問麥當(dāng)勞及其廁所在哪。
語音云規(guī)模的形成,增加了科大訊飛對抗Siri把產(chǎn)品做大的底氣。江濤說,兩年來語音云的運(yùn)營,給科大訊飛帶來了千萬用戶、數(shù)千合作伙伴以及更高的識別率。“第一代語音云發(fā)布時(shí),綜合識別率才百分之六十幾,現(xiàn)在已經(jīng)到達(dá)了百分之八十幾,有些領(lǐng)域能到百分之九十幾。這些是通過幾年來數(shù)據(jù)的積累或者說后臺對語音識別的持續(xù)訓(xùn)練達(dá)到的!
以IBM為代表的PC端的語音識別系統(tǒng)沒有成功,重要的原因是訓(xùn)練量不足。Siri在被蘋果收購以前,也已經(jīng)在美國運(yùn)行并積累了一定數(shù)據(jù)。中國是一個(gè)更大的訓(xùn)練場所。正如李開復(fù)說:“一個(gè)人錄的語音量是有限的,講兩個(gè)小時(shí)就累了。但中國有一億個(gè)用戶,每一個(gè)人哪怕只講上3秒,一天就是3億秒的訓(xùn)練。特別是在輸入法或者聽寫里,每一次正確輸入都是一個(gè)正回饋——原來四川人是那樣說沙發(fā)的——這種訓(xùn)練是提升精確性的重要方式!
每個(gè)手機(jī)用戶的聲音特征都儲存在那片云里,這不就是聲音的身份證嗎?
提高識別率還有一個(gè)方法,就是建立個(gè)人音庫。今年年初,科大訊飛乘著Siri的熱鬧勁推出了語點(diǎn),其中一個(gè)計(jì)劃就是建立4000萬用戶的個(gè)人音庫。正如你要用林志玲的聲音來當(dāng)語音助理一樣,科大訊飛要把你的聲音特征儲存在云端。不管你在大眾點(diǎn)評還是攜程上進(jìn)行語音操作,云那端都知道你說的“撒發(fā)”其實(shí)是“沙發(fā)”。
需要多少聲音資料才能建立個(gè)人音庫呢?江濤說要視乎音質(zhì)的好壞,“我們用一個(gè)多G的資料,做出的康輝的聲音已經(jīng)做到了以假亂真”。但他說個(gè)人音庫可能會難很多,因?yàn)椴蓸拥沫h(huán)境復(fù)雜,可能有汽車等噪音,機(jī)器無法判斷貨車?yán)鹊慕新暿遣皇悄惆l(fā)出的。
個(gè)人音庫同時(shí)也是一項(xiàng)可怕的計(jì)劃,每個(gè)手機(jī)用戶的聲音特征都儲存在那片云里,這不就是聲音的身份證嗎?犯事的人非要把自己折騰感冒了才能出國,但感冒了也可能被當(dāng)成非典疑似。 (文/鄺新華 圖/李英武)