歡迎關(guān)注“創(chuàng)事記”的微信訂閱號:sinachuangshiji
文/允中 來源:量子位(QbitAI)
羅振宇:有沒有人認(rèn)為羅永浩是一個外行?
羅永浩:第一代硬件發(fā)布會的時候,有人說你懂個屁手機(jī)。我不懂人工智能,人家問,我就聊了。有人就說你聊什么人工智能,你還是說相聲去吧。
羅永浩這次一句“人工智能”也沒提。
上周,錘子科技新款手機(jī)發(fā)布。照例,有褒有貶。關(guān)于手機(jī)本身,量子位不想過多評論,我們更關(guān)心期間展示的一些人機(jī)交互方式。
羅永浩談?wù)摰暮芏唷败浶浴辟u點(diǎn),招招式式全跟AI有關(guān)。
這位錘子科技創(chuàng)始人的觀點(diǎn)是:如果一個全知全能的“語音助手”還不能實現(xiàn),那就先通過工具性產(chǎn)品提升用戶效率。
去年10月,也是錘子的一場發(fā)布會,突然讓科大訊飛火了一把。這次錘子新品背后,又是哪些人工智能公司在支撐?
AI伙伴
在堅果Pro發(fā)布會上,錘子科技在手機(jī)上的AI變革,一目了然。
首先可以從系統(tǒng)層面來看,錘子的打法是通過系統(tǒng)功能,讓錘子手機(jī)用戶在具體場景中體驗更好、效率更高。其次是工具性產(chǎn)品打造,通過工具性產(chǎn)品,解決用戶核心痛點(diǎn)和改善用戶體驗。
這些應(yīng)用的背后技術(shù)方案提供商,也無一例外來自人工智能領(lǐng)域;而軟件交互方面的創(chuàng)新,都與人工智能最新進(jìn)展密不可分,在此量子位一一拆解挖掘:
1)短信退訂
“短信退訂”背后的技術(shù)提供商是小源科技,這是一家垂直于短信、利用語義分析場景、建立機(jī)器模型的公司,他們更加為人所知的產(chǎn)品名稱是“信析寶”,主要應(yīng)用形式是將航班信息等短信卡片化——更美觀、更實用、并且可以直接跳轉(zhuǎn)到相關(guān)App。
不過,這一次放在錘子科技發(fā)布會上展示的是“短信退訂”的問題,這是目前短信騷擾最頭疼的問題之一,而錘子和小源的結(jié)合,則為功能式解決首開案例。
小源科技負(fù)責(zé)對外戰(zhàn)略合作的合伙人段旭告訴量子位,“短信退訂”背后主要涉及的是“自然語言理解”和“場景識別”等兩大內(nèi)容。
首先是“自然語言理解”,即通過機(jī)器“讀取”短信內(nèi)容,判斷短信內(nèi)容、類型和所屬場景。
其次是“場景識別”,需要判斷短信是一般退訂短信,還是帶有通知內(nèi)容的退訂短信,再在用戶最終決策后,一鍵完成退訂,并且不會給發(fā)送短信方造成“回復(fù)證明活躍”的現(xiàn)象。
小源方面稱,這背后是短信內(nèi)容大數(shù)據(jù)的積累,以及內(nèi)容場景模型的精準(zhǔn)構(gòu)建。
2)虛擬來電
“虛擬來電”是發(fā)布會會中和會后受到爭議的功能,在“道德與否”的問題上,引發(fā)了廣泛討論。然而就技術(shù)而言,這已然是人工智能領(lǐng)域相對成熟、且被廣泛應(yīng)用的技術(shù)。
具體提供商方面,錘子引用了科大訊飛的“配音閣”,這是訊飛主打語音合成方案的平臺名稱,該平臺可以按需提供個性化語音合成,能夠通過簡單而基本的語料信息,合成具體語言、具體語種和具體個人口音的語音信息。
更早之前,在錘子科技去年10月的新品發(fā)布會后,科大訊飛的“配音閣”已經(jīng)在錘子科技系列新品發(fā)布會前后大放異彩,主要是通過合成羅永浩、奧巴馬等的口音,實現(xiàn)機(jī)器語音的“個性化”。
值得注意的是,雖然錘子科技功能化產(chǎn)品“虛擬來電”受到爭議,但該技術(shù)的實際應(yīng)用卻廣泛得多。
比如現(xiàn)在不少快遞企業(yè),已經(jīng)在通過“虛擬來電”的方式,讓機(jī)器來通知物流快遞信息,而一些售后和客服任務(wù)較重的行業(yè),也已經(jīng)上馬了該技術(shù)。
這也是客服行業(yè)和配音行業(yè)正在經(jīng)歷的大變革。
除了科大訊飛,宣布AI轉(zhuǎn)型的百度也在這方面秀過肌肉,在2016年百度世界大會上,李彥宏就展示過人工智能充當(dāng)客服帶來的效果,不僅成本降低,而且準(zhǔn)確度,以及對用戶非結(jié)構(gòu)化數(shù)據(jù)的整合方面,效果都極其明顯。
此外,就著當(dāng)紅演藝明星胡歌的面,李彥宏還讓機(jī)器模仿胡歌的“口音口吻”,除了感情色彩上稍遜一籌,已屬惟妙惟肖——李彥宏說,人工智能正在搶走配音師的飯碗。
3)智能語義拖拽
當(dāng)然,錘子發(fā)布會聽起來最具普惠意義的莫過于“智能語義拖拽”,這是一個高速公路一樣的功能,在分割林立的手機(jī)App之間架起直通管道,減輕App間切換的痛苦,同時提升手機(jī)使用效率。
具體來看,“智能語義拖拽”就是把微信、短信等對話過程中產(chǎn)生的信息進(jìn)行分析,按照所屬直接在地圖導(dǎo)航、美食評價和日程日歷等產(chǎn)品中使用。
但值得注意的是,錘子最終展現(xiàn)的“智能語義拖拽”是一個一步到位的功能,用戶可以直接將一段文字拖入相關(guān)App中,而機(jī)器會在該過程中分析信息內(nèi)容、提取核心相關(guān)信息、并且讓各個App各司其職——快速幫助用戶完成目的。
實際上這個過程中,錘子還進(jìn)一步整合了上次推出的“大爆炸”和“一步”兩大功能。
此次智能語義拖拽背后的技術(shù)提供方是三角獸科技,這是這家初創(chuàng)公司第二次出現(xiàn)在錘子發(fā)布會上,上一次雙方合作的產(chǎn)品是“Big Bang”(大爆炸)。
據(jù)量子位了解,主打智能語義分析三角獸,在該功能從無到有誕生的過程中,總共向錘子科技派出了3名工程師,共計耗時3個月,最大挑戰(zhàn)來自手機(jī)場景下的技術(shù)方案落地問題——在此之前并沒有廠商做出過嘗試。
三角獸技術(shù)負(fù)責(zé)人稱:智能語義拖拽涉及的是NLP中最核心最具挑戰(zhàn)的問題,通俗來講就是讓機(jī)器斷句,且學(xué)會中文語境下的“預(yù)感”,進(jìn)而才能搭建機(jī)器學(xué)習(xí)模型。
不過,在和錘子一起開發(fā)“智能語義拖拽”的過程中,最大的挑戰(zhàn)來自如何在手機(jī)場景下,最低限度降低機(jī)器模型對CPU、計算功耗等方面的消耗。
而且作為一個功能型產(chǎn)品,還需要考慮聯(lián)網(wǎng)和本地兩種交替情況下如何保證速度,因為反應(yīng)速度會直接影響用戶體驗。
“更傾向于合作方是使用網(wǎng)絡(luò)版的接口,但因為手機(jī)涉及用戶隱私,或網(wǎng)絡(luò)情況不佳,就可能需要用到離線版本。
然而緊接著需要解決的問題是離線版本對系統(tǒng)資源的占用,此外運(yùn)算速度如果太長就會比較傷害用戶體驗!比谦F工程師說,同時表示這是最大的考驗。
然而,這個最大考驗解決后,獲利方也將最大化。
在錘子方面的合作實現(xiàn)后,三角獸工程師也坦言,可以無障礙適配到更多的手機(jī)產(chǎn)品中。
雖然之前并沒有其他手機(jī)廠商擁有這樣的需求,但在此次堅果Pro的合作中,三角獸和錘子一起完成了從最低配版本的堅果手機(jī),但最高配版本的旗艦機(jī)M1L的適配——遷移的成本已經(jīng)很小了。
這也意味著,一旦其他手機(jī)廠商跟進(jìn)遷移該功能,未來大量涉及不同應(yīng)用間切換的內(nèi)容,都將變得 so easy,比如微信中約定吃飯的時間地點(diǎn),同時將內(nèi)容拖拽入“日歷”、“地圖”和“大眾點(diǎn)評”等應(yīng)用中即可。
4)閃念膠囊
“閃念膠囊”是個新鮮事,但偉大的是解決問題的出發(fā)點(diǎn),而非實現(xiàn)的技術(shù)難度上。
坦白講,這只是一次“語音備忘錄”和“語音識別”的功能綜合,但正如羅永浩所言,這幾年來,并沒有人為此付出過實際性舉動,并且難能可貴的是,錘子將通過開源,讓跟多非錘子手機(jī)用戶也能使用。
這也是錘子AI工具產(chǎn)品思路中的集大成之作。除了語音識別,“閃念膠囊”背后還應(yīng)用了智能語音拖拽、大爆炸和一步。
在接受量子位的采訪中,科大訊飛方面的負(fù)責(zé)人表示,此次也在“閃念膠囊”中和錘子進(jìn)行了協(xié)作,主要涉及語音識別方面。
與“智能語義拖拽”面臨的問題相似,“閃念膠囊”最大的問題是如何在手機(jī)設(shè)備下實現(xiàn)對資源的合理調(diào)用。
如羅永浩發(fā)布會上所言,最后錘子和訊飛給出的方案是:首選聯(lián)網(wǎng)識別,但如果網(wǎng)絡(luò)情況不佳,則先使用訊飛語音識別本地方案,再在網(wǎng)絡(luò)情況良好時聯(lián)網(wǎng)修正。
語音識別和自然語言理解
不難發(fā)現(xiàn),錘子新品發(fā)布會上重點(diǎn)推出的工具產(chǎn)品/功能,背后的主要技術(shù)是語音識別和自然語言理解及處理,這也是目前人工智能最成熟、進(jìn)展最快的兩大領(lǐng)域,也是中國人工智能公司全球領(lǐng)先的領(lǐng)域。
語音識別方面,從科大訊飛、百度,到搜狗,都已經(jīng)在大語料數(shù)據(jù)庫的基礎(chǔ)上,將語音識別的準(zhǔn)確率提升到了97%以上,這在國際公認(rèn)的標(biāo)準(zhǔn)參數(shù)都已然處于領(lǐng)先,并且訊飛還實現(xiàn)了方言領(lǐng)域的高識別率,可以說這是錘子可以實現(xiàn)一系列語音交互為基礎(chǔ)的產(chǎn)品的底氣所在。
通常情況下,相比鍵盤為代表的文字輸入,語音要高效很多。這也是目前最被看好的新一代人機(jī)交互技術(shù),包括亞馬遜、谷歌、微軟、百度和訊飛在內(nèi)的公司,都在積極推動語音識別為核心的交互平臺的運(yùn)用,希望自己的語音交互平臺,會成為下一個iOS、下一個安卓。
自然語言理解方面,百度的度秘、微軟的小冰,以及三角獸等為代表的創(chuàng)業(yè)新勢力,都已經(jīng)取得了不俗的進(jìn)展。無論是小冰的聊天,百度的“讀”新聞,三角獸的中文斷句,都在自然語言理解、自然語義處理方面,為錘子的產(chǎn)品式整合掃清了障礙。
可以說,這是人工智能進(jìn)展給于錘子的機(jī)會,但同時也是手機(jī)行業(yè)正在經(jīng)歷的技術(shù)變革——與芯片、工業(yè)設(shè)計等硬件大戰(zhàn)不同,這一次革命將體現(xiàn)在“軟件”上。
智能手機(jī)正迎來新時代
今年3月,量子位曾有文章稱《沒有人工智能的硬件,未來可能不配叫智能硬件》,當(dāng)時三星新旗艦Galaxy S8發(fā)布會上,安卓陣營巨頭推出了人工智能助手Bixby,這是一個類似蘋果Siri的產(chǎn)品。
同時也是羅永浩所稱的全局性解決問題的語音助手產(chǎn)品,即便他暫時不看好,也已經(jīng)賽道密集潮水洶涌。
在國內(nèi),華為率先在國產(chǎn)手機(jī)中推出了語音助手產(chǎn)品“小E”,讓用戶用自然語言的方式,向它求助在手機(jī)使用過程中遇到的各種問題,但具體使用情況來看,用戶需求度還不高,場景尷尬的問題始終沒有得到解決。
此外,另一種利用AI全局性解決問題的產(chǎn)品是“系統(tǒng)優(yōu)化”,通過個性引擎,在用戶使用習(xí)慣的基礎(chǔ)上形成用戶畫像,然后在使用過程中實現(xiàn)“預(yù)判”和“推薦”。
比如從EMUi5.0系統(tǒng)開始,華為便開始對外宣稱手機(jī)系統(tǒng)能夠?qū)W習(xí)用戶的操作行為,通過這種方式,系統(tǒng)將可以實現(xiàn)對用戶操作的提前預(yù)判,依此進(jìn)行資源的合理分配,從而為用戶帶來更加流暢的體驗。
同樣方向出發(fā)的還有魅族。這家總部位于珠海的手機(jī)廠商,在2016年年底伴隨手機(jī)系統(tǒng)Flyme6推出了“One Mind”,這是一個通過用戶畫像幫助手機(jī)用戶完成分析、決策的內(nèi)置程序,最突出的亮點(diǎn)是幫助CPU提升運(yùn)行效率、進(jìn)而提升用戶體驗。
當(dāng)然,沒有在系統(tǒng)方面明確宣稱人工智能進(jìn)展的小米,也在利用AI提升用戶體驗,比如在個性拍照和相冊歸類等方面的應(yīng)用,背后是機(jī)器視覺方面的能力。而且值得注意的是,小米已經(jīng)在電視等產(chǎn)品中實現(xiàn)了語音助手、興趣引擎等方面的落地,相信手機(jī)場景下的應(yīng)用,也只是時間問題而已。
最后,讓我們再回到錘子科技的堅果Pro發(fā)布會。雖然長達(dá)3小時的演講展示中,羅永浩只字未提“人工智能”,但通不難看出錘子科技想要改變的現(xiàn)狀——智能手機(jī)產(chǎn)品創(chuàng)新遭遇瓶頸的現(xiàn)狀,需要新技術(shù)新交互提升易用性的現(xiàn)狀。
羅永浩說,錘子只有現(xiàn)在做好準(zhǔn)備,才能在下一代人機(jī)交互革命中成為上桌選手,才能由此實現(xiàn)“大到嚇人”的野心。
想這么干的不止羅永浩。
下一代人機(jī)交互革命正在加速到來,正在AI浪潮中日漸清晰。