(魏德齡/文)當(dāng)下,擁有實(shí)時(shí)運(yùn)行特性的人工智能應(yīng)用正開始在日常生活中占據(jù)重要角色,最典型的例子就是實(shí)時(shí)的語音轉(zhuǎn)文字、聊天機(jī)器人這類應(yīng)用,在使用過程中即時(shí)響應(yīng)速度關(guān)乎著實(shí)際體驗(yàn)感受。而企業(yè)為了保證時(shí)延,又往往不得不縮減模型大小。最終卻可能讓用戶實(shí)際體驗(yàn)時(shí)出現(xiàn)不怎么快也不怎么準(zhǔn)的問題,英偉達(dá)剛剛發(fā)布的TensorRT 8恰恰將助力這類實(shí)時(shí)AI應(yīng)用能夠更快更好。
性能精度均提升2倍
一直以來,英偉達(dá)在AI領(lǐng)域的布局都不止于硬件,TensorRT就是重要佐證之一,作為用于高性能深度學(xué)習(xí)推理的SDK。此SDK包含深度學(xué)習(xí)推理優(yōu)化器和運(yùn)行時(shí)環(huán)境,可為深度學(xué)習(xí)推理應(yīng)用提供低延遲和高吞吐量。
通過TensorRT,開發(fā)者可將TensorFlow、Pytorch等訓(xùn)練好的框架模型,通過優(yōu)化后良好的運(yùn)行在英偉達(dá)的GPU上。在2019年發(fā)布的NVIDIA TensorRT 7已經(jīng)為智能的AI人際交互打開了大門,可實(shí)現(xiàn)與語音代理、聊天機(jī)器人和推薦引擎等應(yīng)用的實(shí)時(shí)互動(dòng)。
TensorRT 7配合A100 GPU可實(shí)現(xiàn)在2.5毫秒內(nèi)運(yùn)行BERT-Large,此次新發(fā)布的TensorRT 8將時(shí)間縮減至1.2毫秒。作為目前最廣為采用的基于transformer的模型之一,意味著理論上當(dāng)用戶在使用如實(shí)時(shí)語音翻譯這樣的功能時(shí),TensorRT 8的處理延遲時(shí)間可降至1.2毫秒。
TensorRT 8相比TensorRT 7有著兩倍性能提升的同時(shí),精度也同樣提升2倍。TensorRT 8在兩方面實(shí)現(xiàn)了AI推理上的突破,一方面提升了對于英偉達(dá)Ampere架構(gòu)GPU的稀疏性,在提升效率的同時(shí)還能減少開發(fā)者加速神經(jīng)網(wǎng)絡(luò)時(shí)的計(jì)算操作。另一方面是量化感知訓(xùn)練,開發(fā)者能夠使用訓(xùn)練好的模型,以INT8精度運(yùn)行推理,在這一過程中不會(huì)損失精度。
這就意味著,企業(yè)可以將模型擴(kuò)大1-2倍,實(shí)現(xiàn)精度的大幅提升,讓自身的實(shí)時(shí)AI應(yīng)用變得又快又好。
為多領(lǐng)域帶來更快更好的AI能力
當(dāng)前,TensorRT的生態(tài)影響力正在快速增長,2020年的開發(fā)者人數(shù)相比2019年就實(shí)現(xiàn)了3倍的增長,達(dá)到35萬人,下載量已經(jīng)達(dá)到近250萬次,共有從邊緣到云的多個(gè)領(lǐng)域的共27500家公司加入到該生態(tài)之中。其中包括如電信運(yùn)營商Verizon,也有國內(nèi)的知名互聯(lián)網(wǎng)公司阿里、騰訊、字節(jié)跳動(dòng)等。
TensorRT 8的發(fā)布無疑將會(huì)讓搜索、購物推薦、語音翻譯、語音轉(zhuǎn)文字這樣的AI應(yīng)用能夠?qū)崿F(xiàn)更快更好。Hugging Face就正在與英偉達(dá)開展密切合作,作為大規(guī)模AI服務(wù)提供商,Hugging Face加速推理API能夠?yàn)榛贜VIDIA GPU的transformer模型提供高達(dá)100倍的速度提升,通過TensorRT 8,Hugging Face在BERT上實(shí)現(xiàn)了1毫秒的推理延遲,為助力實(shí)現(xiàn)大規(guī)模文本分析、神經(jīng)搜索和對話式應(yīng)用的AI服務(wù)提供加速度。
據(jù)悉,TensorRT目前還應(yīng)用在了臨床醫(yī)療領(lǐng)域,GE醫(yī)療就通過TensorRT來助力加速超聲波計(jì)算機(jī)視覺應(yīng)用,這是一款早期檢測疾病的關(guān)鍵工具。TensorRT的實(shí)時(shí)推理能力提高了視圖檢測算法的性能,縮短了產(chǎn)品上市時(shí)間。實(shí)際工作中可讓掃描儀在進(jìn)行自動(dòng)心臟視圖檢測時(shí)更高效,心臟視圖識(shí)別算法會(huì)選擇合適的圖像來分析心壁運(yùn)動(dòng)。
TensorRT 8無疑將讓反應(yīng)更快更聰明的客服機(jī)器人、實(shí)時(shí)翻譯更迅速的應(yīng)用變得可以翹首以待,也許能夠隨時(shí)接話茬的將不止是調(diào)皮的學(xué)生,機(jī)器人也可以做到。人與人之間的交流,語音上的牽絆變得更低,翻譯可以同語音實(shí)時(shí)同步,即時(shí)記錄成文字也不成問題,準(zhǔn)確性也十分不錯(cuò)。更快更好的實(shí)時(shí)AI正在到來。