更快更好的實(shí)時(shí)AI,英偉達(dá)TensorRT 8讓時(shí)延與精度不糾結(jié)

相關(guān)專題: 人工智能

(魏德齡/文)當(dāng)下,擁有實(shí)時(shí)運(yùn)行特性的人工智能應(yīng)用正開始在日常生活中占據(jù)重要角色,最典型的例子就是實(shí)時(shí)的語音轉(zhuǎn)文字、聊天機(jī)器人這類應(yīng)用,在使用過程中即時(shí)響應(yīng)速度關(guān)乎著實(shí)際體驗(yàn)感受。而企業(yè)為了保證時(shí)延,又往往不得不縮減模型大小。最終卻可能讓用戶實(shí)際體驗(yàn)時(shí)出現(xiàn)不怎么快也不怎么準(zhǔn)的問題,英偉達(dá)剛剛發(fā)布的TensorRT 8恰恰將助力這類實(shí)時(shí)AI應(yīng)用能夠更快更好。

性能精度均提升2倍

一直以來,英偉達(dá)在AI領(lǐng)域的布局都不止于硬件,TensorRT就是重要佐證之一,作為用于高性能深度學(xué)習(xí)推理的SDK。此SDK包含深度學(xué)習(xí)推理優(yōu)化器和運(yùn)行時(shí)環(huán)境,可為深度學(xué)習(xí)推理應(yīng)用提供低延遲和高吞吐量。

通過TensorRT,開發(fā)者可將TensorFlow、Pytorch等訓(xùn)練好的框架模型,通過優(yōu)化后良好的運(yùn)行在英偉達(dá)的GPU上。在2019年發(fā)布的NVIDIA TensorRT 7已經(jīng)為智能的AI人際交互打開了大門,可實(shí)現(xiàn)與語音代理、聊天機(jī)器人和推薦引擎等應(yīng)用的實(shí)時(shí)互動(dòng)。

TensorRT 7配合A100 GPU可實(shí)現(xiàn)在2.5毫秒內(nèi)運(yùn)行BERT-Large,此次新發(fā)布的TensorRT 8將時(shí)間縮減至1.2毫秒。作為目前最廣為采用的基于transformer的模型之一,意味著理論上當(dāng)用戶在使用如實(shí)時(shí)語音翻譯這樣的功能時(shí),TensorRT 8的處理延遲時(shí)間可降至1.2毫秒。

TensorRT 8相比TensorRT 7有著兩倍性能提升的同時(shí),精度也同樣提升2倍。TensorRT 8在兩方面實(shí)現(xiàn)了AI推理上的突破,一方面提升了對于英偉達(dá)Ampere架構(gòu)GPU的稀疏性,在提升效率的同時(shí)還能減少開發(fā)者加速神經(jīng)網(wǎng)絡(luò)時(shí)的計(jì)算操作。另一方面是量化感知訓(xùn)練,開發(fā)者能夠使用訓(xùn)練好的模型,以INT8精度運(yùn)行推理,在這一過程中不會(huì)損失精度。

這就意味著,企業(yè)可以將模型擴(kuò)大1-2倍,實(shí)現(xiàn)精度的大幅提升,讓自身的實(shí)時(shí)AI應(yīng)用變得又快又好。

為多領(lǐng)域帶來更快更好的AI能力

當(dāng)前,TensorRT的生態(tài)影響力正在快速增長,2020年的開發(fā)者人數(shù)相比2019年就實(shí)現(xiàn)了3倍的增長,達(dá)到35萬人,下載量已經(jīng)達(dá)到近250萬次,共有從邊緣到云的多個(gè)領(lǐng)域的共27500家公司加入到該生態(tài)之中。其中包括如電信運(yùn)營商Verizon,也有國內(nèi)的知名互聯(lián)網(wǎng)公司阿里、騰訊、字節(jié)跳動(dòng)等。

TensorRT 8的發(fā)布無疑將會(huì)讓搜索、購物推薦、語音翻譯、語音轉(zhuǎn)文字這樣的AI應(yīng)用能夠?qū)崿F(xiàn)更快更好。Hugging Face就正在與英偉達(dá)開展密切合作,作為大規(guī)模AI服務(wù)提供商,Hugging Face加速推理API能夠?yàn)榛贜VIDIA GPU的transformer模型提供高達(dá)100倍的速度提升,通過TensorRT 8,Hugging Face在BERT上實(shí)現(xiàn)了1毫秒的推理延遲,為助力實(shí)現(xiàn)大規(guī)模文本分析、神經(jīng)搜索和對話式應(yīng)用的AI服務(wù)提供加速度。

據(jù)悉,TensorRT目前還應(yīng)用在了臨床醫(yī)療領(lǐng)域,GE醫(yī)療就通過TensorRT來助力加速超聲波計(jì)算機(jī)視覺應(yīng)用,這是一款早期檢測疾病的關(guān)鍵工具。TensorRT的實(shí)時(shí)推理能力提高了視圖檢測算法的性能,縮短了產(chǎn)品上市時(shí)間。實(shí)際工作中可讓掃描儀在進(jìn)行自動(dòng)心臟視圖檢測時(shí)更高效,心臟視圖識(shí)別算法會(huì)選擇合適的圖像來分析心壁運(yùn)動(dòng)。

TensorRT 8無疑將讓反應(yīng)更快更聰明的客服機(jī)器人、實(shí)時(shí)翻譯更迅速的應(yīng)用變得可以翹首以待,也許能夠隨時(shí)接話茬的將不止是調(diào)皮的學(xué)生,機(jī)器人也可以做到。人與人之間的交流,語音上的牽絆變得更低,翻譯可以同語音實(shí)時(shí)同步,即時(shí)記錄成文字也不成問題,準(zhǔn)確性也十分不錯(cuò)。更快更好的實(shí)時(shí)AI正在到來。


微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號(hào),免費(fèi)領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費(fèi)領(lǐng)取《中國移動(dòng):5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書
  • 2、回復(fù)“5G6G”免費(fèi)領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21
  • 3、回復(fù)“YD6G”免費(fèi)領(lǐng)取《中國移動(dòng):6G至簡無線接入網(wǎng)白皮書
  • 4、回復(fù)“LTBPS”免費(fèi)領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復(fù)“ZGDX”免費(fèi)領(lǐng)取《中國電信5GNTN技術(shù)白皮書
  • 6、回復(fù)“TXSB”免費(fèi)領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費(fèi)領(lǐng)取《中國移動(dòng)算力并網(wǎng)白皮書
  • 8、回復(fù)“5GX3”免費(fèi)領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點(diǎn)本月熱點(diǎn)

     

      最熱通信招聘

    業(yè)界最新資訊


      最新招聘信息