CVPR 上誕生的技術(shù)正在逐漸「出圈」。
啤酒、燒烤、歐洲杯是很多球迷今年夏天的消暑利器。但你可能想不到的是,那些精彩的進球集錦、球星慢動作回放說不定是 AI 做的。
在今年的 CVPR 大會上,百度向我們確認(rèn)了這一點。
他們的 AI 可以在無人工介入的條件下,精準(zhǔn)、實時地切分出進球、射門、犯規(guī)等動作片段;诖隧椖芰,團隊開發(fā)出了一系列應(yīng)用工具并成功落地,包括:
1. 自定義足球精彩集錦生成工具。只需輸入球員并選定比賽場次,AI 就能自動生成這個球員的精彩瞬間視頻集錦以及慢動作回放。相關(guān)產(chǎn)品已經(jīng)在百度百科 400 多個足球球員和球隊頁面落地。
2. 足球圖文戰(zhàn)報一鍵轉(zhuǎn)換視頻平臺。只需要輸入文字直播內(nèi)容或者直播間地址,AI 就能智能聚合生成對應(yīng)的視頻內(nèi)容。
3. 基于圖像場景識別的智能視頻生產(chǎn)線。該生產(chǎn)線可以快速理解上傳的長視頻,檢測是否有進球、精準(zhǔn)定位視頻中的進球瞬間,并完成自動剪輯。
最近,這些技術(shù)還幫他們拿到了一個重量級賽事的雙料冠軍。
在剛剛閉幕的 CVPR 2021 大會上,百度取得了 SoccerNet-v2 足球視頻理解競賽的全部兩項任務(wù)的冠軍,這是全球首個以足球比賽視頻的全方位理解為目標(biāo)的競賽。
而且,這還只是百度今年 CVPR 成績單的一部分。
作為「中國軍團」多年出征 AI 頂會的一員「老兵」,百度在今年的 CVPR 上再次創(chuàng)下新紀(jì)錄:不僅入選了 22 篇優(yōu)質(zhì)論文,還連獲 10 個挑戰(zhàn)賽冠軍,在去年 8 個冠軍基礎(chǔ)上實現(xiàn)新突破。
此外,百度還主辦了一場重量級學(xué)術(shù) Workshop 和一場 Tutorial,并受邀在大會上做同聲傳譯特邀報告和 PaddleCV 技術(shù)分享演講。
這種全方位的發(fā)聲方式不僅讓我們看到了百度在 CV 領(lǐng)域的研究、落地成果,還展示了該公司在 NLP、AutoDL 等領(lǐng)域的前沿探索以及多個領(lǐng)域的融合創(chuàng)新。
在這篇文章中,我們就來盤點一下這些內(nèi)容。
十項 CV 冠軍,聚焦自動駕駛、智能交通、智慧城市、智能創(chuàng)作等多個賽道
CVPR 2021 覆蓋了計算機視覺多個細(xì)分領(lǐng)域,百度此次參與并獲得了七項挑戰(zhàn)賽的十個冠軍。其中,六項冠軍成果可加速自動駕駛、智能交通、智慧城市等落地和應(yīng)用,部分成果可助力智能創(chuàng)作工具的打造。
六項冠軍助力自動駕駛、智能交通、智慧城市應(yīng)用落地
對于百度來說,自動駕駛可以說是 CVPR 舞臺上的一項「傳統(tǒng)藝能」了。早在 2018 年,百度 Apollo 就占據(jù)了 CVPR 自動駕駛的主場;2019 年,Apollo 又在 CVPR 上公開了國內(nèi)唯一的自動駕駛純視覺城市道路閉環(huán)解決方案——Apollo Lite。這些高光時刻在今年的多項競賽中得到了延續(xù)。
在今年取得的十項冠軍中,「語義分割、高分辨率人體解析、霧天環(huán)境檢測」賽道的三項冠軍或?qū)Π俣葟娀詣玉{駛能力有直接的助力。
以 AutoNUE 2021 挑戰(zhàn)賽的語義分割賽道為例,該賽道聚焦街景圖像的語義分割。與普通語義分割數(shù)據(jù)集不同,街景數(shù)據(jù)集物體更多,場景更為復(fù)雜。針對該賽道的問題,百度提出了基于 CNN 和 Transformer 的融合算法策略,通過異構(gòu)模型互補方式,實現(xiàn)了駕駛場景特征的更強表達能力,從而提升了分割性能。針對密集目標(biāo),百度提出了區(qū)域遞進算法,將稠密任務(wù)切分為若干稀疏子任務(wù),降低了模型復(fù)雜度,加速了模型收斂,提升了測試精度。最終,百度以三項測評指標(biāo)均第一的優(yōu)勢超越其他參賽機構(gòu)獲得冠軍。比賽代碼也計劃不久后開源:https://github.com/PaddlePaddle/PaddleSeg
除了復(fù)雜的街景,霧霾等極端天氣也是阻礙自動駕駛落地的一大難題。本屆 CVPR 就有一個專門針對霧霾天氣的檢測競賽——UG2+ (SEMI-)SUPERVISED OBJECT DETECTION IN HAZE CONDITIONS。
在這場競賽中,百度使用最新的 Swin Transformer 模型配合 cascade-rcnn 結(jié)構(gòu)作為基礎(chǔ)模型并針對任務(wù)特點優(yōu)化了 anchor 選擇以提高模型的識別能力,同時使用去霧和非去霧的數(shù)據(jù)組合進行訓(xùn)練,提升了模型的泛化性能。另外,針對樣本不平衡問題,團隊使用了基于樣本分布的采樣平衡方法,有效提升了模型性能。
上述競賽展現(xiàn)的技術(shù)能力或已逐漸在百度自動駕駛落地過程中得以展現(xiàn)。目前,在早晚高峰交通流密集路口左轉(zhuǎn)禮讓行人,車輛視覺盲區(qū)突然竄出行人、車輛等一系列長尾場景中,百度 Apollo 自動駕駛車均能進行良好處置。4 月 13 日,百度 Apollo 拿到了北京市頒發(fā)的中國首批夜間及特殊天氣測試資質(zhì),機器之心也在上個月冒雨體驗了一次 Apollo GO 自動駕駛車的夜間試乘。
Apollo 車輛平緩?fù)ㄟ^車流密集的路口。
除了自動駕駛,百度在智能交通、智慧城市方向的技術(shù)進展更多地在第五屆 AI CITY 智慧城市挑戰(zhàn)賽中得以展現(xiàn)。AI CITY 聚焦交通相關(guān)的車流統(tǒng)計、再識別、異常事件分析等應(yīng)用場景,一共 5 個賽道,是百度多次奪冠的「自留地」,今年百度也在車流統(tǒng)計、異常事件檢測兩個賽道拿到冠軍。
在車流統(tǒng)計任務(wù)中,比賽要求在端上設(shè)備上實現(xiàn)整體技術(shù)方案,并對端上的速度與效果指標(biāo)進行綜合打分。百度基于復(fù)雜場景下路口車輛多目標(biāo)檢測、跟蹤技術(shù),實現(xiàn)了分車道的車流統(tǒng)計,并通過模型小型化以及流水線并行化處理流程,實現(xiàn)了性能 + 效果綜合提升,最終取得冠軍。
在異常事件檢測賽道中,百度使用雙向多粒度融合的異常檢測算法,配合視頻穩(wěn)像、區(qū)域特取、背景建模等預(yù)處理,經(jīng)過車輛檢測及后續(xù)跟蹤判斷異常,并融合撞車判斷邏輯找到準(zhǔn)確的異常開始時間,最終取得第一。
百度表示,此次獲得 AI CITY 挑戰(zhàn)賽冠軍的技術(shù)已應(yīng)用于百度自研的智能交通和智慧城市系統(tǒng)中,系統(tǒng)整合了檢測、跟蹤、3D 定位、分割、身份重識別、事件分析在內(nèi)的多項視覺技術(shù),是保障業(yè)務(wù)落地的堅實基礎(chǔ)。
SoccerNet-v2 挑戰(zhàn)賽冠軍支持足球視頻創(chuàng)作
前段時間,百度智能云曾攜云智一體的智能媒體產(chǎn)品和方案亮相第 28 屆中國國際廣播電視信息網(wǎng)絡(luò)展覽會(CCBN 2021),展現(xiàn)了一站式智能創(chuàng)作平臺等媒體智能化解決方案和創(chuàng)新應(yīng)用。百度的智能創(chuàng)作平臺基于自然語言處理、知識圖譜、視覺、語音的整合技術(shù)能力,為創(chuàng)作者提供多項能力,助力新聞資訊生產(chǎn)的策、采、編、審、發(fā)全流程。在今年 CVPR 的 SoccerNet-v2 足球視頻理解競賽上,該平臺的相關(guān)技術(shù)再次亮相。
SoccerNet-v2 下設(shè)事件定位(action spotting)和回放溯源(replay grounding)兩個任務(wù)。事件定位的難點在于有些事件難以分辨(如犯規(guī)、越位、射正、射偏),還有一部分事件并未被直接拍攝到,需要根據(jù)上下文來推測;胤潘菰吹碾y點則在于回放和原始事件之間可能會相隔長達上百秒,拍攝視角也經(jīng)常不同,因此不容易匹配。
為了解決這些難題,百度研究院圖文轉(zhuǎn)視頻 VidPress 團隊設(shè)計了一個兩階段的系統(tǒng):首先讓特征提取器提取足球視頻特征,再將提取出的特征作為第二階段具體任務(wù)模塊的輸入,進行事件定位或者回放溯源。其中,事件定位和回放溯源階段采用了 Transformer 架構(gòu)。該架構(gòu)在兩個任務(wù)中體現(xiàn)了對視覺語義特征的精確的時序處理能力,優(yōu)于基線算法中 Siamese 網(wǎng)絡(luò)的學(xué)習(xí)能力和訓(xùn)練速度。
基于 SoccerNet-v2 挑戰(zhàn)賽拿下雙料冠軍的 AI 技術(shù)能力,百度已支持開頭提到的自定義足球精彩集錦生成、足球圖文戰(zhàn)報一鍵轉(zhuǎn)換視頻等應(yīng)用工具。這項技術(shù)能力也已基于智能創(chuàng)作平臺進行落地。
PaddleCV:優(yōu)秀方案都到碗里來
作為中國人工智能的「頭雁」,百度的計算機視覺方向技術(shù)研究早在十一年前成立多媒體部時就已經(jīng)開始了。這幫助百度積累了全方位的技術(shù)能力,也為飛槳視覺模型庫 PaddleCV 提供了強大的核心動力。
PaddleCV 中,既包含經(jīng)過產(chǎn)業(yè)實踐長期打磨的主流模型,也包含百度在國際競賽中的奪冠模型。在 CVPR 2021 的一場技術(shù)分享中,百度資深算法工程師為參會者詳細(xì)分享了 PaddleCV 的技術(shù)報告。PaddleCV 作為飛槳重點研發(fā)的視覺模型庫,為開發(fā)者提供了面向圖像分類(PaddleClas)、目標(biāo)檢測(PaddleDetection)、圖像分割(PaddleSeg)、文本識別(PaddleOCR)、圖像生成(PaddleGAN)等視覺場景的多種端到端開發(fā)套件和海量視覺方向模型,其中 PaddleOCR 和 PaddleDetection 開發(fā)套件更是在能源、金融、工業(yè)、農(nóng)業(yè)能眾多領(lǐng)域被企業(yè)廣泛使用。本屆 CVPR 各項比賽結(jié)束后,部分成果也將在 PaddleCV 中開源。
飛槳全景圖與 PaddleCV
演講、Workshop、Tutorial,全方位展示 AI 前沿探索
作為計算機視覺和模式識別領(lǐng)域的世界級學(xué)術(shù)頂會,CVPR 不僅是業(yè)界展示領(lǐng)先科技成果的平臺,也是探索學(xué)術(shù)前沿的平臺。在 CVPR 舉辦的同時,百度不僅積極參與了各項競賽,還主辦了一場重量級學(xué)術(shù) Workshop 和一場 Tutorial,并受邀在大會上做同聲傳譯特邀報告。
Workshop 的主題是 AutoDL 的核心方向——NAS(神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索)。在之前的 WAVE SUMMIT 2019 深度學(xué)習(xí)開發(fā)者峰會上,百度曾為在內(nèi)存緊張、功耗受限、存儲有限的設(shè)備上進行深度學(xué)習(xí)研究的開發(fā)者提供了一份重磅驚喜——一個名為 PaddleSlim 的開源模型壓縮工具庫。除了支持傳統(tǒng)的網(wǎng)絡(luò)剪枝、參數(shù)量化和知識蒸餾等方法外,PaddleSlim 還可以通過 NAS + 蒸餾 + 量化一站式模型壓縮產(chǎn)出業(yè)界領(lǐng)先的小模型。這些創(chuàng)新方法囊括了很多百度自研的 NAS 算法。借助這些方法,百度視覺團隊近兩年先后七次在 CVPR 與 ECCV 等國際比賽中奪得世界冠軍,并全線應(yīng)用在各條業(yè)務(wù)上。這體現(xiàn)了 NAS 這一方向的研究價值。
為了推動 NAS 的進一步發(fā)展,百度聯(lián)合悉尼科技大學(xué)和美國北卡羅來大學(xué)舉辦了 CVPR 2021 NAS workshop,還舉辦了首屆輕量級 NAS 國際競賽,探討了 NAS 的現(xiàn)狀和未來。大賽從 NAS 研究的關(guān)鍵問題出發(fā),設(shè)置了超網(wǎng)絡(luò)一致性、模型性能預(yù)測、未知數(shù)據(jù)三大賽道,吸引了全球 59 個國家和地區(qū)、超過 600 支隊伍在 AI Studio 上參賽。比賽征集到眾多優(yōu)質(zhì)的 NAS 解決方案,其中,清華大學(xué)基于飛槳的方案已在 AI Studio 和 GitHub 平臺開源。本次 workshop 不僅有獲勝隊伍宣講技術(shù)方案,還邀請了馬毅、紀(jì)榮嶸、黃高、徐暢、Alan Yullie 和 Sara Sabour 等國內(nèi)外著名學(xué)者進行演講,分享了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索技術(shù)(NAS)領(lǐng)域最新進展和未來動向。
來自百度的 CVPR 2021 NAS workshop 主席開場致辭
Tutorial 的主題是「基于能量的生成模型的理論與應(yīng)用」。提到生成式建模,我們總是第一時間想到生成對抗網(wǎng)絡(luò)。但近年來,人們對 ConvNet-parametrized EBM(基于能量的生成模型)越來越感興趣。該框架解決了生成模型在表示、生成、效率和可伸縮性方面的需求。具體來說,與當(dāng)前流行的生成模型(如生成對抗網(wǎng)絡(luò)、變分自動編碼器)不同,基于能量的生成模型可以將自下而上的表示和自上而下的生成統(tǒng)一為一個框架,并可以通過「analysis by synthesis」進行訓(xùn)練,不需要引入額外的輔助模型。這使得其在算法上更容易直接優(yōu)化。在這些優(yōu)勢的加持下,該框架已被應(yīng)用于許多計算機視覺任務(wù)中。
這場 Tutorial 由百度美國研究院認(rèn)知計算實驗室主辦,并邀請加州大學(xué)洛杉磯分校統(tǒng)計學(xué)系教授 Ying Nian Wu 共同主講,全面介紹了計算機視覺中基于能量的生成式建模和學(xué)習(xí),還列出了基于能量的生成框架所成功解決的不同類型的計算機視覺任務(wù),旨在幫助研究人員將基于能量的學(xué)習(xí)原理應(yīng)用于計算機視覺的其他環(huán)境。
Tutorial 目錄。地址:https://energy-based-models.github.io/
同聲傳譯特邀報告的主講人是百度美國研究院深度學(xué)習(xí)實驗室主任黃亮。報告的內(nèi)容來源于他在 ACL 2019 大會上作的同名主題報告,其核心是百度研究院在 2018 年取得的同聲傳譯重大突破。這個突破使得低延遲、高質(zhì)量的同傳第一次成為可能,并將同傳從一個冷門難題變成了自然語言處理中的一大熱門課題。在這次的演講中,黃亮教授介紹了他所在的團隊在此基礎(chǔ)上取得的新的進展。
演講地址:https://www.youtube.com/watch?v=QojanA1pZ1o
如今,CVPR 2021 已經(jīng)正式落下帷幕,會議中誕生的 idea 也在陸續(xù)走進現(xiàn)實世界。百度表示,在修煉好 AI 技術(shù)「內(nèi)功」的同時,他們將通過搭建起的飛槳和智能云為代表的 AI 平臺不斷向各行業(yè)場景輸出技術(shù)能力與解決方案,進一步推動產(chǎn)業(yè)智能化升級發(fā)展,在中國乃至全球 AI 領(lǐng)域持續(xù)領(lǐng)跑。