本報記者 楊清清 北京報道
導讀
“深度森林模型”理論的最大貢獻可能在于,提出了一種有別于深度神經(jīng)網(wǎng)絡的深度結構,從而打破了業(yè)界對神經(jīng)網(wǎng)絡的迷信,為研究者提供了一個新的思路。”
作為本輪人工智能熱潮的關鍵技術,機器學習尤其是深度學習受到了熱捧。一時間,人人嘴上掛著深度學習、神經(jīng)網(wǎng)絡等詞匯,似乎不談這一話題,便與智能時代脫節(jié)。
然而,無論開發(fā)者或科技企業(yè),對深度學習恐怕存在一定誤解!叭绻麊栆幌隆裁词巧疃葘W習’,絕大多數(shù)人的答案都會是:深度學習就是深度神經(jīng)網(wǎng)絡,甚至認為‘深度學習’就是‘深度神經(jīng)網(wǎng)絡’的同義詞。”在2018英特爾人工智能大會上,南京大學計算機系主任、人工智能學院院長周志華直言現(xiàn)狀。
這一觀念其實是片面的。事實上,當前深度學習主流的深度神經(jīng)網(wǎng)絡模型本身,也存在著諸多問題!俺詳(shù)據(jù),吃機器,對開發(fā)者門檻要求高。”當談及當前模型痛點時,一位深度學習領域相關開發(fā)者向21世紀經(jīng)濟報道記者直言。另一位開發(fā)者則告訴21世紀經(jīng)濟報道記者,深度神經(jīng)網(wǎng)絡模型的效果穩(wěn)定性也可能不如預期。
“Kaggle競賽中有各種各樣的任務,但在圖像、視頻、語音之外的很多任務上,比如訂機票、訂旅館之類,還是傳統(tǒng)機器學習技術(如隨機森林或XGBoost)表現(xiàn)更好,尤其是涉及符號建模、離散建模、混合建模等問題。”周志華表示,“機器學習界早就很清楚‘沒有免費的午餐’,也即任何一個模型可能只適用于一部分的任務,而另外一些任務是不適用的。”
這也就意味著,除深度神經(jīng)網(wǎng)絡模型之外,當前企學研界還有必要探索深度學習新的可能性。
痛點頻頻
深度學習是機器學習的一個技術分支。與機器學習其他技術流派所區(qū)別的是,當前以深度神經(jīng)網(wǎng)絡模型為代表的深度學習模型算法中,擁有許多層次,從而構成“深度”。
與傳統(tǒng)機器學習方法相比,深度學習具有其優(yōu)勢!叭绻詸M軸為數(shù)據(jù)量,縱軸為模型有效性來看的話,傳統(tǒng)機器學習模型隨著數(shù)據(jù)量的增長而效果趨于平緩,深度神經(jīng)網(wǎng)絡模型則隨著數(shù)據(jù)增長形成更高的有效性。”英特爾高級首席工程師、大數(shù)據(jù)技術全球CTO戴金權告訴21世紀經(jīng)濟報道記者。
之所以模型層級或說“深度”能夠在近年來取得突破,源于神經(jīng)網(wǎng)絡中基本計算單元激活函數(shù)的連續(xù)可微性,導致梯度更加易于計算,而基于對梯度的調(diào)整,便可使用BP算法逐層訓練出整個模型。
“2006年以前,人們不知道怎么訓練出5層以上的神經(jīng)網(wǎng)絡,根本原因就是層數(shù)高了之后,使用BP算法的梯度就會消失,無法繼續(xù)學習!敝苤救A介紹道,“后來Geoffrey Hinton做了很重要的工作,通過逐層訓練來緩解梯度消失,才使得深層模型能夠被訓練出來!
然而,正是因為深度神經(jīng)網(wǎng)絡模型是一個層級多、參數(shù)多的巨大系統(tǒng),因此便存在海量的調(diào)參需求與相當?shù)恼{(diào)參計算!吧踔劣行┘夹g工程師一天下來,其他的什么都沒做,只是在調(diào)整參數(shù),這是一個很常見的情況!鼻笆鲩_發(fā)者向21世紀經(jīng)濟報道記者感慨道。
不僅是超量參數(shù)帶來了調(diào)參難,隨之也形成一系列問題!氨热,在做跨任務(例如從圖像到語音)的時候,相關的調(diào)參經(jīng)驗基本沒有借鑒作用,經(jīng)驗很難共享,”周志華表示。同時,結果的可重復性也非常難,“整個機器學習領域,深度學習的可重復性是最弱的。哪怕同樣的數(shù)據(jù)和算法,只要參數(shù)設置不同,結果就不一樣!
此外,深度神經(jīng)網(wǎng)絡模型復雜度必須是事前指定的,然后才能用BP算法去加以訓練。但這個過程中存在悖論:在沒有解決任務之前,如何預先判定其復雜度?“所以實際上大家通常都是設置更大的復雜度。”周志華表示。
目前這一模型還存在許多別的問題,比如理論分析很困難,需要極大數(shù)據(jù),黑箱模型等等。甚至有開發(fā)者向記者坦言,神經(jīng)網(wǎng)絡模型在有些領域應用很好,但在更多的領域,采用這一模型的效果不穩(wěn)定,“如果樣本數(shù)據(jù)量足夠大,這一模型的準確率是很好的,但通常公司并沒有那么多數(shù)據(jù),計算也費勁!
新的路徑?
既然深度神經(jīng)網(wǎng)絡模型存在痛點,那么,在對其進行優(yōu)化研究的同時,也不得不令人思考:是否存在其他深度學習模型的可能性?
這就涉及到深度學習的本質(zhì)問題。事實上,深度神經(jīng)網(wǎng)絡的最重要的是特征學習(表示學習),即計算機能夠自行學習原始數(shù)據(jù)的特征、提取特征并表達出來,而這背后的核心是逐層處理!芭c傳統(tǒng)機器學習技術相比,深度學習抽象級別不同,深度學習可能擁有很高級別的抽象!鼻笆鲩_發(fā)者向21世紀經(jīng)濟報道記者解釋道,“計算出特征之后還會繼續(xù)計算特征的特征,最終放到模型里!
另一個特質(zhì)在于特征的內(nèi)部轉換!袄,決策樹也是一種逐層處理,但達不到深度神經(jīng)網(wǎng)絡的效果,就在于它的復雜度不夠,同時始終在同一個特征空間下進行,中間沒有進行任何的特征變化!敝苤救A指出。
此外還需要保證充分的模型復雜度!爸挥性黾幽P蛷碗s度,學習能力才可能得以提升!敝苤救A指出,“逐層加工、特征內(nèi)部變換、充分模型復雜度,滿足這三條的深度學習模型,便能夠取得成功。”
就此,周志華嘗試提出深度神經(jīng)網(wǎng)絡模型之外的方法:深度森林模型。據(jù)介紹,該模型是一個基于樹模型的方法,主要借用了集成學習中的想法。“在許多不同任務上,它的模型所得結果可以說與深度神經(jīng)網(wǎng)絡高度接近。特別是在跨任務中,它的表現(xiàn)非常好,可以用同樣一套參數(shù),不再逐任務調(diào)參!敝苤救A指出。
“深度神經(jīng)網(wǎng)絡的底層是以神經(jīng)網(wǎng)絡為基礎,進而擴展層級深度,深度森林也是類似的概念!币晃荒暇┐髮W相關研究人士向21世紀經(jīng)濟報道記者表示,“在深度神經(jīng)網(wǎng)絡模型中,堆疊了大量神經(jīng)元,而深度森林里,每一層神經(jīng)元的位置變?yōu)樯。?shù)據(jù)樣本通過每個森林得到一個預測結果后,將結果作為下一層的輸入!
這樣做的好處是,每經(jīng)過一層“森林”,機器都會自動判斷模型是否收斂,一旦達到正確性要求,模型就不會繼續(xù)計算,“所以模型是可控的!鼻笆鲅芯咳耸肯蛴浾邚娬{(diào),“深度神經(jīng)網(wǎng)絡則是必須把層級定好,然后利用算法求梯度。深度森林不需要優(yōu)先制定層級,走了一定層級之后看驗證效果,好的話就不用往后走了!币虼,它對計算資源的要求也不大,“在CPU上就可以跑!
當然,作為一個最新提出的模型,深度森林還在接受各方的討論。“就算法本身而言,雖然在訓練效率、可解釋性方面優(yōu)于神經(jīng)網(wǎng)絡,但在超大數(shù)據(jù)下未必能達到或者超過深度學習中的CNN(卷積神經(jīng)網(wǎng)絡)。”一位業(yè)內(nèi)人士向21世紀經(jīng)濟報道記者直言,“不過,這一理論的最大貢獻可能在于,提出了一種有別于深度神經(jīng)網(wǎng)絡的深度結構,從而打破了業(yè)界對神經(jīng)網(wǎng)絡的迷信,為研究者提供了一個新的思路!保ň庉嫞簭垈ベt)